《3. 数仓ClickHouse多维分析应用实践-朱元.pdf》由会员分享,可在线阅读,更多相关《3. 数仓ClickHouse多维分析应用实践-朱元.pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、clickhouse数仓应用实践 演讲人:朱元日期: 2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2.基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据 仓库 Oracle数据平台 通过kettle每天 定时导出文件至 本地 Etl服务器 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓
2、 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数 仓 建 设 主题事实清单表 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https:/ 03 1. Memory limit (for query) exceeded 解决:通过在users.xml 配置 max_bytes_before_external_sort max_bytes_before_external_group_by 2. 用户并发量一上来,负载太高 解决:目前是在中间加redis缓存