《6-1 T3出行湖仓一体架构下的统一指标平台.pdf》由会员分享,可在线阅读,更多相关《6-1 T3出行湖仓一体架构下的统一指标平台.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、T3出行湖仓一体架构下的统一指标平台郑平贺|040102CONTENTS目 录为什么需要统一指标湖仓一体下的统一指标平台架构未来展望03统一指标平台的实现|01为什么需要统一指标|什么是指标指标 用来量化事物的一个工具,用数字来帮助我们用来量化事物的一个工具,用数字来帮助我们描述一些抽象的事件描述一些抽象的事件 一组能反映某一业务在单位时间内的规模、程一组能反映某一业务在单位时间内的规模、程度、比例的数字度、比例的数字|为什么需要统一指标数据数据质量质量指标指标口径口径问题问题追溯追溯可视化可视化|简介:统一指标平台指标一体化平台定 位核心指标分析、拆解、异常运营、归因、预测、估算功 能运营决
2、策、全公司受 众|02湖仓一体下的统一指标平台架构|系统架构|旧架构什么问题?数据处理架构-网状模式(旧)|l每天基于事实表和维表生成的打宽表,但却不知道存量表中是否已经存在,而且复杂性变得越来越复杂,当上游数据发生变更时,并不能保证下游作业完全被更新。l业务口径没办法统一,无法确认哪个部门提供的数据是准确的。数据处理架构-网状模式(旧)|新架构有什么优势?数据处理架构-中心化模式(新)|l重建业务模型,生成精简的、规范化的、经过认证的事实表和维表。这样可以统一业务口径,减少表业务逻辑冗余l增加数据集管理,可经过确认的事实表和维表生成统一度量的聚合表,并结合业务变更,自动维护数据集版本,将变更
3、数据推送给下游涉及表。数据处理架构-中心化模式(新)|数据处理架构两种架构模式对比功能点网状模式中心化模式规范化程度低高可观察性低高一致性低高上下游耦合性高低特殊场景适配度高低被权威认证无有03统一指标平台的实现|为什么需要语义?ABC自动化调度与构建统一的关系维护以及自动回填版本控制且上线审查语义层设计|数据集语义|数据集语义|指标语义数据集伸缩设计基于星型模型维表可对应多个数据集事实表表对应唯一数据集|数据集一致设计当有维表发生变更时,可自动探索到变更并将变更提醒通知给数据集维护同学,并进行数据集调整,创建数据集版本,形成多版本Cube。|指标定义流程|计算引擎支撑能力支持标准支持标准sq
4、l语义语义可多维度字段预计算,提供快速灵活可多维度字段预计算,提供快速灵活的查询能力的查询能力支持湖仓生态支持湖仓生态支持超大数据集计算和存储支持超大数据集计算和存储可通过可通过jdbc方便访问和管理数据集方便访问和管理数据集52143计算引擎选择|计算引擎选择ANSI SQL支持支持对象存储支持直接读取湖仓Hudi数据可进行亚秒级查询交互支持Spark On Yarn动态资源计算Cube多维Cube计算选择选择Kylin|Kylin引擎数据处理流程|一站式数据集创建界面化编辑语义文件006语义上线解析语义创建modelCube创建配置定时Cube构建0203040506
5、|Kylin引擎优化ABDEC存算分离,存储使用独立的对象存储,计算使用独立的MRS集群Spark开启spark.dynamicAllocation.enabled动态资源支持Hudi表读取生成宽表Build Cube 开启动态Shuffle开启Cube build planner|Kylin压测结果 由于业务模型维度字段维度字段较多且支持客户端灵活查询,所以在Cube维度选择上增大到16个,固定强制维度强制维度为分区字段分区字段。测试单分区数据量8000w。Label#样本样本平均值平均值中位数中位数最小值最小值最大值最大值异常异常%吞吐量吞吐量发送发送 KB/sec测试接口50000421
6、4243313690.00%1178.66521.42总体5000042.00%1178.66521.42|04未来展望|01020304持续迭代指标趋势预测,热点指标关注,预测,估算等功能持续迭代功能数据集模型测试配置并无缝切换引擎环境,然后自动完成在不同环境配指上线构建等工作.无缝测试上线生产增加实时指标接入能力,引入实时计算引擎,并支撑离线指标.增加实时指标为了兼容不同类型指标,包括运维指标,画像指标等.抽取数据集和指标管模块。指标管理独立|未来展望融合离线实时指标|为了能够同时满足离线和实时指标元数据统一、引擎统一能力,我们POC了StarRocks引擎。融合离线实时指标|场景场景离线离线实时实时导入方式broker loadflink频次T-110s-15s并发-100非常感谢您的观看|