《腾讯视频指标中台驱动湖仓一体建设实践(1).pdf》由会员分享,可在线阅读,更多相关《腾讯视频指标中台驱动湖仓一体建设实践(1).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023TencentTencent 腾讯腾讯腾讯视频指标中台驱动湖仓一体建设实践演讲人-惠明-腾讯-Tech Lead01腾讯视频数据业务介绍02腾讯视频指标中台整体架构03腾讯视频湖仓一体建设实践04总结&规划目录 CONTENTDataFunSummit#2023TencentTencent 腾讯腾讯01腾讯视频数据业务介绍视频业务流程浏览浏览搜索搜索播放播放评论评论启动启动活跃用户数活跃用户数曝光人数曝光人数点击人数点击人数搜索次数搜索次数搜索渗透率搜索渗透率播放播放UVUV播放播放VVVV互动用户数互动用户数互动渗透率互动渗透率用户行为关键指标腾讯视频是中
2、国领先的在线视频媒体平台,拥有丰富的优质流行内容和专业的媒体运营能力,是聚合热播影视、综艺、生态视频、娱乐社区、体育赛事、新闻资讯等为一体的综合视频内容平台。视频技术背景体量大体量大:来源丰富,峰值来源丰富,峰值S S0 00000+万万/s/s链路复杂链路复杂:涉及涉及组件多组件多,跨,跨BGBG业务广业务广报表分析类报表分析类为运营团队提供实时数据决策能力实验类实验类灰度实验:及时止损、加速扩量热度值外显类外显类DataFunSummit#2023TencentTencent 腾讯腾讯02腾讯视频指标中台整体架构指标中台的业务背景指标指标问题问题一致性时效性易用性成本指标时效性问题 数据体
3、量大 值班运维 异常处理 任务优化指标一致性问题 平台工具 管理流程 加工逻辑 离线实时链路指标易用性问题 平台工具 数据资产文档 数据资产培训指标成本问题 重复加工 数据生命周期 无用指标 需要解决的指标治理问题:一致性、时效性、易用性、成本指标中台业界调研1、Headless BI2、Metric Store 指标只需要定义一次,可以在仪表盘和分析工具中灵活使用3、Low Code 指标统一计算并存储,提供一致性的指标服务 用较少的代码,较快的速度去交付应用程序Airbnb的度量平台Minerva商业化指标中台产品 Kyligence Zen 指标中台特点:一次定义多次使用、统一管理、统一
4、服务、低代码指标中台整体架构指标分类指标管理指标认证维度标准化SLA保障指标服务指标消费数据血缘数据地图指标治理资产运营资产工场数据应用报表工具数据产品敏捷分析实验平台开发应用数据资产平台治理引擎数据发现数据资产分组织保障数据委员会TEG基础设施数据接入任务调度数据存储统计分析实时计算指标流程指标生产流批一体湖仓一体多维分析 基于公司平台的基础能力,通过指标中台对指标的一致性、时效性、易用性、成本进行治理指标一致性-指标服务欧拉指标管理统一指标查询服务/MQLMySQLCKStarRocksBI系统自助分析定制产品实验平台指标查询服务架构数据集配置数据看板 统一管理指标,提供统一的指标服务,支
5、持指标查询、报表配置、API访问指标一致性-指标认证指标名称指标信息指标分类指标责任人指标口径指标数据源欧拉指标认证报表工具数据产品指标检索认证信息透出 官方认证指标,保障多平台指标口径一致,提升指标可信度指标时效性-SLA保障任务定义信息任务运行信息任务血缘信息元数据层SLA分组管理SLA配置管理SLA报警管理管理层SLA分级值班运维应用血缘应用层运行监控报警通知质量报表SLA监控看板 基于任务运行信息和血缘信息,监控数据执行链路,保障数据按时就绪,及时处理数据异常指标易用性-数据地图分类查找分类查找指标关键词检索指标指标详情关键词检索指标基本信息:名称、口径、责任人、主题血缘信息:数据源、
6、数据应用、下游指标加工信息:SQL逻辑、数据预览 基于数据地图,根据关键词、标签、主题,高效查找和使用指标指标易用性-自助分析简单效灵活丰富拖拽式使用方式,开启零SQL查询体验高效的查询效率,自动的数据路由支持不同指标不同维度下的关联分析涵盖全业务场景 提供自助分析工具,开放指标库的指标和分析维度,支持灵活多维数据分析指标成本-数据资产分制定治理目标治理项治理项治理动作成本分1.无用任务下线2.数据生命周期控制规范分1.业务库和主题域2.表字段命名、注释3.反向依赖、原始层依赖安全分1.敏感字段加密2.表和任务Owner不一致质量分1.SLA任务延时应用分1.指标认证定义治理规则推送相关责任人
7、责任人处理资产分监控欧拉治理引擎数据资产分 基于数据治理引擎,建立数据资产评估体系,有效治理数据成本、规范、安全等DataFunSummit#2023TencentTencent 腾讯腾讯03腾讯视频湖仓一体建设实践湖仓一体建设背景 门槛高:仅有少量实时数据研发 效率低:两套脚本,两套人力 稳定性差:故障率频发人效问题 数据不一致:计算、存储不统一,实时、离线数据不对齐。时效低:T-1数据就绪时间在2点以后 可信度:上游故障导致的全链路回溯回刷频繁 成本高:两套链路,资源、运维成本翻倍数仓架构问题数据不一致数据掉0数据波动数据延迟自动修复、运维机制批流一体采样监控、异常阻塞配置化、标准化方案方
8、案准实时链路研发模式负反馈数仓架构 当前数仓架构和研发模式存在数据开发效率和质量问题湖仓一体1.0 建设方案人力、脚本统一研发流程标准化Lamda架构批流一体架构升级为什么湖上建仓?更好的Table Format:ACID事务,Upsert,Time Travel高效的查询效率:数仓加速、实时分析,OLAP查询为什么Iceberg?数据入库流程提供事务能力,不影响当前数据处理任务,支持Upsert支持更多的计算引擎,Spark,Flink,Presto,Hive灵活的文件组织,批任务和流任务可以做相同的存储模型 升级湖仓一体架构解决研发模式存在数据开发效率和质量问题配置化、标准化:全面SQL化
9、痛点刀耕火种式研发,实时离线两套API,人效低 无体系化的研发框架 门槛高,实时研发人力匮乏 实时离线不同人、不同开发接口(java/SQL),研发周期长,口径对齐耗时解决方案对齐实时、离线研发环境,实现批流一体 核心思路:配置化、SQL化、模板化生产 核心目标:离线实时职责收敛到“同一人”sql in jar编程框架,支持SQL完成主逻辑+高阶API(异步io,广播join等)保障性能。引入Flink Batch引擎,将ETL脚本完全统一。流批一体研发框架湖仓一体1.0的问题湖仓1.0时效性问题准实时计算引擎性能准实时计算流程数据一致性流批一体不彻底生产方式差异开发效率生产效率、开发运维Ol
10、ap计算能力数据成本人力成本,计算存储成本 当前湖仓一体架构不彻底存在时效性、数据一致性、开发效率、数据成本的问题湖仓一体主流趋势1、数据湖加速查询数据直接入湖,OLAP引擎直接查询数据湖2、湖上分层建仓数据直接入湖,热数据导入仓中,湖仓关联查询3、实时数仓融合数据湖数据直接入仓,冷数据导入湖中,湖仓关联查询4、云原生湖仓存算分离架构,OLAP架构变为湖仓一体架构湖仓一体2.0的优化时效性问题,引入StarRocks简化计算流程数据一致性统一离线实时统计口径统一DWS层流批计算逻辑开发效率使用StarRocks现算代替预计算数据成本节省预计算的cube的计算和存储膨胀湖仓2.0 升级湖仓一体架
11、构解决时效性、数据一致性、开发效率、数据成本的问题引入StarRocks优势支持多引擎查询加速,IO合并存算分离生产提速多种数据写入方式简化数仓分层构建批处理流处理实时数据接入 支持事务提升数据可见性 StarRocks在复杂查询、高并发、实时分析等OLAP 场景下,提升分析效率冷热隔离CREATE COLDDOWN JOB jobname1 on db1.tbl1(col1,col3,ds)where col1=x and col2=yTO EXTERNAL_TABLE(external_table=iceberg.db1.tb1_ext1,/启用冷热融合查询 add_target_tabl
12、e_as_cold_table=true,)PROPERTIES(max_file_size=1G,max_file_row=10000000,load_mem_limit=2147483648,timeout=3600,)数据降冷数据热加载CREATE ROUTINE LOAD test_iceberg.test1 ON test_icebergCOLUMNS(event_time,channel,user,is_anonymous,is_minor),WHERE event_time 2022-01-01 00:00:00PROPERTIES(desired_concurrent_numb
13、er=10,max_error_number=1000)FROM ICEBERG(iceberg_catalog_type=EXTERNAL_CATALOG,iceberg_catalog_name=iceberg,iceberg_database=iceberg,iceberg_table=iceberg_table,iceberg_where_expr=event_time 2022-01-01 00:00:00,.)使用冷热数据隔离,实现数据的高效应用性能对比 对比StarRocks内表和使用Presto、StarRocks查询Iceberg效率DataFunSummit#2023Ten
14、centTencent 腾讯腾讯04总结&规划指标中台总结&规划 指标生产:标准化、配置化生产 指标消费:一次定义,多处使用 指标质量:全链路可观测、可诊断 指标运营:降低成本,优化指标生产消费流程需求驱动 VS 指标驱动 建立以指标为中心,定义、生产、消费、质量保障为一体的“指标驱动式”数据消费的新模式湖仓一体总结&规划未来规划未来规划:存算分离:基于StarRocks的存算分离方案,冷热数据自适应管理,兼顾成本和效率物化视图:用物化视图替代传统的ETL建模流程,实现批流一体ELT可观测性:打通多平台元数据信息,完善端到端数据链路可观测性 DataOps:打通多开发平台,实现湖仓一体的快速交付 提升湖仓一体的开发应用效率,统一湖仓的元数据管理,加强整体数据质量可观测性感谢观看TencentTencent 腾讯腾讯