《DataFun-快手指标中台建设实践-夏桂林.pdf》由会员分享,可在线阅读,更多相关《DataFun-快手指标中台建设实践-夏桂林.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2024快手指标中台建设实践夏桂林-快手-指标中台技术负责人个人介绍夏桂林负责快手指标中台服务专注于大数据分析、数据应用、数据服务等领域建设关于快手快手:拥抱每一种生活平均日活24Q1平均月活24Q13.93 亿6.97 亿短视频+直播电商,商业化,海外,本地生活 关于快手数据平台部集群规模总数据量万级EB级日增数据量PB级日作业量十万级快手大数据规模使命:打造高效且智能的自助式数据平台工具,提升分析决策效率职责:提供从数据集成、加工,到分析全链路的智能数据开发、管理和分析的泛大数据平台化能力,加速数据分析决策效率。01快手指标中台介绍介绍快手指标中台的背景,设计理
2、念,平台架构等02指标管理介绍介绍指标标准化管理、数据建模等03指标服务介绍介绍统一查询语言、统一查询查询引擎、生产加速等04未来展望介绍对指标中台未来发展的展望目录DataFunSummit#202401快手指标中台介绍指标相关介绍想要查询公司的 按城市 近7日 新增的 的 活跃用户个数时间范围维度原子指标案例派生指标业务过程实体度量(活跃用户)(用户)(个数)修饰词快手指标中台背景数据仓库层应用层BI 平台1W+指标AB 测试平台10W+指标专题产品平台1W+指标10W+数据表主站APP层电商APP层商业化APP层海外APP层问题与痛点p 指标管理不统一l多处管理,成本浪费,指标泛滥p 指
3、标口径不统一l同名不同义、同义不同名p 指标数据不一致l烟囱建设,数据孤岛p 重复开发建设l各应用系统对指标能力重复建设,浪费研发资源,研发效率低质量效率数仓直接对接各数据应用系统公共数仓解决思路:建设一套企业级指标中台系统,将数据层与应用层解耦,解决指标质量与效率问题如何构建企业级指标中台指标只需定义一次,就可以在 BI 产品、仪表盘等多种应用中使用基于表元信息抽取,通过算法、规则智能构建表与表之间的关系-数据模型方案1-指标驱动生产优势:落地比较彻底,从生产源头控制数据生产缺点:场景单一,不灵活,只能基于明细表加工聚合表实现复杂度:中等方案2-指标驱动分析优势:支持更灵活场景,数仓建设不受
4、限制缺点:数据仓库加工比较灵活,质量保障有风险实现复杂度:高趋势1-Headless BI趋势2-智能建模行业趋势业界方案快手指标中台解决方案数据源层druidhiveckredis指标中台数据应用层BI平台专题产品指标服务其他定制产品指标中台+BI快手BI指标中台+开放API开放生态指标中台数据应用数据源统一接入统一指标统一查询指标管理DataFunSummit#202402指标管理介绍指标管理相关背景问题与痛点p 指标管理不统一l多处管理,成本浪费l重复管理,指标泛滥p 指标口径不统一l同名不同义:口径不统一l同义不同名:命名不规范指标管理:通过建立标准化的指标定义、加工、建模等流程,将指
5、标维度等信息进行有效的管理,以协助业务提高指标管理效率,从而达到提效业务决策的目的BI 平台AB 测试平台专题产品平台主站数仓电商数仓商业化数仓数据仓库应用层指标管理解决方案BI平台专题产品其他定制产品直播电商商业化指标标准化规范/流程指标服务指标中台指标管理元数据管理模型管理数据建模数仓层应用层统一接入数据集管理l 数据集管理l 对数据集统一管理l 模型管理l 数据建模l 对数据模型统一管理l 元数据管理l 对指标维度元信息统一管理l 指标标准化规范/流程l 指标标准化规范l 指标标准化流程指标管理-指标标准化规范/流程业务人员(产品/运营)提出业务需求数据人员(产品/分析师)制定业务口径数
6、据开发数据表绑定/指标计算逻辑数据产品指标服务化业务线数据域规范指标维度命名规范词根规范数据开发规范数据模型规范指标一致性规范数据服务规范业务人员(产品/运营)数据分析业务线/数据域 数据管家审批/授权数据需求评审规范快手大数据安全管理规范指标标准化规范流程产品团队工具团队内容团队多团队协作指标管理-元数据/模型/数据集管理数据集管理模型管理元数据管理元数据管理指标元数据维度表元数据数据表元数据绑定关系元数据l指标分类原子指标派生指标复合指标l指标等级l业务域ll维度定义l维度等级l码值映射关系ll逻辑表名l过滤条件l表描述ll指标与表绑定关系l指标计算口径l维度与表绑定关系l模型管理雪花模型
7、星型模型数据集管理指标维度集合数据表集合模型集合数据建模l活跃用户数l城市维llhive表lck 表ll模型 1l模型 2l概念层逻辑层应用层数据集:可以指定指标、维度、数据表的范围,缩小数据范围,从而提效业务使用事实表维表维表维表维表维表维表维表维表事实表维表维表维表维表指标管理-模型管理-数据建模数据建模流程指标维度数据表元数据自动化建模服务数据模型星型模型雪花模型事实表维表维表维表维表关联字段模型索引模型发现维度建模理论数据建模:基于指标维度与数据表的关联关系,采用维度建模理论,实现从指标维度元数据到数据模型的自动化转换数据建模步骤1、概念建模2、逻辑建模3、物理建模最佳路径计算举例模型
8、发现关联字段最佳路径计算数据模型维表维表维表维表事实表维表维表维表维表检测信息变更通过关联字段初步构建模型对模型进行优化生成最终模型DataFunSummit#202403指标服务介绍指标服务相关背景指标服务:基于指标维度元信息和数据模型信息,为应用层提供丰富的指标取数服务问题与挑战p 需求多样性l 缺乏高级数据分析能力(同环比/窗口计算等)p 联邦查询l 缺乏异构引擎的联邦查询能力p 查询效率l 指标查询慢,分析效率低数据源层druidhiveckredis指标中台数据应用层BI平台专题产品指标服务其他定制产品指标管理是否能支持GMV指标窗口函数计算?指标数据查询耗时 5min吗?指标是否能
9、支持hive 表与 mysql 表关联计算?指标服务的解决方案解决方案l 统一分析语言层(OAX)l 丰富查询语义表达l 提供高级数据分析算子l 统一查询引擎层l 提供联邦查询能力l 屏蔽底层多引擎存储l 指标加速层l 加速指标查询性能数据源层druidhiveckredis指标中台数据应用层BI平台专题产品其他定制产品指标管理统一分析语言统一查询引擎指标加速指标服务指标服务-统一分析语言OAXOAX:统一指标分析语言(Open Analyze eXpressions),是以数据集为载体,面向分析场景的分析语言举例:获取 2022-2023 年广东省各市的GDP以及占比OAX语言设计分析五要素
10、:数据范围,指标,维度,时间范围,过滤条件OAX能力设计允许用户在原始值或计算结果值粒度进行计算,分为:数字函数、字符串函数、日期函数、类型转换、逻辑函数、聚合函数、指标函数、高级计算例如:SUM(消耗),CONCAT(姓,名),DATE_ADD(day,NOW(),1),计算周同比:YOY(SUM(消耗),1,week,value)l 基本计算允许计算过程中改变数据计算粒度,可以在较高粒度(EXCLUDE)、较低粒度(INCLUDE)、独立粒度(FIXED)进行计算例如计算各省的消耗占比:SUM(消耗)/EXCLUDE 省份:SUM(消耗)l 动态粒度计算允许用户对结果值再进行计算,例如:滚
11、动类函数、窗口类函数、偏移类函数等例如要计算MTD消耗(本月1号至本月当前日期的消耗累计):RUNNING_SUM(SUM(消耗)ALONG(日)l 表计算指标服务-统一查询引擎OCTO应用层BI 平台专题产品质检平台.OCTOhivesparkclickhousehbase数据源层接口层联邦查询语言FQL查询层查询编排(二次计算)查询计划构建/优化引擎执行适配层异构引擎适配元数据服务保障数据表信息数据源信息服务容灾限流降级OCTO:是统一查询语言OAX的实现载体,可实现异构引擎的联邦查询FQL(联邦查询语言):是基于Substrait协议扩展而来的OCTO的查询语言解决问题:l 联邦查询:异
12、构数据源的统一查询问题l 开放能力:对接应用层的多种应用系统查询性能优化:l RBO:谓词下推、列裁剪、join消除l CBO:大表 join 小表、选表规则(选快不选慢、选小表不选大表)举例分析语言层统一分析语言 OAX整表加速多表指标维度加速ETL代码自动生成加速模式加速配置生产预览表结构预览指标+维度组合(Cube)配置任务配置调度配置报警配置任务发布指标元信息维度元信息指标加速流程指标服务-指标加速数据模型成果l 加速任务 百级l 加速指标占比 10%l 指标查询性能提效 10倍+手动配置指标维度历史查询记录提效场景分析确定加速配置自动化配置提效场景 冷引擎(hive)热引擎(ck)关
13、联查询 单表查询 大表 小表 指标加速:通过用户手动配置或自动化分析加速配置的方式,将指标维度进行生产加速,从而提高指标查询效率指标加速自动化分析指标加速自动化分析指标中台落地情况指标管理接入业务线几十级指标数量万级指标服务接入应用方几十级单日查询次数百万级运营情况日用户数千级月用户数万级质量故障数零故障质量效率研发效率提升10倍+成本数据复用度提升15+大业务全接入 短视频、直播、商业化、电商、招聘 BI平台全接入 专题产品全接入 运营平台 数据分析师、运营人员、DE、业务人员DataFunSummit#202404未来展望未来展望高性能l 持续升级统一查询引擎,借助向量化、native sql等能力,打造更高效的引擎查询性能智能化l 智能取数:借助大模型能力探索智能取数感谢观看谢谢观看讲师微信快手大数据公众号