《7-3 快手智能数据管理2.0.pdf》由会员分享,可在线阅读,更多相关《7-3 快手智能数据管理2.0.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、快手智能元数据管理倪顺 快手 大数据管理平台负责人|我介绍|倪顺快数据管理平台负责主要关注元数据、数据地图、数据资产治理、数据服务等技术领域主要负责数据管理平台研发01背景介绍元数据管理建设背景元数据管理建设面临问题和挑战03元数据驱动应用数据地图、资产管理数据治理、成本管控02系统架构和关键技术元数据管理的系统化落地实践元数据质量保障、类型系统、血缘分析建设04成果和展望主动元数据平台、智能元数据挖掘丰富元数据类型和应用目录 CONTENT|背景介绍快元数据管理发展历程元数据管理建设问题和思路元数据管理是什么01|背景介绍-常常遇到这些问题01懂数数据表的口径定义是什么?我该如何使用?找数我
2、要电商直播域的销售表,如何找到它?数据治理我想做数据治理、成本优化,却无从下手?资产价值面对海量数据资产,如何挖掘,如何淘金?|背景介绍-元数据管理是什么01元数据:关于数据的组织、数据域及其关系的信息,是描述数据的数据!#$%&(!#$%&()%*+,-./01./23./456789./:;?=AB5)#*+B5CD./EFG./EHG./EIG./JK!#$%()*+元数据管理:对元数据的创建、存储、整合、控制、管理的一整套流程元数据数据表生产任务数据服务BI 看板指标模型AB 测试.,-!#.|背景介绍-快元数据管理发展历程020初创阶段关键词:0-1元数据:
3、Hive为主存储单一平台 1.0 阶段关键词:初步平台化元数据:多种数据表平台产品化能力、找表平台 2.0 阶段关键词:统一平台,完备能力元数据:数据表、生产任务、数据应用平台产品:搜索表、血缘分析、数据治理、资产管理对外服务能力:接口服务、数仓服务|背景介绍-元数据管理1.0建设问题01数据源HiveDruidETL 任务其他系统表实体接入表实体查询存储表关系接入表关系查询存储平台1.0应用数据地图(找数)重“量”轻“质”应用场景单一,主要是数据地图找数 数据质量问题频发,10+次/周 服务稳定性差,故障 3次/年 烟囱式接入和服务 研发耗时2周研发效率服务质量牵引指标价值挖掘平台 1.0
4、架构平台 1.0 主要问题系统架构和关键技术关键技术系统架构02|元数据管理2.0建设思路02 优化系统流程、减少烟囱式建设 统一质量保障统一化 以终为始,从业务价值角度思考 主动赋能业务,充分挖掘元数据主动化 一致性、准确性、及时性 覆盖度 大数据全链路应用元数据 支撑核心业务场景 数据分级保障 故障 0次/年 接入流程统一化 研发耗时减少60%+研发效率服务质量牵引指标价值挖掘平台 2.0 思路:2个“化”|元数据管理2.0挑战02业务复杂挑战30+实体类型,结构各异5 种实体关系,包括列级和行级血缘规模巨大亿级 实体数量,亿级 实体关系日变更量千万级协作繁多20+团队横向参与,跨多部门5
5、+次跨团队沟通协作/周应用多样支撑 20+业务,包括调度及时性、日报看板 等P0核心场景,覆盖 上万 内部用户服务形态要求不一,包括在线查询、离线分析、消息推送、数仓服务等|系统架构02数据全链路日志上报数据收集数据同步存储引擎数据加工数据服务数据应用业务系统统一接入接入同步接入异步接入解析SQL解析配置解析加工衍生实体衍生关系产出数据存储消息总线统一存储存储ESJanusGraphMySQL稽查系统一致性准确性覆盖度及时性统一服务接口服务消息服务数仓服务挖掘自动分级资产价值原生应用数据地图血缘分析资产管理成本账单安全治理数据治理采集元数据使用元数据元数据管理升级点接解析场景化存储,图库选型数
6、据质量稽查系统|业务架构02抽象分类基础元数据资产元数据安全元数据衍元数据缘元数据元数据生产HiveDruidCK调度指标维度BI 系统ETL任务日报元数据管理平台统一接入服务实体接入血缘接入统一存储服务基础元数据数据模型数据存储数据质量数据状态资产元数据资产归属生命周期业务分类业务语义安全元数据表安全列安全隐私列权限归属衍生元数据资源占用数据分布数据定级数据版本血缘元数据表血缘任务血缘字段血缘埋点血缘统一查询服务实体查询血缘查询元数据应用数据地图搜索数据业务目录找数血缘查询业务案例数据详情变更通知资产管理资产大盘资产编辑资产交接资产回收治理平台治理大盘治理明细治理效果运营其他故障影响分析下线
7、检测依赖安全隐私治理主动刷缓存|关键技术 1-统接02CH数据引擎HiveKafkaDruid实时加工生产平台离线加工数据同步数据分发日报看板消费平台BI分析指标模型数据服务实体 ETL实时上报全量离线上报统一接入层定义规范流程规范预处理数据校验黑名单处理数据丰富数据转换后处理监控指标血缘 ETL预处理数据校验预取SQL处理配置解析SQL解析后处理监控指标案统定义规范、流程规范统 ETL 流程结果开发耗时:2周-24天挑战量级:涉及 10+个平台成本:定制化开发 2周/实体,反复沟通 5+次,部署服务 上百个|关键技术 2-统存储02案类型系统:动态化录元数据定义统图存储:实体+关系,易 Sc
8、ale out场景化加速:部分场景通过 ES 加速Hive表Hive列Hive列描述Hive列名称Hive列安全等级Hive表数据量Hive表负责Hive表描述Hive表安全级别异构性:Hive 类型统存储:实体+缘挑战异构性:30+种实体类型,5 种关系量级:亿级 实体和关系性能:千级 QPS,延迟结果效率:提升12个量级存储:亿级实体/关系,访问延迟 10 ms离线开发任务加内容配置执时间配置负责任务描述任务优先级异构性:离线任务 类型|关键技术 3 质量保障02实体致性缘准确度案实体致性:分级修复缘准确度:基于 ANTLR解析 SQL;缘Diff动归因结果实体致性:99.7%-99.99
9、%缘准确度:99%挑战质量低:10+质量问题/周,涉及 5+种实体要求:P0 场景,如 BI看板推送,错误0容忍|关键技术 4 缘分析02缘服务数据地图故障影响分析数据治理Task CoordinatorJanusGraphTask WorkerBFS 遍历图Task WorkerBFS 遍历图同步查询异步查询血缘关系预览(同步查询)多维血缘分析(异步分析)案能抽象:简单同步查询、多维异步分析缘分析优化:BFS、剪枝结果缘DAU:数百分析能:持任意条件、任意层级查询挑战数量多:单实体有1000+直接下游&10W+全部下游层级深:最深度50+撑场景:下线依赖检测、故障分析等 60+应,QPS:数
10、百性能弱:图库复杂查询慢,如3层缘消耗 1 分钟血缘分析调用流程血缘分析的2种能力抽象|关键技术 5 数据动分级02A1A2A3A4业务指标P0P1P2P3ETL 任务基准元数据集合P0P1P2元数据等级映射致性及时性可性基准染色推断染色元数据资产自动分级案基准等级:圈定权威的基准元数据集合动推导:节点递归染结果分级占:P0 1%,P1 7%分级保障挑战权威性:分级依据需要让20+业务认可量级:亿级实体,不太可能分级分级保障:P0资产致性99.99%,时级修复100%基准等级自动推导|元数据驱动应数据治理资产应03|元数据驱动应03元数据表血缘查询字段血缘查询使用热度查询分区就绪查询表详情查询
11、变更推送数据生产域数据采集ETL加依赖推荐数据管理清理回收推荐生命周期推导P0基线元数据依赖数据消费域数据模型数据服务感知表Schema看板报数据分析主动刷缓存SQL CBO元数据依赖数据管治域数据安全数据治理字段血缘关系资产管理资源管控资产使用热度成本治理元数据依赖应范围:涉及数据全命周期深:撑核业务,要求元数据数据生产域1.0 被动式建设:闭收集元数据 元数据单、接繁琐 缺乏数据价值化、智能化2.0 主动式建设:以价值化为终 元数据丰富、接快捷 追求数据价值、挖掘数据智能接使收益成本优化:数EB级存储,优化空间巨,数百PB级辐射户:数万,提效数据产和消费链路各环节向身的建设向应的建设建设思
12、路演变|资产应-找数03资产搜索(搜得到)基于ES构建搜索排序能,持 10 类资产类型搜索优化:多策略优化,精确匹配模式、开发库/测试库降权、按资产类型赋权重、业务案例纳索引搜索服务搜索反馈搜索优化业务录(找得到)树状结构录,DE维护数据标签:热度标签、认证标签、业务标签数据理解(看得懂)基础信息:技术信息、业务信息、安全信息等增强上下:产链路缘、业务案例、样例数据技术信息字段/列/分区 信息数据预览业务信息业务描述字段描述安全信息表/字段 安全等级隐私数据增强理解资产标签资产上下文表类资产详情搜得到找得到看得懂搜索命中率:90%|资产应 管数03能管数规模:覆盖20+种资产,DAU:数百范围
13、:涵盖数据从创建、编辑、运维、清理回收的全周期能分析多维度:不同组织维度、不同资产类型等主资产预过滤产任务下游缘0热度使“三”资产需继续治理多策略 挖掘新负责上下游任务负责资产其他有效负责相似资产负责推送认领推送五要素信息,提示认领多策略寻找新的替代负责资产清单资产列表/总览资产详情/编辑/交接资产交接交接记录交接撤回资产回收站资产删除资产恢复资产认领离职人员资产无主资产能管数能挖掘推荐负责:针对主资产动挖掘新负责多指标:资产总量盘点、增态势、资产热度等资产占用存储、计算资源按组织下钻分析团队组织大数据租户/项目组数开发者数排行榜按部门排行按开发者排行增长态势表/任务增长趋势应用看板增长趋势能
14、分析能挖掘资产ROI:按资产访问热度、引热度、资产等级 等多维度评估价值|数据治理法论03规范流程组织保障具产品牵引指标驱动治理牵引指标驱动治理数据标准规范数据开发规范、数据建模规范、数据应规范组织协作虚拟组织,多团队协作,合作共赢具化沉淀治理过程具化效率化,治理内嵌数据中台产品治理指标数据成本数据安全数据质量数据规范数据模型资产价值ROI|数据治理 成本03数据开发任务探查任务开发数据测试数据质检资源管控多租户体系资源申请资源配置限额报警账单资源用量租户/部门账单多维分析下钻账单排行榜治理自动治理人工治理专题运动治理治理效果评估治理策略动治理按生命周期清理表冷热数据分级存储治理0热度/无效治
15、理Top榜单治理管控资源申请、配置治理任务配置、改善资源需求资源账单动治理:命周期清理系统案闭环:元数据驱动全链路,成本账单牵引治理多策略:动+治理,资源管控倒推治理结果动清理:逻辑清理+物理清理,清理存储量约 PB治理:优化 数百PB元数据挑战资源规模:EB级存储、万 Hive、新增PB数据成本意识弱:侧重开发,清理强制治理难:强制段,治理意愿度低|数据治理 数据及时性03挑战影响:核数据产出延迟致 D0 重故障任务多:数万产任务,数万 Hive等案基线分级保障:圈定批核任务,优保障任务1任务2任务3P0基线任务4任务5任务6任务7P2基线任务8任务9任务10P2基线任务1任务2任务3P0基
16、线任务4任务5任务6任务7P2基线任务8任务9任务10P2基线基于缘的优先级推导元数据任务血缘实例血缘任务运行历史信息基线优先级计算拉取全量元数据重建任务依赖图任务优先级推导新老版本优先级 Diff超阈值阻断自动归因人工归因更新任务优先级基线监控报警关键路径检查预测剩余耗时多渠道分级报警非关键路径检查任务异常状态人工介入调整资源、任务配置数据及时生产扰多:资源动态变化、任务逻辑变化、数据量变化、任务缘变化等数据及时性监控主流程基线优先级计算:动推导优先级结果及时性:核数据产出提前2时完成,重故障发|成果和展望建设成果04未来展望|建设成果04开放态Kwai Metadata Service(元
17、数据服务)数据全链路 20+业务的数百 服务100%全链路覆盖亿级实体关系30+实体类型99.99%+实体致性亿级实体数量99%缘准确度数据地图、资产管理、数据治理平台应千级数据地图DAU90%搜索准确度基础指标业务指标主站商业化电商风控|未来展望 进3.0041.0 被动元数据管理 手工化2.0 统一元数据管理 统一化 平台化3.0 主动元数据管理 低代码 自动化 智能化数据内容:单一,以表为主接入方式:人工,未沉淀流程数据挖掘:无应用场景:数据发现数据内容:丰富,涵盖数据全链路各要素实体接入方式:统一化,流程化数据挖掘:无应用场景:增强数据发现和理解,初具智能数据内容:一切和数据相关的元数
18、据,涵盖数据上报、生产加工、数据消费、数据应用等接入方式:自动化,低代码化数据挖掘:智能挖掘,自动分级、相似数据识别、资产ROI应用场景:增强数据发现和理解,智能调度生产优化,智能成本账单治理,自动化质检|未来展望 开启智能数据管理时代04智能数据管理元数据云数据 ETL任务信息数据湖元信息安全信息指标模型信息资产360画像低代码、动化云主动持续的数据治理数据安全保护伞智能数据质检智能数据调度优化元数据驱动业务;智能化业务、激发创新价值挖掘元数据云随时随地接、访问元数据;元数据由流通|总结回顾04!#$%/(01)23 456789:;?4#ABC4DEFG!#HIJK;L4$!#MN#O%;PQ4ARSTU;VN!#/(&WX#$%非常感谢您的观看|