《字节跳动一站式数据治理架构与实践_王慧祥.pdf》由会员分享,可在线阅读,更多相关《字节跳动一站式数据治理架构与实践_王慧祥.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动一站式数据治理架构实践基于数据驱动的分布式治理王慧祥 字节跳动全域数据治理负责人目录机遇与挑战字节数据治理理念分布式数据治理架构及实践数据驱动治理智能化治理探索总结&未来展望01 机遇与挑战治理效益与业务影治理效益与业务影响的矛盾响的矛盾 业务系统、生产流程改造影响业务 需求难统一,全局策略难落 保障治理大目标,无法顾及业务个性需求 ROI评估:治理收益、时间周期、业务影响01治理涉及的组织和治理涉及的组织和管理难度大管理难度大 角色多、范围广、链路长 治理目标对齐、管理、跟进难度大 组织越复杂,数据治理难度越大02规范规范“人人”的动的动作难度大作难度大 人员能力参差不齐,对齐目标和
2、优先级困难 治理操作依靠人,规范对人的偏差操作容忍度低 组织文化差异,数据治理落地的方法、挑战、成效各异03缺乏适配性强的缺乏适配性强的产品工具产品工具 现状、问题客观工具缺失 无全局视角工具,直接跳入治理细节 跨部门、跨系统治理目标对齐、协商缺乏治理全流程工具 平台工具不够灵活,只能解决通用治理问题04数据治理挑战数据治理挑战字节治理挑战字节治理挑战文化与效率、业务第一文化与效率、业务第一业务要求业务要求多业务齐发展业务快速发展 快速响应业务需求 敏捷迭代OKROKR文化文化每个人都可参与规划与策略制定分解主动寻找实现路径互相对齐组织快速前进高效治理高效治理没有集团层面的数据治理委员会各部门
3、采取自决策自治的数据治理模式决策与执行效率很高规模大规模大业务场景丰富 互娱 电商 商业化海量数据数据驱动数据驱动资产数据盘点,体系建设 资产元数据,特征、标签 资源使用,存储、计算 工具,操作及收益 经验数据反哺,算法推荐影响大影响大业务影响 数据延迟 质量问题 数据生命周期02 字节治理理念分布式数据自治分布式数据自治传统式治理传统式治理分布式治理分布式治理组织与制度职权与管理成果抽查 梳理业务与数据部门,设立公司级别数据治理委员会/部门 定期梳理公司数据资产,确保资产归属与治理权责明确 组织定期检查业务治理过程是否符合制度,定期检查治理结果业务影响小周期短,见效快效率高,省人力 业务自决
4、策,各级业务/个人都可自驱治理 工具灵活,业务根据自身发展按需,治理助力业务发展 以业务为目标对齐优先级 确认核心数据问题,聚焦投入,非“一刀切”业务内治理目标对齐 实施、追踪、核算工具化 低门槛与算法推荐:业务自驱分析与诊断,自驱优化治理 产品横向沉淀业务治理经验,治理规则、策略共享目标一刀切、自上而下、运动式目标多元化、灵活自治、常态化分布式数据治理平台分布式数据治理平台 治理是不同业务与阶段的实践,在规范与组织上应足够灵活,业务可自身发展阶段制定治理内容,自行对齐与制定部分治理标准,互相对齐形成自驱组织“一个业务单元内的数据有效性提升为数据治理的范围和目标”业务影响小业务影响小-灵活的自
5、治模式灵活的自治模式 产品辅助业务自驱,沉淀业务经验规则化、策略化、自动化进行持续的数据治理 低门槛与算法推荐:业务自驱进行分析与诊断能力,算法赋能治理提效 提供自上而下的规划式治理和自下而上的响应式治理沉淀各业务治理经验,提升治理效率沉淀各业务治理经验,提升治理效率从治理规划到执行诊断与复盘全流程进行治理把控。集成多种治理场景-稳定性、质量、安全、成本、报警各模块可独立使用,按需组合,满足不同业务场景下的数据治理需求产品提供完整的开放能力,业务根据自身特性和发展阶段进行接入适配性强适配性强-产品建设覆盖治理全链路产品建设覆盖治理全链路业务影响小、治理效率高、适配性强业务影响小、治理效率高、适
6、配性强分布式数据治理平台分布式数据治理平台-逻辑架构逻辑架构MetadataMetadata仓库仓库表/任务/报警治理规则引擎治理规则引擎统计规则/算法规则优化工具集优化工具集TTL/温存/申报SLA收益核算收益核算存储量/任务量/vcore基础能力层基础能力层流程框架层流程框架层健康分扣分分析问题定位实施治理治理方案层治理方案层健康分更新确定范围设定目标选取规则执行诊断消息触达实施治理进展更新报警订阅问题处置根因登记复盘总结大盘分析健康分驱动健康分驱动规划驱动规划驱动响应驱动响应驱动治理评估层治理评估层治理用户层治理用户层范围域范围域部门/项目/数据团队/个人资源组/队列/库数仓层级/优先级
7、/成本Top目标域目标域提升健康分降低存储/计算资源优化资产数量规则域规则域存储/计算治理规则质量治理规则安全治理规则消息域消息域SLA报警任务运行报警质量规则报警健康分体系健康分体系存储/计算/质量SLASLA大盘大盘就绪情况/延迟趋势资产大盘资产大盘数量/资源用量/成本报警大盘报警大盘趋势/起夜率/根因管理角色管理角色治理推动角色治理推动角色治理执行角色治理执行角色分布式数据治理平台分布式数据治理平台-核心能力核心能力数据治理的基础对全域数据进行维度划分、打标及相关指标计算根据资产特征生成根据资产指标生成根据治理手段生成管理者视角推动者视角实施者视角评估体系达标成本缩减优化性能资产清晰规则
8、丰富动线完整收益准确数 据 驱 动数 据 驱 动规 划 治 理规 划 治 理智 能 推 荐智 能 推 荐开 放 能 力开 放 能 力03 分布式数据治理架构及实践分布式数据治理分布式数据治理-体系建设体系建设业务单元(划分资产)业务方向(划分人员)治理分析资源大盘SLA大盘报警大盘治理评估计算/存储健康分质量健康分实时健康分自定义健康分治理大盘治理看板/排行榜业务看板嵌入规则管理日常扫描治理方案专项治理业务单元内跨业务单元(平台级)无效资产低ROI资产低效资产自定义规则系统规则池迭代沉淀常态化规则消息推送工作台专家知识沉淀自动治理方案原子操作能力 操作pipeline(自动化)删表温存TTL通
9、知回收权限删表/任务温存等待7天通知物理删除合并小文件参数优化关闭任务治理效果跟踪连续7天灵活配置推进治理的业务单元,自下而上人人参与数据治理业务单元内制定目标,配合使用常态化及规划式诊断,构建业务自治体系沉淀专家知识及智能化工具,执行经验的传承与协同,不断提高自动化水平最小的业务打扰高效的组织形式最高的执行效率分布式数据治理分布式数据治理-治理动线治理动线通过治理全景、业务目标、数据运营资产推送信息,发现资产问题制定诊断方案制定诊断方案推动方案资产干系人治理推动方案资产干系人治理1 12 23 3使用规划诊断能力,根据资产维度、标签、相关指标等信息圈选数据资产,预设目标,完成时间创建方案使用
10、平台工具,如TTL调整、删表、转温存、参数优化、任务下线等手段,实施治理操作通过治理操作明细,在治理过程中管控治理进度,并根据阶段性目标校准治理策略(激进OR稳妥)4 45 5方案完结后,核对收益是否符合预期,评估治理工作,并复盘治理问题自定义治理、常态化治理自定义治理、常态化治理推动者推动者/执行者视角执行者视角实施者实施者视角视角分布式数据治理分布式数据治理-推动者动线推动者动线N制定策略圈选资产设定周期跟踪治理效果调整规则常态化治理跟踪日常观测资产大盘治理全景业务目标治理新方向分析诊断Y规则/元数据管理诊断方案规则沉淀YN分布式数据治理分布式数据治理-实施者动线实施者动线个人健康分数据运
11、营推送治理操作入口治理操作入口个人工作台诊断明细成本优化SLA治理查看操作明细治理效果跟踪资产状态Review治 理 手 段治 理 手 段治 理 工 具治 理 工 具 设置表TTL 删表 补充元信息 下线任务 手动调整参数 低热度表转温存 降副本 小文件合并 引擎工具任务参数优化分布式数据治理分布式数据治理-创建方案创建方案&目标目标命中操作1:预计收益a命中操作2:预计收益b命中操作1:预计收益c命中操作2:预计收益d资产A预计收益a a资产B预计收益d dmax(a,b)max(c,d)规则总收益sum(a,b)资产A资产B命中规则x,y操作1:预计收益a命中规则x的操作2:预计收益b命中
12、规则z的操作3:预计收益c命中规则y的操作1:预计收益e命中规则z的操作3:预计收益f命中规则x的操作1:预计收益g命中规则y,z的操作4:预计收益h预计收益cmax(a,b,c)预计收益emax(e,f)预计收益gmax(g,h)规则总收益sum(c,e,g)资产A资产B资产C目标配置提效目标配置提效预估收益有多少?治理ROI如何?目标如何设置?分布式数据治理分布式数据治理-治理实施治理实施&操作操作80+80+存储、计算、质量、安全存储、计算、质量、安全自定义元数据、规则逻辑自定义元数据、规则逻辑自助接入方法、灵活定义参数自助接入方法、灵活定义参数默认规则默认规则治理场景治理场景个性化需求
13、个性化需求精细化治理精细化治理集中式:平台集中建设规则数据及治理手段集中式:平台集中建设规则数据及治理手段研 发 人 力 投 入 成 本 高很 难 匹 配 所 有 业 务 的 需 求分布式:数据开放、规则开放、治理操作开放分布式:数据开放、规则开放、治理操作开放满 足 个 性 化 诊 断 治 理 需 求规 则 迭 代 稳 定 后 沉 淀 到 平 台,实 现 共 赢操 作 开 放,业 务 自 定 义 组 合 p i p e l i n e,满 足 精 细 化 治 理开放能力建设分布式数据治理分布式数据治理-治理实施治理实施&操作(开放性建设)操作(开放性建设)离线实时业务自定义元数据治理主数据管
14、理元数据接入元数据管理系统数仓事前检测规则事中监控规则规则库事后治理规则工作台规划诊断治理产品模块治理全景健康分体系治理数据(健康分、治理收益、诊断明细)开放接口/数据方案配置(增删改)治理操作规则配置(增删改)元数据配置(增删改)开放插件集成系统规则、自定义规则分布式数据治理分布式数据治理-收益统计收益统计&结果验收结果验收思路:操作实时同步、收益离线更新、埋点旁路打标Topic数据平台治理删表生命周期操作事件任务关闭操作实时同步模块操作实时同步模块明细埋点API Server参数优化生命周期小文件合并数仓离线APP层存储资产域计算资产域操作明细收益明细事件中心操作来源治理场景旁路打标来源明
15、细埋点模块来源明细埋点模块前端上报关联操作扩展元数据计算收益元数据收益离线更新模块收益离线更新模块存储收益元数据格式转换(统一化表达)基础元数据收益数据自动化收集收益数据自动化收集结果(评估/收益)标准化:计算计算内存节约量/利用率CPU节约量/利用率产出小文件数量存储存储节约物理存储量质量质量&安全:安全:质量监控治理数安全风险处置数分布式数据治理分布式数据治理-平台架构平台架构HDFS|HMS|YARN|离线调度系统|SPARK|FLINKAnalyze EngineDQL ParserSource AdaptorHiveAdaptorMysqlAdaptorCHAdaptor数据查询服务
16、数据查询服务MysqlHIVEClickHouseMessage Queue存储介质操作收集收益收集ETL事件中心事件中心离线同步旁路打标Task Executor提交结果返回心跳状态上报资产大盘治理评估治理方案诊断明细收益进展结果衡量治理工具元数据注册规则配置规则解析规则管理服务规则管理服务规则调度开放规则业务单元配置目标管理Task Generator资产诊断服务资产诊断服务结果汇总收益同步状态管理参数优化生命周期配置小文件合并治理工具箱治理工具箱删表业务数据操作操作上报结果04 数据驱动治理数据驱动治理数据驱动治理00202资产资产体系体系评估评估体系体系规则规则体
17、系体系经验经验复用复用数据驱动闭环数据驱动闭环如何高效定位资产问题如何高效定位资产问题盘点资产数据,构建完备的元数据组织方式,通过特征、标签描述元数据,根据不同场景设计治理策略(存储、计算等)如何高优治理业务资产数据如何高优治理业务资产数据构建全公司的治理评估体系,提炼核心资产问题项通过对资产打标,可快速定位高优待治理资产如何快速完成资产治理如何快速完成资产治理挖掘、沉淀并复用治理经验通过往期治理经验,并对行为埋点数据分析,智能推荐治理目标整体数据架构整体数据架构 分布式治理平台数据地图平台治理POCCNVASG私有化公有云数据运营SLA保障权限控制模型设计质量保障Oncall答疑任务运维特征
18、标签治理规则健康分目标推荐APPDMDWMDWDODSDIM报警域任务域权限域流量域质量域成本域资产域治理域查询域离线调度系统数据管理系统HMSHDFSYarn/Spark分层体系数据域数据驱动数据驱动-资产体系建设资产体系建设01.01.数据分析与展示能力,解释性强,功能丰富02.02.根据数据特征划分不同主题域,提供稳定可靠的维度、指标等03.03.全链路保障数据采集,做到数据无丢失、可监控、质量稳定04.04.从源头对资产数据打标,血缘脉络清晰,可追踪、可优化治理全景治理全景元 数 据 仓 库元 数 据 仓 库维度划分维度划分数据采集数据采集组件与平台组件与平台大盘、趋势、明细9大数据主
19、题域团队、项目、资源组业务DB、消息队列、数据推送、数据拉取存储(HDFS|HIVE)、调度(YARN|SPARK|FLINK)、平台(质量监控|研发)数据驱动数据驱动-评估体系建设评估体系建设资产评估体系存储计算质量无效存储异常存储TTL不合理数据无查询小文件数过多存储格式不合理连续失败无效计算异常计算产出表为空产出表无热度资源申请不合理数据倾斜低优任务调度在高优队列数据及时性数据内容质量监控告警任务稳定性元信息完整性SLA buffer不足核心任务缺失质量监控质量监控不达标核心任务缺失告警配置非核心任务配置夜间值班计划高优任务运行在低优队列层级信息缺失描述或中文名缺失全局视角团队视角个人视
20、角单指标分数资产问题数同环比值治理成效成本收益整体评估趋势曲线多维分析成员排名资源消耗催办诊断从完备的数据域建立资产评估体系,将资产问题具像化,并提炼高优问题项根据资产类型进行分数加权计算,形成健康分,在公司层面达成共识,进行推广运行数据驱动数据驱动-规则体系建设规则体系建设1 12 23 3数据模型数据模型数据建设分析挖掘规则建模规则体系规则体系存储规则计算规则质量规则报警规则资产圈选资产圈选资产维度特征细节指标范围完备的治理规则能力存储、计算、质量、报警4大维度(80+)全局规则&自定义规则 生命周期永久/近7天产出为空/暴力扫描任务 生命周期xxx天/近xxx天产出为空统计类规则&挖掘类
21、规则 近90天无访问表/数据倾斜任务 相似库表/相似任务根据规则圈选资产范围用户自定义规则数据驱动数据驱动-智能提效智能提效精细化推进精细化推进资产资产治理治理治理目标推荐减少存储层压力减少存储层压力温存推荐通过打分机制推荐 访问得分 访问周期 访问次数 总文件大小得分 目录总大小 文件平均大小 元数据平台目录得分 基础库,核心目录减少进入温存得分 跨机房访问状况,越频繁使用,越不应导入温存合理设置表生命周期合理设置表生命周期TTL推荐阶梯分层推荐TTL 访问热度 表分层 ODS DWD 表类型 全量表 增量表根据治理经验数据预测治理收益 单资产多操作收益预估 Max(O1,O2)多规则的目标
22、计算 Max(R1,R2,R3)考虑治理整体完成度,初步将总目标值计算最后*40%05 智能化治理探索思考:数据治理智能化思考:数据治理智能化助力降本增效助力降本增效强化治理能力强化治理能力解决解决业务痛点业务痛点规则库、经验分析、自主纠错算法引擎算法引擎集成化、结果可度量、效果好操作简易操作简易多服务、多引擎、海量数据数据支撑数据支撑智能化治理实践智能化治理实践-基于血缘和热度的推荐基于血缘和热度的推荐热度数据作为判断数据访问情况的有效输入,其数据的精细化可以为更为细致、激进的治理提供数据支撑。HDFS audit logYarnApplication离线任务离线任务执行实例终端服务join
23、 by app idjoin by task idjoin by instance idjoin by service tokenQueryServiceEngine logcombine logjoin by query idcombine logaggagg by tableHDFS audit log aggagg by tableuniq query statjoin by tablespark/hive、presto数据维度广,完善度高,来源可覆盖全公司处理流程统一,可明确访问次数概念最终结果可衡量,有效提升业务治理效率血缘数据查询埋点数据存储埋点数据智能化治理实践智能化治理实践-任
24、务参数自动优化任务参数自动优化ApplicationAggregatonAppStateApplicationAggregatonAppState作业优化设置作业元信息设置规则引擎报警信息报警信息推荐参数预览调参设置告警管理作业指标收益统计健康分pysparkspark jarspark sql数据源引擎规则引擎API层治理平台根据作业的特点,自动推荐根据作业的特点,自动推荐最合适的参数最合适的参数RuleRule EngineEngine:资源优化规则Shuffle优化规则任务读写优化规则SparkSpark EngineEngine:shuffle 溢写分裂 shuffle 分级限流 oo
25、m 自适应 blacklist 功能优化智能化治理实践智能化治理实践-其他算法探索其他算法探索06 总结总结总结分布式治理低业务影响高度灵活治理高效治理资产清晰规则丰富动线完成收益明确治理全景数据挖掘数据资产体系建设健康分治理方案治理收益治理实施治理推动者治理实施者治理目标治理分析治理大盘绝对值分数值目标推荐规划诊断治理周期通知催办进度跟进操作动作数据收集收益归属收益计算模型建设特征构建元数据采集治理规则体系建设治理评估体系建设智能化策略沉淀闭环链路平台功能数据赋能07 未来展望未来展望未来展望行业模版沉淀行业模版沉淀开放生态打造开放生态打造大模型能力赋能大模型能力赋能 行业模版 电商、互娱治理模版 治理流程 治理驾驶舱、治理运营、治理策略 治理能力原子化 行业治理规则、治理操作行业模版流程原子能力APIUIData 接入 -元数据 -规则 -收益 配置 -数据团队 -资产范围 -运营流程 接出 -治理方案 -治理收益 -治理操作丰富准确元数据沉淀总结&推断SFT模型能力建设治理建议一键治理自动治理关于我们关于我们进入官方交流群官方交流群获取更多技术干货、活动信息进入火山引擎火山引擎DataLeapDataLeap官网官网了解更多产品信息