《淘宝数据治理及稳定性保障实践_郭进士.pdf》由会员分享,可在线阅读,更多相关《淘宝数据治理及稳定性保障实践_郭进士.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、淘宝数据治理介绍郭进士自我介绍郭进士 高级数据技术专家 15年加入阿里巴巴,当前是淘宝数据平台负责人 参与淘宝、零售通、国际化、天猫精灵等多业务数据架构设计治理 关注大模型时代数据平台的演变升级目录治理背景治理背景成本治理成本治理模型治理模型治理稳定性治理稳定性治理数据治理背景1组织策略强调降本增效2强竞争形态诉求更高效率3组织上浮数据保障标准需要统一成本治理模型治理稳定性治理背景策略目录治理背景治理背景成本治理成本治理模型治理模型治理稳定性治理稳定性治理成本治理机会网络压缩协议未更新以满足新埋点埋点只上不下永久保存实时:Flink集团版本非最新版本,性能较弱;Flink Top任务消耗较高;
2、实时资源闲置率较高,存在资源浪费;离线:TOP表存储有压缩空间;大量表未根据实际使用做存储生命周期管理;任务只上不下;冷数据未及时归档备份;HOLO:基于额度计费,大促波峰波谷利用率不高数据产品:不计成本追求时效性成本治理方案数据采集数据采集:UTUT网络协议优化网络协议优化,升级压缩算法、映射字典升级;差异化埋点管理差异化埋点管理,将性能和算法埋点标准化后,大促降级、差异化存储策略数据计算数据计算:实时链路实时链路,升级flink版本提升引擎性能,引入自动参数调优能力控制任务闲置率,共性流任务合并消费治理降低重复消费;离线链路离线链路,识别冷数据进入冷备、对大表进行重排压缩、基于消费调用进行
3、生命周期治理、低重要任务的批量冻结、无人维护任务冻结数据应用数据应用:HOLOHOLO,基于使用水位进行动态扩缩容;数据产品数据产品,无效产品页面全链路下线、业务合理性的实时页面转离线或小时成本治理效果离线治理效果实时治理效果HOLO治理效果成本治理思考 80%的成本治理收益通过技术手段实现的;治理ROI的考量需要对数据分级治理;业务合理性的成本治理才能确保数仓成本持续可控;目录治理背景治理背景成本治理成本治理模型治理模型治理稳定性治理稳定性治理模型治理问题-看规模表规模人员类型占比淘宝业务56.9%其他BU22.7%离职员工10.4%外包岗位3.8%其他6.2%团队未归属人员类型分布 数据规
4、模增长快数据规模增长快淘宝数据在2020年2022年之间规模增长迅速无效表无效表&无效节点占比较高无效节点占比较高无效表占比较高,带来成本、运维和找数据效率问题大量表无人负责或非本团队负责大量表无人负责或非本团队负责未归属表占比:16%,其中活跃表12%模型治理问题-看结构公共层被引用不足,应用层自建大量中间表公共层被引用不足,应用层自建大量中间表 公共层复用率:存量-不足40%新增-不足20%覆盖率:15%应用层重要dws覆盖率:存量-不足30%新增-不足10%引用占比:ods-24%公共层-15%自建中间表占比:46%模型治理方案模型治理方案-控规模无效表自动下线无效表/节点识别导入优雅下
5、线下线任务创建通知接受owner反馈执行rename或冻结静默观察30天下线通知下线完成/数据恢复无效表治理触发交接流程 主动触发自动化数据评估 评估数据在模型、质量、稳定性等方面的问题产出评估报告 产出详细的评估及治理建议进行数据治理评估治理效果 评估治理后的效果确认交接流程人员交接治理65%50%模型治理方案-覆盖度提升提升空间大提升空间大,业务价值大业务价值大品类分析用户分析商家分析TOP3场景分析商家专项6%-56%用户专项18%-63%直播专项短视频专项模型治理思考 模型治理在于如何控制数据复杂度(表规模、表关系对规模)产品化+数据驱动思维做数据主动运营,是提升公共层覆盖度的有效手段
6、 湖仓一体的架构下,如何打造模型生命周期管控的机制目录治理背景治理背景成本治理成本治理模型治理模型治理稳定性治理稳定性治理稳定性问题基线等级月破线情况月节点预警量(电话告警出错或变慢)8028764108497重要基线稳定性问题突出严峻高基线节点数多、团队相对集中高基线多、缺少准入规范稳定性保障方案数据测试变更提交发布管控监控配置运维治理数据分布测试数据对比测试业务逻辑测试7&8基线节点变更须测试高质量节点必须经过测试5基线以上代码变更需CFMAXPT检测弱依赖检测笛卡尔积校验 基线强监控开启节点叶子节点DQC波动/非空/主键/字段监控基线规范、准入、降级基线值班基线任务
7、变更任务值班节点时长治理数据倾斜治理存量监控治理 .运维值班机制建设值班机制说明摩萨德使用说明问题分析诊断方法问题处理经验分享大促运维经验分享值班运维考试稳定性保障效果高基线数量对比通过基线合并,无强时效要求基线降级等方式推进重保高基线合理性治理。治理后整体基线规范而内聚,整体高基线数下降30%。基线等级基线等级治理前治理前基线破线情况基线破线情况治理后治理后基线破线情况基线破线情况800764284155治理后基线破线&预警下降明显稳定性治理思考 稳定性在于在有限的机器资源下,确保核心应用的产出 成本和稳定性在一定程度下是相对立的,需要关注两者的平衡 稳定性的保障核心在于真正核心应用的识别,并基于稳定性问题不断迭代升级保障策略数据治理的未来 架构升级:湖仓一体-Data mesh,分布式的数据治理?治理效率:数据驱动治理-产品驱动治理-智能化?