1、淘系数据模型治理郭进士淘宝/天猫数仓公共层模型负责人|01背景背景&问题问题02问题分析问题分析03治理方案治理方案04未来规划未来规划目录目录CONTENT|背景&问题01|背景&问题-整体情况|人工创建22%机器生成78%有效活跃9%整体数据各分层活跃表分布9%DWD11%DIM16%DWS64%ADS整体比例分布(ads:dws:dwd:dim=8:2:1:1)不规范21%2528353202835284344595855553031050100TOTALADSDWSDWDDIMODS不规范生命周期(月)新增比例(%)模型生命周期(25个月),年增长比例(30%),
2、模型留存(44%)问题:临时表多,污染数据体系,影响数据管理;命名不规范,缺乏管控;背景&问题-公共层分析|007080901000369 12 15 18 21 24 27 30 33 36 39 42 45 48 51表数量累计百分比_非公共数据_总体公共层表复用性不高:50%的表直接下游表数=3个)团队名称公共层表占比高复用表占比低复用表占比其他15.0710.316.66商家数据13.087.414.97大进口数据2.913.332.78天猫数据16.7613.0118.02公共层数据11.0418.938.41淘宝数据35.1240.1433.44流量数据6.0
3、16.915.72公共数据表在各团队分布不合理:公共表分布在了各个团队,其中淘宝数据团队负责了最多的公共数据表(=1,50%)(治理方案-模型治理|点击前往FBI报表治理方案-模型治理|模型评估数据应用层效率依赖深度共性ADS跨集市依赖依赖公共层占比公共层复用过度设计高频ODS表公共层复用率UDAP评估看板分层划域评估团队个人问题效果看板治理效果DFD标签平台模型评估指标模型问题标签数据服务数据地图搜索加降权官方数据专辑引导推荐权限管控Dataworks开发助手依赖深度跨集市依赖旧表改造推荐发布管控跨集市依赖旧表改造推荐UDAP分业务差异化治理项推送已具备进行中未支持数据驱动产品驱动事前事中事
4、后未来规划04|未来规划|点击前往FBI报表应用层效率u研发核心工作量投入到应用层u研发效率:缺少数据建设指导规范,集市高耦合u运维效率:跨集市依赖、依赖深度u效率与规范平衡:应用层当前没有强指标规范,如何通过工具达到效率与规范的平衡架构规范管控u基于分层标准落地,对研发过程规范完善:设计、开发、运维、变更、治理等规范细化u规范管控能力不足:当前核心是表命名规范,依赖规范、代码规范、运维规范等管控能力尚不足产品工具提效u应用层智能建模功能提效u数据测试功能集成u数据运维功能升级u事中数据治理能力构建(开发助手)u事后治理能力提效(批量删除、主动推送优化等)u数据地图找数用数提效非常感谢您的观看|
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
3-2 数据湖 Iceberg 在小米的落地及实践.pdf
1-2 数仓规范化—菜鸟数据模型管理实践.pdf
3-2 可信密态数据库研究进展与应用实践.pdf
2.快手从模型规范开始的数据治理实践-孙伟.pdf
2-3 字节跳动一站式数据治理的思考及实践.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆