上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

京东零售基于主动元数据治理实践与探索.pdf

编号:157181 PDF 20页 3.01MB 下载积分:VIP专享
下载报告请您先登录!

京东零售基于主动元数据治理实践与探索.pdf

1、DataFunSummitDataFunSummit#20242024京东零售基于主动元数据治理实践与探索京东零售基于主动元数据治理实践与探索吕代军-京东-数据架构师数据管理挑战数据管理挑战数据治理体系建设数据治理体系建设主动元数据治理实践主动元数据治理实践总结与未来展望总结与未来展望目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101数据管理挑战数据管理挑战数据管理挑战资产感知弱 找资产难几十万张数据模型大量临时表、无效表大量重复/相识模型 不敢用口径黑盒质量参差不齐,业务难分辨数据架构不敏捷 架构耦合口径、维度扩展耦合预计算耦

2、合 不够敏捷大量刷岗预计算任务调整工作量大,交付周期长大量物化宽表存算资源消耗多开发质量、安全问题 表风险表结构新增、删除缺乏管控表结构修改缺乏管控 运营风险参数、依赖错配开发任务抢占线上资源开发数据写入线上表IT资源成本不断攀升 数据规模持续增长表数量持续增长存储、计算资源消耗不断增长分析场景增多 资源利用低无效表、无效任务占比高冷僵数据占比高重复、相似模型占用大量资源成本、效率、体验00404DataFunSummitDataFunSummit#202420240202数据治理体系建设数据治理体系建设数据治理思路数据标准数据成本数据架构数据开发数据成本技术牵引数据全链

3、路降本增效 制定数据标准、标准系统化、数据认证 敏捷高效数据架构升级快速灵活支持业务战略目标 开发生产隔离数据安全生产 存算治理体系建设,降低业务/企业运营成本成本、效率、体验数据治理体系建设营销活动资源包资源包资源位楼层分析数据热力图用户画像灰度实验活动进度活动对比活动沉淀资源治理资源治理架构治理架构治理开发治理开发治理账号隔离账号隔离模型隔离模型隔离队列资源隔离队列资源隔离标准治理标准治理统一数据语言标准要素标准要素业务体系业务域主题业务过程主体主体属性更新周期/频率更新方式粒度数据资产数据资产系统化加速系统化加速资产认证相似模型关停并转标准要素系统化,提升维度、指标注册效率逻辑建模、维度

4、建模,智能询表与生产逻辑建模逻辑建模维度1维度2维度指标1指标2 指标逻辑虚拟宽表:维度+指标维度1维度2指标2维度1维度3维度2维度3指标2指标1智能物化与编排智能物化与编排湖仓一体湖仓一体增量状态更新:快照存储转增量存储、计算流批一体化:近实时数据服务在线查询更高效,索引、CK等在线查询指标1指标3指标3任务隔离任务隔离开发生产隔离开发生产隔离元数据能力建设元数据能力建设存储成本计算成本模型分区访问执行时长CPU利用率内存利用率模型认证/精选模型分层任务等级应用场景数据生产血缘数据消费血缘无效表、任务识别模型模型识重治理手段治理手段治理可视治理可视存储治理存储治理无效表识别与下线表生命周期

5、存储格式与压缩优化相似表识别与下线降副本/转EC数据重分布计算治理计算治理无效任务识别与下线低资源利用率任务治理暴力扫描、高频失败任务治理计算算子优化、刷岗批次优化计算引擎优化资源潮汐错峰数据湖更新资源分布资源分布增长归因增长归因治理量治理量重点问题与健康分重点问题与健康分智能生命周期推荐红黑榜红黑榜治理模型建设治理模型建设模型、任务归属识别维度3成本、效率、体验DataFunSummitDataFunSummit#202420240303主动元数据治理实践主动元数据治理实践主动元数据什么是主动元数据?Gartner“一组能够持续访问和处理并支持持续分析的元数据的功能”主动元数据平台不仅停留在

6、智能上,还可以与系统连接与智能决策最终形成行动导向特点:自动生成与更新、持续访问、智能分析、以行动为向主动元数据管理工具核心能力预测诊断行动聚类资源自动分配告警推荐建议分析主动元数据治理实践-存储治理的挑战盲治1、缺乏数据支撑,无法准确掌握表分区消费情况以及分区存储、计算代价。2、缺乏评估体系,20万+模型,数据研发自行评估生命周期值成本高、效率低、主观性强不敢治,不愿治1、数据回填效率低占用开发人员大量工作时间2、担心引发线上问题不能治部门作为零售数仓主要建设方,大量历史数据必须全部保留挑战与能力诉求挑战与能力诉求有支撑省时省力客观有推荐持续极致安全高效自助主动元数据治理实践-智能生命周期评

7、估体系建设自助分析看板量化代价:近90天单分区存储,计算(CPU,内存)金额占用,以及分区访问数据。非量化代价:模型所属分层、是否精选、认证,以及加工任务等级、任务执行时长等。基于代价的智能生命周期评估体系生命周期评估模型可视化拆解建设面向治理管理者、推动者、执行者的可视看板,实现数据研发自助式分析。主动元数据治理实践-智能生命周期消费模式识别提升02468121416近近1515天天访次访次024680253035近近3131天天访次访次传统统计方法受观察周期影响基于N天各偏移天数统计访次VS30040050060070080

8、09001000012访次访次主动元数据治理实践-智能生命周期产品化业务策略与平台共建业务沉淀的策略模型、治理方法与大数据平台治理工具化能力复用共建,提升治理效率,进一步赋能集团数据治理看得清、看得全看得清、看得全帮助管理者、推动者、治理者看清看全治理空间、治理进展、治理收益一键式治理一键式治理一键式发起治理行动与实施治理、方便快捷自主挖掘治理模型自主挖掘治理模型业务方根据自身业务特点、自主探寻治理模型、策略。满足个性化治理。主动元数据治理实践-智能生命周期建设效果数据驱动、智能推荐,从分散到集约、从被动到主动、从经验到智能智能推荐智能推荐几十万张模型自动推荐生命周期,自动识别数百PB治理空间

9、开放赋能开放赋能集成大数据平台、赋能集团存储治理效果显著效果显著推荐值接受度大于70%试点模型完成100+PB治理数据驱动智能推荐依据清晰开放能力治理安全治理高效基于主动元数据代价均衡治理更极致智能生命周期推荐数据客观推荐模型可视化自助分析分区级访问明细精准模式识别安全回滚机制策略模型集成平台一键治理自动催办、执行主动元数据治理实践-数据回填挑战挑战与能力诉求挑战与能力诉求资源更省仅关注结果不关注过程在离线数据开发运营中,新需求、新迭代、岗位变更、线上BUG都需要数据回填。频率高系统功能不完善,需要大量手工确认工作,大量系统外协调、沟通、确认工作回溯质量问题时有发生效率低日均占总计算资源消耗的

10、18%,大促期间占用更多结果等待时间长资源消耗多、耗时长更快、更准自动化主动元数据治理实践-智能回填方案架构质量检查&结果通知数据资产血缘定义生产血缘回填感知采集分区缺失 版本变更岗位变更 消费预测分区检查器版本感知器回填编排 解析生成执行拓扑并发协调器拓扑编排器 策略库优化&执行 最佳执行批次 动态提交依赖解析器 表、任务 参数解析多分区合并器 执行批次拆分智能回填成产&消费元数据执行元数据基于主动元数据的系统能力建设数据回填架构回填感知回填感知通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息。回填编排回填编排构建数据生产血缘,解析表分区回填依赖,编排回填拓扑优化执行优化执行

11、系统化创建回填批次实例,分批优化执行DataFunSummitDataFunSummit#202420240404总结与未来展望总结与未来展望总结核心技术:数据虚拟化、语义知识图谱、主动元数据基于主动元数据的智能生命周期推荐使用数据生产、消费、场景主动元数据构建分析能力生命周期值推荐,提升治理效率逻辑建模、智能物化与生产基于认证数据资产,构建资产图谱元数据,结合数据使用场景、消费场景构建HBO,CBO,RBO模型,实现智能物化与生产基于数据血缘的智能回填依赖指标生产、数据生产等血缘数据构建智能高效重算能力依据执行元数据动态分批优化执行基于主动元数据的Data Fabric治理能力建设01010202成本、效率、体验未来展望成本、效率、体验更自动更智能更安全更高效更敏捷、更智能数据生产更极致、更高效数据重算智能诊断与智能调优智能资产图谱生成开发治理一体实现开发即治理模型策略更可视更自动回滚感谢观看感谢观看谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(京东零售基于主动元数据治理实践与探索.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部