上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

数据生产智能:元数据驱动的全链路数据治理最佳实践-全链路数据治理峰会(23页).pdf

编号:84490 PDF 23页 30.43MB 下载积分:VIP专享
下载报告请您先登录!

数据生产智能:元数据驱动的全链路数据治理最佳实践-全链路数据治理峰会(23页).pdf

1、数据生产智能王磊(汐衍)GTS-交付技术部-技术中台-大数据交付与架构阿里云高级交付专家元数据驱动的全链路数据治理最佳实践Contents目录01基于DataWorks的数据治理全流程02元数据驱动的数据生产智能03客户案例最佳实践基于DataWorks的数据治理流程01平台建设架构、模型建设数据开发实施数据治理运营数据服务运营大数据产品架构设计数据链路设计及优化维度建模辅助设计工具数据&任务批量上云大数据研发提效工具包大数据开发实施大数据知识库、答疑大数据实操培训SQL扫描工具/调优任务诊断工具/调优全链路监测产品数据门户产品统一数据服务层产品统一运营工作台大数据通用数据治理咨询行业加持深度

2、定制贴身服务知识转移数据生产过程工具&服务分析层建设维度建模数据集成/ETL开发实施设计/规划/咨询客户自开发阿里样板间代码优化成本优化数据服务化数据运营数据展示行业资产沉淀开发提效中台开发落地开发规范数据-应用开发质量用起来客户价值整体架构设计批量数据任务上云基础能力建设数据生产与服务关系全流程计算平台引擎(MaxCompute、Hologres、EMR等存储计算引擎)模型库/FML迁移助手/发布中心元数据服务调度服务OPENAPI服务质量监测OPENDATA(产品元仓)DataWorks(开放API&元数据&元仓)主打行业:工业制造能源电力中央部委金融保险数仓建模数据资产管理/交换共享数据

3、研发向治理轻量化数据分析工作台场景1:0-1搭建数仓框架客户画像:无模型体系,自己动手,希望工具门槛低易上手,对业务数据库有控制力场景2:已有模型资产管理客户画像:已形成模型设计,有存量业务系统包袱,团队多需要落标对标指标建模编辑器可视化指标树行业指标库指标联想与发现分层建模蓝图模型自动生成数仓建模-基于指标分析的自动建模数仓建模-数据中台维度建模:维度表 事实表数据指标:原子指标 派生指标 时间周期修饰词 计算逻辑数仓规划设计:业务过程 数据分层 数据域数仓标准:数据标准 标准代码 度量单位DataWorksX BDAS定制化交付服务数仓模型咨询设计数据资产门户定制数据治理咨询数据分析工作台

4、定制基于DataWorks的数据治理大图数据资产门户数据集市多级数据交换跨域任务调度数据标准和主数据SQL代码优化全链路监测两级任务监控源端数据一致性存储、调度优化智能SQL开发数据沙箱权限横向资产拆分查询下载脱敏数据查询加速元数据驱动的数据生产智能02数据生产过程业务元数据方法论&AI数据标准元数据复杂计算驱动持续迭代进化治理存储元数据统一元数据引擎技术元数据数仓规划元数据任务元数据组件运行元数据数据血缘业务过程元数据调度元数据数据权限产品底座安全元数据数仓规划设计数据模型设计数据探查上云数据探查监控治理运营优化元数据驱动的数据治理 业务、技术元数据烟囱式存储在不同产品的数据库 数据治理持续

5、产生新的元数据,时间维度分散无法形成合力 元数据应用时空分散元数据隔离分散 混合多源元数据多重组合分析 持续迭代,持续优化,形成持续生长的元数据大图 避免重复配置一站式运营,提高运营效率元数据应用价值 基于规则跨时空分析 基于图算法体现数据价值分析和质量问题影响分析 基于机器学习算法自动优化、释放调度和存储压力 智能持续迭代回写,生成新智能元数据智能元数据应用升级智能建模Convergence of IT Infrastructure智能监控Online Presence of Core Technologies智能优化Data and Intelligence Capabilities of

6、 Business Applications元数据驱动的数据生产智能从三个主要数据生产角度解释基于元数据的驱动和智能智能指标建模自动指标建模平台自动指标建模平台能力涵盖指标需求阶段的溯源和定义指标建模阶段的指标自动发现、指标推荐、自动分层设计等业务视角的模型探查可视化展示、指标管理、辅助企业经营管理等业务能力数据源溯源指标溯源客户需求需求输入维度模型自动生成指标逻辑设计指标需求设计指标运营工具分层设计智能指标发现引擎Features auto discovery engine指标搜索引擎指标编辑器F-ADE(Features auto discovery engine)指标发现引擎是在指标设计

7、中,通过深度学习/机器学习模型帮助用户梳理指标的工具。其中包含的智能化能力如下:语义统一基于NLP的指标统一化映射语义统一行业字典映射语义统一指标相似性聚类工具及其语义空间内的互动探索语义统一基于生成对抗网络的指标语义化/口语化指标描述生成工具指标推荐基于深度学习的特征推荐算法指标生成基于特征发现工具集的衍生指标生成指标生成行业指标模型库指标生成指标的算法蒸馏监控、探查大规模指标异常自动检测以及阿里云在交付工作中积累的海量模型资源行业指标模型库指标逻辑自动分析指标逻辑手动输入指标字表字典指标逻辑字典指标字典统一元数据引擎数据溯源元数据业务过程元数据历史指标设计库DW智能建模工具维度实体模型事实

8、实体模型反向建模任务节点开发自动同步任务、表、指标血缘链路全景总览血缘、拓扑异常告警预警任务、表监控数据一致性校验资源、成本报表优化管理事件中心规则中心监控中心权限中心链路聚合、血缘分析调度服务任务、组件监测服务数据质量管控一致性比对统一管理服务任务、调度诊断服务全链路监测核心能力统一元数据服务多源异构数据接入标准节点关系Type System元数据存储计算引擎调度元数据表、字段血缘资源、成本消耗元数据代码静态元数据表、字段元数据调度元数据动态、组件元数据历史记录建模结果数据组件负载磁盘占用历史运行时间历史CU消耗业务域分层结构链路元数据历史成本数据智能全链路监测诊断模式:关注异常点、影响面分

9、析全景模式:关注数据治理流程DAG、关注全局建设状态DataWorks产品底座节点任务/job链路、状态NodeNodeNodeNodeNodeCode代码扫描TableTableTableTableTable组件(DataWorks、DataHub、Flink、MaxCompute、OSS、RDS等)运行状态监测表血缘链路、状态Composite metrics(tree)metricsmetricsmetricsmetricsmetrics=+指标血缘、逻辑,指标树节点任务代码扫描Atomic metricsDerivative metrics=Cycle time+Modifier+Co

10、mputational logic+Statistical dimension+事件中心告警中心规则中心4A中心统一元数据服务引擎NodeInstanceResourceMetricsCodeTable统一溯源、联通分析、故障监测任务链路聚合元数据、数据一致性监测核心服务全链路核心应用节点作业监测组件运行监测cluster代码扫描、成本优化多region贯通监控中心Dashboard智能全链路监测异常任务定位异常数据表定位失效对象治理僵尸表优化计算资源优化存储成本优化案例中心智能运营优化智能探查数据服务API复杂计算普适计算代码扫描优化基于元数据、语法、历史运行记录的代码扫描智能优化代码静态元

11、数据表元数据调度元数据动态、组件元数据历史记录持续生长的全链路数据治理过程元数据组件负载磁盘IO历史运行时间历史CU消耗扫描规则引擎静态规则动态规则智能规则统一元数据引擎多源异构数据接入标准元数据Type System大数据平台存储计算引擎元数据分析服务工作空间配置事前资源规划规则分级配置批量扫描实时调试事后优化跟踪统计分析&总览事前、事中、事后多阶段处理:40+静态规则、元数据规则,基于RBO、HBO的优化分析1.基于历史运行数据+元数据时序分析2.基于聚类算法自动聚合慢查询分析3.基于神经网络算法4.基于指标建模引擎指标树关系元数据对指标计算资源消耗、价值进行度量5.基于多用户和角色视角的

12、数据治理优化处理流程、资源规划和统计分析Top任务节点标注失效任务标注指标逻辑数据智能成本优化代码优化检测任务优化检测代码规范检测代码质量检测性能优化检测倾斜任务检测暴力扫描检测代码优化建议资源优化建议参数优化建议倾斜优化建议Shuffle remove 代码类:针对ODPS SQL,参考中台代码开发规约统计分析健康分任务治理情况,优化前后对比慢任务分布慢SQL监测告警基于中台全链路元数据任务状态监测等结果,预警慢任务代码规范代码性能代码复杂度代码重复率 任务类:针对任务执行时长,分析原因并反馈到ODPS SQL任务状态监测组件监测资源监测 感知大数据所有异常、问题优化不只是检测,同时给出相关

13、的建议通过优化实践,持续完善规则库事前检测事中监测事后治理治理效果查看失效任务调度优化、失效表存储优化基于任务血缘、表血缘的影响分析元数据驱动全景图数据开发源端业务系统数据探查数仓建模&开发链路监测代码质量分析成本优化服务构建服务目录运营优化源端物理模型产品底座TableTableColumnColumnColumn业务指标逻辑模型BusinessLabel/fieldBusinessLabel/fieldFeatureFeatureAutomicFeatureFeature维度模型&数据开发链路NodeNodeCodeTableTableColumnColumnInstance统一服务模型企

14、业运营优化EntityRelationshipRDSAPIPrivilegeUserBusinessProcessTableWorkFlow业务、技术元数据ERlogicalPhysical 元数据流入任务链路、血缘、资源消耗等元数据数据建模、生产过程中元数据不断生长 扩展 驱动各环节能力形成元数据分析引擎一站式数据生产智能工具全貌工具优化反馈至DataWorks(未来)DataWorks轻量级数据分析工作台数据集市 跨域任务调度 SQL快速开发 代码优化 权限管理 沙箱管理 查询下载脱敏 查询加速数据迁移数据探查架构设计多region 流批一体任务、调度迁移数仓智能建模建模编辑器数仓规划分层

15、分域指标树 模型智能生成指标联想 行业指标库代码质量分析元数据驱动引擎存储元数据 数据标准/命名规范元数据 业务过程元数据 组件运行元数据 任务元数据 表元数据 代码元数据 调度元数据 资源消耗元数据数据研发治理全链路监测 全景视图Node Table Column Feature Code Instance任务诊断代码优化建议运营优化遗留系统反向建模一站式数据生产智能工具门户logicalPhysical失效对象、僵尸表优化资源、调度优化Source Meta架构输入业务元数据技术、任务、表、调度元数据任务、表、资源消耗、调度等元数据4A中心事件、告警中心数据校验知识、案例库问答引擎智能调度

16、平台建设、数据生产过程&结果的“数字孪生”表达源端物理模型反写元数据成本运算、Dashboard顺序流式用户引导探索未来L0-L1人工阶段L2-L3智能辅助阶段L4全自动驾驶阶段全人工架构设计手动输入调研结果进行建模全景链路监控智能架构设计智能维度建模代码诊断智能任务诊断、告警全景链路监控+诊断辅助成本优化全自动建模代码、调度、成本优化自动发现事件驱动的大数据治理轻量化数据分析、AI运营客户案例最佳实践03指标设计规则校验指标维度矩阵指标层级关系建模参考材料重量仓库库容准发量材料渠道入库时间材料出厂码单时间材料卸货完成时间事实明细表指标:厂内产成品库存量维度:基地、渠道公司、销售组织、最终用户

17、、合同号指标:出厂在途库存量维度:基地、渠道公司、销售组织、最终用户、合同号指标:渠道在库库存量维度:基地、渠道公司、销售组织、最终用户、合同号指标:用户在库库存量维度:基地、渠道公司、销售组织、最终用户、合同号指标:渠道在途库存量维度:基地、渠道公司、销售组织、最终用户、合同号指标:用户在途库存量维度:基地、渠道公司、销售组织、最终用户、合同号指标:渠道库存量维度:基地指标:仓库库存量维度:仓库代码、仓库类型指标:仓库剩余库容维度:仓库代码、仓库类型指标:当天准发量维度:无指标:当天库存量维度:无指标:库存周转天数维度:无指标名:材料出厂在途周期维度:无指标:出厂在途周期维度:基地、最终用户

18、、总部合同指标:当天厂内产成品库存量维度:无汇总事实表源业务系统表ct_first_tracect_second_tracect_first_vehicle_tracect_first_historyct_first_red来自维表依据元数据溯源探查、指标逻辑设计结合维度建模规则,自动生成总线矩阵、指标层级关系输出建模参考dwd_adwd_bdwd_cdws_bdws_adws_cdws_ddws_edws_fdws_g需要人工调整实际2张表业务上有关联含义智能指标建模助手全链路运营优化展示慢sql任务情况、已经治理情况、消耗成本、计算资源、健康分、产生价值(节省资源CU*节约时间)、慢SQL榜单、治理效果榜单、资源/成本消耗榜单等,一站式跨引擎数据权限分配和数据分析、AI建模轻量化代码扫描&数据分析轻量化THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(数据生产智能:元数据驱动的全链路数据治理最佳实践-全链路数据治理峰会(23页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部