上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

3-1 企业数据中台的智能进化—全链路数据治理.pdf

编号:102494 PDF 30页 13.30MB 下载积分:VIP专享
下载报告请您先登录!

3-1 企业数据中台的智能进化—全链路数据治理.pdf

1、之全链路数据治理企业数据中台的智能进化阿里云智能-计算平台1、阿里巴巴数据平台发展历史与现状2、阿里巴巴数据治理的实践3、基于阿里云DataWorks的全链路数据治理平台能力目录阿里巴巴数据平台发展历史与现状01业务百花齐放,发现数据价值业务发展多个业务团队1688团队AliExpresss团队淘宝团队一淘团队2012“空气稀薄地带”到底有多稀薄?问题挑战多个Hadoop集群2012年阿里巴巴数据平台调度机器规模“人肉云计算”与“分步试计算”0040005000类别一云梯1(Hadoop)云梯2(ODPS))各种数据平台支持数字化转型数据平台建设Oracle之巅,亚洲最大

2、集群云梯1(Hadoop)达到4000台,多个BU多个集群大淘宝Hadoop统一调度-天网(现DataWorks)云梯2(ODPS,现MaxCompute)启动研发蚂蚁小微贷款“牧羊犬”业务上线云梯2阿里巴巴数据平台发展的四个阶段-20122015开着飞机换引擎启动统一数据平台建设12个业务部门X1号-X12号云梯1(Hadoop)遇到5000台瓶颈(开源墙)云梯2 通过5K项目能力从1500台跨入5000台DataWorks通过冰火鸟项目,支撑集团统一数据交换平台启动平台统一计划,将阿里所有的数据整合到云梯2打造集团统一数据平台9个平台项目1号-9号0.529.3633.6191350571

3、912.1,0002009200009-2015双11交易额问题挑战数据平台建设业务垂直小闭环,数据孤岛显现业务发展2013年,创立菜鸟,启动“all-in 无线”战略2014年,投资高德,与银泰合资,阿里旅行成立2015年,推出钉钉/零售通、成立口碑、控股阿里健康2015年,启动中台战略阿里巴巴数据平台发展的四个阶段-20155K项目2万台集群平台统一计划集团技术合璧,挑战5K巅峰不断增长的海量数据建设统一的底层数据平台结果:云梯2从1500台跨入5000台10倍压力测试通过支持跨集群计算与高可用挑战:如何统一管理数据?如何统

4、一保证数据安全?如何具备统一开放能力?结果:20多个子项目,涉及所有事业部通用数据平台能力产品化具备金融级平台能力85天集群水位封顶倒计时挑战:5000节点限制如何突破?开源体系如何保证数据的安全与可用性?业务交互频繁,跨机房如何保证数据交互?Why云梯2?Why统一平台?2018如何让“大中台”来支撑“小前台”问题挑战数据中台建设+资产化数据平台建设数据平台支撑数据中台建设DataWorks 构建大规模协同数据开发与治理的一站式能力MaxCompute 支持10万台集群服务100+阿里集团BU、20万+阿里员工的日常运营数据是谁的?谁来用?谁来管控?平台团队和业务团队是两个团队,成本关系是什

5、么?中台方法论,如何落地在数据平台落地?如何治理?数字增长很快,超过业务增长,怎么办?一张核心表12PB,每个部门复制1份,一年几千万就没了怎么办?我知道要删除一半的数据,但到底是哪一半?数据中台支撑业务可持续发展业务发展小二覆盖用户生命周期的数据化运营策略个性化的智能营销生意参谋探索数据业务化业务走向实时化阿里巴巴数据平台发展的四个阶段-20182021如何将阿里巴巴的经验和系统赋能客户问题挑战数据中台服务业务“正循环”数据平台建设云上数据中台与业务伴生业务发展集团业务系统100%上云,全面云原生化双11每秒53.8万笔,阿里云抗住全球最大流量洪峰数据中台覆盖阿里集团所有BU运营小二及时发现

6、问题、分析问题,实现实时运营决策短视频、直播等新业务出现DataWorks建设的数据中台全面服务业务支持集团内300+数据应用MaxCompute智能数仓让双11成为日常MaxCompute湖仓一体逐步成为下一代数据平台架构全链路数据治理,2020以10%成本增长支撑60%业务增速阿里巴巴的数据平台成为客户的数据平台Customer FirstService FirstCloud First阿里巴巴数据平台发展的四个阶段-20212012业务与数据平台十二年共同发展业务百花齐放,发现数据价值多个业务团队1688团队AliExpresss团队淘宝团队一淘团队各种数据平台支持数字化转型Oracle

7、之巅,亚洲最大集群云梯1(Hadoop)达到4000台,多个BU多个集群大淘宝Hadoop统一调度-天网(现DataWorks)云梯2(ODPS,现MaxCompute)启动研发蚂蚁小微贷款“牧羊犬”业务上线云梯22015业务垂直小闭环,数据孤岛显现2013年,创立菜鸟,启动“all-in 无线”战略2014年,投资高德,与银泰合资,阿里旅行成立2015年,推出钉钉/零售通、成立口碑、控股阿里健康2015年启动“中台战略”集团CEO逍遥子,构建符合DT时代的更灵活的“大中台,小前台”组织机制和业务机制启动统一数据平台建设云梯1(Hadoop)遇到5000台瓶颈(开源墙)云梯2 通过5K项目能力

8、从1500台跨入5000台DataWorks通过冰火鸟项目,支撑集团统一数据交换平台启动平台统一计划,将阿里所有的数据整合到云梯2打造集团统一数据平台数据中台支撑业务可持续发展云上数据中台与业务伴生小二覆盖用户生命周期的数据化运营策略个性化的智能营销生意参谋探索数据业务化业务走向实时化双11核心系统100%上云,全面云原生化每秒53.8万笔,阿里云抗住全球最大流量洪峰数据中台覆盖阿里集团所有BU运营小二及时发现问题、分析问题,实现实时运营决策短视频、直播等新业务出现数据中台建设+资产化数据中台服务业务“正循环”数据平台支撑数据中台建设DataWorks 构建大规模协同开发与治理的一站式能力Ma

9、xCompute 支持10万台集群服务100+阿里集团BU、20万+阿里员工的日常运营DataWorks 建设的数据中台全面服务业务,支持集团内300+数据应用MaxCompute 智能数仓让双11成为日常MaxCompute 湖仓一体逐步成为下一代数据平台架构数据平台进行全链路数据治理,2020以10%成本增长支撑60%业务增速20182021阿里巴巴数据平台发展的四个阶段9000420052005600当日存储(PB)50%单日作业量(百万)50%单日处理数据量(PB)75%+集群总服务器规模(万台)10%+规模与弹性01数据的成本02数据的正确性与可维护性03数据利

10、用率041600万任务,1.7EB计算1天产出实时计算Flink版峰值50亿条秒Hologres峰值实时写入5.96亿条记录2020为例 以10%服务器增长支撑60%业务增速2020为例 数据治理综合收益10亿+数据治理战役参与部门存储成本0增长数据倾斜“0”干预双11任务“0”破线离线、实时、交互式、AI四合一开发每3个阿里员工就有1个直接使用DataWorks开发支持集团内300+数据应用10万台MaxCompute集群规模5.3万DataWorks集团月活跃用户数1.7EB单日处理数据5.96亿条交互分析每秒写入在数据中台投入块1钱,能赚回多少钱?201520162017 2018201

11、92020 2021.6017 201820192020 2021.6017 201820192020 2021.600202021.618数据平台现状“数据效率”成为核心指标阿里巴巴数据治理的实践02阿里巴巴数据治理发展实施阶段数据稳定性治理数据质量治理数据规范治理数据安全治理数据成本治理解决数据口径一致性问题解决数据产出及时性和准确性问题解决数据权限控制与数据共享交换问题解决数据计算和存储成本高昂问题特定阶段专注解决主要矛盾阿里巴巴数据治理实践:数据稳定性治理日千万级任务量的复杂情况下,涵盖任务调度依赖

12、、运维操作、智能监控、快速恢复等全方位的保障,确保任务的稳定运行稳定可靠的调度规范化数据开发运维基线监控快速恢复大促保障千万量级的数据任务依赖关系复杂(周期各异、跨项目、跨周期、自依赖)开发生产两套环境任务发布独立管控变更卡点:操作发起-审批通过-生效从业务视角定义节点优先级实现资源管控简单配置,全面监控基线巡检,日常值班报警收敛,避免疲劳全网强管控问题节点治理任务降级能力分时调度任务出错自愈自动生成工单保证快速响应任务诊断帮助定位原因批量重刷快速恢复阿里巴巴数据治理实践:数据质量治理通过完整性、有效性、准确性、唯一性、一致性、合理性的全面评估,产出可信的、高价值密度的数据资产可执行数据处理代

13、码物理表数据处理任务质量监控任务数据模型质量监控结果反向优化数据标准和模型标准管理模型管理智能ETL执行封装数据探查质量分评估实现“数据质量需求-数据质量保障-数据质量提升”的控制闭环数据标准数据字典质量约束数据模型质量监控规则数据处理工作流建表DDL质量监控规则探查数据质量规则阿里巴巴数据治理实践:数据规范治理优惠分摊会员商品购买优惠券核销领取发布门店子公司开设参与营销活动报名营销工具使用报名包含优惠分摊数据模型设计业务板块业务域维度业务过程定语类型原子指标定语属性时间周期派生指标指标体系设计数据处理任务开发数据服务开放TableViewAPIReport数据规范设计数据公共层建设核心公共层

14、其他一条门槛线1)确定标准、流程及规范2)筛选核心公共层监控范围并持续更新核心公共层数据资产:1)做规范管控,架构评审,发布管控2)评估建设水平3)发现短板,持续改进强管控轻约束通过规范设计和开发来预防问题的发生。统一公共层来减少重复建设和确保口径一致性阿里巴巴数据治理实践:数据安全治理数据分类分级与权限控制敏感数据发现与脱敏数据风险审计可信计算环境制定分类分级规范数据自动打标打标人工调整更合理管理和使用(阿里:B/C/S和P,L1-4)字段名字段描述字段值判断依据匹配规则关键字匹配正则表达算法模型(阿里:根据分级差异化审批流)阿里巴巴数据治理实践:数据成本治理设定组织成本目标培养个人成本意识

15、计算存储成本管控成本治理评估与运营组织目标驱动意识优先知行合一治理常态化阿里巴巴2020年成本治理成效:以10%的数据成本增长支撑了65%的业务增速阿里巴巴数据治理成功关键一部数据资产治理方法论产出及时、质量可靠、易找易用、安全可控、生产经济自下而上自上而下一套组织体系组织建设、制度保障一组平台工具支撑&运营阿里云大数据平台DataWorks+MaxCompute核心目标:数据资产化、数据价值释放自上而下:从公司治理角度入手来解决数据的管理问题,提供足够的授权和支持自下而上:以平台技术支撑和完善的运营体系促进治理的切实落地基于阿里云DataWorks的全链路数据治理平台能力03阿里云大数据平台

16、业务全景图Application业务应用Report业务报表Dashboard实时大屏BI ToolsBI工具Analysis多维分析Others 其他智能应用Smart AppData Sources源数据关系型数据库非结构化存储大数据存储消息队列Datahub数据总线MaxCompute数据仓库服务DataWorks 一站式大数据开发与数据治理平台Data Integration数据集成Realtime Compute实时计算引擎开发处理层分析服务层PAI人工智能平台一发多收Hologres交互式分析实时数仓全文检索 ES联邦数据源Data LakeMySQL、Hbase等ETL数据湖分析

17、投递数据汇聚层消费数据阿里云自研大数据产品体系主要涵盖了DataWorks、MaxCompute、Hologres、Datahub等产品,它集中存储和管理企业数据资产、面向数据应用处理和分析数据,将数据转换为业务洞察。通过与阿里云内、外部服务灵活组合,可构建丰富的数据应用。全托管的数据与分析解决方案,可简化平台运维、管理投入,提升面向业务的服务能力,加速价值实现。阿里云DataWorks:一站式大数据开发和治理平台规范设计数据开发数据集成开放平台开放接口开放消息扩展点与扩展程序业务场景实时同步整库迁移分库分表同步增量同步全量同步数据指标数仓规划数据标准维度建模ER建模(Datablau)任务运

18、维和监控任务统一调度离线/实时/交互式分析/AI一体化集成开发环境交互式分析引擎(Hologres/AnalyticDB)开源大数据平台(CDH/CDP)开源数据湖计算平台(E-MapReduce)阿里自研大数据计算服务(MaxCompute)数据服务低代码化数据API构建服务编排API网关数据转换数据分析自助分析电子表格Notebook数据治理开放数据检查器(事前预防)数据治理中心治理项(事后发现)问题处理方案健康分评估模型数据质量质量规则模板智能规则推荐动态规则阈值离线表、消息通道数据资产地图元数据采集数据目录和检索全链路数据血缘影响分析数据安全数据权限管理数据分级分类隐私数据保护风险预警

19、访问审计政务云/城市大脑行业数据中台智能搜索/推荐/广告数据报表/大屏车联网/智能制造数据分析与应用用户增长/分析/营销计算存储引擎DataWorks 数据治理:稳定性治理 任务调度与运维超大规模调度能力可视化工作流编排复杂调度逻辑控制离线&实时任务运维可视化任务运维操作任务智能运维诊断高性能、高稳定性的调度运维系统是确保数据稳定产出的基础保障DataWorks 数据治理:数据质量管理支持MaxCompute、EMR Hive、Hologres调度触发规则运行节省计算资源的同时及时发现问题强规则自动阻塞下游任务运行防止问题数据污染下游与任务调度深度集成37种内置模板规则+自定义规则智能规则自动

20、推荐,80%+的采纳率动态阈值智能预测,算法自动判断异常值便捷灵活的规则定义!#$%&()*+#)*,-./01!#$%&%(!#$)*+&%,-./0-./1(-.!#$&!,+,通过完整性、有效性、准确性、唯一性、一致性、合理性的全面评估,产出可信的、高价值密度的数据资产DataWorks 数据治理:数仓规范设计-数据建模数仓规划数据标准数据建模数据指标支持数仓分层、数据域、业务过程的定义,是数仓设计的基础规划支持数据字典、标准代码、度量单位的定义,以保障数据模型和指标的标准化支持可视化数仓维度建模,支持多种大数据引擎的正向和逆向辅助建模支持原子指标、派生指标设计与定义,并自动生成指标代码

21、,确保业务口径统一自顶向下进行企业数仓设计与维度建模,提升数据平台建设的规范化和标准化,一站式完成数仓从设计到开发DataWorks 数据治理:统一元数据管理-数据地图数据地图元数据自动采集和数据目录构建数据发现基础元模型、Schema详情产出信息、热度信息、使用记录注解、业务描述、使用说明元数据详情表、字段、描述等多元素全局检索能力全局检索少量样本数据预览功能数据洞察,统计指标分析展示数据预览&数据探查数据分门别类管理按类目导航检索、按类目过滤数据类目表和字段的上下游血缘关系异构数据源全域血缘数据变更的影响分析和通知功能血缘信息&影响分析元数据管理工具,快速查找数据、理解数据和使用数据Dat

22、aWorks 数据治理:金融级数据安全管控提供完善的细粒度数据权限控制。数据分类分级、敏感数据发现与脱敏、风险识别、预警与审计能力%&()*%&()*%&+,)*%&+,)*%&-.)*%&-.)*%&/0)*%&/0)*%&12)*%&12)*!#$#%&()!*+,-.!/012!3456789:;?ABCDE?FGHIJKLMNOA!P1!QRS?TU78VWXYZ&XYIB_aCbcdeefMghijklmlcnopDqrs=t3uv!wx!*()AyDataWorks 数据治理:主动式与可持续的数据治理构建数据治理健康度评估模型,量化数据治理成效;以问题驱动的方式,事前预防、事后整治

23、,实现主动式数据治理和可持续数据治理数据治理健康度评估数据治理问题检测数据治理优化DataWorks基于多年沉淀的数据治理经验沉淀,构建了数据治理中心三大核心功能特性:事前检查项:治理问题的预防卡点事后治理项:存量问题的挖掘整治五个维度量化评估体系:研发、质量、安全、存储、计算解决问题:不知道如何着手数据治理,原子化功能虽有但不知道如何下手 数据治理工作成效的量化和可视化问题 用户的数据治理过程不可持续,缺乏可持续运营机制DataWorks 开放平台助力企业实现个性化数据治理数据治理没有银弹,存在差异需求,DataWorks提供完全的开放性来满足企业自定义数据治理的诉求扩展程序(Extensi

24、ons)扩展点(Extension Points)DataWorks 开放平台生态伙伴 SaaS行业数仓建模行业数据治理搬站上云分销商对接系统集成效能提升联合解决方案数据安全行业业务场景开放接口(Open API)开放消息(Open Message)订阅消息订阅消息回调API调用APIDataWorks 数据开发与治理平台对比数据湖数据仓库方法论存储类型事后建模Schema-on-read事前建模Schema-on-Write结构化/半结构化/非结构化结构化/半结构化计算引擎向所有引擎开放各引擎有限优化向特定引擎开放易获得高度优化成本易启动难运维管理难启动易运维管理(甚至免运维管理)数据治理质

25、量低难管理使用质量高易管理使用灵活性企业级能力打破数据湖与数据仓库割裂的体系,架构上融合数据湖的灵活性生态丰富和数据仓库的企业级能力Why湖仓一体?DataWorks统一存储/统一元数据,打通数据体系,利用“智能数仓”技术针对不同的数据和业务,做自动分类存储和处理通过DataWorks开发平台提供跨湖仓的统一开发体验和数据中台能力湖仓集成湖仓统一开发平台湖仓统一数据管理与治理湖仓智能数据分层数据仓库数据湖任务流动元数据统一数据流动跨平台高速网络下一代数据平台架构,满足复杂现状下架构的灵活升级智能进化融合即焕新,一体两面的湖仓一体互联网数字政府金融阿里云DataWorks已经与数千家企事业单位的“数字化转型”一路同行工业制造零售游戏文化传媒保险交通物流能源 电力证券医疗卫健教育公共服务

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(3-1 企业数据中台的智能进化—全链路数据治理.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部