上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

6-1 网易数帆数据治理2.0实践分享.pdf

编号:102361 PDF 42页 8.04MB 下载积分:VIP专享
下载报告请您先登录!

6-1 网易数帆数据治理2.0实践分享.pdf

1、数据治理2.0 思考与实践演讲人:郭忆 网易数帆大数据产品技术负责人|AGENDA网易数帆大数据1为什么数据治理项目经常失败?2网易数帆数据治理 2.03网易数帆数据治理的实践案例4领先的数字化技术与服务提供商郭忆 网易数帆大数据产品技术负责人 研究生毕业于天津大学,计算机应用专业 十年数据相关系统设计和研发经验 构建了网易数帆数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、有道、邮箱等数据中台项目建设 多次受邀在全球开发者大会(QCon)、全球互联网架构大会(GIAC)、中国数据库大会(DTCC)、系统架构师大会(SACC)分享网易数据建设实践经验 极客时间专栏数据中台实战课作者,订阅量

2、超过19000+|领先的数字化技术与服务提供商网易数帆大数据的发展历史|2006分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014大数据平台猛犸、网易大数据(有数)上线,加速了大数据规模化应用2017网易数帆大数据正式对外商业化2018网易严选、考拉、音乐、新闻等业务相继开始数据中台构建,网易数帆发布“全链路数据中台”解决方案2020网易数帆提出“数据生产力”理念,倡导“人人用数据、实时用数据”2022网易数帆发布数据治理和数据开发一体化“数据治理 2.0”解决方案领先的数字化技术与服务提供商网易数帆大数

3、据产品矩阵|数据资产中心数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量工单数据脱敏安全等级敏感识别权限申请数据安全原子/派生指标系统模型设计中心版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据门户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据目录数据检索资产门户数据血缘数据地图基于DataOps 全生命周期数据开发有数大数据基础平台NDHHDFS/S3Arctic(实时数据湖)Yarn/K8s自动化运维管理活

4、动管理CDP人群圈选渠道触达活动分析自助取数数据准备移动端数据大屏数据填报复杂报表机器学习交互式建模在线推理可视化建模训练任务SparkHiveImpalaFlink领先的数字化技术与服务提供商网易数帆大数据商业化定位|我们是一个基础软件提供商1我们支持跨云的战略2未来的大数据软件市场一定是分层的软件市场3领先的数字化技术与服务提供商网易数帆大数据产品优势|网易集团内部业务的长期实践支持跨云部署领先的方法论开源技术体系行业落地案例网易出品,必属精品领先的数字化技术与服务提供商网易数帆大数据输出模式|产品输出服务输出知识输出产品工具实施服务知识转移运维服务领先的数字化技术与服务提供商他们都在用网

5、易数帆大数据|华泰证券华福证券华夏银行马上消费江苏农信好未来海亮教育南方日报中山七院记忆科技昆钢温氏集团九州通福建电力杭州银行绿瘦中国能建投南钢浙交规浙江移动浙商银行东北证券广发证券民生证券杭州联合银行泰康资产龙湖地产美素佳儿比心宁钢中国电信八维通地上铁AGENDA网易数帆大数据1为什么数据治理项目经常失败?2网易数帆数据治理 2.03网易数帆数据治理的实践案例4领先的数字化技术与服务提供商我们为什么要做数据治理?|企业数字化转型两个阶段信息化系统取代线下流程数据+算法取代拍脑袋决策在线化数智化数据生产力:通过使用数据带来组织生产力的提升愿景:人人用数据,时时用数据DataOps(数据研发)D

6、ataFusion(数据治理)DataProduct(数据产品)领先的数字化技术与服务提供商网易数帆大数据生产力架构|业务系统(流程)数据产品(触点)数据中台(底座)低质量、原始数据高质量、带口径指标持续监控、异常诊断、业务决策数智化领先的数字化技术与服务提供商数据治理是我们把数据推向业务的基石|找不到60%的数据都没有挂靠数据目录数据零散的分布在多套Hadoop和数据仓库之间数据开发效率低、质量差38%的需求交付存在延期65%的数据质量问题都是由数据开发任务变更导致看不懂78%的元数据都存在缺失,尤其是管理元数据和业务元数据信不过每周都有10个以上的数据质量问题被投诉,且90%都是业务先发现

7、数据脱敏规则漏配,导致供应商数据被泄漏管不过78.39%的表,占据了21.63%的存储,在30天内都无人访问数据报表,在30天内都无人访问,每个月需要花费4W块钱,成本管控难度大每个月都有5次以上的事故跟业务滥用大查询相关领先的数字化技术与服务提供商传统数据治理 1.0|数据标准数据质量元数据管理元数据采集元数据注册元数据扫描元数据发布元模型数据元数据字典标准发布一致性及时性完整性有效性准确性唯一性领先的数字化技术与服务提供商问题一:数据开发与数据治理脱节|数据质量与数据开发脱节数据质量稽核规则的覆盖率只有10%70%的相同的数据项,稽核规则存在不一致,阈值设置不一致数据标准与数据建模脱节37

8、%的表存在命名不规范问题相同的字段,有8种以上的字段命名数据标准与数据安全脱节数据开发和数据标准脱节数据安全策略与数据标准的不一致任务无法按照资产等级进行有效管理元数据与任务运维和开发脱节字典映射与ETL不一致领先的数字化技术与服务提供商问题二:缺少对不同平台的统一管理|TDHOracleMySQLDorisClickHouseGreenplumVerticaTiDBCDHFusion insight不同计算、存储引擎,增加了用户找数据,理解数据,用数据的成本!关系型数据库分析型数据库数据湖领先的数字化技术与服务提供商问题三:忽视了数据开发过程中的效率、质量问题!|在某电商业务中,业务三单有礼

9、,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别30W生产事故。在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老客发了红包,造成P1级别 20W的资损。数据开发任务及配置导致65%数据问题数据开发任务变更导致的生产环境数据问题占比达到65%!领先的数字化技术与服务提供商问题四:没有解决烟囱式的数据开发|TableTableTableTableTableTable指标口径不一致数据重复开发,带来的效率问题数据重复计算带来的资源使用问题没有解决烟囱式的数据分析带来的效率、成本挑战!领先的数字化技术与服务提供商问题五:对数据价值和成本的评估不足|78.3

10、9%表占据了21%存储空间,30天内都无人使用62%报表在30天内无人使用,平均每张报表每个月花费3w块钱每个月有3次以上事故跟资源不合理使用有关领先的数字化技术与服务提供商问题六:数据治理的过程缺少量化的手段|数据质量数据安全数据价值数据建模数据成本规范设计领先的数字化技术与服务提供商问题七:数据治理的过程缺少持续反馈的闭环|元数据缺少持续改进的闭环数据质量缺少持续改进的闭环资源精细化管理缺少持续反馈的闭环AGENDA网易数帆大数据1为什么数据治理项目经常失败?2网易数帆数据治理 2.03网易数帆数据治理的实践案例4领先的数字化技术与服务提供商到底什么是数据治理?DAMA|DAMA:数据治理

11、是对数据资产管理行使权利和控制的活动集合(规划、监督和执行)数据治理数据建模与设计数据存储与操作数据安全数据集成和互操作文件和内容管理参考数据和主数据管理数据仓库和商务智能元数据管理数据质量管理数据架构重点:DAMA 规定了数据治理的11个数据管理的职能,告诉我们数据治理应该干什么事情,对数据治理有一个很清晰的边界缺少具体的落地方法以及检验方法领先的数字化技术与服务提供商到底什么是数据治理?DCMM|DCMM数据战略数据生存周期数据治理数据架构数据标准数据质量数据安全数据应用DCMM 数据管理能力成熟度评估模型,由国家工信部、国家标准化委员会组织编写,是有个数据治理领域的国家标准。重点:给出了

12、数据治理的评估方法缺少数据治理的具体行动方法领先的数字化技术与服务提供商网易数帆对数据治理的理解|基于DataOps 全生命周期数据开发数据标准数据安全数据质量数据资产数据建模元数据管理数据服务数据分析主数据管理主数据管理,解决的跨业务、跨系统、跨流程的企业核心数据一致性、权威性和正确性问题。面向数据分析的数据治理,解决的是数据分析过程中效率、质量、安全、成本、标准、价值问题。面向数据分析的数据治理(狭义数据治理)企业全域数据治理(广义数据治理)面向业务系统的数据治理领先的数字化技术与服务提供商网易数帆数据治理的方法论 DataFusion|网易数据治理的方法论,将传统数据治理的方法融入数据开

13、发的全生命周期中,基于DataOps全生命周期数据开发底座,采用数据中台的数据架构,结合了网易特色的基于ROI的数据资产化实践,我们将其称为数据治理2.0核心亮点:开发与治理一体化逻辑数据湖采用DataOps的数据开发底座数据中台架构,解决烟囱式数据开发基于ROI的数据资产沉淀DataFusion数据建模数据质量元数据数据安全数据标准指标管理基于ROI数据资产数据服务领先的数字化技术与服务提供商数据开发与治理一体化|需求数据建模数据抽取数据探查数据开发数据稽核任务发布持续运维数据标准通过数据探查,生成值域约束数据标准在数据元、元模型上绑定稽核规则数据建模引用数据标准中数据元和元模型根据表绑定的

14、数据标准所关联的稽核规则,自动添加到表的稽核监控数据标准是解决数据质量问题的最根本的解决方法数据安全领先的数字化技术与服务提供商基于DataFabric逻辑数据湖|元数据注册元数据采集元数据扫描元数据发布业务过程模型设计维度度量Integrated LayerHive CatalogMySQL CatalogGreenplum CatalogHiveMySQLGreenplumBI(可视化图表)自助取数(拖拽取数)物化视图Clickhouse数据抽取构建CubeCube管理Cube 推荐圈选数据集relationships领先的数字化技术与服务提供商基于DataOps的数据开发底座|编码测试编

15、排代码审查发布审核部署上线数据开发IDE多版本管理(含调度)SQL ScanUDF Studio数据沙箱依赖调度智能任务依赖推荐参数组数据比对数据形态探查Code Reivew发布包全链路影响分析自定义审核流程自动化回归任务模板(组件库)基于优先级资源调度智能诊断资源组效能工具DataOps基线预警流程协作Continuous IntegrationContinuous DeliveryContinuous DeploymentSLA领先的数字化技术与服务提供商数据中台的架构|数据中台架构统一指标管理体系高复用、规范公共层模型数据服务化领先的数字化技术与服务提供商基于ROI的数据资产沉淀|核算

16、每个任务、查询、表的计算、存储资源消耗,折算到钱,且分摊到每个数据报表,数据服务API应用层面“剥洋葱”式数据下线,从下游不再使用的数据应用开始,逐层向上游任务和数据下线归档任务和查询成本预估,对于高消耗任务和查询,进行审批管控领先的数字化技术与服务提供商量化的指标监控和分析|领先的数字化技术与服务提供商持续运营 元数据质量发现和反馈|数据开发数据产品数据治理专员(业务部门)数据资产消费者数据治理部门数据建模数据标准元数据注册元数据审核数据开发元数据扫描发布到资产门户发现问题,申请治理指派工单修正元数据审核发布修正元数据修正技术元数据领先的数字化技术与服务提供商企业数据文化的建设|数据文化:数

17、据分析大赛、数据治理大赛、数据可视化大赛数据开发工程师、数据可视化分析工程师资格认证组织建设数据治理部,作为数据治理运营部门业务部门配备数据治理专员制定数据治理分数,作为红黑榜,推动业务部门的重视与公司内部流程引擎结合,实现数据治理流程的工具化流转领先的数字化技术与服务提供商数据生产力组织架构|数据智能部CDO数据治理专员(业务部门)指标管理员应用产品PD数据产品数据开发数据架构师数据开发工程师数据应用Java开发大前端开发数据治理数据管理员数据分析数据分析师平台运维系统运维工程师大数据运维工程师应用运维工程师数据测试数据测试工程师领先的数字化技术与服务提供商面向治理的体系建设|愿景:人人用数

18、据、时时用数据政策数据源管理政策信息架构管理政策主数据管理政策数据安全管理政策工具组织流程考核一票否决权红黑榜技能认证考试问题追责数据质量管理流程数据源认证流程数据安全管理流程元数据发布流程数据开发部数据治理部数据产品部业务部门数据治理专员数据分析部数据质量中心元数据管理数据标准指标系统模型设计中心模型资产中心数据地图领先的数字化技术与服务提供商数据战略|人人用数据、时时用数据中期规划管理创新产品创新模式创新短期规划找得到看得懂信得过管得住长期规划领先的数字化技术与服务提供商企业数据资产门户 一站式数据消费平台|AGENDA网易数帆大数据1为什么数据治理项目经常失败?2网易数帆数据治理 2.0

19、3网易数帆数据治理的实践案例4领先的数字化技术与服务提供商某大型运营商|调度工具开发工具数据血缘质量管理主数据管理元数据管理亚信思特奇鸿程国信其他多厂家、工具割裂鸿程思特奇国信亚信分公司其他MPP调度上传集团BSS数据智慧人力业务稽核万号数据数据标签精准营销MSS数据政企应用星级维系资产落地本地应用网络数据网管采集在引入网易数帆一站式工具平台前面临问题:数据标准、数据质量与数据开发严重脱节,规范只能停留在字典层面,无法融入数据生产的流程中,不能有效的落地执行和监督。不同厂商,不同工具之间严重割裂,数据质量的稽核规则无法和数据标准中数据元的值域约束打通,数据标准中数据元无法跟数据建模工具无法联动

20、,元数据管理中的数据安全等级和安全中心的数据脱敏无法联动。领先的数字化技术与服务提供商数据开发与治理一体化|由数据中台统一为仓库、经分、网络集群提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于程序上下线,建表等操作实现在线化,流程化操作一方面减少人工提升效率,一方面完善数据管控的过程。模型设计与开发程序开发程序测试审核上线1-模型定义创建模型基础信息定义模型的元数据2-构建表结构添加模型字段信息提供手工/批量方式3-编辑模型应用程序固化常用程序命令,拖拽式使用图形化界面,自由配置处理逻辑4-数据在线测试提供WEB界面可视化测试功能;查看执行时长、执行状态等信息,方便开发人员调

21、试,性能分析5-提交审核开发人员建立上线任务,提交审核6-上线运行运维人员审核通过,上线运行在上线时按照标准规范进行控制,包括命名规范,信息完整性,合理性等,不符合标准规范则不予上线将数据开发与数据治理有机结合起来,既是对开发过程的管控,也是保障数据质量的有效方法。标准规范执行生产流程管控流程数据中台已有用户数270+人,已迁移上线作业数8000+个,数据质量稽核数100+个,自助分析累计60000+次,已导入元数据模型数1500+套,具备作业调度和元数据统一管控能力。领先的数字化技术与服务提供商成果一览|质量质量问题下降了63%稽核规则覆盖率达到92%质量稽核规则、数据模型、数据标准的统一,解决了稽核规则完备性的根本问题数据使用用户规模从30+扩展到500+平台用户业务人员的比例从30%提升到98%梳理数据安全等级,治理非法权限策略1200+数据标准与数据安全策略(权限、脱敏)保持一致下线无用数据20%,年约节省成本超过100W构建了精细化的管理机制完成企业数据标准定标500+,发布电信行业数据标准申报行业标准规范价值安全成本标准效率需求延期率下降到1%平均需求交付时间从一周提升到3天

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(6-1 网易数帆数据治理2.0实践分享.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部