《傅正-网易基于DataOps的数据中台实践.pdf》由会员分享,可在线阅读,更多相关《傅正-网易基于DataOps的数据中台实践.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、网易基于DataOps的数据中台实践主讲人:傅正演讲嘉宾介绍傅正网易数帆大数据产品架构师 8年ICT、互联网领域从业经验,长期参与从事产品的设计、推广、运营等相关工作 在大数据产品方面有较丰富的经验,专注于BI、数据开发、数据治理等领域,主要负责指导网易数帆大数据产品功能设计、商业化推广及交付、产品功能客户场景落地CONTENT目录2023K+01网易大数据概述DataOps 1.0:敏捷、高质量开发实践DataOps 2.0:开发治理一体化实践0203DataOps 行业实践04Part 01网易大数据概述网易大数据发展史支撑网易多级数据中台架构任务规模 20W+,DAU 2000+行业头部
2、客户大规模应用金融、制造、流通、国央企2006离线大数据平台DDB、DFS、NEMR有数BI实时计算平台数据中台全链路数据生产力平台DataOps数据治理2.0引入开源Hadoop20020202220152009工具平台+方法论数据生产力模型数据生产力一个愿景三个方法论广义上:通过使用数据带来组织生产力提升。狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。人人用数据,时时用数据DataOps、DataFusion、DataProduct网易数帆大数据产品矩阵数据资产中心数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数
3、据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量工单数据脱敏安全等级敏感识别权限申请数据安全原子/派生指标系统模型设计中心版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据门户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据目录数据检索资产门户数据血缘数据地图基于DataOps 全生命周期数据开发大数据基础平台NDHHDFS/S3Arctic(实时数据湖)YARN/Kubernetes自动化运维管理活动管理CDP人群圈选渠道触达活动分析自助取数数据准备移动端数据大屏数据填报复杂报表机器学
4、习交互式建模在线推理可视化建模训练任务SparkHiveImpalaFlinkPart 02DataOps 1.0:敏捷、高质量开发实践前DataOps时期:单次数十万资损的教训电商业务三单有礼:上游任务变更,导致下游涉及资损数据计算异常,造成 P1级别30W 生产事故。电商业务新人奖励:订单标签任务依赖配置缺失,导致下游任务空跑引发数据异常,误给老客发红包,造成 P1级别 20W 的资损。任务依赖人肉配置,漏配、错配频发,导致下游数据出错。16%的任务未运行过就提交上线,最终导致生产事故发生。任务发布上线更改随意,未经审核和Code Review。任务依赖容易缺失缺少自动化测试缺少发布管控W
5、hy?资损事故多次发生DataOpsDevOpsDataOps是一种敏捷的数据开发模式,将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使数据开发效率更高、交付周期更短、交付质量更有保障。研发过程中需求频繁变化阶段性成果能够更快速的被验证通过引入数据测试,将质量保障前置What?What for?网易DataOps1.0:数据发布流水线编码测试编排代码审查发布审核部署上线 数据开发IDE 多版本管理(含调度)SQL Scan UDF Studio 数据沙箱 依赖调度 智能任务依赖推荐 参数组 数据比对 数据形态探查 Code Reivew
6、 发布包 全链路影响分析 自定义审核流程 自动化回归 任务模板(组件库)基于优先级资源调度 智能诊断 资源组效能工具DataOps 基线预警Continuous IntegrationContinuous DeliveryContinuous Deployment SLA发布管控+自动化测试+依赖配置+环节一:编码场景新任务开发、老任务修改、代码编辑、任务回滚等需求快速定位目录、快速定位任务、优秀的IDE、任务比对、一键回滚DataOps能力目录、任务、代码等搜索定位自动联想、错误提醒、语法高亮、代码折叠、代码扫描、代码分享等多版本管理环节二:编排场景依赖调度、构建任务依赖DAG等DataOp
7、s能力智能依赖推荐:通过系统解析SQL代码,基于任务血缘推荐依赖环节三:测试场景源头表数据质量:需要使用ODS源头表进行数据处理,这个表有没有问题?修改历史任务:修改原有任务的逻辑,需要新建测试表、修改代码。很麻烦,有没有?表模型重构:老的表下游需要迁移,哪来的勇气让下游闭眼迁?团队新人:代码水平不过硬,未测试就上线,出了问题,这口崭新的黑锅谁来背?DataOps 5项能力数据形态探查01数据比对02数据沙箱03代码扫描04强制测试05环节四:代码审查为什么需要代码审查?无法规则化检测、代码扫描为弱规则、需要人工review的场景。谁负责审查?数据团队架构师、资深数据开发人员、进行数据开发交叉
8、审查的人员。审查范围业务逻辑:表关联处理、数据加工逻辑。数仓规范:代码风格、表和字段的命名规范、代码注释完整性。安全问题:破坏性SQL、敏感数据外泄。性能问题:代码性能问题。代码扫描规则:分区表未指定分区、使用固定分区、使用“distinct”关键字、使用“create”关键字、使用“drop”关键字、使用“truncate”关键字。环节五:发布审核审批依据诊断报告:版本差异汇总、版本差异明细下游影响:影响标签、下游表数量、下游任务数数据准确性:数据比对、形态探查分级分类-节约审批者时间轻度修改:修改调度时间、修改依赖等等白名单机制:指定时间范围,比如0:00-08:00;指定成员或角色,比如
9、项目负责人、值班人员等无下游:没有下游任务,或产出表无下游使用的低优先级任务环节六:部署上线运行稳定、遇到问题能快速定位解决基于优先级的调度 调度和优先级相结合基线预警 支持为天、周、月调度任务设置基线 支持基线的预警、破线时间预估、任务失败报警冻结池 一键冻结异常任务及所有下游 一键重跑所有被冻结任务加速器 圈定的任务可运行,其它任务冻结 任务运行失败快速定位给出解决方案智能诊断Part 03DataOps 2.0:开发治理一体化实践数据消费依然存在的困扰 数据开发自行开发所需数据表,公共逻辑未沉淀,重复建设多 近义指标膨胀现象 传统建模为了满足业务快速交付,开发流程约束收效甚微原因分析 3
10、7%的表存在命名不规范问题 相同的字段,有8种以上的字段命名 没有定义数据的安全规范,数据分级分类无法得到实施现象 缺乏标准,建模随意原因分析 数据质量稽核规则覆盖率只有10%70%的相同数据项,稽核规则和/或阈值设置不一致现象 质量稽核规则没有配置依据,依赖人员对数据的理解程度原因分析烟囱式开发质量规则覆盖不佳规范缺失网易DataOps2.0:数据开发治理一体化将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中就完成数据治理数据标准指标设计模型设计离线开发数据传输数据测试设计阶段测试阶段自助分析任务发布上线阶段日常监控数据质量监控先设计,后开发,先标准,后建模开发阶段数据
11、标准:确保规范落地指标设计:业务需求沟通对齐模型设计:让架构更健壮数据开发数据治理数据质量安全中心开发治理一体化:以数据标准为根本需求数据抽取数据探查数据建模数据开发数据质量任务发布持续运维数据标准数据安全通过数据元承载格式及值域规范并自动生成稽核规则数据建模直接应用数据标准中数据元和元模型数据标准打通各模块的方式根据表绑定的数据标准所关联的稽核规则,自动添加到表的稽核监控根据表绑定的数据标准所关联的安全规则,自动应用到数据脱敏任务数据标准设计内容命名规范数据标准格式规范值域规范质量规范安全规范开发治理一体化:以全生命周期元数据为底座全生命周期的元数据接受了来自设计、开发、消费过程中的所有元数
12、据,让元数据更加完备,形成数据资产数据抽取数据探查数据建模数据开发数据质量数据服务数据安全数据标准统一元数据找得到看得懂信得过管得了数据资产数据生命周期开发过程元数据设计过程元数据消费过程元数据关联的标准需求满足率资产活跃度用户评价模型定义安全等级血缘物理表定义质量报告两种治理模式的对比 一步到位,长效解决 随着需求增多,口径不统一越严重先污染后治理 缺统一衡量标准,价值难以度量 无持续优化机制运动式治理一体化模式传统治理模式开发治理一体化:给管理者的建议科学的评估体系:构建资产健康分,让治理价值可量化完善的工具平台:数据标准产品化持续的数据运营:组织流程打通,数据文化建设关注数据消费,成果可
13、衡量,治理可改进开发治理一体化,保障数据流水线高质量运行先设计,后开发,先标准,后建模三个核心原则三大落地支撑开发治理一体化:数据文化建设Part 04DataOps 行业实践开发治理一体化:网易落地成果规范 先标准后建模,确保了表、字段、指标命名的一致性及规范性 字段标准化率达到 80%,字段及指标的安全等级已完成 100%设置效率 先设计后开发极大程度保证了公共层逻辑下沉 相同需求对应指标数量缩减 48.7%云音乐模型复用度从2.4%提升到 9.6%,下线 3.4W 个模型质量 自动根据数据标准生成质量稽核规则 规则覆盖率达到 65%,单个任务的配置效率提升约 70%严选质量覆盖率提升 1
14、00%开发治理一体化:某运营商遇到的问题调度工具开发工具数据血缘质量管理主数据管理元数据管理厂商3厂商1厂商2厂商4其他多厂家、工具割裂厂商1厂商2厂商3厂商4分公司其他MPP调度上传集团BSS数据智慧人力业务稽核万号数据数据标签精准营销MSS数据政企应用星级维系资产落地本地应用网络数据网管采集问题:数据标准、数据质量与数据开发严重脱节,规范只能停留在字典层面,无法融入数据生产的流程中,不能有效的落地执行和监督。不同厂商、不同工具之间严重割裂,数据质量的稽核规则无法和数据标准中数据元的值域约束打通,数据标准中数据元无法跟数据建模工具无法联动,元数据管理中的数据安全等级和安全中心的数据脱敏无法联
15、动。开发治理一体化:某运营商落地成果由数据中台统一为仓库、经分、网络集群提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于程序上下线、建表等操作实现在线化、流程化操作,一方面减少人工并提升效率,一方面完善数据管控的过程。模型设计与开发程序开发程序测试审核上线1-模型定义创建模型基础信息定义模型的元数据2-构建表结构添加模型字段信息提供手工/批量方式3-编辑模型应用程序固化常用程序命令,拖拽式使用图形化界面,自由配置处理逻辑4-数据在线测试提供WEB界面可视化测试功能;查看执行时长、执行状态等信息,方便开发人员调试,性能分析5-提交审核开发人员建立上线任务,提交审核6-上线运行运
16、维人员审核通过,上线运行在上线时按照标准规范进行控制,包括命名规范,信息完整性,合理性等,不符合标准规范则不予上线将数据开发与数据治理有机结合起来,既是对开发过程的管控,也是保障数据质量的有效方法。标准规范执行生产流程管控流程数据中台已有用户数270+人,已迁移上线作业数8000+个,数据质量稽核数100+个,自助分析累计60000+次,已导入元数据模型数1500+套,初步具备作业调度和元数据统一管控能力。开发治理一体化:某券商落地成果标准:公司内数据孤岛现象严重,阻碍数据内部共享质量:数据质量难以及时满足业务预期,无法助力数据挖掘产生价值安全:难以兼顾数据流通和数据安全的平衡三大痛点组织架构:结合企业组织架构及人员配置落实数据治理工作、权责分担机制业务流程:针对存量数据、新增数据制定不同的治理流程,并做到仓内仓外元数据统一管理产品工具:将整个数据治理流程贯穿于各个子产品模块中,打造开发与治理一体化的数据中台重要举措数据标准管理:基础数据标准179个,指标数据72个,搭建统一的公共字典合计7个词根新增159个,制定两套数据标准分类方案。数据质量管理:累计沉淀400余项数据质量规则。数据安全管理:基于数据分级分类的数据服务审批流程上线,基于脱敏数据在开发环境进行开发和任务发布的研发流程打通。落地成果(截至2022年)治理目标:数据资产化、数据价值化、数据智能化THANKS