上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

基于DataOps构建数据生产流水线 -20230405.pdf

编号:122849 PDF 35页 11.69MB 下载积分:VIP专享
下载报告请您先登录!

基于DataOps构建数据生产流水线 -20230405.pdf

1、基于DataOps构建数据产流线易数帆 数据产品专家 徐华1、DataOps相关介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索AgendaDataOps背景介绍DataOps解决的问题1、DataOps相关介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索Agenda易数据的发展历史2006分布式数据库、分布式件系统、分布式搜索引擎,三驾撑了易互联2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014数据平台猛犸、易有数上线,加速了数据规模化应2017易数据正式对外商业化2018

2、易严选、考拉、乐、新闻等业务相继开始数据中台构建,易发布“全链路数据中台”解决案2020易提出“数据产”理念,倡导“数据、时时数据”2022易发布数据治理和数据开发体化“数据治理 2.0”解决案数据资产中数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量单数据脱敏安全等级敏感识别权限申请数据安全原/派指标系统模型设计中版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据

3、录数据检索资产户数据缘数据地图基于DataOps 全命周期数据开发数据计算、存储引擎HDFS/S3Arctic(实时数据湖)Yarn/K8s动化运维管理活动管理CDP群圈选渠道触达活动分析易数据产品矩阵助取数数据准备移动端数据屏数据填报复杂报表机器学习交互式建模在线推理可视化建模训练任务sparkhiveImpalaflink易数据的客户华泰证券华福证券上消费江苏农信好未来海亮教育南报中七院记忆科技昆钢温集团九州通福建电绿瘦中国能建投南钢浙交规浙江移动东北证券发证券证券杭州联合银泰康资产湖地产美素佳宁钢中国电信维通地上铁杭州银华夏银国新证券Agenda1、DataOps背景介绍 2、易数据概述

4、 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索淋淋的教训 在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别30W产事故。在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给客发了红包,造成P1级别 20W的资损。数据开发任务变更导致的产环境数据问题占达到65%!为什么会出现这些问题?任务依赖复杂,某客户有9540个任务依赖上游,下游任务有17层任务依赖,数据开发在变更任务的时候,根本不知道下游涉及的影响。任务变更缺少数据测试,因为缺少动化具的撑,导致很多任务,未经过严格的数据测试,甚有16%的任

5、务都未运过,就提交上线,最终导致产事故发。缺少全链路影响分析缺少动化数据测试任务的发布缺少发布审核,涉及核资产的任务变更缺少管控。任务发布上线更改随意,没有经过发布审核,Code Review相关环节,甚核任务变更,相关负责都不知道。缺少发布管控任务依赖容易缺失,任务依赖配置复杂,很容易造成缺失,任务空跑,最终下游数据出错。任务依赖容易缺失DataOps敏捷、质量数据平台的DataOpsDataOps是种将软件程CI/CD的法融数据开发的流程,基于动化的数据测试、任务发布等技术,构建数据发布流线,使得数据开发效率更、交付更加频繁,交付质量更有保障。DataOps要解决的问题:研发过程中需求频繁

6、变化,如何确保数据的质量阶段性成果能够更快速地被验证通过引数据测试,将质量保障前置获得了Gartner分析师(Julian Sun)认可,被Gartner评为数据中台标杆供应商数据发布流线编码测试编排代码审查发布审核部署上线数据开发IDE多版本管理(含调度)代码扫描UDF Studio数据沙箱依赖调度智能任务依赖推荐参数组数据对数据形态探查代码对诊断报告审批动化定义审核流程动化回归基于优先级资源调度智能诊断资源组效能具DataOps基线预警流程协作Continuous IntegrationContinuous DeliveryContinuous Deployment冻结池、加速器代码扫描结

7、果Agenda1、DataOps背景介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索环节:编码场景是什么?新任务开发任务修改代码编辑任务回滚户要什么?快速定位录查找任务查找录快速定位录快速定位任务易的IDE任务对键回滚DataOps能录搜索及定位录搜索任务搜索代码搜索件夹定位任务定位动联想、错误提醒、语法亮、动缩进、快捷键、代码折叠、快速查看、代码扫描、运部分代码、代码分享、结果复制分享及下载多版本管理dwsdwdodsdimdml_dwddml_dwsdml_dim主要内容:完成数据处理任务的代码编写。环节:编码dwsdwdodsdimdml

8、_dwddml_dwsdml_dim主要内容:完成数据处理任务的代码编写。参数组资源组公共资源UDF环节:编排主要内容:构建任务依赖DAG。环节:编排智能推荐依赖第步 系统解析SQL,产出输表环节:编排第步 基于任务缘推荐依赖智能推荐依赖环节三:测试可能会遇到的场景:1.关于源头表数据质量:需要使ODS源头表进数据处理,这个表有没有问题?2.关于修改历史任务:修改原有任务的逻辑,需要新建测试表,修改代码,很麻烦,有没有?3.关于表模型重构:的表下游需要迁移,哪来的勇让下游闭眼迁?4.关于团队新:代码平不过硬,未测试就上线,出了问题,这崭新的锅谁来背?环节三:测试数据开发需要这 5 项能:数据形

9、态探查主键 枚举值分布 字段探查数据沙箱产测试库 代码修改数据对全量/抽样对 主键关联/MD5关联 忽略项设置 表级和字段级差异强制测试提交前必须测试代码扫描提前发现代码问题数据形态探查值域枚举值分布空值例重复情况最度/最度数据对全量/抽样主键关联/MD5关联环节三:测试环节三:测试开发平台调度集群YarnYarn_DevHDFS_DevHDFSMetaStore(共享元数据)线上模式开发模式产、测试物理集群隔离,互不影响开发模式下,从产和测试集群下读取数据,写到测试集群线上模式下,法从测试集群读取产数据,写产集群,避免产集群数据被污染开发集群和产集群,套代码,直接运,不需要发布修改代码数据沙

10、箱:开发模式产模式代码扫描环节三:测试代码规范类 代码质量类 代码性能类 定义规则 其它规则环节四:代码审查为什么需要代码审查?法规则化检测的场景,或者代码扫描为弱规则的,需要review。谁去审查?数据团队架构师,或相对资深的数据开发员,或者数据开发交叉审查。审查什么?提交业务逻辑表关联处理数据加逻辑提交数仓规范代码格表和字段的命名规范代码注释完整性提交安全问题破坏性SQL敏感数据外泄提交性能问题发现代码性能问题提交代码扫描弱规则分区表未指定分区使固定分区使“distinct”关键字使“create”关键字使“drop”关键字使“truncate”关键字环节四:代码审查代码对:差异亮显示环节

11、五:发布审核在完成代码审查后,任务正式上线时,可以通过单流转审批,验证任务的各项配置。审什么?谁来审?审批依据是什么?任务范围怎么定?怎么节约审批者的时间?任务环节五:发布审核审什么?SQL代码调度配置依赖输出结果表谁来审?级审批:QA级审批:数据架构师环节五:发布审核审批依据是什么?数据准确性数据对形态探查下游影响影响标签下游表数量下游任务数诊断报告版本差异明细版本差异汇总SQL代码差异对 调度配置对 依赖差异对环节五:发布审核任务范围怎么定?数据导任务明细层任务汇总层任务应层任务数据导出任务报表API1.任务直接圈选 设置某件夹为强制审批范围,所有件夹中的任务提交上线需要审批2.基于任务产

12、出的影响 设置产出表的标签,所有上游表的产出任务需要单审批 设置影响的下游任务、表的数量的阈值3.任务修改规则命中 设置需要审批的策略,如设置修改基线、任务优先级、队列等需要审批环节五:发布审核名单机制 指定时间范围,如00:00-08:00 指定成员或,如项负责、值班员等 轻度修改 修改调度时间 修改依赖 下游 没有下游任务,或产出表下游使的低优先级任务怎么节约审批者的时间?动审批环节六:部署上线“基于优先级的调度”需要Yarn集群为CS调度持L1-L4共4级优先级持临时调整为更的L5L6级“智能诊断”任务运失败快速定位问题,给出解决案(待完善)“基线预警”持天、周、调度任务设置基线持预警、预计破线、已破线、任务失败报警“冻结池”键冻结异常任务及所有下游键重跑所有被冻结任务“加速器”圈定的任务可运,其它任务冻结愿望:平稳定运,遇到问题快速定位和恢复!Agenda1、DataOps背景介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索跨环境键发布PRD环境任务版本V5版本V1开发模式上线DEV环境任务版本V5版本V1开发模式上线发布中发布中能平台资源批量打包多种隔离级别的键发布在线发布、在线拉取、导出导版本对开发模式&线上模式定义发布流程Thank You

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于DataOps构建数据生产流水线 -20230405.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部