《大数据技术标准推进委员会:2023 DataOps实践指南(1.0)(19页).pdf》由会员分享,可在线阅读,更多相关《大数据技术标准推进委员会:2023 DataOps实践指南(1.0)(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、2DataOps 实践指南(1.0)版权声明本报告版权属于 CCSA TC601 大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:CCSA TC601 大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。3DataOps 实践指南(1.0)本指南的撰写得到了 DataOps 领域多家企业与专家的支持和帮助,主要参与单位与人员如下。参编单位:大数据技术标准推进委员会、中国农业银行研发中心、阿里云计算有限公司、福建新大陆软件工程有限公司、联通数字科技有限公司、平安银行股份有限公司、中国移动通信集团浙江有限公司、中国移动通信集团江
2、苏有限公司、中国工商银行股份有限公司、浩鲸云计算科技股份有限公司、海南数造科技有限公司、北京科杰科技有限公司、北京中软国际信息技术有限公司、杭州网易数帆科技有限公司、北京滴普科技有限公司、联想集团有限公司、华为终端有限公司、北京快手科技有限公司、中国人寿股份有限公司、极氪智能科技(杭州)有限公司、数梦工场科技有限公司。参编人员:尹正、田明慧、林木森、魏凯、姜春宇、闫树、王妙琼、李雨霏、阚鑫禹、张娇婷、周京晶、唐守忠、朱红伟、史珂宇、武兴叶、李林洋、陈荣耀、李成强、王溧、巫雪辉、朱坚、王项男、王兴杰、谭晟中、代立冬、聂励峰、华桊兴、项子林、李乌英嘎、岑伟迪、陈永刚、储晶星、王学亮、顾骧、廖云、徐
3、明、李家欣、彭洁思、黄孔元、黄升、王瀚、鲍立飞、林吉昌、郭振强、高海玲、张新君、符山、于鹏、邓正保、徐华、王金杰、樊友平、秦海龙、刘波、冯吉坤、马立志、李思民、曾鸣、陈梁、林啸鸣、刘珩、董西成、张蕤、韩江、陈学亮、曲明钰、范铮、姚海涛、赵松、方华、甘长华、崔晓峰、念灿华。同时感谢以下机构对本指南编写的指导与建议:上海浦东发展银行股份有限公司、上海新炬网络信息技术股份有限公司、杭州雅拓信息技术有限公司、度小满科技(北京)有限公司、杭州玳数科技有限公司、中电金信软件有限公司。特别鸣谢以下专家对本指南编写的指导与建议:朱红伟、李林洋、王溧、王项男、汪广盛、郭炜、张辉、黄孔元、鲍立飞、符山、秦海龙、林
4、啸鸣、赵松、马欢。编制说明4DataOps 实践指南(1.0)党的二十大报告提出要“加快建设现代化经济体系,着力提高全要素生产率。”数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。麦肯锡指出,到 2025 年,智能工作流程以及人与机器之间的无缝交互将成为企业的标准配置,大多数员工将使用数据优化工作的每个方面,企业的数据驱动能力将成为核心竞争力。而数据驱动的重点在于高效、高质量的数据供给能力,当前大多数企业存在数据链冗长、工具链杂乱、协作链脆弱等情况,导致取数难、用数难、管数难,无法支持企业
5、数据价值的高效释放。为有效克服以上问题,业界积极探索新型的数据开发范式,将敏捷、协作、精益等理念引入到数据开发流程中,逐步形成 DataOps 理念和方法。DataOps 通过构建高效协同机制、建立精细化数据运营体系、打造标准化与一体化的数据开发流程来提升数据开发效能,为企业的数据引擎“换挡提速”。当前,国内外 DataOps 的实践工作还处于起步阶段,其概念和实践方法论尚未形成,无法引导企业进行大规模的实践。为凝聚共识、开宗明义,大数据技术标准推进委员会(CCSA TC601)组织大型银行、通信运营商、头部互联网公司共同编写DataOps 实践指南(1.0),旨在总结各行业最佳实践,提炼核心
6、理论框架,推动 DataOps 理念的广泛应用,加速数据驱动型企业的能力建设。本指南将围绕 DataOps 助力企业高效、高质量释放数据要素价值为核心逻辑,阐述 DataOps 理念的演进历程、发展现状,重点讨论 DataOps 的概念内涵、价值作用、能力框架等,并对 DataOps 的发展进行展望。前 言5DataOps 实践指南(1.0)目 录图目录CONTENTS版权声明/2前 言/4图 1 DataOps 概念示意图/10图 2 DataOps 能力模型框架/14图 3 DataOps 数据流水线框架/15图 4 DataOps 保障措施框架/17(一)数据开发能力不足阻碍数据驱动型
7、企业建设/7(二)现有数据开发范式主要问题/7(三)DataOps 概念的演化/8(一)DataOps 能力模型/14(二)DataOps 核心环节/15(三)DataOps 实践保障/16(一)DataOps 概念定义/10(二)DataOps 的作用/10(一)文化变革/19(二)数智融合/19(三)闭环进化/19(四)内生安全/19发展背景DataOps 能力框架DataOps 概念及作用DataOps 未来展望01030204(一)数据开发能力不足阻碍数据驱动型企业建设/7(二)现有数据开发范式主要问题/7(三)DataOps 概念的演化/8发展背景017DataOps 实践指南(1.
8、0)(一)数据开发能力不足阻碍数据驱动型企业建设自 2014 年大数据写入国家政府工作报告起,我国开始重视大数据产业的发展,陆续发布了促进大数据发展行动纲要大数据产业发展规划(20162020 年)“十四五”大数据产业发展规划等多个国家级文件,建设数字中国、实施大数据战略成为了我国数字经济发展的核心主线。2019 年中央将数据上升到要素层面,2022 年“数据二十条”发布,提出建设数据要素市场体系,重点需要完善数据基础制度,加强数据要素、数据产品的供给能力。从企业侧来看,数字化转型的重点是构建数据驱动的能力,据波士顿公司旗下的 NewVantage Partners 公司 2022 年统计,9
9、7.0%的参与组织正在投资于数据计划,已有超过四分之一的企业建成为了数据驱动型的组织。麦肯锡全球研究院数据显示,数据驱动型组织在客户获取率、客户保留率和盈利机率方面分别实现了23倍、6倍和19倍的提升,未来数据驱动型企业将在数据要素市场竞争中抢得先机。成为数据驱动型企业,需要具备三大基本能力,一是坚实的数据平台,二是完善的数据管理体系,三是高效的数据产品与应用开发能力。经过 10多年的发展,大部分企业构建了以数据仓库、数据湖为基础的大数据平台,实现了海量数据的汇聚、集成、存储与计算。数据管理方面,随着数据管理能力成熟度评估的贯标推广(据统计,自2022年起,每年都有上千家企业完成相关评估工作)
10、,推动数据管理的理念快速普及,企业内数据管理体系逐步完善。当前,企业数据能力建设的主要矛盾是旺盛01.发展背景的数据需求与数据生产力不足之间的矛盾。据调研,头部运营商每月平均新产生200多个数据开发需求,平均响应时长为 1.5 至 2 周。展开来看,企业数据开发面临五大核心挑战,分别是数据需求的沟通不畅、数据产品交付的效率低下、数据开发与治理的割裂、数据工作协同差以及数据研发的投资收益比低,这些挑战是导致企业内数据生产力的低下的重要原因。(二)现有数据开发范式主要问题1数据需求不畅通数据开发人员和业务人员之间的沟通不畅,业务人员往往不能准确表达自己的数据需求,缺少一定的数据思维。同时,数据开发
11、人员也存在业务经验不足的问题,导致无法准确理解业务需求或者无法满足业务需求。数据需求在供需两端的沟通过程中存在歧义,产生信息差,并耗费了过长的时间,使得交付压力进一步增加。2产品交付效率低随着企业经营与管理活动对数据的依赖程度越来越高,数据需求数量呈爆发式增长,一些大型企业平均每年要面临上千项的数据需求压力。但由于数据研发人员的补充和培养需要较长的周期,导致数据研发引擎需要在超负荷运转的情况下进行交付。确保数据在各个环节中畅通无阻是保障数据工作正常运转的基础。然而,数据工作所涉及的环节链路较长,但数据研发的过程和管理较为松散,标准化、流程化程度低。在这种模式下,当数据研发团队面临大量需求的时候
12、,交付的效率明显不足。数据需求的交付需要一至两周的时间。8DataOps 实践指南(1.0)3开发治理两张皮数据研发工作早期重心侧重于数据的研发交付环节,缺乏对数据治理工作的意识和重视。企业普遍是“先研发、后治理”,在这种模式下,当企业发现数据问题时,数据早已进入到经营生产活动中并产生影响。此时再进行治理已经较难实现有效控制,质量问题一直在源源不断地产生。加之企业内部缺少全链路的数据监控,导致数据在交付端的质量堪忧。据某大型互联网企业统计,平均每发现 10个数据质量问题,其中 90%的问题都是被数据使用方发现。全链路监测与测试工作的缺失,直接降低了用数方对数据的信任程度。4跨域协同难推进通常情
13、况下,数据研发团队独立存在于软件研发、数据治理等团队,各自独立办公、独立考核。然而,良好数据的应用和产品开发需要明确的业务方向、可信与高效的数据支撑以及承载的软件共同支撑。当前这种职能上的割裂会导致跨团队间的协作和沟通成本极高。企业的组织管理机制阻碍了数据的丝滑流通与交付。5开发成本难管控数据需求激增的背景下,企业投入大量的存算资源与时间去响应需求,但其中一部分的需求是相似或利用率较低的。粗犷式的需求响应模式的背后是大量的存算资源与时间成本的付出。据了解,某互联网企业有 62%报表在 30 天内无人使用,每张报表所浪费的成本在 3 万元/月。面对目前数据开发范式遇到的瓶颈,企业需要一种现代化的
14、数据研发、运营、管理实践理论来引导企业高效用数、放心用数,确保数据能够在企业内安全、高质量、高效率地运转,进而释放出更大的数据要素价值,DataOps 理念应运而生。(三)DataOps 概念的演化“DataOps”一词首次出现于2014年,莱尼利伯曼(Lenny Liebmann)在文章中指出“DataOps是优化数据科学和运维之间协作的最佳实践”1。2018 年 9 月 Gartner 将 DataOps 纳入到数据管理技术成熟度曲线,定义 DataOps 为“一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化”2。对 DataOps 的定义与
15、当时组织的发展阶段及关注的重点问题有很大的关系。总体而言,DataOps 的提出是建立在大数据发展相对稳定和成熟之后,提出方多是厂商或咨询机构,提出的出发点包括强化数据工程的敏捷度、打通数据分析的管道等。1 3 reasons why DataOps is essential for big data success.IBM Big Data&Analytics Hub.Retrieved 2018-08-10.2 Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trig
16、ger Phase in 2018.Gartner.Retrieved 2019-07-19.(一)DataOps 概念定义/10(二)DataOps 的作用/10DataOps 概念及作用0210DataOps 实践指南(1.0)(一)DataOps 概念定义基于对我国大数据产业发展特征的研究以及对企业发展情况的调研,为了更好地引导企业安全、高效、高质量释放数据要素价值,重构数据生产力,我们从打造高效用数流水线,构建灵活保障机制的角度提出如下定义:数据研发运营一体化(DataOps)是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒
17、,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。值得注意的是,DataOps 解决的最核心问题是数据研发效能问题。其关注的是数据研发运营管理的全生命周期,而不仅仅是某一单独环节。在建设完善全局最优的研发流水线的过程中,要时刻注意与企业的业务战略对齐,配合相关的组织保障、安全保障和工具保障进行实践落地。(二)DataOps 的作用DataOps 作为一种新兴的数据管理方法,强调数据管理自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据成产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方
18、案。据 Gartner 预测:“到 2025 年以 DataOps 实践和工具为指导的数据工程团队的工作效率将比不使用DataOps 的团队高 10 倍。”1形成敏捷数据产品开发流程敏捷迭代,快速响应需求变化。基于敏捷开发方法,可以实现在整个数据处理流程中使用自动化工具和技术来实现快速、可靠和高效的数据交付。敏捷开发方法将数据处理流程划分为多个小部分,并在每个迭代周期中完成一部分数据处理任务,从而实现提速数据交付的目标。CI/CD 流程可以实现快速的数据处理流程部署,从而达成连续交付和自动化测试等目标。自助服务,主动利用数据资产。随着企业内成员数据文化水平的提高,数据需求方可以主动利用自助分析
19、平台进行数据指标、报表、驾驶舱等任务的开发,快速满足自身需求。同时要求自助分析平台能够提供完备的数据资产目录、低门槛的功能组件和严格的数据访问控制及数据安全管理。总之,企业在数据生产端通过敏捷开发、自动化工具等方法和技术提升交付效率,在数据消费端利用自助服务的形式支撑数据消费者自主地获取和处理数据,而不需要等待数据团队的支持和协助。在两端共同的作用下加速数据的交付。02.DataOps 概念及作用图 1 DataOps 概念示意图11DataOps 实践指南(1.0)2构建高效的跨域协同机制促进跨部门协作,打造协同型团队。根据业务需求,组建跨职能的复合型团队,通过与数据消费者和业务团队的合作,
20、可以更好地了解他们的需求和痛点,为他们提供更好的数据服务和支持。通过与 IT 团队的合作,可以更好地了解系统架构和技术栈,为数据处理和数据集成提供更好的支持。一些数据驱动型企业都设置了类似“数据 BP”的岗位,数据人员下沉到一线的业务团队中,与业务伙伴合作满足业务的数据需求,共同为业务的增长负责。建立良好沟通机制,塑造协同文化。通过建立良好的沟通机制,数据团队可以更好地沟通和协作,及时发现和解决问题。利用邮件、即时通讯工具、项目管理等工具建立沟通渠道,通过每日站会等机制养成沟通习惯,借助内部 wiki、共享文档等工具沉淀共享知识和经验。借助技术赋能,善用协同工具。通过采用团队协作工具,数据团队
21、可以更好地协同工作,提高工作效率和沟通效率。包括但不限于现代化的项目管理工具、协同编辑工具、在线会议工具等。总之,企业可以通过组建协同型团队,建立协同保障机制并借助协同工具来共同保障数据团队开展协同工作。3打造开发治理一体化流水线重构研发治理一体化流程,前置数据质量管控。对数据研发运营管理全生命周期的各个工作环节进行梳理,厘清数据质量、数据标准、数据安全等工作在研发环节中的位置,将数据治理工作融入到研发运营管理的流水线中,形成“先设计、后开发、先标准、后建模”的模式,在研发阶段对数据的质量和安全等问题进行有效管控。某互联网企业将整个开发治理流程分为四个阶段,分别是需求阶段、设计阶段、开发阶段以
22、及交付阶段。明确各阶段中研发与治理的关系与责任,将数据治理的过程前置到数据开发环节,确保生产出来的数据是能够符合标准和规范的。打造自动化测试流水线,及时发现、处理质量问题。通过将测试用例自动化执行,使用测试工具进行自动化测试,来避免人工测试过程中的错误和疏漏,并加快测试速度。并将自动化测试融入持续集成和持续交付流程中,确保每次修改和更新都经过了测试,确保数据管道的稳定性和质量。最后,实时监控数据管道的运行状态,发现问题并及时反馈给研发团队,确保问题能够快速解决。与传统的先投产后治理的研发治理模式相比,企业基于数据研发治理一体化流程,能够在研发阶段便对数据治理问题进行管控和介入,结合自动化测试能
23、力能够在投产前进行进一步检查。一方面提升了交付的数据质量,另一方面也提升了研发团队与治理团队的协同效率。4建立精细化的数据运营体系减少人力成本。通过自动化工具、流程和自服务能力来降低企业的人力成本,减少了重复性和低效率的工作,让数据科学家能够专注于更高价值的工作。降低运营成本。通过自动化运维和数据全链路监控等流程,来及时发现并反馈效能、资源以及质量等方面的问题,降低企业的运营成本,提高运营运维效率和数据管道的可靠性。这样可以让企业更加聚焦于业务创新,提高企业竞争力和盈利能力。构造全局数据观测视图。数据可观测性是一种极其重要的数据管理手段,它不仅能够帮助组织充分了解其系统中数据的运行状况,而且可
24、以在数据12DataOps 实践指南(1.0)出现故障时及时提醒团队并降低其影响范围。数据可观测性的实现需要通过对数据链路的全面分析和上下文的数据可见性,才能有效地监控和维护整个数据生态系统。通过建立高质量的数据管道和监控机制,数据团队可以实时监测和分析关键数据资产的健康状况,以便在出现问题时及时发现和处理。某科技集团基于工具平台支持企业全球数据平台智能化运营,利用智能化运营体系指标对开发质量、数据作业、平台稳定性、数据安全、数据资产以及平台资源进行自动化的监控、分析与提升,进而改善开发效率、避免合规风险、提升资源利用 率。总体而言,企业通过精益化管理在不牺牲数据交付效率的情况下,将数据流水线
25、中的浪费情况降至最低。(一)DataOps 能力模型/14(二)DataOps 核心环节/15(三)DataOps 实践保障/16DataOps 能力框架0314DataOps 实践指南(1.0)目前,国内DataOps的实践尚处于探索阶段,只有头部的机构(互联网、电信、金融、电力)在进行点状试点,业界缺少体系化的实践和基于最佳实践的理论框架,阻碍了 DataOps 理念的发展。2022 年,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合金融、通信、互联网行业头部企业以及各大服务厂商,共同成立了DataOps 能力标准工作组,旨在凝聚共识,建立DataOps 的理论框架
26、和实践路径,搭建交流平台,培养 DataOps 生态,推动数据驱动型企业的能力建设。经过与十余个行业、百余家企业的几百位专家学者共同探讨,我们发现企业目前对 DataOps 的实践效果主要有两方面预期。一是关注用数赋能。一些非数字原生型企业,在数字化转型的过程中,逐渐认识到数据文化意识的重要性,并开始努力培养这方面的能力。然而,由于缺乏相关经验,这些企业较难提出能够促进业务发展的具体数据需求。这些企业希望借助DataOps 的实践,提升用数据进行决策的能力,养成用数据分析的习惯,从而更好地应用数据赋能业务,同时搭建起一条敏捷高效的数据研发流水线来支撑业务的探索。二是关注研发效能。另外一些以互联
27、网企业为代表的数字原生型企业更加关注数据的研发运营效能,这一类企业普遍有着较强的数据应用意识,能够提出具体的数据需求来赋能业务的发展。这类企业希望通过 DataOps 的实践来提升数据供给的效能,加速数据产品的研发,降低数据管理与维护的成本。03.DataOps 能力框架(一)DataOps 能力模型工作组通过对 130 多家企业的走访与调研,收集了大量的企业案例与实践,经过工作组的抽象和提炼,以及组内 10 多次的研讨,最终形成了一套DataOps 能力模型框架。DataOps 能力模型框架围绕数据开发流水线,形成“4+3”的组织架构,即4个环节和3项保障职能。具体来看,数据开发流水线能够划
28、分为 4 个环节,包括了数据的研发管理、交付管理、数据运维和价值运营,就像大工业化时代的流水线生产一样,让企业数据应用开发以非常高效的状态运转。在流水线之外,还需要 3 项外围保障职能来支撑流水线的平滑运作,保障职能包括系统工具、组织管理和安全管控。DataOps 能力模型框架的提出,旨在帮助企业建立对 DataOps 工作的宏观视图,了解 DataOps能力建设的核心主线与保障体系,为企业的能力建设提供参考。随着标准的进一步的细化,能够为企业提供详细的建设依据,全面地评价企业在DataOps 方面的能力状况,摸清当前的现状和问题,指明下一步发展的方向。图 2 DataOps 能力模型框架15
29、DataOps 实践指南(1.0)图 3 DataOps 数据流水线框架(二)DataOps 核心环节为了实现不断提高数据产品交付效率与质量,实现高质量数字化发展的目标。DataOps 工作组从数据工程化能力着手,结合 DataOps 的内涵构建出高效的数据研发运营流水线。包括研发管理、交付管理、数据运维和价值运营四个环节。1.数据研发管理数据研发管理是指企业对数据开发过程的标准化管理,目的是构建研发治理一体化能力。企业在数据开发阶段,构建数据研发治理一体化流程,将数据治理工作左移,把数据治理工作与数据开发工作有机结合,能够加强数据治理与开发工作的协同配合,同时降低数据治理后置所产生的风险。此
30、外,在数据研发阶段加强对数据需求的约束,并利用自助分析能力来提前探查或解决部分数据需求,大大提升了数据需求的沟通效率,减少了部分研发工作压力。数据研发管理包括需求管理、设计管理、数据开发和自助分析四部分内容。需求管理:强化需求评价,明确数据需求内容,降低沟通成本。设计管理:通过“先设计,后开发”的方式,在建模环节做好数据标准、质量的设计。数据开发:构建离线、实时、数据挖掘的一体化开发能力,并在开发任务链中嵌入数据质量稽核能力,及时发现并解决数据质量问题。自助分析:为业务人员提供便捷的数据自服务空间,支持数据需求自助探查,缓解需求响应和交付压力。2.数据交付管理数据交付管理是指通过对测试、配置、
31、部署和发布等环节的自动化与标准化,提升交付效率和质量的管理过程。企业在数据的交付与部署阶段,通过构建自动化的测试和交付流水线,加强数据版本与代码质量的管理,帮助企业提升数据产品交付的自动化水平,加快交付速度,提高交付质量。数据交付管理包括测试管理、配置管理、部署与发布管理三部分内容。测试管理:建设自动化测试流水线,加强对单元测试、集成测试的管理,对代码质量、数据质量均进行测试,提前发现问题、处理问题。配置管理:加强版本控制与环境管理。对代码版本与数据版本均进行管理,保证各阶段数据的随时可用性和可验证性。部署与发布管理:建设自动化部署发布流水线,加快数据部署效率,降低人为操作风险。3.数据运维数
32、据运维是指对数据研发运营管理全生命周期的效能、资源、质量、成本等方面进行系统性的管数据研发管理数据运维数据交付管理价值运营需求管理监控管理测试管理成本管理开发管理变更管理设计管理资源管理配置管理持续变革自助分析异常管理部署与发布管理量化驱动持续优化16DataOps 实践指南(1.0)理,目的是构建全链路可观测能力,进而持续监控、发现、处理数据问题。企业通过构建全链路数据可观测能力,通过对数据研发运营管理全生命周期的效能、资源、质量、成本等方面进行系统性的监测与度量,帮助企业全面掌握数据研发运营的各环节情况,及时发现问题、反馈问题、处理问题,进而不断优化数据开发全流程。数据运维包括监控管理、资
33、源管理、变更管理、异常管理、持续优化五部分内容。监控管理:构建完整的监控体系,对开发流水线运行情况、质量情况等进行时刻监控预警。资源管理:对数据资源、计算资源、存储资源等进行的调度优化,合理分配相关资源,优化运维成本。变更管理:打造标准化、敏捷化变更流程,应对开发流水线的各类变更场景。异常管理:构建异常管理知识库,构建自动化运维能力,提升运维效率。持续优化:基于数据流水线运行情况,持续对流水线任务编排情况、平台配置情况进行调优,不断提升开发流水线性能。4.价值运营价值运营是指通过量化指标驱动数据运营,从而提升数据研发的质效,目的是构造精益数据运营管理能力。企业基于量化指标对数据开发工作的成本进
34、行精细化管理,并驱动企业对经营管理、开发流程和工具平台持续优化,形成“以数治数,持续革新”的闭环运营。价值运营包括成本管理、持续变革、量化驱动三部分内容。成本管理:细化数据产品交付和维护成本核算,精细控制相关资源投入,识别并减少浪费。持续变革:打造反馈机制,及时收集数据研发各环节堵点问题,深挖问题源头并持续改进。量化驱动:构建完善的量化指标体系,对数据开发流水线交付效率、需求响应速度等进行定量评估,不断优化工作流程和资源分配策略。(三)DataOps 实践保障为了保证 DataOps 研发流水线能够持续高效运转和迭代完善,企业需要有力的保障措施。本指南提出了组织、工具和安全三个维度的保障要求。
35、这些要求的目标是引导企业以全局最优为目标,保障数据研发流水线的平滑运作。1.系统工具系统工具是指围绕数据流水线构建的敏捷、自动化、一体化的工具平台。工具平台是企业实践DataOps 理念的抓手,帮助企业内部工具研发团队或外部厂商搭建完整、成熟的 DataOps 工具链,为更好的保障企业形成一体化的数据研发治理能力提供技术支撑。系统工具包括研发管理、交付管理、运营运维、数据安全四部分内容。研发管理:支持代码线上流转,遵从“先设计,后开发”的建设原则。交付管理:构建 CI/CT/CD 能力,支撑自动化的测试流水线与部署流水线功能,能够对代码和数据进行版本控制。运营运维:支持对数据研发全链路的监测与
36、报警功能,通过大屏展示等形式实时展现研发效能、质量等信息。数据安全:建立全链路数据安全监测与管控能力,在数据研发全生命周期中落实权限的管控、敏感数据脱敏加密、高危操作审计等功能。17DataOps 实践指南(1.0)图 4 DataOps 保障措施框架2.组织管理组织管理是指对企业内部组织管理架构、角色的管理,目的是打造为敏捷、协同的数据驱动型组织。通过重构组织架构、岗位角色及协同机制支撑DataOps 流水线运行,企业结合现状与发展需要,健全落实管理规范和要求,革新数据研发、管理、运营架构,完善岗位及晋升考核体系。为长期践行DataOps 理念,优化数据开发流程提供组织保障。组织管理包括组织
37、架构、岗位角色、协作协同三部分。组织架构:合理配置企业内部的数据技术架构、数据人员架构。岗位角色:设置相应的岗位角色,明确晋升路线与考核方式。协作协同:依托敏捷方法,着重关注团队、工具间的协同问题,并持续进行优化。3.安全管控安全管控是指对数据研发全生命周期的安全管理。将安全管控嵌入到数据流水线中,通过在各环节设置安全屏障来分担交付端的安全责任,提高数据可信度。安全是保障企业正常生产运营的重中之重,企业通过健全数据研发全生命周期的安全意识,以敏捷、全面的方式在数据研发的过程中嵌入安全属性,帮助企业减少安全事故。安全管控包括安全风险策略、风险管理、安全测试三部分内容。安全风险策略:加强对数据研发
38、全生命周期中的风险识别,风险预测。提前制定风险预案,将风险的影响持续降低。风险管理:结合外部法律法规、监管要求与企业内部安全需求,健全风险管理策略并不断更新完善。安全测试:主动对数据研发过程的各环节进行安全测试,提前发现问题、处理问题。系统工具组织管理安全管控研发管理组织架构安全风险策略运营运维协作协同安全测试交付管理岗位角色风险管理数据安全(一)文化变革/19(二)数智融合/19(三)闭环进化/19(四)内生安全/19DataOps 未来展望0419DataOps 实践指南(1.0)DataOps 代表着数据生产力变革的非常重要的方向。随着数据文化的普及、人工智能和大数据技术的发展以及对数据
39、要素领域的进一步深耕,DataOps 与其他技术能力相结合或产生倍增效应。(一)文化变革DataOps 并不仅仅是一种技术上的革新,更是一种组织文化的转变。这种文化转变需要从组织的最高层开始,逐步贯彻到每一个数据团队成员的日常工作中。因此,企业要重视 DataOps 文化建设,加强数据驱动思维的培养和推广,强化数据治理和数据安全意识,营造积极的数据协作和共享氛围,才能真正实现数据驱动的业务转型和发展。(二)数智融合大模型技术正在全面改变我们的生产力,这也为数据管理和分析应用带来了巨大机会。未来的数据分析可能是增强型和交互式的,我们的界面不仅是 BI,而且可能会像 GPT 一样通过自然语言对话帮
40、助我们在数据仓库中查找数据并进行分析。我们需要全面拥抱数智化的浪潮,加速数据能力的变革。此外,数据和人工智能是一个双向促进的过程。一方面,人工智能需要基础数据资源的支持,我们需要提供语料和样本。另一方面,人工智能也将加速数据开发和使用的变革。04.DataOps 未来展望(三)闭环进化闭环进化指的是在一个系统中将反馈信息转化为改进措施,实现不断优化的过程。数据驱动型企业和互联网企业的成功经验之一就是能够建立完整的数据闭环,从而不断改进和优化业务。这需要企业在数据采集、存储、处理和应用等各个环节都能够高效协同,形成一个完整的闭环。初期的目标可能不够清晰,效果也不一定理想,但只要日益革新,不断调整和改进,就能够实现系统的不断进化,越来越好。(四)内生安全在数据开发中,我们应该将隐私保护的考虑融入到整个流程中,而不是单纯地依靠合规部门的检查。这需要我们在设计和实现阶段就开始考虑隐私保护,包括数据分类、数据脱敏、访问控制等方面的技术手段,以确保数据的安全性和隐私性。同时,内生安全也是非常重要的,它可以帮助我们更加灵活地遵守红线。在保证数据安全和隐私的前提下,我们可以探索更加灵活的安全方案,例如基于身份认证和访问控制的安全方案,以及基于数据分类和脱敏的安全方案等。这些方案可以帮助我们更好地保护数据,同时也可以为业务的快速发展提供保障,从而进一步提高生产力。