上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:构建企业级好数据(Dataphin智能数据建设与治理白皮书)(2022)(81页).pdf

编号:108604 PDF 81页 18.55MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:构建企业级好数据(Dataphin智能数据建设与治理白皮书)(2022)(81页).pdf

1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)目录 卷首语.4 一、数据建设与治理:用中台方法论治理企业级好数据.5 二、Dataphin 演进之路:产品大图及核心功能详解.7(一)规划:数据体系.8(二)研发:集成、建模、发布、运维.17(三)资产治理:标准、质量、安全、资源.35(四)数据服务.52(五)标签平台.56 三、Dataphin 最佳实践:数字化转型标杆案例.60 四、数据中台项目管理实践.66 五、售卖部署说明.80 六、关于瓴羊.82 4 卷首语 仰望星空,脚踏实地 2015 年 12 月,阿里巴巴正式实施数据中台战略,数据中台话题热度逐步

2、攀升,在这一过程当中,我们也发现不同角色对其理解以及期望各有侧重。阿里巴巴关注的是建立统一数据体系,同时贴近业务场景打造出体验一流的数据服务与产品;企业管理者会关心数据中台可以带来哪些业务变革与增量价值;而数据与技术从业者,则更倾向于去探求其与数据仓库、数据湖的不同之处,去了解数据中台的技术领先性 2018 年,基于阿里巴巴数据中台内部实践经验和成果,面向不同行业的实际业务场景,Dataphin 应运而生,作为阿里巴巴数据中台方法论的工具化沉淀,Dataphin希望能帮助企业探索更加复杂与多样的数据中台建设之路。2022 年,阿里巴巴集团数据中台、业务中台、客服系统、供应链服务等多个部门融合升

3、级为瓴羊,是“阿里巴巴最佳实践”完整、系统、产品化地全面对外输出,并首度提出了DAAS转型体系,涵盖基础层(Data:自生长数据底座)、洞察层(Analytics:普惠型深度洞察)、应用层(Applications:规模化场景应用),以及战略层(Success:数据驱动企业成功)四个方面,重磅推出分析云、营销云、产销云、客服云、开发云等智能产品矩阵,而 Dataphin 是瓴羊开发云核心产品之一。我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形

4、成企业特有的数据资产体系;同时,企业还需要完成数据人才组织建设,并辅以数据文化,让人人都能理解数据、用好数据。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。一、数据建设与治理:用中台方法论治理企业级好数据 5 一、数据建设与治理:用中台方法论治理企业级好数据 随着全球数字化进程的加速,企业面临着更加严峻的市场竞争,而数字化转型所遇到的困境也曾是阿里巴巴初时之痛。于是,阿里数据中台应运而生,与各行各业的企业在数据领域开展了合作,解决企业凸显的数据问题:数据标准问题:烟囱式开发及局部业务服务支撑,导致指标同名不同口径问题频发;历史上不同业务系统逐步迭代上线

5、,相同对象属性编码不一致等问题突出。数据质量问题:重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好;口径梳理定义的文档沉淀到开发代码实现之间存在脱节,数据准确性保障风险高。需求响应问题:烟囱式开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满意的同时技术又觉得没有沉淀与成长;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效率较差。成本资源问题:烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储造成资源浪费。一、数据建设与治理:用中台方法论治理企业级

6、好数据 6 1.构建企业级数据中心的核心诉求 2.企业数据能力建设的三个发展阶段 二、Dataphin 演进之路:产品大图及核心功能详解 7 二、Dataphin 演进之路:产品大图及核心功能详解 阿里巴巴在 2015 年提出全面启动中台战略,并在集团内部开启了一系列数据技术建设探索,沉淀下特有方法论捋清了数据全生命周期的管理思路,将其植入到瓴羊的开发云产品 Dataphin(智能数据建设与治理)中,并与 Quick BI(数据可视化分析)、Quick Audience(全域消费者运营增长)一同形成数据中台建设核心产品体系。自 2018 年问世以来,Dataphin 已发展出了内容丰富的功能大

7、图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现,可以帮助企业高效地完成好数据的构建。Dataphin 产品架构图 三大优势 二、Dataphin 演进之路:产品大图及核心功能详解 8 3 分钟快速了解 Dataphin Dataphin 核心功能介绍 (一)规划:数据体系 1.企业数据体系应该怎么规划 数据中台是数据沉淀、建设、管理与使用的一整套体系。Dataphin 的核心优势是在数据的建设与治理上,引入了阿里巴巴多年来数据中台建设沉淀出的建模方法论,可以帮助企业通过智能数据建设与治理,构建数据中台。建模方法论将数据中台建设分为四层:主题域建模:在数据中台,主题对应一个宏观的

8、分析领域,比如销售分析就是分析“销售”这个主题,联系较为紧密的主题的集合就是主题域。每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。概念建模:在主题域的基础上,每个主题域内增加了实体以及实体之间的关系。逻辑建模:在概念模型的基础上,增加每个实体的属性以及属性的约束。业务分析建模:行业中重要的以及常用的分析方法与分析视角。在逻辑模型基础上,将业务分析问题转换为 Dataphin 特有的派生指标,并进一步提炼出原子指标和业务限定。二、Dataphin 演进之路:产品大图及核心功能详解 9 1)Dataphin 建模能力 主题域建模和概念建模都可以由 Dataphin 的规划功能

9、来承载实现。建模方法论的四层不针对企业级数据中台,而是围绕单个独立业务来展开的,多个独立业务通过公共的维度来实现企业级数据中台。因此,Dataphin 的规划功能还包括独立业务的划分,即业务板块的划分。二、Dataphin 演进之路:产品大图及核心功能详解 10 规划并不会影响数据的准确性与产出时效,而是会影响数据的查找,理解与权限管控等多方面。2)业务板块划分原则 企业的规模有大有小,业务复杂度和跨度也不同,数据反映业务,所以每个企业的数据中台也是不同的。数据中台建设的第一步是做规划,规划的第一步是全盘梳理企业的业务架构,将业务划分为一个个独立业务,对应到 Dataphin 就是业务板块的划

10、分。业务板块的划分总原则是,高内聚,低耦合,具体的流程如下:考察企业所有的业务流程,如果两个业务流程之间存在上下游的关系,或者有共同的业务对象,那么他们就应该被放到同一个业务板块。将范围扩大,列举出每个业务流程的上下游和业务对象,直接或者间接的连接在一起的业务流程应当属于同一个业务板块。举例:零售业务中,采购-采购物流-仓储-销售发货,营销-销售-履约-售后等,有的有上下游的关系,有的可以通过货品连接到一起,他们就属于“零售”这一业务板块。反之,如果两个业务流程之间不存在任何直接或者间接的上下游关系,也没有直接或者间接共同的业务对象,他们就不应当被放在同一个业务板块。举例:同一个企业下,可能有

11、零售和地产。地产业务中,拿地-设计-开发-销售等流程与零售的业务流程之间不存在上下游的关系,也没法通过某个业务对象连接到一起,应当分别创建“零售”“地产”两个业务板块。值得注意的是,某些业务对象是企业级共用的,比如,公司的员工,行政地理区划(没错,这个也属于业务对象)等,这些会将整个公司的所有的业务流程连接到一个巨大的单一网络中。因此,先要识别出这些企业级的业务对象,对于只 二、Dataphin 演进之路:产品大图及核心功能详解 11 通过这些业务对象连接在一起(而没有上下游关系)的业务流程,需要剪断这种连接,将他们归属到不同的业务板块。3)主题域建模 主题域建模,即在业务板块下进一步将业务划

12、分为多个主题域。主题域的划分没有客观原则,主要根据数据模型师的行业经验与业务理解来划分。具体以零售行业为例来说明。零售行业的主题域划分如下图,核心主题域为“人”、“货”、“场”:公共主题域:在所有业务流程中都会被引用的数据,如地理位置数据、企业的人员组织数据。消费者(人)主题域:该主题域主要是零售企业内用户(消费者)运营相关的业务活动数据。商品(货)主题域:商品的管理(类目管理、品牌管理等),商品结构管理(组货)等相关的业务活动数据。二、Dataphin 演进之路:产品大图及核心功能详解 12 商家(场)主题域:包含线下门店,线上电商(自营或者第三方)等售卖渠道相关的数据。流量主题域:消费者访

13、问店铺等相关的数据。交易主题域:包含销售订单、支付、退款退货等零售商与消费者之间契约形式的信息流与资金流数据。履约主题域:可选。零售商按照契约(订单)将商品配送给消费者,是零售商到消费者的物流数据。服务主题域:主要是售后等数据。交互主题域:可选。零售商与消费者之间非契约形式信息流数据,如零售商在社交媒体上与消费者的互动,消费者在电商平台内的评论、分享与收藏等。营销主题域:广告、活动、优惠券等数据。内容主题域:可选。零售商以引流为目的所建设的内容,比如商业软文、直播带货、宣传刊物等。供应链主题域:零售商与供应商之间的三流,以及零售商内部的物流与信息流数据。二、Dataphin 演进之路:产品大图

14、及核心功能详解 13 4)概念建模 a)业务实体 Dataphin 从 3.1 版本开始,将原来的“维度”升级为“业务对象”,“业务过程”升级为“业务活动”,3.6版本中将业务对象和业务活动合并起来称作“业务实体”,可以通过以下类比的方式来理解业务实体:在业务系统中,大多通过面向对象的程序语言来开发,如 Java、C+代码中的大部分“类(class)”,会与实际业务中的实体一一对应。换句话说,业务实体就是业务系统开发过程中的“对象(类)”。当然,在系统开发过程中,也存在一些辅助的“类”,比如工具类,这些在实际业务中并没有相应的“实体”。同样在业务系统中,有很多“表”来存储业务中的各种数据,每一

15、个“表”代表业务中的某个“实体”。Dataphin 业务实体的体系见下图:二、Dataphin 演进之路:产品大图及核心功能详解 14 业务对象 业务对象是参与业务的人或事物,在企业组织的业务模式确定时就存在的,偏静态的实体。根据复杂程度,业务对象可以分为:普通对象,复杂的,有很多属性的对象。狭义上,业务对象就是普通对象。枚举对象,简单的基础对象。如性别,其取值可以穷举(男/女/未知)。虚拟对象,在业务定义中,没有任何属性的基础对象,如姓名。层级对象,多个业务对象之间有上下级关系,这一组对象就是层级对象。业务活动 一个或者多个业务对象在某个时间(段)为了达成某种目的所进行的活动或者是某种活动的

16、结果。业务活动有以下几个关键要素(属性):活动主体,活动的发起者,是一个业务对象。可选的活动客体,活动的参与者,可能有多个,也是业务对象。活动时间,可以是一个单点时刻,也可能是一个有开始和结束的时间段。根据业务活动持续时间的长短,可以将业务活动细分为:业务流程,持续一段时间,有明确生命周期的业务活动。(业务)事件,发生在某一个时刻,持续时间极短(瞬间)。事件一般对应业务流程的一次状态变化。业务快照,是一系列活动在某一个时刻点的状态和结果,比如库存、账户余额。b)实体关系 在实际业务中,业务实体并不是孤立存在的,他们之间有着各种各样的联系,Dataphin 将这些联系定义为“实体关系”。Data

17、phin3.6 版本中,引入的实体关系如下图。二、Dataphin 演进之路:产品大图及核心功能详解 15 c)概念建模实施步骤 一个全新的企业组织,启动数据中台建设,概念建模的实施流程步骤如下:列举业务中的业务实体,有以下几种方式来梳理:?参考行业通用模型(如有)。?详尽的业务调研,访谈各个业务方,从业务视角梳理出业务中的参与方(业务对象实体),相关的概念(业务对象实体),以及各参与方之间发生的各种活动(业务活动)。?查看业务系统(如 ERP,CRM 等)的技术设计,分析设计中的“类”,梳理出业务实体。?分析业务系统(如 ERP,CRM 等)的数据库表,梳理出业务实体。理顺实体关系,可采用以

18、上同样的方式方法。二、Dataphin 演进之路:产品大图及核心功能详解 16 5)示例:零售行业通用概念模型 以上是零售行业通用的主题域模型。零售行业最基础的三个实体为人、货、场就可以推出最核心的三个业务对象:实体、客户(消费者)、商品和渠道(线下门店、线上各种渠道)。零售行业的核心业务活动实体为销售,将商品通过不同的销售渠道售卖给消费者。销售业务活动实体关联了客户、商品、渠道三个业务对象实体。营销域的一系列业务实体解决引流,扩大“客户(消费者)”数量的问题,有营销活动、消费券等业务实体;内容域提供资源提高“客户(消费者)”的粘性,有各种内容实体。供应链域的一系列业务实体,保障“商品”的供应

19、有供应商、采购、运输、仓储等业务实体。履约域的业务实体将商品送到客户手中。其他各种业务实体都在围绕人、货、场展开,总可以梳理出很多业务实体。二、Dataphin 演进之路:产品大图及核心功能详解 17 下图是零售行业的概念模型的一角。(二)研发:集成、建模、发布、运维 1.如何将业务系统数据汇聚到数据中台 数据集成是 Dataphin 的能力模块,是简单高效的数据同步平台,提供强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。数据集成是数据中台建设中最基础的工作,将不同系统的数据相互打通,实现数据自由离线或实时流动。随着数据应用的扩宽,各行各

20、业对数据集成也有了更多的诉求。包括:能够简单高效的配置大量数据表的同步任务;能够集成多种异构数据源;能够实现对数据源的数据进行轻度预处理;能够实现数据同步任务的调优(例如容错,限速,并发)等。1)简单高效、安全可靠的数据同步 Dataphin 的数据集成模块主要面向企业数据开发人员,以组件拖拉拽的形式,帮助企业高效构建数据技术流通管道,从而将各种烟囱状态的数据汇聚到数据中台。二、Dataphin 演进之路:产品大图及核心功能详解 18 数据集成旨在为用户构建简单高效、安全可靠的数据同步平台:支持通过整库迁移(快速生成批量同步任务)和一键生成目标表的方式,提高数据集成的效率。支持流程和转换组件,

21、实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力。支持丰富的异构数据源,实现数据源之间数据高速稳定的同步能力。支持 Dev-Prod 和 Basic 的开发模式,可以根据业务场景进行灵活选择开发模式。支持将 Dataphin 中创建的逻辑表快速地同步到目标库。用户可自定义系统尚未支持的数据源组件,以满足不同业务场景数据同步的需求。二、Dataphin 演进之路:产品大图及核心功能详解 19 2)功能特性与适用场景 易用性 用户进行数据中台建设时,需要集成的表数量往往很多,不得不大量重复的配置。Dataphin 的数据集成通过高效的拖拽式操作,自动化的一键建表,组

22、件复制和整体管道配置复制,批量化的整库迁移等操作可大大提高系统的易用性及操作效率。数据集成在任务搭建过程中支持同步任务试运行、度量查看、数据预览,方便用户进行数据集成任务的调试。多源异构的数据同步能力 在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin 的数据集成可支持 30+种数据源的支持,同时可自定义数据源进行灵活接入。数据预处理、同步配置能力 在数据集成过程中,来源端数

23、据会有轻度预处理诉求,比如敏感数据加密、数据过滤、分库分表数据合并、追加字符等。也会有各式各样同步配置诉求,如容错,限速,并发,同步过程调试等。二、Dataphin 演进之路:产品大图及核心功能详解 20 Dataphin 的数据集成提供字段计算、合并、分发、过滤、字段脱敏等组件或函数,支持容错配置、并发配置、限速配置等。2.设计即研发,保障数据模型与代码的一致性 1)规范建模 原本数据模型需要用限定详细的文档记录设计,再依此进行代码研发。经过多轮变更后设计文档与实际代码可能已南辕北辙。Dataphin 通过规范化、模块化的低代码配置,在设计的同时生成代码,有效的保证了模型与代码的一致性,提升

24、数据质量。在Dataphin 核心功能:规划一文中,讲到过数据建设分为四层,分别为主题域模型,概念模型,逻辑模型和分析模型。前两个模型已在规划一文中介绍过,本篇将继续展开逻辑模型和分析模型的讲解。这两层都是属于 Dataphin 的智能研发模块,也称规范建模或逻辑化研发。除此之外,Dataphin 也支持传统通用的 SQL,MapReduce,Shell,Python 等研发方式,本文将重点解释智能研发模块。2)依据使用场景为数据分层 在介绍智能研发的逻辑模型和分析模型之前,先简单说下另一种维度的数据分层。当前,在数据中台领域,通用的做法是根据数据的使用场景和生产方式,将数据分为:ODS(Op

25、erational Data Source),按照字面理解是操作数据来源,通常的叫法是贴源数据层。ODS 是从业务应用系统中同步过来的数据,一般不对数据做任何清洗加工、镜像复制,但是会保留多个版本,因为业务应用的数据一直在更新变化,ODS 会保留部分中间过程版本数据。二、Dataphin 演进之路:产品大图及核心功能详解 21 CDM(Common Data Model),公共数据模型层,数据的清洗加工,建模都在这一层进行,智能研发也主要在这一层。ADS/ADM(Application Data Summary),应用数据层,面向具体业务场景的数据研发。Dataphin 中,规划到研发的流程一

26、般是,规划(板块划分-主题域建模-概念建模)-项目创建-ODS(数据上云/数据同步)-CDM(逻辑建模-分析建模)-ADS。3)逻辑模型 根据上一节的介绍,现在假设规划-项目创建-ODS 均已完成,接下来就进入了逻辑建模。4)属性与约束 在概念建模中,创建好实体,配置好实体间的关系,整个业务的大图就已经清晰的落地到数据中台。但是不同实体除了名字不同,关系不一样之外,还有哪些区别呢?二、Dataphin 演进之路:产品大图及核心功能详解 22 例如,用户和会员有什么区别,这就是逻辑建模要来解决的问题。逻辑建模的核心工作是梳理实体的特征,即给实体添加属性,并明确属性的业务约束,一个实体有很多属性(

27、也叫特征),这些属性可以用于区分实体。属性按照类型,可以分为:标识属性,即实体的某个具体实例的唯一标识。实体是一个抽象概念,实体实例是具体事物。比如,商品鞋是一个实体。一双 36 码、白色、编码为 6901234的鞋就是一个实例。一个实体可以有多个标识属性,如商品 ID、商品编码。关联实体属性,实体的某个属性本身可能也是一个实体。比如,商品的卖家(货主)属性,卖家是一个独立的实体。描述属性,表述实体某一个维度的特征的一般属性,实体中的定性属性,一般是文本字符类型,如名称。度量属性,某个维度数量程度的属性,定量属性。一般是数值类型,如金额、价格。时间属性,描述实体某个行为的时间。根据实体的类型(

28、业务对象或业务活动),每个实体都有一些必须有的属性,即关键属性:业务对象至少有一个标识属性,根据业务可以添加其他关键属性。业务活动必须有一个关联实体属性来标识活动的主体(发起人,比如订单活动中的买家),一个或多个时间属性来明确活动时间。实体丰富了属性之后还不能完全反映业务现实,还需要给属性加上一些约束规则:取值规则,约束属性的取值范围,即约束实体实例中该属性的具体内容的有效性。枚举值,如鞋子颜色只有黑色和白色两个。二、Dataphin 演进之路:产品大图及核心功能详解 23 取值范围,如年龄一般是 0150。唯一性,除标识属性外,其他属性也可能有唯一性要求。非空性,不允许该属性出现空值。其他。

29、实例化 定义好逻辑模型后,映射数据到模型的过程就是模型的实例化,浅白的说就是将物理的数据映射到逻辑模型。实例化的数据来源是 ODS 数据,少数情形下,ODS 数据需要做一些额外处理,将其按照一定的规则注册挂载到逻辑模型。Dataphin 将根据映射自动生成计算代码和周期调度任务,并基于属性约束生成数据质量校验规则。到这一步,就完成了逻辑模型的构建。5)分析模型 逻辑模型构建后之后,基于逻辑模型可以构建分析模型,即下图中的业务分析模型。分析模型的目标是快速生成业务分析中的指标,称为派生指标,且保障这些指标的可靠性和可维护性。最终使用的指标拆解为四个基本组成部分:统计周期 原子指标 二、Datap

30、hin 演进之路:产品大图及核心功能详解 24 业务限定 统计粒度 以上描述可能还是让人无法准确明白分析模型是什么,可以参照下图,从传统 SQL视角来理解:分析建模的步骤是,统计周期设置-原子指标/业务限定配置-派生指标配置,所有配置完成后,系统将自动生成计算代码和周期调度任务。Dataphin 通过规范化、模块化的低代码配置式研发,有效的保证了模型与代码的一致性。3.发布中心:生产和开发隔离模式下的保护伞 在数据权限管控严格的研发流程下,常常会使用生产开发环境隔离的研发模式。Dataphin 支持创建成对存在、互相关联的生产开发模式项目(Dev-Prod 项目)。项目中,研发人员通常需要完成

31、代码编写、任务基础属性和调度属性配置、并基于开发环境的数据执行补数据测试,通过后再将任务提交至发布中心。发布审核人员接到发布申请后,结合任务配置详情评估是否配置合理,是否存在数据生产风险等,之后执行发布操作。发布成功的任务会在生产环境中生效并调度运行,而发布失败的任务不会更新至生产项目,以此实现开发和生产项目的数据隔离,保证数据质量。二、Dataphin 演进之路:产品大图及核心功能详解 25 1)Dataphin 发布中心能力概述 若由发布人员对每个任务进行人工审核,工作量大且容易遗漏,对研发效率产生较大影响。那么理想的发布流程会是什么形式呢?Dataphin 发布中心提供了待发布任务概览、

32、批量发布、基于系统规则的自动审核、发布记录概览、发布详情查看、发布失败原因提示及一键重新发布等功能。同时,管理中心的发布管控功能,可以自定义审核规则和策略,以满足个性化需求场景。发布人员只需评估哪些任务需要上线生产环境,批量勾选并一键执行发布即可,大大缩短了操作路径,并从系统角度提供了全面保障。a)待发布对象列表 在待发布对象列表页面,记录当前项目已提交待发布的规范建模、数据处理和管道脚本数据对象。发布成功的数据对象将从待发布对象列表移除,并在发布记录列表中生成一条发布成功的记录。发布失败的数据对象将重新被记录在待发布对象列表,同时在发布记录列表中生成一条发布失败的记录,可以查看每条发布记录的

33、发布详情。二、Dataphin 演进之路:产品大图及核心功能详解 26 待发布对象列表概览:列表记录了对象名称、对象类型、调度节点 ID、最近一次提交发布的版本号、本次提交变更类型、提交人及提交时间等信息。发布审核人员可以基于这些基本信息,初步评估任务变更情况,作为判断是否需要发布的依据。提交详情及提交记录查看:支持查看每个对象当前最新提交的版本详情及历史的提交记录,发布人员可以基于详情信息进一步评估发布该对象对生产项目可能产生的变更影响。移除及跳转编辑待发布对象:如果任务提交后需要再次变更,为了防止变更前的内容被提前发布影响生产环境数据,可以主动移除发布对象,并在修改完成后再次提交发布。发布

34、及批量发布:确定可以发布后,可以针对单个对象执行发布,也可以批量选中多个对象一次性发布。b)发布系统校验规则 不同发布对象有不同的校验规则。以 SQL 代码任务为例,会进行如下校验:上游依赖配置的正确性。节点输出名称是否唯一。代码中引用的资产对象是否有相应权限。SQL 语法是否正确。发布执行是否正常。每个对象只有所有系统校验规则均通过,才能发布成功,否则会在发布详情弹框进行错误提示,引导需要执行的下一步操作,如申请权限、修改代码逻辑等等。c)发布记录列表 发布记录列表页面记录了每一次发布的详情及发布结果:二、Dataphin 演进之路:产品大图及核心功能详解 27 发布记录概览:发布记录列表展

35、示了每一次发布的执行详情,包括发布名称、发布对象、对象类型、发布版本、发布的变更类型、发布人及发布时间、发布状态等。发布详情查看:针对每条发布记录,可以查看发布详情,评估是否符合预期;尤其是发布失败的任务,在发布详情会给出失败原因提示,发布人员可以根据提示信息联系相关开发修改后重新发布。发布失败日志查看及一键重新发布:发布失败的对象,可以点击查看发布详情,发布详情中可以查看本次发布的日志记录,以获取更多的报错信息指导下一步操作。发布管控:如果使用了变更管控中的发布管控功能,此处还会进行发布管控规则的校验,发布详情中会展示命中的管控规则及校验结果,针对校验失败的,还会展示在管控规则中配置的说明文

36、案,以提醒发布人员。发布作为生产开发隔离的研发模式中必经的一道环节,为生产数据的正确性和生产环境稳定性提供了移到前置保障,可以减少人工操作失误或流程不规范引发的问题,降低了对生产业务产生影响的可能性,为数据建设撑起一道保护伞。4.调度运维,为数据建设保驾护航 1)业务痛点 “每个客户最近 30 天的平均消费金额指标需要基于汇总的门店订单表来分析,得等订单表的数据更新了才能运行指标”“老板 9 点就要看报表,这个任务可一定要尽早跑完,优先级要设置成最最最最最高!”“怎么又有任务报错了,我可不想一直盯着电脑屏幕呀”二、Dataphin 演进之路:产品大图及核心功能详解 28.以上是数据开发和运维人

37、员日常工作中经常会遇到的问题,整个数据研发流程,任务和任务之间存在多种数据上的依赖关系,且不同的数据有各自的更新时效性要求;此外,任务执行需要对应的资源,我们希望给重要的任务优先分配调度资源和运行资源,保证其顺利运行。这些无疑都给开发运维人员增加了工作难度。Dataphin 的统一调度和运维系统,为您的数据建设保驾护航。Dataphin 自研的调度系统支持灵活的调度周期、上游依赖、调度类型和参数配置,可适配多样性的数据研发场景。运维中心包括大盘概览、任务运维、实例运维和监控告警配置等功能,为您提供任务操作与运行查看、引擎&资源分析等多方位的运维能力。下面,我们就来具体看看都有哪些厉害的功能吧!

38、2)功能介绍 运维中心是维护生产任务有序、正确运行,数据能正常产出的守卫者,是整个研发链路最重要的一道保障。a)如何保障数据有序、正确产出?二、Dataphin 演进之路:产品大图及核心功能详解 29 创建任务时,首先需要根据任务运行频率和数据产出时效性判断该任务的调度类型,并针对不同类型的任务进行调度规则的配置。其中,周期调度是最常用的调度方式。针对周期任务,我们需要配置如下关键信息:优先级:支持最高、高、中等、低、最低 5 种优先级,影响调度资源的分配。对于需要重点保障的任务,可以通过设置高优先级配置保证资源优先分配。调度类型:支持正常调度、空跑调度、暂停调度三种方式。空跑调度的任务生成的

39、所有实例直接空跑成功,不会真正运行;暂停调度的任务生成的实例均为暂停运行状态,常用于经常需要暂停某些链路上的数据更新、又不希望频繁下线任务或修改依赖的场景。调度周期:支持分钟、小时、日、周、月调度,不同调度周期对应不同的运行频率,并支持配置每个实例的定时调度时间。如抽数任务,需要每小时从业务库抽取上一小时新增的订单数据,再进行销售总额的合并计算,则需要配置调度周期为“小时”,开始运行时间为每个整点,以保证数据时效性。上游依赖:提供自动依赖解析能力,可以基于 SQL 详情解析出存在数据依赖的上游任务并自动添加。对于不存在数据依赖关系但是有调度依赖的上游(如用于检查数据变化情况的 check 任务

40、),可以手动搜索添加。依赖上周期:支持配置依赖任务自身或其他任务的上一周期实例。有时为了防止多个实例同时运行造成的数据冲突或重复,需要保证每个任务同一时间只有一个任务在运行,此时可以配置“自依赖”,如“截止当日销售总额”任务,计算口径为“前一日销售总额+当日销售总额”。另外一些场景下,任务运行完成时间较晚,对于数据时效性要求不严格的下游,可以配置依赖该任务的上周期。基于上述配置,您可以根据实际业务场景梳理上下游数据的影响,确保数据依赖关系正确;通过给对应的任务配置依赖条件,保证调度依赖关系正确;加之优先级等配置条件,可实现数据有序、正确地产出。二、Dataphin 演进之路:产品大图及核心功能

41、详解 30 b)如何及时发现异常?Dataphin 支持给生产环境的任务配置监控告警规则,帮助您及时了解任务运行动态,并监控异常任务,降低对下游业务的影响。Dataphin 支持多种监控能力,包括智能基线监控、离线任务&字段监控及实时任务监控。智能基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低配置成本、避免无效报警、自动监控所有重要任务,主要提供以下能力:核心能力 1:自动推算需要纳入基线监控范围的任务 添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,这样一来,即使更新了任务依

42、赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。二、Dataphin 演进之路:产品大图及核心功能详解 31 核心能力 2:关联路径与关键实例识别 基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin 提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。核心能力 3:自动推算预计产出时间并触发相应告警 周期运行过程中,系统将根据基线链路上每个节点最近 7 天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时

43、间,则会发送基线告警,给开发人员和业务人员对应的通知。此外,Dataphin 也支持针对单个任务的监控,以离线监控为例,支持以下几种监控场景:完成、出错、运行超时、未完成。除了监控场景,Dataphin 也支持添加多个接收人,可给不同的接收人配置不同的接收方式,以实现区别告警。例如:为值班人员配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。为任务责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。二、Da

44、taphin 演进之路:产品大图及核心功能详解 32 Dataphin 特有的逻辑运维能力,支持针对逻辑表任务以字段视角进行监控配置,可通过字段更快捷直观的分析异常任务对下游业务的影响。此外,支持根据任务优先级和运行时间,设置不同的监控时间段、告警频率等,减少运维人员的人工操作成本,实现灵活的自动化告警。c)如何快速定位问题?介绍完监控告警,我们再来看看如何处理收到的告警任务吧。Dataphin 提供了实例运行诊断的能力,从上游依赖、定时时间、限流规则、调度资源及实例执行 5 个阶段分析实例运行过程中可能产生的异常:上游依赖 上游依赖诊断为您展示实例最近 1 次运行诊断结果及上游实例当前最新的

45、状态。上游实例运行失败将阻塞当前实例的运行,您可以通过查看上游依赖诊断结果进一步排查失败原因并一键定位到需要直接处理的其实异常实例。二、Dataphin 演进之路:产品大图及核心功能详解 33 定时时间 检查是否已到达任务设置的定时运行时间,只有上游全部运行成功且到达了的定时调度时间的实例才会继续下发,否则为“等待调度时间”状态。限流规则 所有实例运行都需要进行限流规则的诊断,上游依赖及定时时间诊断通过后,需要同时满足所有命中的限流规则才会下发到资源调度系统,否则为“限流中”状态。您可以查看当前实例命中的限流规则以及当前队列中已下发的实例列表。调度资源 实例有足够可分配的空闲调度资源才会开始运

46、行,否则为“等待调度资源”状态。您可以查看实例已等待调度资源的时长、以及当前占用所在资源组资源的全量实例列表,并根据诊断建议执行对应的操作。实例执行 Dataphin 提供单个任务每次运行的执行日志以及面向部署运维人员的全链路分析日志。执行日志中会将出错原因及建议打印出来,如:缺少某张表的权限、查询的字段不存在、内存不足、数据源链接报错等等,运维人员可以基于此处的原因分析联系对应的开发或数据库管理员及时处理。d)如何高效恢复数据?面向不同的场景,Dataphin 提供灵活、可配置的重跑、强制重跑等功能,并提供基于列表的批量操作能力,可以帮助您快速执行相关操作,大大减少人工操作成本,快速恢复调度

47、。二、Dataphin 演进之路:产品大图及核心功能详解 34 重跑/重跑下游 运行成功或失败状态的实例支持重跑。重跑时会按照最新发布的代码版本执行。对于任务配置问题或网络环境问题导致的的运行失败,可以通过重跑恢复数据。dataphin 支持针对单个实例进行重跑、或选中一个起点及其下游,按照依赖关系进行批量重跑(如整条链路计算逻辑修改等场景),以实现全链路数据更新。强制重跑/强制重跑下游 重跑操作要求依赖的所有上游实例运行成功并到达当前实例的定时调度时间,某些场景下,可以忽略上游实例的运行状态(一般是无数据依赖,仅调度依赖,或者对数据实效性要求不高的情况),这时可以使用强制重跑功能来恢复运行。

48、另一种场景,已经运行到中间链路的任务,发现来源数据错误需要及时止损,此时可以使用强制重跑下游功能来解决,系统会先将所有选中的任务批量终止,再从最上游实例按照依赖关系依次向下运行,避免新老代码并存产生的数据错乱。e)如何进行有效的并发控制?当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时,通过配置开发或生产环境任务的限流规则,保障系统的稳定性以及业务数据按序及时产出。Datatphin 支持基于业务视角的调度限流功能,支持根据任务优先级和资源空闲情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调

49、度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,避免产生因为无法干预或介入较晚而产生严重的问题,增强整体稳定性。例如:更换底层引擎的场景下,我们可以通过配置全局限流来阻断任务的下发;迁移完成后,需要优先对核心任务进行补数据操作,再逐步恢复对日常任务的运行,则可以通过“所属项目”圈选出日常任务并将其并发度设置为 1 而核心任务不设置并发限制,来保障资源优先分配给核心任务。二、Dataphin 演进之路:产品大图及核心功能详解 35 (三)资产治理:标准、质量、安全、资源 1.数据标准:助力企业全链路数据治理 1)数据标准概述 数据标准是用于描述公司层面需共同遵守的数据含义和业

50、务规则,通常从业务、技术、管理三方面进行定义,使组织内外部使用和交换的数据是一致且准确的。然而,数据标准需求缺乏统一管理、不同系统间标准制定依据各异、资产建设缺乏和标准的关联,使得数据标准的建设和应用都面临很大困难:二、Dataphin 演进之路:产品大图及核心功能详解 36 建设:多源异构数据整合缺乏统一的约束口径,数据开发效率低。数仓开发人员无法快速理解数据背后的实际业务含义,需要和业务人员反复沟通,理解成本高;不同业务人员对于同一个指标口径的理解不一致,容易出现认识偏差,影响分析决策结果。管理:各系统分散管理,人工保障规范,数据质量难以提升。不同主题域由不同负责人进行开发和维护,导致规范

51、不一致,数据可信度降低;由于缺乏有效的工具监督,规范定义和开发实现隔离,无法保证数据开发符合标准规范,数据质量难以提升,导致频繁的数据重构,管理成本高。使用:缺少元数据信息及使用引导说明,数据消费难度大。数据的使用不仅需要明确数据详情,还需要参考元数据信息,以便数据使用方快速找到需要的数据并评估数据可用性。由于缺少必要的数据定义及使用说明,造成数据经常被误用滥用,数据消费难度大。由此,我们需要一套灵活有效、全面的产品功能。Dataphin 数据标准模块应运而生,为数据标准的建设提供统一的产品化能力,让数据消费通畅无歧义,并结合质量监控能力实现对资产对象的落标稽核,帮助企业解决数字建设管理过程中

52、遇到的问题,全面提升资产治理水平。2)核心功能介绍 总体来说,作为资产治理的重要一环,Dataphin 数据标准功能为标准的统一管理提供了灵活的产品化能力支持,同时也能减少人工监控成本,为标准的落地执行提供了强有力的保障,以提升企业整体数字能力建设的标准化成熟和资产的健康度。a)数据标准管理 相较于传统模式下用 Excel 等线下文件管理数据标准的方式,Dataphin 支持在线创建数据标准模板(标准集),可以约束标准每一个属性的填写规范,以便约束基于 二、Dataphin 演进之路:产品大图及核心功能详解 37 该模板创建的所有标准,实现一次定义多次复用。如,某团队的基础数据标准需要具备以下

53、属性:业务属性:标准名称、标准编码、描述 技术属性:字段类型、字段长度、字段精度 管理属性:标准制定部门、应用业务部门 在创建标准集模板时,我们可以将“标准制定部门”和“应用业务部门”的类型设置为“枚举单值”并指定枚举范围,这样在创建标准时,这两个属性会以下拉单选框的形式展示,且可选范围为创建标准时指定的枚举范围,不仅大大提升了标准填写人员的效率和体验,也避免操作不一致造成的标准规范不一致。此外,为了更好地将历史已有标准文件导入系统进行统一管理,Dataphin 支持批量导入及更新数据标准,只需要下载标准模板并配置冲突策略,就可以实现约束一致的数据标准的批量更新。Dataphin 支持数据标准

54、的全生命周期管理。创建完成后默认生成草稿态标准,确认填写无误后可以提交标准上线申请并生成对应的审批任务。二、Dataphin 演进之路:产品大图及核心功能详解 38 Dataphin 支持设置标准审批模板,以适配不同管理范围下标准的审批。标准上线后根据设置的标准生效时间,自动生成待生效、已生效、已失效的标准。上线后的支持修订,会生成修订中的版本,修订中版本再次发布前,不会影响线上已生效的标准版本。基于该流程,可以实现灵活完整的标准生命周期管理。b)参考数据管理 数据标准常常需要和参考数据一起使用,才能更好地适配业务需求。常见的参考数据包括码表、词根、度量单独等等。码表可用于约束标准属性字段的取

55、值范围,提升标准定义的准确性;词根常用作词缀并作为数据表、字段等研发对象命名的参考依据,以提升命名规范性减少数据消费时的不一致性和理解误差。Dataphin 数据标准支持码表和字根的创建和管理,通过简单的界面操作即可完成创建,并可在创建标准时引用码表作为取值范围的约束,降低了标准管理人员的操作成本。二、Dataphin 演进之路:产品大图及核心功能详解 39 c)落标映射及评估 标准创建完成后,需要和对应的资产对象关联起来才能真正实现其应用价值,实现对资产的规范性约束。Dataphin 支持基于标准属性值和资产对象元数据属性值进行落标关联映射配置,以实现标准和资产的关联,作为后续落标稽核的基础

56、。下面,我们通过一个例子来进一步理解 Dataphin 如何实现落标映射与稽核。首先,我们需要权限出进行映射匹配的标准和资产对象范围:标准:来自于“测试标准集”的所有“已生效”状态的标准 资产对象:所属表名包含“test”字样的所有字段 其次,我们需要配置标准和资产对象的关联映射条件:标准名称=字段名称 最后,我们需要配置该规则的执行时间和频率等信息。二、Dataphin 演进之路:产品大图及核心功能详解 40 通过上述配置,系统可以自动执行该映射规则,圈选出相应范围的标准和资产对象并进行匹配。规则执行完成后,我们就可以在资产目录及规则执行明细页面清晰的看到某个资产关联到了哪些标准,以便参考映

57、射到的标准定义进行开发,将数据治理前置到研发链路。但是映射成功的资产对象是不是真正的遵循了这些标准呢?接下来就需要我们的落标评估能力来助力啦。Dataphin 支持针对资产对象的技术元数据进行落标评估,如字段类型、字段长度等。后续我们还将结合质量监控的能力,进一步拓展对值域、二、Dataphin 演进之路:产品大图及核心功能详解 41 字段格式等内容的监控。针对不满足关联标准的资产,标准管理人员可以推动研发人员可以尽早进行整改,从源端保障数据规范性和统一性。2.快速建设高质量数据,支撑业务发展 数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支

58、持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:良好的数据质量 糟糕的数据质量 数据支撑业务顺利开展,如:?更精确的用户偏好,通过推荐提高用户的消费额?更实时的物流信息,优化物流分配和配送效率?更准确的仓储信息,优化仓储补货和管理 及时、准确的数据,支持高效的商务决策 业务开展受阻,如:?无法正确开具发票,导致无法走财务流程?登记了错误的用户联系方式,导致货物无人接收 数据错误导致业务决策出错 最好的机器学习算法,遇到数据质量不足时,结果也不如人意 数据质量问题的来源众多,业务

59、方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。Dataphin 数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。二、Dataphin 演进之路:产品大图及核心功能详解 42 1)全域数据质量能力 全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。Da

60、taphin 当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:质量校验对象 支持范围 质量校验能力 Dataphin 表 支持 Dataphin 上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop 系列(CDP、CDH、TDH 等)、ADB等环境下数据表质量的校验 支持 7 种质量性质下 24 个模版共计100+不同监控指标的质量规则校验 该部分详见质量规则模版 全域表 支持 MySQL、Oracle、Maxcompute、Hive 等 7 种数据源表的质量检测,并持续扩展中 支持 7 种质量性质下 24 个模版共计100+

61、不同监控指标的质量规则校验 该部分详见质量规则模版 数据源 注册到 Dataphin 上的数据源的稳定性,支持 20+常见数据源的质量校验,并持续扩展中 数据源连通性 表结构变动监控 实时元表 Dataphin 的实时元表 实时指标监控 实时离线对比 实时多条链路对比 指标 Dataphin 生产的指标 指标的稳定性、唯一性等监控 二、Dataphin 演进之路:产品大图及核心功能详解 43 2)质量规则模版 Dataphin 数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定 SQL 等 7 种质量模版分类下 24 个模版共计 100+不同监控指标的质量规则校验,

62、7 种质量模版分类介绍如下:质量规则分类 分类说明(主要基于 DAMA)举例 完整性 完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整 常用于判断字段填充率、必填/非空(填充率 100%)等 企业有 1000 员工,只有 600人有联系方式 唯一性 唯一性用于对字段是否唯一进行校验。常用于判断主键/业务实体的唯一性、重复率等 员工身份证号码应该只出现一次 及时性 及时性用于对数据时间更新的频率和间隔进行验证 常用于判断业务日期/操作日期是否最新,时间间隔是否合理 A 上午 8 点入职,10 点才能在系统看到相关信息 有效性 有效性用于对数据内容填写是否符合规范进行校验 常

63、用于对数据的类型/范围/长度格式进行校验 员工年龄-1 岁,无效 一致性 一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等 A 在员工系统的公司职务是总监,在销售系统是主管 稳定性 稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定 常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等 客户数量在 10000 家,当一个月波动 20%的时候可能存在异常 自定义 SQL 支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控/注意:这里仅针对模版的整体能力进行

64、说明,每一个分类下都有更多的模版和应用场景,详见 Dataphin 产品手册。二、Dataphin 演进之路:产品大图及核心功能详解 44 3)产品能力展示 a)质量大盘 质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。b)模版管理 模版管理可以查看质量当前所有的模版信息。二、Dataphin 演进之路:产品大图及核心功能详解 45 模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。c)质量规则 支持给质

65、量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。d)校验记录 校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin 质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。e)数据源管理 数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,

66、新调度的质量规则会进入排队等待状态,以保护业务的正常开展。3.安全:数据权限分类分级和敏感数据保护 “2021 年 6 月 10 日,经第十三届全国人民代表大会常务委员会第二十九次会议审议,通过了 中华人民共和国数据安全法(简称 数据安全法),该法将于 2021年 9 月 1 日起施行。”近几年,随着消费者个人意识的崛起和对隐私的重视,数据安全成为了一个越来越热门的话题,国家也陆续发布了一些相关规定,来规范数据的使用。而数据安全 二、Dataphin 演进之路:产品大图及核心功能详解 46 法的正式发布,标志着数据的开发利用和数据的安全保障正式进入法律范畴,从而对企业的数据安全管控提出了更高的

67、要求。1)Dataphin 保障全链路数据安全 Dataphin 的数据资源安全能力,能提供数据生命周期中统一的敏感数据识别与保护能力。通过数据分类分级、敏感数据识别、敏感数据脱敏等措施,建立完善的数据安全体系,确保数据使用的安全合规。数据安全如此重要,当然不能只靠人来治理,而需要有一套成熟的产品和流程来进行安全的管控。这时候,企业一般面临着自建系统和采购第三方安全系统的决策问题。然而选择企业自己建设数据安全产品,存在较多的弊端:消耗大量的研发资源,且后续需要不断投入资源进行维护升级。在产品的设计和实现上可能存在漏洞,导致安全隐患。存在生产和实际存在偏差,导致无法落地到实际生产中的情况。比如数

68、据安全产品和数据生产平台结合不紧密;产品功能没有满足国家的数据安全标准等。Dataphin 作为智能数据建设与治理平台,作为企业数字化转型中的核心引擎,对数据生产和管理过程中的数据安全十分重视。Dataphin 提供了完整的产品能力,来保障数据建设中的数据安全,并且整个安全体系和数据研发生产紧密结合,确保数据从流入、流出的全链路都安全可控。二、Dataphin 演进之路:产品大图及核心功能详解 47 在 Dataphin 的能力大图上,安全模块出现在资产管理模块,但在实际的安全体系中,从系统的底座安全、研发过程的数据处理安全、到数据资源的管理、数据消费的安全,都会涉及到并提供安全保障。当前 D

69、ataphin 提供了以下安全能力来确保客户的数据安全:底座安全:保障底层的系统安全和网络安全,这一部分主要由云底座提供安全保障。在底座的安全措施之外,Dataphin 提供了租户隔离、网络控制、敏感信息安全加密存储等安全功能,确保系统的底层安全。平台安全(权限):在 Dataphin 内部,提供了完整的角色体系,以及权限申请与审批功能。让企业能够实现精细化授权管理,可以对用户执行最小粒度的授权和管控,防止权限漏洞。数据安全:Dataphin 提供了数据分类分级、敏感数据识别和脱敏功能,来保障数据流转过程中的数据安全。通过敏感数据保护功能,在不改变底层数据的情况下,保障日常流转中展示的数据都是

70、加密脱敏后的数据,确保敏感数据不泄漏。安全服务:为了更好的帮助客户建设数据安全体系,Dataphin 还集成了众多生态产品、专家服务和文档服务,保障客户建立起完善的数据安全体系。二、Dataphin 演进之路:产品大图及核心功能详解 48 2)安全模块的典型应用场景 首先,我们先看一下数据安全模块的典型应用场景,从而对数据安全的价值有一个更直观的认知。场景 1:数据业务中的敏感数据保护 在日常的数据业务运转中,数仓工程师/数据研发、数据分析师/业务分析师,需要经常接触数据,包括对数据的查询、统计、修改等。在这个过程中,存在着大量的数据泄漏的风险。虽然可以通过授权的方式,严格控制人员的数据权限,

71、但是因为接触的是明文的敏感信息,所以仍然存在数据泄漏的风险。而基于 Dataphin 的敏感数据识别和保护能力,可以让敏感数据在日常的流转和查询中,对外展示的始终是脱敏之后的数据。场景 2:脱敏白名单的灵活运用 前面场景简单介绍了在正常场景下对数据的保护,那在有些场景下,有需要看到最原始的数据,那么就需要用到脱敏白名单的功能,在特定的时间,对特定的用户或者角色开放原始数据。如:对于企业中一些比较敏感的数据,比如上市公司的财务数据,特殊人员(如高层级的员工、公司宏观决策支持分析师)在一定时间段(比如公司财报发布前一个月)是可以看到明文,但是一般人员或这些人员其他时间不可以,就可以通过设置脱敏的白

72、名单及有效时间来实现。如:对于电商每天的销售额,正常情况下不能展示真实数字,一般都是脱敏展示为*元,但是在双十一等特殊场景,需要显示真实销售额用于宣传的情况下,可以开启为期一天的白名单,可以看到当天的销售额数据。在新的法律环境和数据安全的挑战下,Dataphin 持续增强数据安全能力,来帮助客户建立完善的数据安全体系,为业务发展保驾护航。二、Dataphin 演进之路:产品大图及核心功能详解 49 4.每年节约数亿元成本,阿里巴巴资源治理如何做到 数据环境下,居高不下数据存储和计算成本,是每一个企业数字化转型过程中绕不开的难题。阿里巴巴也遇到过类似的问题,但凭借着一套沉淀下的方法论和产品,每年

73、为阿里巴巴节省下数亿元的存储和计算成本。本篇,我们就来聊聊阿里巴巴的资源治理方法论和产品 Dataphin 在这一领域的能力。1)资源成本暴涨与阿里巴巴的应对之道 数智时代,海量的数据为业务创造了巨大的价值,但同时也带来了不断上升的计算成本和存储成本,甚至会出现“IT 成本增速大于业务增速”,“赚来的每一分钱都用在了购买服务器上”的极端情况。在阿里巴巴的发展道路上,也遇到过这些问题:数据资源完全黑盒。数据资源量大成本极高。数据价值链路断层。为了解决以上问题,阿里巴巴创建了数据资源管理平台(隶属于数据中台),用于对整个集团数据计算和数据存储进行成本统计和优化。每年节约数亿元的数据成本,阿里巴巴是

74、怎么做的呢?阿里巴巴采取了以下措施来实现数据资源的管理:做好数据资源的盘点:包括理解数据资源内容,和构建资源类目两部分。需要理解全部数据资源的业务属性,制定规范的资源类目,做好数据的分类分级,总而言之是要摸清数据资源大盘。二、Dataphin 演进之路:产品大图及核心功能详解 50 做好数据资源成本的评估:包括追踪数据应用和剖析成本价值两部分。评估数据价值需要追踪数据应用的全链路,盘点出每一份数据资源的连接度、贡献度;剖析成本价值主要从数据计算和存储两个维度来评估。阿里巴巴通过以上步骤,将数据成本、业务收益做到清晰透明可评估,从而可以针对性的对数据资源进行运营,降低数据成本,提升数据效益。2)

75、Dataphin 资源治理概述 在方法论的基础上,我们还需要一个成熟的产品,来帮助我们快速的建立资源治理体系,真正降低在数据技术建设中的成本。Dataphin 的治理功能,就是阿里巴巴的数据资源管理平台的商业化版本,具备强大的资源统计分析能力,智能识别当前系统内低价值的数据资源和数据任务,并进行优化提示。模块包括主要包括资源管理、治理概览、治理工作台、治理项管理、回收站等功能:资源管理主要用于资源分析。治理概览由治理分析和治理效果组成。治理工作台由我的治理和项目治理组成。治理项管理由元数据注册、治理项管理、推送管理、任务管理组成。二、Dataphin 演进之路:产品大图及核心功能详解 51 回

76、收站将在治理工作台中删除或下线的表格暂时存留起来,以防止误操作。优势 内置治理项,开箱即用:Dataphin 对 Dataphin 系统内部的数据生产和存储都进行了元数据的采集,同时内置了最常见的存储和计算治理项,确保开箱即用,可以快速看到全局的资源情况,并进行相应的优化分析。治理项支持灵活自定义:Dataphin 同时支持客户自定义治理元数据和治理项,支持更加灵活的治理场景,比如想进行小表格的检测,就可以新建治理项【小于 1MB 的表】,从而自动检验出这部分的数据表,并进行针对性治理。密切结合数据生产场景:Dataphin 的治理模块和数据研发模块、数据资源模块进行了紧密的结合。针对检验出来

77、的治理事项,可以直接在治理工作台进行处理,直接在研发任务和资产存储等方面生效,从而做到一站式做好资源治理工作。3)资源治理典型应用场景 以下是通过 Dataphin 实现资源治理的一些典型的场景。场景 1:存储优化长期无人使用的表 一家企业往往有上万张表,随着业务的变更和人员的流动,一些业务表逐渐无人使用,同时因为多个分区进行存储,会一直占用大量的存储资源。比如一些公司的原始数据,一个分区可能就有 1T,但是业务每次都只会用最新的分区,就会导致大量的历史分区的存储浪费,可以设置分区的过期策略,对历史分区进行下线操作。Dataphin 资源治理功能,可以自动发现无人使用的数据表或其他异常数据表,

78、并在治理工作台进行提醒和展示。同时可以在治理工作台查看相应数据表,并采取下线、设置生命周期等措施。二、Dataphin 演进之路:产品大图及核心功能详解 52 场景 2:计算优化异常计算任务 计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源,如暴力扫描(扫描大量分区)、数据膨胀(数据产出远远大于输入)、数据倾斜(部分节点处理时间过长)等情况。Dataphin 的资源治理功能,对任务的执行进行了全链路的监控,自动发现这些异常的计算任务,并在治理工作台进行提醒和展示。可以在治理工作台查看相应任务,并采取相应的任务进行代码优

79、化、下线等措施。(四)数据服务 1.企业数据服务中心建设的问题 在数据的消费场景中,除了直接提供数据表之外,提供数据服务(又称 API、接口)是更常见的一种需求。业务通过数据服务来进行数据的消费,会更加的便捷、安全、高效。二、Dataphin 演进之路:产品大图及核心功能详解 53 常见的数据服务需求如下:但是,在传统的数据服务开发模式中,存在下列问题:2.Dataphin 数据服务能力 数据服务作为数据消费和数据应用必不可少的一环,也是Dataphin上的核心能力,目前 Dataphin 的统一数据服务能力,可以实现如下业务目标:1)统一数据服务市场 构建 API 市场,实现接口复用。开发者

80、可以在 API 市场查看已有的接口,申请使用权限授权后即可调用数据,无需重复开发。二、Dataphin 演进之路:产品大图及核心功能详解 54 数据服务对各个数据应用屏蔽了不同的中间存储,提供的是统一规范的服务访问。2)企业数据服务中心 数据服务具备认证、权限管理、限流、监控四大功能,认证鉴权保障了接口安全,数据安全。同时提供服务限流、监控告警等方案,保障数据是被合理的访问与调用。3)统一规范的高效开发能力 提供配置化、SQL 化的服务开发方式,屏蔽物理数据源底层实现,研发人员可以专注在业务实现逻辑上,高效开发。4)服务全生命周期管理 从 API 开发、测试、调试、调用,监控,运维,提供一站式

81、 API 生命周期管理解决方案。3.产品详细功能介绍 在 Dataphin 中,使用数据服务的整体流程如下:二、Dataphin 演进之路:产品大图及核心功能详解 55 1)数据服务市场 用于业务线查找上线的数据服务并进行权限申请:查看数据服务详情-基本信息、调用示例。搜索到所需服务,可以快速进行权限申请。2)数据服务项目管理 支持按照项目隔离人员、应用和服务,提高开发效率和安全性。支持为项目内人员配置角色,更好的进行分工与合作。3)数据服务(API)创建 支持界面化服务开发,标准规范,杜绝编码式开发带来的复杂的开发和测试流程。支持 SQL 式开发和自动解析,提供逻辑清晰的解析效果,杜绝错误代

82、码的提交。支持从数据源创建,直接连接有权限的数据源生成服务;支持复用已经创建的服务单元快速生成服务。4)Dataphin 数据源 基于 Dataphin 的逻辑表和物理表,快速封装为一个虚拟数据源,供外部灵活调用。屏蔽物理实现细节,支持以业务视角直接进行查询。5)API 管理 服务限流:支持对 API 服务设置 QPS 限制;支持对单独的应用设置 QPS 限制,方便服务维护和商业化控制。服务告警:支持对调用次数、错误率、响应时间等关键指标设定告警信息,快速处理线上问题。二、Dataphin 演进之路:产品大图及核心功能详解 56 6)服务调用 应用管理:支持查看我当前有权限的应用;支持应用信息

83、的详情查看,AppKey、AppSecret 查看与修改;支持快速申请应用市场中的应用权限。已授权的服务:支持查看当前已授权的服务详情;支持对已授权服务进行调试。7)权限申请 权限申请:支持业务人员申请应用权限;支持业务人员为应用申请服务权限、Dataphin 数据源权限。权限管理:支持管理员对应用权限、服务权限进行主动授权、主动回收。8)运维监控 支持按照运维视角查看线上服务的运维监控。最小支持分钟级别的运维分析,快速响应线上问题。最大支持月级别的运维分析,便于对系统整体进行优化。支持查看单个 API 的运行统计和运行详情查看。(五)标签平台 在企业数字化转型过程中,标签作为企业数据资产的一

84、部分,在数据应用中扮演着重要的角色。将业务数据标签化在一定程度上实现了数据业务化价值,从企业一方的业务场景出发,围绕核心业务实体,梳理标签类目体系,在 Dataphin 标签平台中,基于标签类目进行标签开发、管理、应用、治理,实现数据资产商业价值闭环。1.Dataphin 标签平台概述 标签平台基于 Dataphin 基础研发版能力,面向成熟期企业,提供企业核心商业要素的标签建设与管理能力,帮助企业沉淀好找好用、易开发、好治理的数据资产。二、Dataphin 演进之路:产品大图及核心功能详解 57 功能模块包括主要包括:资产市场:为标签资产应用者提供统一资产门户,在资产市场可以查看标签热度,获

85、取标签上架最新信息,查看标签分布情况以及血缘信息,进行标签测试以及统计其离线、在线应用情况。工作台:为标签资产建设者提供标签生产、群组加工的工作空间,在工作台可以进行视图和行为关系的定义,基于视图、事件、行为关系进行标签、群组加工逻辑配置完成资产开发与发布,并上架至资产市场。资产应用:为资产应用者提供多种资产服务类型,如标签离线服务,通过批量标签查询,输出标签表给到下游报表系统;标签实时查询,通过在线接口请求查询标签值。事件中心:提供全局实时事件的定义管理能力,包括事件类目、事件属性以及事件的定义,为实时视图定义、实时标签的开发做准备。规划:从业务场景和诉求出发,规划模块中实现资产市场管理、标

86、签体系构建、实体以及 ID 管理,为标签开发做好前期设计和规划。二、Dataphin 演进之路:产品大图及核心功能详解 58 2.标签平台优势 丰富标签类型:支持多类型标签开发,包括离线、实时等标签可视化加工。多云环境支持:多引擎、多种容灾,架构扩展性强、稳定性强、性能高。标签质量可评估:通过标签价值、规范等角度对标签质量进行评估,体现标签价值与质量。丰富应用场景:支持多实体标签开发、类目设置、私/共有标签资产市场管理、离/在线服务调用,满足多种业务场景诉求。多种应用场景 场景 1 客群画像分析 某金融机构对私客户经理基于客户标签进行理财产品推荐。基于当前场景,标签平台提供标签开发、选择、服务

87、等能力,结合报表以及营销平台生成客群画像,帮助客户经理完成客户画像分析,实现营销方案制定。场景 2 贷前风险防控 消费金融领域对用户贷前准入有严格审核,基于借贷用户以及设备信息建立画像生成风险评估报告,对高风险客户进行有效识别。基于当前场景,标签平台提供实体定义、标签开发、上架、服务等能力,结合放贷系统生成风险评估报告,实现自动化审批、授信,有效规避风险。二、Dataphin 演进之路:产品大图及核心功能详解 59 场景 3 精细化营销,新客激励促复购 零售场景中,某品牌方为促进高价值新用户留存提高复购,制定运营策略“对当天注册为会员的新用户,且满足注册当日消费总金额满 100 元条件时,对其

88、进行短信营销,派发优惠券”。基于当前场景,标签平台提供事件定义、实时标签开发以及在线服务能力,结合营销平台自动化营销流程实现运营策略下发,完成新客激励目标。扫码查看 Dataphin 产品使用文档 三、Dataphin 最佳实践:数字化转型标杆案例 60 三、Dataphin 最佳实践:数字化转型标杆案例 1.伽蓝集团:数智化转型 3 步走,粉丝数强势增长 3.5 亿 1)企业痛点 数智营销能力 随着线上销售渠道的拓展,以及包括短视频平台、社交平台等在内的营销场景日益丰富,品牌所能面对的消费市场变得更为广阔,如何能在第一时间判断未知市场的核心诉求,并优选最高效的触达路径,这靠经验主义或基础的数

89、据分析很难实现。数据管理成本和效率 随着集团规模的不断增长,原本相对独立的系统分布形式在一定程度上增加了维护成本,且因数据指标不统一、数据处理过程不可见等原因,在一定程度上阻碍了跨业务协同效率的提升。三、Dataphin 最佳实践:数字化转型标杆案例 61 2)业务数据化、数据产品化、产品运营化 伽蓝集团是最早打造“数据中台”的美妆企业,早在 2018 年 12 月的阿里 ONE 大会上,这一想法便已酝酿。鉴于美妆行业尚无案例可言,当中便会涉及很高的沉没成本,可伽蓝的态度依然坚决。“数据中台是伽蓝数字化转型的关键项目。”伽蓝董事长郑春颖说。同时他强调,“业务数据化、数据产品化、产品运营化”将是

90、伽蓝数据中台建设的路径。在伽蓝大数据中心总经理罗予晋看来,“业务数据化要求伽蓝能够把当前核心业务的数据尽可能全面在线,以方便基于不同业务场景的实时调用,这是伽蓝数字化转型的基础。“而通过瓴羊的系列产品,如 Dataphin、Quick Audience 和 Quick BI,在打通多系统数据基础上。实现针对不同业务需求的数据上传和可视化分析,是将伽蓝的数据价值通过产品化方式进行充分释放的最佳途径。扫码查看完整案例 三、Dataphin 最佳实践:数字化转型标杆案例 62 2.财通证券:传统业务数字化升级,沉淀 300+营销目标场景 痛点 1:难以打通全域业务数据链路 痛点 2:没有找到适配现阶

91、段及未来发展的数据建设工具 2019 年,一些互联网金融服务商相继推出了智能数据服务,但瓴羊却独有能够链接蚂蚁生态的能力,在财通证券网络金融部负责人何燕看来,这项能力能够为财通证券带来更多业务场景的补足,并带来更多市场机会。事实证明,瓴羊提供的应用解决方案的确能够满足财通证券的这一诉求,并通过“三步”部署战略,帮助财通证券突破数字化转型瓶颈:第一步就是通过瓴羊核心产品 Dataphin 打通既有多个系统数据,实现数据即时接入及数据标准统一,整合加工处理后,基于市场形态形成包括“金融属性”“产品类型”等在内的 300+标签。而后配合瓴羊的分析云及营销云产品,进一步完成营销目标场景的沉淀。扫码查看

92、完整案例 三、Dataphin 最佳实践:数字化转型标杆案例 63 3.现代斗山:开启数字 2.0 新征程,构建会员、设备数字化体系 现代斗山工程机械是韩国机械产业的先锋,自 1994 年进军中国以来,在挖掘机、叉车、机床等各项领域中不断扩大投资,如今已成为中国机械产业发展不可缺少的重要部分。在发展初期,现代斗山将更多精力放在了基础设施建设上,开发了完整的 SAP,使用模块多且深入;建设了不少 IT 系统,如呼叫中心、销售漏斗管理,把代理商的业务串联到斗山系统中。这使得现代斗山在 IT 建设阶段抢夺到了先发优势,但积攒了 20 多年的数字能力,如何能有效地进行分析和反向指导销售却比较乏力,这也

93、是斗山管理层及各业务部门的强烈诉求,希望通过数字升级解决当前存在的业务问题:1)客户信息缺乏统一管理和分析,对客户了解不深。2)数据分散于不同业务系统,不便于整合和分析。3)决策分析依赖手工统计报表,效率较低。4)让售后从被动响应向预测性服务转型,提升客户满意度。经过充分的探讨、对焦、调研、分析,现代斗山与瓴羊团队探索出了一条可行之路:围绕数据价值进行现代斗山企业级数据中台的顶层规划,在夯实数据基础服务能力的同时,针对业务场景聚焦打磨数据应用服务能力,为企业构建起快、准、全、统、通的智能大数据体系。顾部长所带领的现代斗山 IT 团队和瓴羊项目组一起完成了涵盖客户、商机、设备等多层面的问题梳理和

94、痛点分析,并借助瓴羊 Dataphin、Quick BI、Quick Audience产品矩阵,形成满足于现代斗山数据中台建设的“一横四纵”解决方案。扫码查看完整案例 三、Dataphin 最佳实践:数字化转型标杆案例 64 4.数禾科技:数智护航普惠金融,智能决策引擎规避 80%信贷风险 痛点 1:数据量级增大,传统数仓无法高效支撑企业数字化需求 痛点 2:数据需求响应速度滞后,导致烟囱状系统林立 痛点 3:业务模型设计与数据模型脱节,导致维护困难 痛点 4:数据标准混乱,数据资产无法转化为业务价值 因为十分看重数据资产对助贷业务的强大支撑能力,2020 年 7 月,数禾科技与瓴羊正式建立合

95、作,启动数据中台项目。以此帮助数禾在数字化升级 2.0 战略大背景下,锁定数据能力优势。数禾科技大数据部门负责人万鹏表示,瓴羊产品所包含的特有数据中台的方法论体系是数禾十分看重的能力之一。“阿里巴巴最早提出数据中台概念,对中台认知最深刻、解决方案最全面,派驻到现场的专家也都有丰富的实战经验。”瓴羊基于数据中台建设方法论,通过 Dataphin 产品形成数据采集、治理、资产管理等能力矩阵,使得数据中台项目能在企业内部快速落地。经过 7 个月的共创共建,数禾的大数据团队把传统数仓体系进行重构升级,统一了数据资产管理平台,同时进行数字化成熟度自查,全面梳理了公司核心业务流程,并总结沉淀出一套全链路金

96、融数智化解决方案。扫码查看完整案例 三、Dataphin 最佳实践:数字化转型标杆案例 65 查看更多客户案例 四、数据中台项目管理实践 66 四、数据中台项目管理实践 数据中台是一个包含落地实施方法论、平台产品和技术服务的企业级解决方案。瓴羊数据中台以 Maxcompute 等大数据计算平台为载体,以三个 One 为理论基础构成数据中台方法论,实现在一个平台里完成数据全生命周期的管理工作。本文总结了企业级数据中台项目的实践经验,希望能够为正在规划或者已在实施数据中台类项目的企业和个人提供经验。数据中台类项目的管理全貌和实施过程可以总结为以下大图:1.项目启动 数据中台项目是一个企业级的项目,

97、在每个数据中台项目的建设之初,需要进行全盘且较为全面的规划,避免单烟囱式的方式去建设中台。启动阶段是极为重要的,大部分的计划和规划都在这个阶段产出,建议这个阶段应该占到整个项目计划时间的 15%。若项目计划规划不充分,项目实施就可能是一个填坑的过程。在项目起始阶段,可按 4 步走:四、数据中台项目管理实践 67 定目标 定团队 定计划 定章法 1)定目标 在数据中台项目开始之前,需要考虑企业建设中台的初衷与目标。了解企业目前的战略,调研每个数据中台场景涉及的部门、部门目标,以及部门之间、场景之间的联通性。这样有助于实现数据中台的一体化建设,明确数据中台建设的目标,避免后续工作的返工。基于企业目

98、标和战略,拆解各个部门的目标和 KPI。在规划数据中台时,考虑如何通过数据化进行分析、评价和考核,并通过可视化展示目标与进展。在调研项目目标时,项目组需要着重考量:企业中不同角色都需要什么样的数据支持,这些数据的分布在哪里?数据流向何处?管理层建设数据中台的初衷是什么,他们都在关注哪些数据?例如有些企业建设数据中台的初衷是进行数据治理,是想统一当前口径不一致的指标。如果我们能知道哪几个指标是管理层最大的痛点,就可以优先治理,提前满足管理层的部分需求。企业级数据中台的建设必须得到企业级管理层的支持,而数据类的项目常常是一个长期价值大,但过程枯燥的项目。所以,持续性向领导层体现项目的建设亮点就显得

99、特别重要。企业客户的数据将会如何被使用,从技术实施上考虑如何搭建相对应的架构?例如实时和非实时场景,这也决定或影响了后续上云的架构。这些数据所涉及到的业务流程有哪些?除了要明确项目的目标之外,在实施过程中还需要考虑合同的约束条件,例如有无时间约束,投入工作量,是否对员工进行培训等。一些细节因素也会对项目产生影响。例如如果员工考核是在年底的 12 月 31 日,那项目最好在 12 月初就能有较好的产出,以便满足项目参与人员的绩效考核。四、数据中台项目管理实践 68 通过以上综合的考量,才能定下数据中台项目的目标,和每一个场景的子项目目标。2)定团队 大型企业客户特别关心项目组织阵型和分工。数据中

100、台项目是企业级项目,一个成功的数据中台项目团队,是必须有甲方的核心管理层、业务方、和技术方密切参与的。在很多的项目中,由于甲方团队不能深度参与或者角色缺失,导致协调力度不够,引起进度和质量的不可控。特别是政府和大型企业的项目,最难处理的就是组织内部的关系。组织架构图的绘制需要思考如何做到一碗水端平,又能满足推动项目的目的。企业级项目建议设置一个项目管理委员会(Project Control Borad,以下简称 PCB),由甲方的核心管理层和乙方的核心管理层参与。PCB 的角色在于确定项目的目标,解决内部分歧,在项目需要决策时提供决策支持。如果 PCB 缺失,甲方多部门参与项目的时候,很容易因

101、为部门间利益冲突,使得问题难以调停。在大企业经常有的组织结构是,IT 类项目的合同方是 IT 部门,但主导部门却是数据部门。IT 部门与数据部门对项目的诉求,甚至可能是冲突的。项目组的结构设计必须充分考虑各个团队的诉求点,在求同存异的大方向下,确保大目标一致,让各个团队都处在适合的位置。四、数据中台项目管理实践 69 为此,在传统角色的基础上,建议加设 Product Owner 的角色。可尝试由 IT 部门担任 PM,数据类项目涉及较多 IT 部门内部流程,由 IT 部门的 PM 来协调流程更为顺畅,例如数据权限开通,产品权限开通等。Product Owner 可以来管控需求和需求的优先级。

102、a)项目角色定位 客户侧角色 项目交付过程中,客户方的配合尤为重要,因此客户的角色显得尤为重要。客户需求决策者 Project Owner?产品需求负责人。?统一需求间存在的分歧。?迭代式定义产品及需求优先级。客户项目经历 Project Manager?解决团队每日存在的 Blocker,重点解决客户侧的所有问题。?保证最大限度完成每一次迭代,为总体进度负责。?告知客户所需的流程需要,要做到可量化,可测试,可执行。?组织每日站会,周会等例会。客户业务方负责人?统筹每个场景客户业务需求。?定义业务需求的 Definition of Done(例如指标业务逻辑)。?验证和验收上云结果。(注:上云

103、数据的质量结果,从一开始就需要业务方去验证。项目推进过程中,经常出现由于源头数据缺失或质量不达标的情况引起指标不准确的情况)?验证与验收指标。客户业务配合人?客户业务需求的制造者。四、数据中台项目管理实践 70?定义业务需求的 Definition of Done(例如指标业务逻辑)。?验证和验收上云结果。?验证与验收指标。客户技术负责人(客户 TM)?对整体的交付质量负责,对每一次迭代的质量负责。?告知并协助客户的质量和管理流程。?统筹数据盘点和数据上云等工作。客户技术实施人?数据盘点和数据上云等工作。交付侧角色 与之配合,阿里也需要提供五位一体的团队提供支持:项目经理 Project Ma

104、nager?解决团队每日存在的 Blocker,重点解决阿里侧的所有问题。?保证最大限度完成每一次迭代,为总体进度负责。?组织每日站会,周会等例会。四、数据中台项目管理实践 71 架构经理 Architect Manager?参与业务和数据资产调研,整理数据资产报告。?数据的模型设计。?面向产品开发部门,反馈产品需求和建议。技术经理 Technical Manager?管理并进行相关的开发工作,对整体的交付质量负责,对每一次迭代的质量负责。?指导技术人员使用阿里产品,遵守开发规范等技术要求。?评估工作量,并合理分配技术工作。业务分析师 Business Analyst?对整体的咨询质量负责,为

105、项目的亮点提炼负责。?总结,赋能和实践数据阿里的最佳实践和方法论。产品 PD?负责可视化展示的设计。?保证所设计的指标能落地。?负责内部自测。3)定计划 唯有项目目标和项目团队明确了以后,才能开始计划的定制。项目计划的制定必须是一个严谨详细,群策群力的过程。一个好的计划想要达到的效果是,让项目组的每个人,能够把这个项目即将经历的事情,都在脑海里面过一遍。这就例如史蒂芬柯维在高效能人士的七个习惯书中所说的第一次创造的过程。在这个过程中,经常能够预见到很多风险。在很多公司很多人对于“创建详细计划”有抵触心理,喜欢直接开干。这其实是不应该的,在交付 ToB、ToG 项目时,如果前期计划规划做得不够,

106、很可能面临客户的挑战,例如客户可能会有如下的问题:你们定的计划怎么和实际操作不太一样?我怎么通过计划监督你们的进度?四、数据中台项目管理实践 72 你们计划里面的一个任务就持续了两个月的时间,这个任务都包含了什么?从原始计划上看不到我们甲方需要配合什么,为何经常需要甲方紧急的协助?为何项目预知风险的能力?每个项目之间的关系是什么?4)定章法 有人的地方便有江湖,特别是新组建的项目团队,大家都来自不同的团队,代表着不同的利益。在项目实施的开始之初,如果能够组织项目组共同制定项目章程,将会对项目的顺利实施起到非常大的帮助。创建项目章程的目的是,约定多方共事的游戏规则,以达到在满足各自利益的前提下,

107、共同完成项目的目标。项目章程包含了项目目标、团队和计划,同时也包含验收方式,先决条件和协作方式等。同时提醒一点,要和客户定章程,需要有良好的客户关系为基础,有了一定的默契才能真正遵守。缺少了人的支持,项目章程就变得没有价值。甲方也需要重视项目章程的落地,这也是对甲乙双方合作关系的保护。2.需求调研与设计 需求调研和设计阶段,目的是承接的是项目起始阶段的产物,并给下一阶段“技术实施”输出详细的开发实施需求。为了加速项目的实施进度,在做需求调研的同时,还可以同步进行数据的上云工作,和数据中台数据架构的设计(公共层设计)。以下 3 条线是可以并行进行:业务线负责业务调研。上云线负责数据上云。架构线负

108、责公共层数据架构设计。四、数据中台项目管理实践 73 1)业务线 a)业务调研及结合行业最佳实践 数据中台类项目的实施,有一个比较大的不同点在于,数据中台是基于业务场景驱动的技术交付。每一个业务场景都是围绕着建立针对该业务场景的指标/标签体系(以下简称指标体系),并通过指标体系指导业务运营,驱动和实现价值创造的过程。指标体系的建设过程,是对现有指标或指标体系的梳理,并结合行业或者跨行业(例如互联网行业,新零售行业)的理解和最佳实践,形成一套新的,能够高效指导业务运营的指标体系。对于现有指标体系的收集,瓴羊提供一系列的模板,可让甲方根据日常的经验来收集填写。对于没有实施过数据中台项目的人,可能对

109、指标/标签体系和运营的关系理解不深,不明白指标/标签是如何对运营能够起到作用。举一个相关的例子,新零售常用的AIPL 营销模型,是把人群资产定量化运营的模型,如下详解:A(Awareness),品牌认知人群。包括被品牌广告触达和品类词搜索的人。I(Interest),品牌兴趣人群。包括广告点击、浏览品牌/店铺主页、参与品牌互动、浏览产品详情页、品牌词搜索、领取试用、订阅/关注/入会、加购收藏的人。P(Purchase),品牌购买人群,指购买过品牌商品的人。L(Loyalty),品牌忠诚人群,包括复购、评论、分享的人。在 AIPL 模型里,可以对每一个顾客的特性,进行精准营销,有效提高顾客的忠诚

110、度。以上这就是指标和标签驱动业务价值运营的过程。在这个阶段有 2 个风险值得提前做好应对:成熟标准行业的龙头拥有自己完善的运营方式。曾服务过某客户,是亚洲最大的行业龙头,其所在的行业流程化程度极高,作为交付方我们很难拿出什么颠覆性的指标/标签体系。四、数据中台项目管理实践 74 新的运营方式出成绩的周期大于项目建设周期。数据中台一个场景的建设周期,都需要 6-12 个月。即使能够在运营方式上给客户带来指导,也很难让客户在项目周期内实践这一运营方式,因为变革增加了客户的不适应性和不确定性,经常需要适合的契机。b)PRD 设计 在调研环节,项目的目标是输出大而全的指标/标签体系,以帮助或者启发客户

111、运营端的创新。所以 MRD 环节梳理的指标体系,不一定要全部开发落地。某些指标/标签,可能在当下没有数据基础,但是可以作为未来企业数据采集规划的方向。但在 PRD 环节就不一样了,PRD 考虑的是根据指标的价值,确定指标的可落地性,并设计以可视化的方式,展示这些指标。在 PRD 设计环节完成后,理论上项目的需求范围就比较清晰了,此时建议产出一份完整的需求总表(Product Backlog)。在此表示的是,与客户达成一致,作为最终验收前完成的需求范围,那饱含需求的优先级。需求总表涵盖了在上一阶段完成的MRD,PRD,本项目内的上云清单,公共层维度与事实表建设清单,指标/标签清单等。唯有需求范围

112、明确,优先级定义清晰,后面的开发才能有章可循,避免需求扩散。2)数据线 数据线,大概分为几个步骤:确定数据盘点和上云的范围和优先级。数据盘点。上云架构设计和数据上云。a)确定数据盘点和上云的范围和优先级 该阶段的目标是,探查每个场景所需的数据,了解这些数据分布的系统,产出数据盘点和上云系统清单。需要注意的是,这个清单不仅要包含上云的系统和表,还需要包含上云的历史数据回刷范围。历史数据回刷范围是根据客户想要看到多久的数据而定。例如客户想看近 2 年的销售额对比,那回刷的范围就必须是 2 年以上。四、数据中台项目管理实践 75 b)数据盘点 根据上云系统清单去盘点所需用到的数据,盘点的内容包括:系

113、统流程映射表:基于业务过程,罗列各个业务系统间的关系。系统间数据互相访问的时限要求。数据源基本信息:基于系统级别,罗列各个业务系统的基础信息,例如系统类型,数据库类型,数据量,负责人等系统级别的信息。数据资源目录:基于表级别,罗列各个表的内容描述,属性信息,上云优先级等。数据字典:基于字段级别,罗列各个字段的属性和元数据信息。注:数据盘点的工作,不只是为了数据上云,可以同时考虑数据治理的一些工作,例如在数据盘点访谈的同时,也可以同时调研技术元数据和业务元数据的范围。c)上云架构设计和数据上云 该阶段是根据盘点的数据信息和数据使用要求,设计上云架构,并依照架构开始上云操作。3)架构线 架构线有两

114、个动作:梳理企业的业务大图。基于业务大图,指导数据中台的公共层建设,也就是设计事实表和维度表的设计。数据中台业务大图,关注基于业务对象的业务动作,和业务动作过程中涉及的业务对象。业务动作在中台里面体现就是事实表,业务对象对应的是维度表。例如一个航空公司的客户,他会购买机票,会付款,可能会退票退款,这些就是业务过程,有相关数据的对事实流水的记录,即事实表。关于维度,可以简单的理解为从哪个维度/角度/对象去分析这张事实表,例如从客户的维度,机票的维度、付款的维度等。四、数据中台项目管理实践 76 在设计维度表和事实表(公共层)的时候,需同时考虑数据治理的相关事宜。在此前经历的某项目中,曾被客户质疑

115、公共层的数据有些偏颇。复盘后发现由两大原因导致:问题一:客户源数据质量问题。问题二:缺失数据治理的环节。针对问题一的建议是,业务方在数据上云后,便开始检查数据的质量,而不是在开发后再去排错。上云的数据质量得不到保证,再准确的计算口径也不能得到一个准确的指标/标签。针对问题二的流程建议是,在数据中台实施过程中,加入数据治理的过程。建议流程如下:基于业务大图设计公共层的数据架构(维度表和事实表)。组织客户对维度表和事实表进行评审。客户信息中心基于维度表和事实表,完成技术元数据的数据治理。客户业务方基于维度表和事实表,完成业务元数据的数据治理。客户汇总技术元数据和业务元数据,交付团队再基于客户提供的

116、内容,进行开发。3.技术实施 1)传统流水线开发 以往在做数据中台项目的时候,沿用的是流水线型的开发方式,都是在上一个阶段有较清晰完整的交付物时,才进入到下一个阶段。例如需求明确了才设计。设计明确了,才开始开发。开发完成了,才开始验收。这样的好处是:便于需求的管理,可以通过设置里程碑,让客户确定需求,以降低需求的扩散。方便规划资源的投入,在一段时间只要一类资源的投入。例如咨询环节只投入BA,设计环节只投入 PD。四、数据中台项目管理实践 77 但是这样的问题是:经常出现上下游不衔接,上游的需求不能被实现。重复工作,例如 BA 向客户调研指标口径,但当 PD/TM 接手指标清单以后,PD/TM

117、又需要重新和客户梳理一回。由于所有的指标/标签都是同时上线,客户需要等待的时间较长。客户不能较好控制指标的优先级。对于乙方也是很不利的,等所有指标都开发完成以后,才让客户验收。验收的风险很大,周期长,返工风险大。数据中台持续的周期可能是半年以上,很难保证在这么长的周期内,需求是一层不变的。哪怕是确认了,也有更改可能。2)敏捷式开发 为了解决以上的问题,瓴羊的专家团队在项目实施中引入了迭代式的开发。以双周作为迭代计划,每个双周都是一个完整的开发单元。每一次迭代,都需要进行迭代规划会,从需求总表中(Product Backlog)由客户选出价值最高,优先级最高的指标作为本次迭代开发的目标,该目标称

118、之为迭代清单(Sprint Backlog)。每一个迭代,都只与客户共同完成本次迭代指标口径确认,再进行指标开发,指标测试,指标验收上线。在每一个双周结束,和客户进行一次总验收和复盘会。四、数据中台项目管理实践 78 这样可以保证开发都是根据客户价值的优先级来进行的。每一次迭代都能有指标验收和上线。对于甲方来说能提前分批预知风险,客户也可以提早使用高价值的指标。为了方便协同和实现项目可视化,推荐使用 Teambition(TB)作为管理工具。首先预设项目模板,让项目组的成员能够方便的在 TB 上找到所需的项目内容,对需求范围的管理也很有帮助,例如上文提到的数据上云清单,维度表清单,事实表清单,

119、指标/标签清单,迭代清单等,每一类清单都有开发步骤和流程,很适合通过 TB 进行可视化,流程化管理。最后,质量保障一定不能等到最后一刻才去进行,这样加大了复工风险。质量保障应该有一个完整的机制,持续进行。四、数据中台项目管理实践 79 4.数据中台-项目收尾 项目收尾阶段归集交付物自行存档并发给客户,为完结的项目进程和结果制作总结文件用于汇报。设计一些仪式,纪念里程碑时间点。同时复盘本期项目的亮点和缺点细节,以帮助下一个项目。五、产品部署方式及价格 80 五、售卖部署说明 Dataphin 提供公共云在线服务和线下独立部署(授权/订阅)两种服务模式。Dataphin 支持多种售卖版本和计算引擎

120、,每种计算引擎对应不同的售卖版本。在每个版本最小功能合集的基础上,可根据实际需求场景灵活叠加购买增值功能包,以夯实数据构建与管理基础,更好地对接上层应用服务。1.公有云在线服务 公共云环境下,Dataphin 支持按月/年订购的预付费模式。可根据需要选购不同的产品功能规格及订购时长,详情如下:服务模式:在线服务,开通即可使用。订购模式:按月/年订购。付费模式:预付费。可选地域:华北 2(北京)、华东 2(上海)、华南 1(深圳)、华东 1(杭州)。相关云资源:Dataphin 为每个用户分配固定额度的计算存储及调度资源,只需单独购买选取的计算引擎资源(离线支持 MaxCompute,实时支持

121、Flink)并进行相关配置,即可开启服务。2.本地化部署 除了公共云在线服务,Dataphin 支持线下独立部署,包括公共云独立部署(MaxCompute 引擎、ADB PG 引擎)、私有云独立部署(CDH5&6、FusionInsight、ADB PG 引 擎)、专 有 云 部 署(标 准 专-MaxCompute 引 擎、敏 捷 专-MaxCompute&EMR 引擎)。独立部署环境下,Dataphin 提供一次购买软件并每年订购维保的买断式服务。可根据需要选购不同的产品功能规格。除了产品服务,独立部署环境下 Dataphin 还支持按需订阅专家服务,以提供数据建设指导建议:服务模式:线下

122、本地部署 订购模式:五、产品部署方式及价格 81?软件授权模式:首年以 software 方式一次性售卖(即用户享有软件终生使用权),次年起以 renew 售卖。?软件订阅模式:每年支付相同金额,即用户必须持续付费才可使用产品,一旦终止付费,软件终止服务。付费模式:根据合同约定,按周期付款或一次性付款?支持订阅模式转为授权模式(重新签订合同即可,重新计费)。?不支持授权模式转为订阅模式。相关云资源:Dataphin 仅输出软件,需要独立购买计算存储及调度资源,且独享所有资源 六、关于瓴羊 82 六、关于瓴羊 瓴羊是一家专注企业数智服务的 DaaS 公司,由阿里巴巴集团数据中台、业务中台、客服系

123、统、供应链服务等多个部门融合升级而来,沉淀了阿里十年来数字化实践的经验与能力,是“阿里巴巴最佳实践”完整、系统、产品化地全面对外输出。瓴羊拥有着深度的行业洞见,专业的数字化团队就企业数字化转型中的关键问题提供咨询服务,针对数据治理和分析、营销、销售、服务、供应链等企业核心经营领域,推出了分析云、营销云、产销云、客服云、开发云等智能产品矩阵。通过持续的陪跑服务,打造客户成功保障体系,帮助企业实现多云多平台的数字化增长。瓴羊致力于帮助不断求“新”的企业实现全方位的数字化,至今已成功服务了LVMH、现代斗山、红星美凯龙、小鹏汽车、汉高、老板电器、麦当劳、一汽奥迪、海底捞、泡泡玛特等企业的数字化建设项目,帮助客户在数据资产、会员价值、货品效率、客户体验等方面带来突破性增长。钉钉扫码加入智能服务交流群 与 5000+数据人交流互动

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:构建企业级好数据(Dataphin智能数据建设与治理白皮书)(2022)(81页).pdf)为本站 (originality) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部