上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

袋鼠云:数据治理行业实践白皮书(2023版)(143页).pdf

编号:117400 PDF   DOCX 143页 7.35MB 下载积分:VIP专享
下载报告请您先登录!

袋鼠云:数据治理行业实践白皮书(2023版)(143页).pdf

1、杭州玳数科技有限公司数据治理白皮书(2023)袋鼠云数据治理行业实践白皮书(2023)版权声明版权声明本报告版权属于杭州玳数科技有限公司(简称袋鼠云),并受法律保护转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:杭州玳数科技有限公司(简称袋鼠云)”。违反上述声明者,本司将追究其相关法律责任。扫一扫获取白皮书电子版扫一扫获取白皮书电子版袋鼠云数据治理行业实践白皮书(2023)编制说明编制说明数据作为新型生产要素,已成为数字经济深化发展的核心引擎。“数据二十条”提出构建数据产权、流通交易、收益分配、安全治理等制度,初步形成我国数据基础制度的“四梁八柱”,将充分激活数据要素价值。然而

2、,当前许多企业坐拥海量数据,却仍停留在数据治理初级阶段,只有先将数据治理好,形成数据资产中心,才能进一步明确数据的权属以及实现后续的数据要素流通交易。因此,如何实现“用数据说话、用数据决策、用数据管理、用数据创新”的数据治理机制,成为当前摆在各企业面前的首要关键问题。在浙江省数字经济学会指导下,基于在数据治理领域的 8 年深厚积累与实践服务经验,袋鼠云撰写本白皮书,从专业视角逐步剖析数据治理难题,阐述数据治理的概念内涵、目标价值、实施路线、保障体系与平台工具,并借助行业实践案例解析,为读者提供一种数据治理新思路。指导单位:指导单位:浙江省数字经济学会编写单位:编写单位:袋鼠云编写指导:编写指导

3、:陈吉平、宁海元、俞天宝编写小组(编写小组(按照拼音首字母排名):按照拼音首字母排名):艾晓晨、陈曙光、范云浩、付子卿、古明、黄国乔誉、黄丽丽、林丹丹、梁宏、马青艳、潘铸珏、任松岩、宋明高、翁家泽、徐艳、余海洋、杨欢喜、杨文华、张爱东袋鼠云数据治理行业实践白皮书(2023)目录目录一、数据治理是数字化转型的必经之路.1(一)数字全球化催生数字治理需求.1(二)中国数字时代治理新范式.2二、数据治理概念.3(一)DAMA 体系.4(二)信通院数据治理服务商成熟度模型(DGS).5(三)国家标准:数据治理规范.7(四)数据中台.7(五)数据治理与数据中台.8三、数据治理目标与价值.9(一)构建数据

4、标准体系.9(二)提升数据质量.10(三)推动数据安全体系建设.10(四)推动数据资产体系建设与管理.11(五)推动数据管理组织体系建设.11(六)促进数据应用及共享.12四、数据治理方法论.12(一)数据治理架构.12(二)数据治理模式.141 数据治理模式介绍.142 数据治理模式对比.163 数据治理模式选择.17(三)数据治理实施路径.19(四)数据治理项目交付步骤.211 项目交付组织建议.212 项目交付步骤.223 项目交付成果.23袋鼠云数据治理行业实践白皮书(2023)五、数据治理保障体系.24(一)组织体系保障.24(二)制度体系保障.25六、数据治理平台工具.27(一)数

5、据治理平台工具全景图.27(二)袋鼠云数据治理管理平台.281 数据模型.292 数据开发.313 数据安全.334 数据标准.355 元数据管理.386 数据质量.447 数据服务.47七、数据治理行业实践.51(一)金融行业数据治理实践.511 银行机构数据治理实践.512 证券公司数据治理实践.563 基金公司数据治理实践.64(二)集团型企业数据治理实践.701 某央企数据治理实践案例.702 某旅游投资集团数据治理实践案例.743 某控股集团数据治理实践案例.79(三)制造行业数据治理实践.841 某汽车制造企业数据治理实践案例.842 某芯片制造企业数据治理实践案例.903 某半导

6、体企业数据治理实践案例.94(四)政务领域数据治理实践.981 某市住建局数据治理实践案例.982 某高铁枢纽站数据治理实践案例.103袋鼠云数据治理行业实践白皮书(2023)3 某市数据治理实践案例.108(五)港口行业数据治理实践.1111 某大型港口数据治理实践案例.1112 某码头数据治理实践案例.126(六)教育行业数据治理实践.1311 某高校数据治理实践案例.131袋鼠云数据治理行业实践白皮书(2023)第 1 页一、数据治理是数字化转型的必经之路一、数据治理是数字化转型的必经之路(一)(一)数字全球化催生数字治理需求数字全球化催生数字治理需求随着新一轮科技革命和产业变革深入发展

7、,数字全球化正加速到来。经济全球化正在从以物质流动为特征的全球化,逐步向以数字流动为牵引的新型全球化转变。数据要素跨境流动大幅增加,数据成为关键生产要素,数据跨境流动驱动国际经济活动高效、便捷、智能开展,创造经济价值。此外,数字平台和云计算企业加快全球布局,作为数据汇集、匹配撮合、运算分析、技术支持的重要主体,将日益成为全球数字经济产业链价值链的核心。数字平台成为全球数字经济产业链价值链中心。1表 1 技术革命与经济全球化资料来源:全球数字治理白皮书(2022 年)但是,数字全球化为全球经济发展提供新动能的同时,也引发了数据安全、数字鸿沟、个人隐私、道德伦理等一系列新挑战。围绕新设施、新要素、

8、新模式、1中国信息通信研究院全球数字治理白皮书(2022 年)袋鼠云数据治理行业实践白皮书(2023)第 2 页新业态产生了一系列相互交织的新问题,新兴问题快速涌现,治理规则缺失,这些都在催生数字治理需求。基于此,信通院在全球数字治理白皮书(2022 年)全球数字治理白皮书(2022 年)首次尝试提出全球数字治理体系框架,指出全球数字治理是各方为解决信息网络、数据要素、数字平台、数字技术应用等领域的全球性问题,而达成的塑造各方行为预期的规范、规则、标准、程序及执行机制的过程。图 1 全球数字治理体系框架资料来源:全球数字治理白皮书(2022 年)(二)中国数字时代治理新范式(二)中国数字时代治

9、理新范式在全球数字化背景下,放眼中国数字化形势,“十四五规划”“二十大报告”“十四五规划”“二十大报告”袋鼠云数据治理行业实践白皮书(2023)第 3 页等文件中明确指出迎接数字时代,激活数据要素潜能,以数字化转型整体驱动生产方式、生活方式和治理方式变革,打造数字经济新优势,加强关键数字技术创新应用,加快推动数字产业化,推进产业数字化转型。数字化转型是建立在数字化转换、数字化升级的基础上,以优化企业管理、创新商业模式、提升企业核心竞争力为目标的企业管理变革过程,是企业主动适应新一轮科技革命和产业变革的举措。数字化转型是企业为达到高质量、可持续发展,利用新一代信息技术而进行的企业变革,是将新一代

10、信息技术集成到所有业务领域,进而推动企业组织架构、业务模式、上海品茶等变革的措施,从而对企业的运营方式及向客户提供价值的方式产生根本性的改变。数据治理已经成为全方位数字化转型的重要驱动力量。一方面,数据治理正在打破政府内部数据孤岛、重塑业务流程、革新组织架构,打造出权责明确而又精简、高效、统一的数字政府;另一方面,数据治理反哺更广阔的经济和社会数字化转型,既为市场增效,又为企业社会赋权。数据治理就是数字时代的治理新范式,其核心特征是全社会的数据互通、数字化的全面协同与跨部门的流程再造,形成“用数据说话、用数据决策、用数据管理、用数据创新”的治理机制。二、数据治理概念二、数据治理概念二十大报告二

11、十大报告提出建设数字中国,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。“数据二十条”“数据二十条”随即出台,提出构建数据产权、流通交易、收益分配、安全治理等制度,初步形成我国数据基础制度的“四梁八柱”“四梁八柱”,将充分激活数据要素价值,赋能实体经济。在数字经济时代背景下,数据俨然已成为企业的核心生产要素之一。而企业数字化转型则是以数据为中心,通过数据驱动业务发展、管理协同和运营。因此数字化转型关键在于数据,数据治理则需先行。从而更好激发数据生产要素潜能,实现业务数据化、数据价值化,助力企业数字化转型。那么何为数据治理?数据治理包含哪些模块?本章将结合目

12、前市面上比较主流的几个体系进行阐述。袋鼠云数据治理行业实践白皮书(2023)第 4 页(一)DAMA 体系(一)DAMA 体系国 际 数 据 管 理 协 会(DataManagementAssociation,又 名 DAMAInternational,以下简称“DAMA”)在其DAMA 数据管理知识体系指南(第 2版)一书中将数据治理进行了定义,即数据治理是对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动2。此外,DAMA 还将数据治理作为数据管理十大知识领域的中心,负责知识领域的平衡和一致性。图 2DAMA 数据治理框架图资料来源:DAMA 数据管理知识体系指南(第 2

13、 版)DAMA 提到数据治理的目标有三点:提升企业数据资产管理能力;定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任;监控和指导政策合规性、数据使用和管理活动。可以看出,DAMA 给出了比较全面的解释,但是距离企业可落地的数据治理还是距离较远,更像是纲领性的介绍,因此对于如何进行数据标准的制定以及如何进行数据资产的评估都缺少具体的描述。2数据管理协会(DAMA 国际):DAMA 数据管理知识体系指南,机械工业出版社 2020 年版袋鼠云数据治理行业实践白皮书(2023)第 5 页(二)信通院数据治理服务商成熟度模型(DGS)(二)信通院数据治理服务商成熟度模型(DGS)数据治

14、理服务商成熟度模型(DGS)由中国信通院提出,以数据治理服务项目实施运维的流程为主线,融合数据治理核心能力,包括 6 大能力域、21 个能力项,其中 6 大能力域遵循一般性数据治理项目流程,具体如下:1.需求管理能力域:提供方通过采集需求方的业务需求、数据需求、技术需求等,明确数据治理目标和范围,并评估实施数据治理可行性;2.资源评估能力域:提供方通过对数据来源、数据规模、数据分类、数据关系、数据时效性、专业软件工具、存储计算环境以及硬件资源等主要影响因素进行分析,以提升数据治理项目任务分解的准确性,指导识别项目中的潜在风险;3.实施保障能力域:提供方通过制定实施规划,建立组织保障,开展风险管

15、理,确保数据治理项目的顺利实施,降低风险和成本;4.方案设计能力域是数据治理项目的核心环节,提供方通过制定相关规范体系和设计文档,形成满足甲方需求的数据治理体系;5.方案实施能力域提供方通过依托相关平台工具,实现方案的落地;6.成果交付能力域包括试运行、成果验收 2 个能力项。图 3 数据治理服务能力成熟度模型资料来源:DAMA 数据管理知识体系指南(第 2 版)DGS 从服务商的角度出发,对数据治理的方方面面进行了解释,给出了模型袋鼠云数据治理行业实践白皮书(2023)第 6 页规范和评估标准。对于企业来说,不管是想自己做数据治理,还是通过服务商来实现部分数据治理工作,DGS 都提供了一套相

16、对全面的参考指南。截至目前,DGS 共开展 2 批评估,袋鼠云已通过 DGS 三级评估袋鼠云已通过 DGS 三级评估。整体来看,目前数据治理提供商的数据工程服务能力优势集中于数据资源评估、数据质量、数据标准等能力项。图 4 信通院数据治理服务商成熟度评估袋鼠云数据治理行业实践白皮书(2023)第 7 页(三)国家标准:数据治理规范(三)国家标准:数据治理规范信息技术服务治理 第 5 部分:数据治理规范(GB/T 34960.5-2018)中,为了促进组织有效、高效、合理地利用数据,有必要在数据获取、存储、整合、分析、应用、呈现、归档和销毁过程中,提出数据治理的相关规范3。规范中提出了数据治理的

17、定义,即数据资源及应用过程中相关管控活动、绩效和风险管理的集合。规定了数据治理的顶层设计、数据治理环境、数据治理域及数据治理过程的要求,从而实现运营合规、风险可控和价值实现的目标。(四)数据中台(四)数据中台大数据时代,大量结构化、非结构、半结构数据量暴增,计算难度几何式递增。同时数据复杂、数据类型庞杂等导致数据处理复杂度也大大提升。传统数据仓库的不足也逐渐暴露,数据孤岛、重复开发、数据共享难等问题日益加剧。在人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,2019 年,数据中台在众多赛道中脱颖而出,成为行业焦点。艾瑞咨询2022 年中国数据中台行业研究报告指出,数据中台是一种数字

18、化综合解决方案。狭义来看,数据中台是一套实现数据资产化和服务复用的工具4;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。3信息技术服务治理 第 5 部分:数据治理规范(GB/T 34960.5-2018)4艾瑞咨询2022 年中国数据中台行业研究报告袋鼠云数据治理行业实践白皮书(2023)第 8 页图 5 数据中台核心架构图资料来源:艾瑞咨询2022 年中国数据中台行业研究报告全国首个数据中台团体标准数据中台 元数据规范(T/ZAII 035-2022)也指出,数据中台是一套通过产品技术、解决方案、规范标准、团队组织的整合,实现数据汇聚、治理、运营的架构5。这与艾瑞咨询

19、的观点不谋而合。总结而言,数据中台是一套可持续的“让数据产生价值”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。(五)数据治理与数据中台(五)数据治理与数据中台数据治理是针对数据资产管理的控制、决策规范,它将严密性和纪律性植入企业的数据管理、规划、监测、使用和保护过程中。而数据中台也是一种数据资产管理机制,采集、计算、存储和处理海量数据,保证数据的标准统一和口径一致,建立全域级、可复用的数据存储能力中心和数据资产中心,提高数据共享和复用能力,灵活高效地解决数据应用需求。对比来看,数据中台

20、和数据治理都是体系性的工作。虽说数据治理与数据中台涉及的绝大部分领域相同,但数据中台并不仅仅是数据治理工作的放大升级版,5数据中台 元数据规范(T/ZAII 035-2022)袋鼠云数据治理行业实践白皮书(2023)第 9 页而是数据治理工作的深化,它强化了数据治理的深度和广度,并拓展了数据治理不涉及的数据应用领域。换言之,数据中台真正实现了企业内部数据的闭环。因此,数据中台是数据治理实现的一种高效方式,是当下最为适合企业数字化转型的模式。那么数据中台该如何落地?如何与数据治理有机结合呢?我们认为可以从顶层设计、专题及工具、数据应用顶层设计、专题及工具、数据应用三项核心内容入手。首先,从顶层设

21、计出发,开展数据管理的战略规划和机制建设,为数据治理工作开好局。其次,引入数据治理工具,通过数据标准管理、数据架构和模型管理、数据开发、元数据管理、数据质量管理、数据生命周期管理、数据安全管理、主数据管理等八大数据治理专题夯实数据管理各项基础工作。最后,基于数据治理工具提升数据管理的自动化水平,最终促进数据资产的对内对外开放使用,实现数据资产的价值与变现能力全面提升。图 6 袋鼠云数据治理框架图三、数据治理目标与价值三、数据治理目标与价值(一)构建数据标准体系(一)构建数据标准体系构建数据标准体系的目标是通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业内部数据的完整性、有效

22、性、一致性、规范性、开放性和共享性管理,为数据治理工作打下坚实的基础,为数据资产管理活动提供规袋鼠云数据治理行业实践白皮书(2023)第 10 页范有效依据。数据标准化的过程是通过数据管理平台实现数据标准,并将各个系统产生的数据通过清洗、转换、加载到整合平台的数据模型中,实现数据标准化的过程。首先,通过要求数据语义遵循确定规则来减少源数据的不确定性、减轻数据交换的障碍。其次,数据标准的兼容性为企业相互共享提供可能,在不同场景和环境中使用数据产品或服务,可以使数据产品或服务正常流转运行。数据标准体系的建立可有效提升企业数据治理的效率,降低数据治理成本。(二)提升数据质量(二)提升数据质量数据作为

23、产生业务价值和实现业务目标的基石,数据质量已成为企业实现业务目标的一个极其重要的因素。数据的质量问题在一定的角度上反映出企业数据治理过程中存在的一些问题,分析数据质量问题可以帮助企业找到问题的源头。高质量的数据对管理决策,业务支撑都有极其重要的作用。企业的数据质量与企业经营业绩之间有着直接的关系。高质量的数据可以保持公司的竞争力,在企业市场竞争时期立于不败之地,而低质量数据往往会导致错误的业务决策。提升数据质量能够为企业提供结构清晰的数据,是企业开发业务系统、提供数据服务、发挥数据价值的必要前提。(三)推动数据安全体系建设(三)推动数据安全体系建设企业数据安全体系建设是数据治理和信息生命周期管

24、理的基础,通过对企业内部的数据全生命周期的盘点梳理,可以帮助确定企业数据所有权的适当分配及建立完善的权责制度,满足监管及合规要求。在企业数据治理过程中,数据安全能力的提高成为数据价值共享的关键,推动数据安全体系建设是企业数据治理的必要环节。企业根据数据资产对企业的重要程度,为数据打上不同的标签,对敏感数据进行分级分类,根据数据所属的级别,明确数据的使用范围、开放方式、不同等级的数据在不同场景使用不同的安全策略。企业可以采取数据泄露防护、加密、袋鼠云数据治理行业实践白皮书(2023)第 11 页权限管理等技术手段,对企业机密数据提供进一步的保护,从而降低数据泄露带来的风险。(四)推动数据资产体系

25、建设与管理(四)推动数据资产体系建设与管理数据治理是实现数据资源向数据资产转变的重要载体,基于数据治理形成的数据资产体系作为企业各业务数据服务的提供方,在建设过程中需匹配企业战略规划,从全局维度将自身平台能力与数据能力赋能业务。同时,数据源不断地向数据资产平台输出数据,即业务产生数据,数据服务业务,形成业务数据化、数据资产化、资产服务化、服务业务化、业务智能化的一套闭环、高效的数据资产体系与数据服务能力。企业如何进行数据资产管理、提升数据质量、挖掘数据价值并通过数据赋能业务,已成为企业数据治理的核心问题。企业通过建设统一的数据资产管理平台,综合管理所有数据资产,可实现数据资产的智能化管理,充分

26、发挥数据的潜在价值。数据资产平台作为一体化的数据资产管理工具,通过制定元数据模型、数据标准等规范,采集并建立完整的数据资产目录体系,打通数据关系网络,实现数据的标准化和资产化管理。(五)推动数据管理组织体系建设(五)推动数据管理组织体系建设数据管理组织体系涉及业务、IT、管理等方方面面,仅仅依靠技术部门来推动和开展数据管理工作无法取得成功,只有来自更高层管理者的驱动力,建立自上而下的跨部门、跨业务条线的组织体系,才能保证企业内部的高效协作,推进数据治理各项任务的有效执行。实践证明企业的数据管理办公室、数据管理部可协助企业制定公司级的数据管理制度、流程、机制,建立并维护企业级数据架构,监控数据质

27、量,披露重大数据问题,建立专业任职资格管理体系,提升企业数据管理能力,推动企业数据治理制度文化的建立和传播。袋鼠云数据治理行业实践白皮书(2023)第 12 页(六)促进数据应用及共享(六)促进数据应用及共享数据治理的主要目标之一是推动数据有序、安全地流动,以便最大程度地挖掘和释放数据价值。数据流动则需要推动数据的开放分享,实现数据的汇聚、建模、共享。数据的开放共享的核心在于数据汇聚,打破数据孤岛,实现数据价值的流通;重构数据获取及应用方式,重塑从数据供应到消费的链条;建立高效、规范的自助消费数据应用。数据治理可有效促进数据应用及数据共享,使更多的企业组织充分地使用已有数据资源,减少信息收集、

28、数据采集等重复劳动和相应费用,而把精力重点放在开发新的数据应用及系统集成上。数据应用及共享可以为企业组织带来降低运营成本、增强业务能力、提高效率、集中访问数据以减少重复数据集、促进组织间的沟通与合作,加强参与组织之间的联系等益处。四、袋鼠云数据治理新范式四、袋鼠云数据治理新范式(一)数据治理架构(一)数据治理架构随着世界经济由工业经济向数字经济转型,数据逐步成为关键的生产要素,企业开始将数据作为一种战略资产进行管理。数据从业务中产生,在 IT 系统中承载,要对数据进行有效治理,需要业务充分参与,IT 系统确保遵从,这是一个非常复杂的系统工程。实践证明,企业只有构筑一套企业级的数据治理综合体系,

29、明确关键数据资产的业务管理责任,依赖规范的制度流程机制,构建有效的管理平台及工具,数据的价值才能真正发挥出来。数据治理架构如下图所示。袋鼠云数据治理行业实践白皮书(2023)第 13 页图 7 袋鼠云数据治理框架图构筑数据治理体系的过程,即以数据应用为核心打造“良性循环的闭环数据治理管理体系”的过程。各 IT 系统获取业务活动产生的各类数据后,经过系统的数据治理、管理,不断挖掘、变现数据价值,拓展、深入数据应用场景,指导业务决策,同时在不断应用数据过程中基于发现的数据问题,通过数据治理、管理的过程不断修订,推动业务系统全面升级,真正优化业务流程管理机制及规范,最终构建数据“获取管理变现发现应对

30、修正”的闭环管理机制。以数据应用核心,数据治理平台工具为支撑,在数据治理组织/制度保障下,不断通过数据治理手段,推动实现数据标准化及业务标准化,实现业务、技术、管理、平台的有效联动。在数据治理综合体系内,数据治理核心模块包括数据治理规划、数据治理职能及数据治理平台工具,数据治理规划是指数据治理体系与规划、数据治理组织与职责、数据治理制度及流程,是数据治理规范化管理的核心模块;数据治理职能包括数据标准管理、数据质量管理、数据架构及模型管理、数据开发、元数据管理、主数据管理、数据生命周期管理、数据安全管理八大职能,实际过程中,企业通常会合并管理;数据治理平台工具包括数据开发平台、数据资产管理平台、

31、数据质量管理平台、数据服务平台,通常数据治理平台工具基于数据治理的阶段功能并不完全一致,实践中平台工具通常综合多方面功能,而不是单平台功能。三大模块互为动力,数据治理规划指导数据治理职能的全面发挥,数据治理各项职能通过数据治理平台工具协助管理,数据治理平台工具支撑数据治理规划袋鼠云数据治理行业实践白皮书(2023)第 14 页的落地及优化,数据治理规划各层面逐步固化在数据治理平台上,数据治理平台辅助数据治理各项职能的管理,通过数据治理各项职能不断落实和完善数据治理规划,实现组织数字化转型,固化管理机制及流程体系。未来企业通过构筑数据治理综合体系,逐步建立数据治理机制,完成组织转型,数据治理职能

32、将成为企业管理的重要组成部分,良性循环的管理体系将推动企业实现更广、更深层次的数据应用,数据决策将成为企业人思考的习惯,企业决策将更加科学、有效。未来企业数据治理蓝图架构如下图所示,业务系统、数据治理及数据应用互为动力,共同推动企业数字化转型的实现。图 8 数据治理蓝图架构示例(二)数据治理模式(二)数据治理模式1数据治理模式介绍1数据治理模式介绍数据治理模式是指企业基于不同的数据治理目标,根据企业组织、系统、数据应用的现状,以何种数据治理策略开展数据治理活动。根据袋鼠云 8 年的实践袋鼠云数据治理行业实践白皮书(2023)第 15 页证明,通常数据治理模式包括三种基本模式。模式一:自下而上,

33、以数据架构为重,开展数据治理。模式一:自下而上,以数据架构为重,开展数据治理。这种模式重在数据架构,层层向上治理数据,至数据应用层。这种模式从底层数据切入,基于现有数据基础,盘点、建设、治理、应用层层展开,对企业整体的数据思维、数据治理水平要求较高,通常适用于数据量重、业务应用轻大型技术型企业,或政府机构,或新建、自研系统较多的企业。模式二:自上而下,以明确的数据应用为重,开展数据治理。模式二:自上而下,以明确的数据应用为重,开展数据治理。这种模式即单点应用式,通常以现有应用需求为核心开展数据治理。聚焦各个业务领域的数据应用、数据治理需求,在有需求、有资源、有驱动力的前提下,按需组织推进数据治

34、理工作。只有业务部门的深入参与才能做好数据治理,只有针对业务自身需求进行的治理,才能得到业务部门的认可和支持。此模式通常围绕数据应用的需求进行数据治理,比如升级架构、更换平台等涉及数据应用迁移时,或聚焦监管、上报类等明确数据应用时,围绕数据应用进行数据治理。此模式通常适用于数据应用较强、业务部门较为强势、但整体数据认知较弱的企业。这种模式的数据治理切入相对较为简单,实践证明,大部分企业数字化转型初期会这种模式,慢慢探索企业的数据治理道路,这种模式有助于拉齐数据部门、业务部门的认知,提升企业整体数据认知,为未来数据治理的开展提供基石。模式三:大规划模式,从数据应用规划入手,治理现状,规划未来,基

35、于数据资产的未来开展数据治理。模式三:大规划模式,从数据应用规划入手,治理现状,规划未来,基于数据资产的未来开展数据治理。这种模式需要企业全面梳理业务的现状痛点及业务未来畅想,盘现状、规划未来,基于业务现在及未来的需求规划分析应用场景,在应用场景蓝图规划的范围内,全面的梳理数据的现状、规划数据的未来,针对蓝图规划中的数据需求,制定全方位策略,哪些新建系统、新购数据源?哪些需要现有数据系统升级,细化、标准化现有数据?哪些数据需求落地可行性较高?制定全面的规划体系,划分优先级,有节奏、有步骤地实现全面的数据治理。这种模式通常是企业的战略项目,由高层推进开展,对数据、业务协同性要求较高,整个过程涉及

36、系统改造升级、业务流程优化再造,是企业全面升级的过程。袋鼠云数据治理行业实践白皮书(2023)第 16 页图 9数据治理三大基础模式组合模式一:模式一&模式二组合,即全域数据治理+明确应用场景规划。组合模式一:模式一&模式二组合,即全域数据治理+明确应用场景规划。这种模式兼顾底层数据与上层应用,可对冲底层数仓重建的部分风险,同时可有效地阐述数据价值,整体可行性较高。组合模式二:模式一&模式三组合,即全域数据治理+全面应用场景规划。组合模式二:模式一&模式三组合,即全域数据治理+全面应用场景规划。这种模式从现在、未来的角度全面开展数据治理,业务、数据全面覆盖,返工重建风险小,同时有助于推动业务系

37、统、数据全面升级,业务价值较高,但对组织协同要求高,且成本投入高、耗时久,对执行团队要求高,复合型人才需求大,属于高风险高收益模式,需要企业高战略、高执行的推进落地。图 10 数据治理组合模式2数据治理模式对比2数据治理模式对比三大数据治理模式开展方式、适用场景、优劣势、资源投入各不相同。模式一,自下而上,切入方便,成本可控,重架构,但脱离应用,对执行团队架构能力要求较高,成效慢;袋鼠云数据治理行业实践白皮书(2023)第 17 页模式二,自上而下,目的明确,切入方便,成本可控,重应用,但轻治理,容易造成面子工程,出现重复治理的风险;模式三,大规划模式,规划的眼光,覆盖业务、数据双层面,重建风

38、险小,聚焦业务,有利于充分挖掘数据价值,但对组织的协同性要求较高,同时需要高质量复合型人才配合团队执行,整体落地风险较大,成本较大。数据治理三大模式对比如下表所示:表 2 数据治理三大模式对比三大数据治理模式各有优劣,而组合模式在某种程度上对冲单一模式的风险,可以更好地满足企业数据治理的需求和目的。企业应基于面临的现状,选择适合的自己的治理模式。3数据治理模式选择3数据治理模式选择不同的数据治理模式,对企业的数据治理水平、组织协同程度要求不同。自下而上的模式一是基于底层数据治理的,对数据治理水平要求较高,数据治理水平包括数据基础(数据量、数据质量等)以及数据治理能力,数据治理能力主要体现在数据

39、治理团队专业度以及数据治理体系(组织、制度及流程)完善袋鼠云数据治理行业实践白皮书(2023)第 18 页度。这种模式对组织协同度要求相对较低,主要靠数据治理团队推动进行。自上而下的模式二是基于明确数据应用进行数据治理的,相较于自下而上的模式一,组织的协同性要求会更高,需要业务部门、数据部门配合实现,但整体以需求为主,对数据治理的水平要求一般。大规划的模式三既治理现状,又规划未来,对组织协同性及数据治理水平均有极高要求。该模式需要动员企业的业务部门、技术部门、数据部门,同时需要企业各阶层(高层、中层、基层员工)的人员共同配合,全面盘点业务的痛点及未来规划,同时梳理数据现状,规划数据未来,通常为

40、战略项目、高层领导共同将企业数据治理水平推向一个新水平,同时完成数字化组织的转型。组合模式在组织协同性、数据治理水平上会叠加单一模式的要求,如模式一&模式三的组合模式对组织协同性、数据治理水平要求最高。各模式对企业的组织协同性、数据治理水平的要求见下图所示,基于各模式对企业组织协同、数据治理水平的要求不同,企业应充分盘点企业的组织现状、数据现状、应用现状,初步评估企业数据治理水平、组织协同度,结合数据治理的目标,评估可行性,选择最佳模式。图 11 各数据治理模式图企业数据治理是个复杂而漫长的过程,通常在不同的发展阶段,企业选择数据治理模式并不同,基于面对的组织、数据、应用现状,企业需要均衡目标

41、与现状,选择当下最合适的数据治理模式。袋鼠云数据治理行业实践白皮书(2023)第 19 页企业数据治理并不是一蹴而就的,它需要企业不断地进行规划、治理、监测、优化,通过数据治理不断完善企业的组织、制度、流程管理体系,同时不断提升企业数据治理管理水平,包括数据标准、数据质量、数据架构及模型、数据应用等模块的管理水平提升。数据治理是一个持续循环的过程,需通过不断地改进提升及完善。PDCA6循环不是在同一水平上循环,而是呈阶梯式推动上升,每次循环将推进企业的数据治理水平及组织协同性向新的、更高的层级进阶,最终实现企业数字化转型。图 12 数据治理 PDCA 循环机制(三)数据治理实施路径(三)数据治

42、理实施路径企业数据治理实施路径通常包含三个阶段。第一阶段:起步阶段,业务运营数字化阶段。第一阶段:起步阶段,业务运营数字化阶段。这个阶段主要是梳理企业面临的现状,响应痛点,探索业务场景化。企业逐步开始由信息化向数字化转型,这个阶段企业会重新审视原有的数据治理策略,重构数据治理战略及实现路径,逐步开始搭建数据治理框架、数据治理体系框架,升级原有的数据处理、应用模式,搭建大数据平台,构建大数据采集、汇集、存储、计算、服务的基础能力,逐步整合各系统的数据,打破数据孤岛,沉淀数据资产,探索业务场景化。6美.质量管理专家沃特阿曼德休哈特(Walter A.Shewhart)首次提出袋鼠云数据治理行业实践

43、白皮书(2023)第 20 页第二阶段:深入拓展阶段,数据赋能常态化阶段。第二阶段:深入拓展阶段,数据赋能常态化阶段。这个阶段数据应用成为重点,企业开始深挖数据价值,提高数据应用覆盖。数据应用的范围,由核心 KPI 指标的实现,逐步覆盖全部核心业务,搭建完善的分析框架和洞察体系,不断地提升业务决策质量。大数据平台持续发挥大数据处理的能力,企业纳入更多、更广的数据内容,不断扩大数据应用的广度及深度,初步形成企业的数据资产地图,数据标准体系逐步搭建,数据应用的效率大大提升,初步完成由“经验主义”向“数据主义”的转型,数据决策成为企业决策主要决策方式。这个阶段,企业开始全面建立数据管理权限体系,完善

44、数据治理机制,优化数据治理流程及制度体系,由原有的“粗放式”管理升级为“精细化”管理,数据质量不断提升,企业数据管理能力升级,逐步通过数据质量平台、数据资产平台、数据治理平台工具等实现智能管理,企业数据思维认知全面提升。第三阶段:智能应用阶段,运营决策智慧化阶段。第三阶段:智能应用阶段,运营决策智慧化阶段。这个阶段企业实现洞策合一,智慧场景应用成为常态,全面完成数字化转型,探索数字业务,开启新篇章。这个阶段以智能应用为主,AI 赋能成为常态,企业不断地挖掘数据的价值、激发创新,开始为企业战略性分析提供准确的数据依赖,在这个阶段,有些企业甚至在原有商业模式上,激发新的业务模式。数据管理层面,由数

45、据治理体系建设逐步向数据治理体系优化进阶,完善机制、流程,进一步细化数据管理职责;数据资产层面,完成全域数据资产建设,构建强壮的数据模型体系,完成企业数据标准建设,不断完善数据资产体系;平台工具层面,大数据平台能力逐步向算法能力转移,智能推荐算法模型开发成为常态化的需求,数据治理平台逐步完善功能,协助企业智能化数据质量、数据标准、数据资产及主数据等模块,企业真正进入运营决策智慧化阶段。袋鼠云数据治理行业实践白皮书(2023)第 21 页图 13 数据治理实施路径三大阶段(四)数据治理项目交付步骤(四)数据治理项目交付步骤11项目交付组织建议项目交付组织建议专业的交付团队,是项目成功的关键,依托

46、于专业的数据治理服务团队和知识沉淀,开展项目实施工作。首先客户的 CIO 或 CDO 是项目顺利进行的关键角色,可以更高效地推动实施团队与业务的融合。其次是项目的项目经理,负责项目的管理和资源调度,各阶段人员及工作安排,项目计划制定、进度控制、项目风险管理、项目质量把关等;技术负责人、系统架构师、项目管理专员是项目团队的智囊团和质量保障;根据项目需求,安排不同岗位职能人员开展实施及售后工作,包括但不限于业务架构师、业务分析师、数据架构师、数据开发工程师、测试工程师、技术支持、运维工程师、产品专家、产品经理、客户成功专员等。袋鼠云数据治理行业实践白皮书(2023)第 22 页图 14 数据治理项

47、目交付人员配置2项目交付步骤2项目交付步骤项目交付主要分为 4 个步骤,以需求调研为切入点,以方案设计为规划核心,以开发实施为交付重点,以上线运维为服务保障,依次稳步开展保证项目的顺利实施。第一步是需求调研第一步是需求调研:通过业务调研切入,以收集资料和访谈调研为抓手,了解客户的业务流程和痛点,深挖根本原因。以数据调研作为后续方案设计的开端,结合业务调研的痛点与根本原因,了解客户数据系统的现状后,以数据角度切入整体解决方案。第二步是方案设计第二步是方案设计:以数据标准方案为基石,以场景规划方案为需求原点,以数据架构方案为纲领,进行整个数据治理方案设计;以客户实际需求为主,形成规范的组织架构、管

48、理制度,参考国标及行标,形成数据标准方案,为后续实施打下坚实基础;通过需求调研整理客户实施的场景范围,输出原型设计及指标清单,与客户确认后输出场景规划文档,以此确定客户整体需求范围;根据整体需求范围和数据系统现状,搭建数据架构,划分业务域及数据域,规划后续开发实施的整体框架。第三步是开发实施:第三步是开发实施:确定整体方案后,进行产品部署、数据探查、数据同步工作,根据场景规划和架构设计方案,遵循数据标准方案,进行数据开发与数据治理。第四步是上线运维:第四步是上线运维:整体开发完成后进行试运行,同步开展产品测试工作,袋鼠云数据治理行业实践白皮书(2023)第 23 页均通过后进行产品验收及正式上

49、线,质保期间由运维部门进行巡检及售后工作。图 15 数据治理项目交付步骤图3项目交付成果3项目交付成果项目交付成果与交付步骤紧密相关,需求调研阶段以调研会议纪要、数据资产清单为主,方案设计阶段以产品需求文档、数据架构设计文档、数据标准方案为主,开发实施阶段以数据模型设计、需求变更清单为主,上线运维阶段以试运行报告、验收报告、售后运维方案为主,结合客户实际需求,交付相应的数据治理成果。图 16 数据治理项目交付成果图袋鼠云数据治理行业实践白皮书(2023)第 24 页五、数据治理保障体系五、数据治理保障体系(一)组织体系保障(一)组织体系保障建立全方位、跨部门、跨层级的数据治理组织架构,是实施组

50、织级统一化、专业化数据管理的基础,是数据管理责任落实的保障。一般来说,数据治理组织架构包括决策层、组织协调层、管理层、工作执行层四个层级。决策层作为数据决策方,由组织 CIO 或 CDO 担任,负责制定数据治理决策、战略和考核机制。组织协调层由虚拟的数据治理委员会承担,负责统筹管理和协调资源,细化数据治理的考核指标。管理层由数据治理办公室承担,作为数据治理的主要实体管理部门,负责构建和维护组织级架构(包括业务架构、数据架构、IT 架构),制定数据治理制度体系和长效机制,定期开展数据治理检查与总结,并向组织协调层和决策层汇报。工作执行层由业务部门和技术部门共同承担,负责在数据项目中落实数据治理工

51、作,与管理层协同参与各项活动。图 17 数据治理组织框架图资料来源:信通院数据资产管理实践白皮书 6.0袋鼠云数据治理行业实践白皮书(2023)第 25 页表 3 数据治理组织架构角色职责表资料来源:信通院数据资产管理实践白皮书 6.0(二)制度体系保障(二)制度体系保障为了保障数据治理工作和组织架构正常运转,需要围绕数据治理流程建立一套覆盖数据引入、加工、使用、服务等整个数据生产运营过程的制度规范,对数据治理领域各工作环节主要活动进行说明,为各业务部门开展数据管理工作提供参考依据,从制度上保障数据治理工作有据、可行、可控。袋鼠云数据治理行业实践白皮书(2023)第 26 页图 18数据管理流

52、程制度数据治理制度体系通常分层次设计,依据管理的颗粒度,制度体系可划分为总体规定、管理办法、实施细则和操作规范四个层次。基本内容如下:总体规定从决策层和组织协调层视角出发,包含数据战略、角色职责、认责体系等,阐述数据治理的目标、组织、责任等。管理办法从管理层视角出发,规定数据治理各活动职能的管理目标、管理原则、管理流程、监督考核、评估优化等。实施细则从管理层和执行层的视角出发,围绕管理办法相关要求,明确各项活动职能执行落实的标准、规范、流程等。操作规范从执行层的视角出发,依据实施细则,进一步明确各项工作需遵循的工作规程、操作手册或模板类文件等。袋鼠云数据治理行业实践白皮书(2023)第 27

53、页表 4 数据管理制度体系六、数据治理平台工具六、数据治理平台工具(一)数据治理平台工具全景图(一)数据治理平台工具全景图数据开发与治理一体化是将数据治理的过程融入到数据开发的全生命周期中,强调“先设计、后开发、先标准、后建模”的原则,其目标就是将数据治理的流程与数据开发的全生命周期相融合,在数据开发过程中完成数据治理。通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治理”的开发治理一体化理念。通过元数据管理、数据标准规范设计、数据质量提升、数据热度和成本计算,优化数据生产成本、量化数据收益价值,广泛应用于数据中台建设的中后期阶段。平台覆盖了日常数据治理过程中的核心资产管理模块。袋

54、鼠云数据治理行业实践白皮书(2023)第 28 页图 19 数据治理平台工具全景图(二)袋鼠云数据治理管理平台(二)袋鼠云数据治理管理平台经过多年的实践和持续的打磨,袋鼠云在数据生产力 DataOps 方法论的指引下,构建了面向数据生产力的产品技术体系,基于这套体系打造了数据治理开发、管理平台。产品工具层面,将整个数据治理流程贯穿各个子产品,沉淀一套全链路的数据治理工具体系。图 20 袋鼠云数据治理产品框架图袋鼠云数据治理行业实践白皮书(2023)第 29 页上图展示了数据治理链路及框架结构关系,数据治理涉及元数据管理、数据标准、数据开发、任务发布与运维、指标管理、模型设计管理、数据质量管理、

55、数据安全管理等。在数据开发过程中会生成使用数据和监控分析数据,通过这些数据可体现当前数据治理的现状,再通过资产管理体系来不断提升数据治理效果等。服务应用侧可以提供治理后数据的对外服务,如数据共享服务、数据可视化、智能标签等。袋鼠云数据治理产品体系(图 20),能够基本覆盖数据治理的八大专题(图19),实现一站式数据治理工作:1数据模型1数据模型数据模型主要面向设计,融合了数据治理理念,把数据治理推进到开发流程中,进行开发的源头治理,利用数据标准进行标准建模,解决了标准落地的难题,从根本上控制企业增量的数据质量问题。基于数据标准和数据模型的规范设计,通过标准化建表的功能,对 Hive 数仓进行规

56、范约束,更好地落地更规范的数仓模型建设,从根本上控制增量的数据质量问题。(1)Hive 建表(1)Hive 建表支持更规范、更便捷的建模方式,基于数据标准,实现可视化、配置化的建表建模及审批等流程管控。图 21 数据资产平台 Hive 建表 1袋鼠云数据治理行业实践白皮书(2023)第 30 页图 22 数据资产平台 Hive 建表 2(2)Flink 建表(2)Flink 建表在传统的实时开发过程中,每个任务需要开发任务临时映射 Flink Table,相关内容无法沉淀并且重复开发。Flink 建表可赋能实时开发平台,一次创建重复使用,并可结合数据权限管理保护数据安全,支持 Kafka2.X

57、、Kafka_0.10、MySQL、Oracle数据源类型,通过映射Kafka字符串和RDBMS表结构,转化为FlinkTable 的表结构。图 23 数据资产平台 Flink 建表袋鼠云数据治理行业实践白皮书(2023)第 31 页2数据开发2数据开发(1)实时开发(1)实时开发袋鼠云实时开发平台,面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、任务监控运维的全链路覆盖。基于先进的 Flink 计算框架,具备高性能且功能丰富的大数据实时处理能力。计算处理延时最低可达亚秒级别,并提供丰富的 Metric 运维监控曲线和日志功能。并且计算引擎(Flink1.1

58、0/Flink1.12)和调度引擎(Yarn/K8S)支持根据实际进行调整,从而快速实现实时智能推荐、IoT 传感信息分析、实时反欺诈等场景,助力企业搭建实时数据处理平台。(2)离线开发(2)离线开发袋鼠云离线开发平台是数据中台中的基座,包含全链路的数据集成、数据开发、周期调度、任务运维、监控告警等功能,具备灵活的多集群、多引擎对接能力。采用先进的大数据生态底层技术,通过 Hadoop 等开放的体系架构提供离线计算框架,具备高性能且功能丰富的大数据处理能力,可以最大化地萃取数据价值,完整实现数据应用的闭环。在提供开发环境和平台接口的同时,对大数据离线计算、数据仓库建设、企业图谱等多种应用提供有

59、效支撑。同时还拥有多项自研核心技术,帮助企业快速完成数据中台离线计算部分的建设,加速释放数据价值。(3)任务发布(3)任务发布Taier 是由数栈研发团队自研的一套分布式调度系统,与离线开发平台的数据开发模块无缝集成,用户完成代码编写后,仅需开启右侧调度面板即可完成依赖和周期配置,且相比开源方案可支持更多的配置内容。图 24 Taier 调度方案袋鼠云数据治理行业实践白皮书(2023)第 32 页Taier 分布式调度引擎实现在大规模任务场景下周期性、依赖性任务调度与状态监控;支持百万级任务并发调度,满足大型数据中台日常调度需求。一是任务上下游依赖配置:提供 Web 化界面,支持 DAG 模式

60、快捷配置任务上下游依赖。支持手动配置、依赖推荐和自动生成三种方式的任务依赖配置。二是任务调度周期及策略配置:支持天、周、月、时、分、Cron 表达式、自定义调度周期等方式设置调度周期;支持任务跨周期自依赖的多种策略配置;支持任务冻结、失败重试、任务实例过期时自动跳过策略;Hadoop 任务可支持指定 YARN 资源组运行,实现资源隔离。三是优先级与任务提交队列:Taier 为不同引擎维护提交队列,区分不同引擎的任务;支持任务优先级管理,高优先级的任务将被优先提交至计算引擎。(4)任务运维(4)任务运维开发人员除了进行数据同步和数据开发之外,还需要保证平台能够周期性正常产出数据。绝大多数的离线任

61、务都是周期运行的,任务中的错误代码、节点运行异常等问题都会导致任务失败,因此需要运维中心来监控每个任务的运行情况,并记录每个任务的运行日志,协助开发人员排查各种异常问题。离线开发平台运维中心主要功能包括重刷历史数据、管理任务实例、监控告警。对任务指定多种异常状态进行告警发送,自动监控每个任务的运行状态并汇总显示,自动统计最近一段的任务运行情况,汇总易出错的任务、耗时较长的任务,协助用户排查代码质量、平台运行情况。在项目管理中可开启任务运行情况报告,定时发送指定人员。图 25 运维总览页面袋鼠云数据治理行业实践白皮书(2023)第 33 页图 26 查看任务上下游依赖3数据安全3数据安全近年来数

62、据安全事件有增无减,无论是国家法律法规要求还是企业自身需求,都迫切需要建立完善数据安全管理制度和技术保护机制,加强数据安全体系的建设。(1)数据脱敏管理(1)数据脱敏管理对于一些敏感数据,用户可以配置并应用相关脱敏规则,杜绝敏感数据泄露问题,更好地服务数据安全。用户在元数据或者数据资源模块中预览某张表的数据内容时,敏感字段数据会自动进行脱敏处理。图 27 数据脱敏管理袋鼠云数据治理行业实践白皮书(2023)第 34 页(2)数据权限管理(2)数据权限管理支持 Flink 库表权限的管理,该权限配置可赋能实时开发平台。图 28数据权限管理(3)数据分级分类(3)数据分级分类根据分级结果可对数据进

63、行权限访问控制,如数据加密、数据访问权限等功能,来更好地管理和使用元数据。用户可以对字段做分级设置,支持手动、自动对字段进行分级。图 29 数据分级分类管理袋鼠云数据治理行业实践白皮书(2023)第 35 页4数据标准4数据标准建立数据标准,对存量数据进行后向管理,映射至已有元数据上,统一字段标准;对增量数据进行前向管理,利用数据标准进行建模,使模型字段更加规范统一。支持词根管理、码表管理、行业模板管理、数据库拾取管理、标准定义、标准映射。(1)词根管理(1)词根管理对词根信息进行线上化管理,词根信息可用于数据标准的定义。图 30 数据标准词根管理(2)码表管理(2)码表管理支持维护管理码表数

64、据,码表数据可用于数据标准的定义。图 31 数据标准码表管理袋鼠云数据治理行业实践白皮书(2023)第 36 页(3)行业模板(3)行业模板系统内置部分行业数据标准,支持用户查询并一键引入至自己的标准体系,更加贴合行业规范和标准。图 32 数据标准行业模板(4)数据库拾取(4)数据库拾取用于数据标准的建立基础,根据拾取条件,将已存在的字段名转化为数据标准或者词根,丰富平台数据标准。图 33 数据标准数据库拾取袋鼠云数据治理行业实践白皮书(2023)第 37 页(5)标准定义(5)标准定义支持数据标准的管理维护。支持自动关联已建好的词根、行业模板,引入码表。图 34 数据标准定义(6)标准映射(

65、6)标准映射将已发布的数据标准和平台已采集到的字段进行映射匹配,评估企业数据的规范性。图 35 数据标准映射袋鼠云数据治理行业实践白皮书(2023)第 38 页(7)标准统计(7)标准统计全局统计分析该模块的数据标准、码表、词根,包括看板统计、标准热度、标准目录分布、标准新增趋势、标准来源分布。图 36 数据标准统计看板5元数据管理5元数据管理在元数据管理中将业务元数据、技术元数据补充完整,同时配合数据资产中心的数据模型、数据标准以及基于 ROI 的数据资产精细化管理,对数据资产的健康情况和使用情况进行观察,帮助该公司识别并掌握真正有价值的资产。(1)数据地图(1)数据地图数据地图是平台统一的

66、元数据查询入口,平台将所有的元信息进行串联、整合、维护,提供快速查找数据的能力。袋鼠云数据治理行业实践白皮书(2023)第 39 页图 37 数据地图看板元数据详情一是基本信息:支持查看表的技术属性、业务属性和表结构信息。图 38 元数据基本信息二是数据预览:支持快捷浏览表内部分数据。三是血缘关系:图谱化的方式进行展示当前表的血缘,便于快速定位问题,追踪数据流向。袋鼠云数据治理行业实践白皮书(2023)第 40 页图 39 元数据血缘关系四是任务依赖:自动解析当前数据表的相关任务依赖关系。图 40 元数据任务依赖五是版本变更:每次元数据变更,系统会自动记录并生成新版本,支持任意选择两个版本进行

67、元数据比对,更好地定位问题、对比前后变更差异。袋鼠云数据治理行业实践白皮书(2023)第 41 页图 41 元数据版本变更六是数据目录:业务人员可根据业务需求对数据进行快速目录建立,让数据资产的沉淀反映实际的业务发展。(2)元数据应用(2)元数据应用支持元数据的导出和订阅,更好地使用平台维护的元数据信息,且能更好地感知元数据变更。图 42 元数据应用袋鼠云数据治理行业实践白皮书(2023)第 42 页(3)元模型管理(3)元模型管理元模型是对元数据标准的规范约定,定义了每张表需要维护哪些元数据信息,对元数据信息进行更规范管理。图 43 元模型管理(4)元数据管理(4)元数据管理通过元数据管理,

68、用户可以基于元模型设计的规范约束,维护表的业务元数据信息,更规范地维护元数据信息,便于后续的元数据信息查询和利用。图 44 元数据管理袋鼠云数据治理行业实践白皮书(2023)第 43 页(5)元数据质量(5)元数据质量支持对平台的元数据进行完整度分析和血缘分析,整体元数据维护质量通过指标分析展示。一是完整度分析:统计每张表的业务属性(必填项)是否均已完成维护。图 45 元数据质量完整度分析二是血缘分析,及时发现一些肯定存在血缘关系,但是血缘关系缺失的表,如数仓下游层级的表、BI 报表等。用户可以通过添加数据库,系统自动根据数据地图血缘关系的解析结果,统计库中血缘孤立的表。图 46 元数据质量血

69、缘分析袋鼠云数据治理行业实践白皮书(2023)第 44 页6数据质量6数据质量支持对数据进行质量校验,帮助企业及时发现数据问题。通过事前规则配置、事中规则校验、事后分析报告的流程化方式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障企业数据质量服务。支持规则配置、任务查询、实时校验等。(1)规则配置(1)规则配置一是单表校验:单表校验规则主要包括完整性校验、准确性校验、规范性校验、唯一性校验、自定义 SQL。图 47 数据质量单表校验二是多表校验:多表校验适用于对两张表的数据进行一致性和存在性比对。比如 A 表与 B 表的数据是否完全一致;A 表的某列数据,是否存在于

70、码表 B。袋鼠云数据治理行业实践白皮书(2023)第 45 页图 48 数据质量多表校验(2)任务管理(2)任务管理任务列表展示规则每次执行的实例信息,包括实例的运行状态、运行时长等基本信息。单表任务单表任务一是规则报告:支持查看每个规则的运行记录,统计每次规则运行的结果值,生成曲线趋势图,直观展示数据质量的变化情况。对于校验未通过的规则,支持在线预览问题数据明细和下载数据。图 49 数据质量规则报告袋鼠云数据治理行业实践白皮书(2023)第 46 页二是表级报告:从多种维度自动统计表级的质量情况,包括校验记录情况、告警情况。图 50 数据质量表级报告多表任务多表任务自动统计两张表的差异总数和

71、差异比例情况。图 51 数据质量多表任务(3)实时校验(3)实时校验支持对 Kafka 数据进行周期抽样校验。系统根据调度周期和样本量上限,定时进行抽样校验。袋鼠云数据治理行业实践白皮书(2023)第 47 页图 52 数据质量实时校验7数据服务7数据服务袋鼠云数据服务平台定位于统一的企业数据资源“纵向贯通”“横向互联”的共享通道,实现快速创建 API、企业级 API 市场管理、丰富的调用安全策略等,快速释放数据价值。支持可视化生成与注册 API,快速构建 OneService 数据共享服务,通过多种手段标准化管控服务,可完成从 API 创建、发布、申请/审批、调用的全生命周期管控,形成企业级

72、 API 市场和 API 服务管理平台,提高数据开发与共享效率。图 53数据服务 API 管理袋鼠云数据治理行业实践白皮书(2023)第 48 页(1)API 生成与注册(1)API 生成与注册生成 API 前需要先对接数据源,API 配置的数据源支持多种关系型数据库:MySQL、Oracle、SQLServer、PostgreSQL、DB2、KingbaseES8、Greenplum、Trino、Impala、Analytic DB、RDS、TiDB、Inceptor、Kylin、MongoDB、HBase、Redis、Phoenix 等数据源。数据服务目前已覆盖主流数据库,支持创建多种类型

73、数据服务。API 注册支持将平台外部的 API 注册至 API 网关,可在数据服务平台进行统一管理。注册 API 支持 POST、GET、PUT、DELET、PATCH 请求方式,支持 HTTP/HTTPS、WebService 和 Socket 协议,可注册 JSON、XML、表单类型的 API。同时,也可对注册的 API 进行调用限流、调用次数、调用时间、缓存、IP 地址黑白名单的限制。(2)API 管理(2)API 管理API 管理者可对生成和注册 API 进行统一管理,进行 API 的发布,禁用、删除等操作。支持查看每个 API 的详情、版本、调用情况、订购情况、安全限制,了解每个 A

74、PI 的使用及订购情况。(3)API 申请与调用(3)API 申请与调用数据服务提供统一 API 市场。当 API 创建完成发布至 API 网关后,API 便上架在 API 市场,API 申请者可在 API 市场中查看各 API 的基础信息,申请自己需要的 API。图 54数据服务 API 调用袋鼠云数据治理行业实践白皮书(2023)第 49 页API 有三种认证方式:API-TOKEN、USER-TOKEN 和 AK/SK 签名。API-TOKEN(API 维度)、USER-TOKEN(用户维度)的加密方式适用于对安全等级要求较低的场景,用户在调用 API 时需要在 Headers 中传入

75、API-TOKEN/USER-TOKEN 才可成功调用。通过 AK/SK 的方式调用者需要根据 APP Secret 以及 API 入参根据加密算法生成 API 签名,结合 API 调用 URL 和请求示例,按照一定的数据格式开始调用。服务端对此参数进行解析,完成身份验证,适用于安全性较高的场景。(4)API 测试(4)API 测试API 测试为 API 发布前的一道保障程序,在 API 生成后,API 管理者需进行API 测试来保障 API 的可用性,防止出现申请者使用不可用 API 服务的情况。在产品操作层面,API 测试也是非常简单的可视化配置,直接填写输入参数值,就可以开始测试,最终返

76、回 JSON 调用结果,系统会告诉用户调用成功还是失败,同时可将返回的 JSON 结果作为样例保存,作为 API 申请者的参考信息。图 55 数据服务 API 测试(5)API 安全(5)API 安全产品在数据安全的设计上有以下保障:申请审批机制申请审批机制产品采用 API 申请授权的流程化设计,在使用 API 前,需要进行 API 的申请,申请单中需明确 API 的调用次数限制和有效期。经过 API 管理者的授权审批后,申请者可查看 API 相关的调用信息,才可对其进行调用。袋鼠云数据治理行业实践白皮书(2023)第 50 页 调用限流调用限流API 在生成时,可设置 API 单秒/单分调用

77、次数,保证 API 网关的稳定,限制高并发、防止恶意调用及攻击。黑白名单限制黑白名单限制允许对 API 调用进行 IP 地址黑白名单的访问限制,允许特定 IP 地址访问或设置特定 IP 地址不能访问。三种认证方式三种认证方式1)API-TOKEN、USER-TOKEN 认证API 调用时,需将 API-TOKEN/USER-TOKEN 填写至 Header 中进行调用,适合API 测试、企业内部等安全性要求不高的使用场景。2)AK/SK 签名加密API 调用方式采用 AK/SK 签名加密的方式,通过 APP Secret 与 API 输入参数可生成唯一的 API 签名,API 签名及 APP

78、Key 都需在 API 调用时放在 Header中,进行 API 的申请调用。适合应用系统间、跨域名等安全性要求高的使用场景。行级权限行级权限支持建立行级权限标识,指定对应用户能访问的行级数据。传输加密:RSA+AES、SM2+AES传输加密:RSA+AES、SM2+AES用于传输加密,为请求/返回信息做加密处理,保障数据传输的安全性。1)RSA/SM2:产品为每位用户创建相互独立的 RSA/SM2 密钥对,“公钥加密、私钥解密,私钥加密、公钥解密”。RSA/SM2 公钥对用户可见,私钥平台进行管理。RSA/SM2 公钥用途:对 AES 密钥进行加密处理。RSA/SM2 私钥用途:对 RSA

79、公钥加密后的 AES 密钥进行解密。RSA/SM2 公钥查看路径:我的 APIAPI 调用。2)AES:需调用者通过程序手动生成 AES 密钥。AES 密钥用途:对请求/返回信息进行加密/解密处理。袋鼠云数据治理行业实践白皮书(2023)第 51 页七、数据治理行业实践七、数据治理行业实践(一)金融行业数据治理实践(一)金融行业数据治理实践1银行机构数据治理实践1银行机构数据治理实践(1)案例背景(1)案例背景近年来,随着信息化、数字化、智能化的快速发展,数据从资源逐渐转变为资产。金融行业具有海量数据资源和丰富应用场景优势,在企业经营管理、产品研发、技术创新等关键环节中发挥着重要作用。数据治理

80、作为释放数据价值的基础,在推动银行数字化转型的过程中扮演了“承上启下”的关键角色。通过数据治理咨询,结合数据平台建设和数据应用实施,构建科学的组织架构体系,完善数据治理流程制度与规范,建立数字化协同机制,整合并打通银行内多源、零散的异构数据体系,构建全行业数据资产体系,完善数据权限、数据血缘、数据质量、分级分类等管理体系,借助数据产品对数据资产进行深度加工挖掘价值,面向零售、风险、财务等输出更加全面的数据及统计指标,推动银行业务数字化转型。(2)解决方案(2)解决方案 基于数据盘点构建全行级数据资源目录基于数据盘点构建全行级数据资源目录数据资产盘点有实体盘点,第一点是设计分类框架,为了方便对数

81、据资产进行管理,需要对数据资产进行分类,按照业内惯例,一般分为三级分类。分类依据可参考企业的流程框架,按照业务分类进行分类。第二点是明确盘点范围,对人力、财务、营销业务系统中的业务对象进行盘点,需要系统开发人员、业务人员共同参与,解决梳理过程中遇到的业务和技术问题。第三点要注意盘点的内容,也就是盘点业务实体对象。除了实体盘点外还有数据项盘点。数据项的盘点依赖于实体的盘点,每个实体有若干个数据项,数据项是业务开展的基础属性,这些属性可以从业务系统界面获取,也可以从后台获取。袋鼠云数据治理行业实践白皮书(2023)第 52 页图 56 银行数据资源目录基于数据标准的规范化 ETL 数据建模体系基于

82、数据标准的规范化 ETL 数据建模体系数据标准是进行数据标准化、消除数据业务歧义的主要参考和依据。对数据标准进行分类,将有利于数据标准的编制、查询、落地和维护。数据标准有多种分类方式,对于不同的分类方式,均可采用以数据元为数据标准制定的基本单元构建数据标准体系。数据可以分为基础类数据和指标类数据。基础类数据指业务流程中直接产生的,未经过加工和处理的基础业务信息。指标类数据是指具备统计意义的基础类数据,通常由一个或以上的基础数据根据一定的统计规则计算而得到。相应地,数据标准也可以分为基础类数据标准或指标类数据标准。基础类数据标准是为了统一企业所有业务活动相关数据的一致性和准确性,解决业务间数据一

83、致性和数据整合,按照数据标准管理过程制定的数据标准。指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础类数据标准和指标类数据标准通过分别建立基础类数据元和指标类数据元,并将基础类数据元和指标类数据元与数据映射,实现基础类数据标准和指标类数据标准的落地。具体来说,对于结构化数据中的任意一个字段,当其不具备指标特征时,可直接将其与某一业务类别下的基础类数据元(如包含命名规则、数据类型和值域等属性)映射,实现该字段的标准化(符合命名规则、数据类型和值域的规定);当其具备指标特征时,可直接将其与某一业务类别下的指标类袋鼠云数据治理行业实践白皮书(2023)第 53 页数据元(如命名

84、规则、约束规则、数据类型和值域等)映射,实现该字段的标准化(符合命名规则、约束规则、数据类型和值域的规定)。图 57 银行数据模型体系基于法律法规构建数据分级分类体系基于法律法规构建数据分级分类体系根据个人金融信息保护技术规范(JR/T 0171-2020)及某银行数据安全管理办法要求,个人客户 C3、C2 类别信息在后台管理与业务支撑系统展示时,除银行卡有效期外,C3 类别信息不应明文展示;C2 类中支付账号、客户法定名称、支付预留手机号码、证件类或其他类识别标识信息应当做遮蔽处理,且不提供批量查询和批量下载功能。如特殊情况 C2 类上述敏感字段仍需完整展示或明文下载,则必须有如下管控措施:

85、1)需求提出部门必须限定最小用户使用范围,并经过本部门总经理(如果是分行,则为分行主要负责人)审批授权。审批单参照某银行个人分类分级数据授权审批单,并在 OA 项目需求发起时必须含有该审批单附件。2)系统内应当做好相关角色权限的设置和管控。3)C2 类中支付账号、客户法定名称、支付预留手机号码、证件类或其他类识别标识信息前台页面展现需增加水印处理,禁止复制粘贴;且批量下载时文件必须通过 DRM 加密,并经过审批授权流程,审批授权至少至分管部门总经理或分行主要负责人。4)个人客户 C2 类敏感信息在做批量查询或者下载必须有审计日志功能,必袋鼠云数据治理行业实践白皮书(2023)第 54 页须明确

86、谁在什么时间,什么场景使用,使用权限范围,审批流程等,日志支持前台页面查询。5)所有数据使用均遵循“谁使用谁负责”的原则。6)以上管控措施涉及应用系统开发的,应该在开发全流程中形成闭环管控机制(包含相关业务需求的提出到业务验收测试环节)。对于涉及上述敏感信息展示但没有提供经领导审批的某银行个人分类分级数据授权审批单,一律不予启动开发。7)涉及业务部门授权审批的管理环节,需求提出部门需要做好相关审批授权文档的存档,以备后续审查。图 58 银行数据分级分类体系(3)交付内容(3)交付内容数据治理咨询数据治理咨询协助完善数据治理组织架构(涵盖数据治理决策层、管理层和执 行层)及数据治理相关的制度、流

87、程和评估标准。完善数据标准,完成 10 个系统的数据对标,并完成主数据和元数据的梳理。建立数据质量的检核、整改、评价等工作流程,提升数据质量。制定数据资产盘点、评估与管理工作机制,完成 10 个系统的数据资产盘点。构建指标管理体系,协助梳理全行基础指标。袋鼠云数据治理行业实践白皮书(2023)第 55 页数据平台建设数据平台建设数据平台包含数据治理平台和数据应用平台,实现数据的“管、治、用”。数据治理平台提供离线开发、数据标准、数据建模、数据质量、主数据、元数据、指标管理、数据资产和数据安全等功能,实现数据开发与治理一体化。数据应用平台包括数据智能分析模块,提供有效的数据分析工具,满足灵活性、

88、安全性和便利性。数据应用实施数据应用实施完成面向大数据平台的数据血缘关系梳理。重构大数据平台中间层(200 张表)数据模型,并进行落标实施。根据数据质量检核规则,在数据平台上对源头数据和结果数据进 行规则稽核。结合营销与风控应用场景,完成至少 200 个基础指标加工。提供不少于 5 个建模场景要求的数据支持和不少 5 个应用场景的功能支持(开展数据自主分析、开发报表和管理驾驶舱等)。(4)建设成果(4)建设成果数据治理成果数据治理成果一是数据治理战略目标,治理顶层设计、治理目标、治理运营、治理成果等数据治理相关的战略规划设计材料。二是治理组织及规章,设计某银行数据治理组织架构,并根据数据治理目

89、标定制相关的规章制度来保障治理落地。三是治理实现路径,明确某银行数据治理工作的实施路径,细化数据治理工作的关键步骤并交付相关文件给某银行。四是治理考核及运营,结合某银行数字化考核目标制定数据治理考核方案,并提供数据治理支持运营及优化的方法论材料。五是数据资产目录,梳理某银行业务系统、数据仓库的数据资源,完善数据各项属性元数据,构建全行级数据资产目录。六是数据标准体系,梳理某银行现有的数据内容,搭建围绕基础类数据和指标类数据两大标准体系,并完成历史数据落标工作。七是分级分类体系,按照人行数据分级分类指南相关规划构建某银行数据分级体系,并完成历史数据的分级分类工作。袋鼠云数据治理行业实践白皮书(2

90、023)第 56 页八是数据治理体系,围绕人行、银保监数据报送校验规则结合某银行数据加工过程校验规则,构建全行级数据质量监控规则体系。平台实施成果平台实施成果一是大数据平台血缘解析,某银行ImpalaSQL的ETL任务进行数据血缘解析,包括表血缘、字段血缘等信息,同时借助袋鼠云数据平台实现跨系统数据交换的血缘关系。二是数据质量规则体系搭建,围绕银保监 East4.0/5.0 数据质量规范,构建监管数据检核规则,包括监管报表单体校验、跨系统数据校验(1104 与 East)、溯源数据质量检验等信息。同时,根据人行反洗钱监管要求构建交易对手信息检核满足人行反洗钱检查要求。三是大数据模型重构,根据某

91、银行项目要求重构大数据平台中间层(近 200张表)数据模型,通过数据模型平台进行模型设计、模型建标和模型落标,并通过行内现有数据进行模型验证。四是指标体系设计及搭建,结合某银行在信贷营销与风控领域的应用场景调研指标体系,并针对业务实际需求完成至少 200 个基础指标加工及复杂衍生指标搭建;数据资产及标准梳理:梳理数据资产(包括核心、信贷、网贷等至少 10个系统)并搭建数据资产目录;根据监管及内部管理需求梳理数据标准体系并通过平台落地;围绕人行金融数据分级分类规范搭建某银行数据分级体系并结合银保监数据加密规范实现数据安全保障体系。五是数据分析场景服务,根据某银行应用需求提供不少于 5 个建模场景

92、要求的数据支持和不少于 5 个应用场景的功能支持开展数据自主分析、开发报表和管理驾驶舱等。2证券公司数据治理实践2证券公司数据治理实践(1)案例背景)案例背景随着证券行业发展,2016 年证监会证券公司全面风险管理规范提出建立健全数据治理和质量控制机制。2018 年证监会发布证券数据治理操作指引(征求意见稿)及证券期货业数据分类分级指引,同年,国家工信部发布袋鼠云数据治理行业实践白皮书(2023)第 57 页DCMM 数据管理能力成熟度评估模型,提炼组织数据管理的八大过程域,将数据能力成熟度划分 5 个发展等级,帮助进行评价。2022 年,证券期货业科技发展“十四五”规划金融标准化“十四五”发

93、展规划的相继发布,以夯实证券期货业通用基础标准体系,促进证券期货业数字化转型与标准化的深度融合,为证券期货业高质量发展提供更多助力。标准化对数字化转型的引领和推动作用日益显现。但许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。(2)解决方案(2)解决方案基于 DataOps 体系数据治理新

94、范式基于 DataOps 体系数据治理新范式DataOps 从环境管理开始,每个环境下都可以支持任务的编排、监控和自动化测试。每次进行跨环境的发布时,记录每次发布代码的版本,进行后期排查问题。在发布上线至生产后,袋鼠云的数据中台产品可将券商用户上述各个环节串联起来,券商用户从开发阶段可以一键发布至测试环境,经测试环境验证后,观察任务实例、数据产出的运行情况,运行无误后可发布至生产环境。如下图所示,资讯、交易、风控等主题的数据从左侧的源系统流入,中间环节是各类数据处理的工具,例如数据仓库或数据集市、AI 分析等,数据经过清洗、加工、汇总统计、数据治理等过程,最终通过 BI、定制化报表、API 等

95、工具服务于投研、营销、经营分析等各类需求方。袋鼠云数据治理行业实践白皮书(2023)第 58 页图 59 基于 DataOps 数据治理架构图基于 SDOM 模型高效数仓搭建与治理基于 SDOM 模型高效数仓搭建与治理通过梳理市场证券、基金、期货、债券、回购等主要交易行为,形成行业交易模式;通过逆向梳理即将上线和线上化的信息披露项目,形成行业信息披露模式。根据证券行业相关法律法规、业务规则、制度及流程等,提取市场全业务流程和数据共性,形成具有通用性、稳定性和可扩展性的围绕客户、公司、监管、产品、交易等数据模型。图 60 SDOM 数据标准模型基于 OLAP 的资讯数据校验基于 OLAP 的资讯

96、数据校验资讯数据作为券商主要数据源之一,应用广泛,涉及投资交易、资产管理、经纪与财富管理、资产托管等各个领域,往往会将资讯数据应用到资管投研一体袋鼠云数据治理行业实践白皮书(2023)第 59 页化、投资交易、资产托管、融资融券等系统。同时由于业务的需求,往往需要从市面上采购多种异构数据源接口,例如 Wind、聚源、财联、通联、港澳资讯等,有的券商甚至采购多达二三十种的资讯数据。这些资讯面临以下问题:一是数据质量参差不齐,数据问题难以及时发现,频繁收到业务方的投诉:二是数据质量管理成本大,规则开发难度高:三是问题排查链路长,难以快速定位数据问题,缺乏全局统计视角:四是质量问题没有经验沉淀,类似

97、问题频繁发生。对于各种资讯数据,进行跨源比对,在源头进行落标、治标的工作。通过事前规则配置、事中规则校验、事后分析报告的流程化方式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障券商数据质量。图 61 OLAP 资讯数据校验基于数据模型的标签数据治理基于数据模型的标签数据治理金融科技的快速发展,使得证券行业的载体与社交媒体、电子商务的融合越来越紧密,券商借助数据战略打破数据边界,来构建更为全面的企业营销全景视图。面对客户活动开发周期长,运营不精准,营销效果缺乏及时追踪、运行反馈不及时,通过袋鼠云客户数据洞察平台,业务人员可透明化地使用标签,将数据黑盒变成业务语言的白盒

98、,辅助业务决策,驱动业务增长。使用场景包括网络金融部的营销运营、异常交易监控及用户生命周期管理等。袋鼠云数据治理行业实践白皮书(2023)第 60 页图 62 证券标签数据治理基于 OneService 理念打造数据服务市场基于 OneService 理念打造数据服务市场数据平台将投研、资讯、投顾数据以服务化、接口化的方式提供数据使用方,屏蔽底层数据存储、计算细节,简化和加强数据的使用。可视化生成与注册数据服务管理,快速构建数据共享服务,通过多种手段标准化管控服务,可完成从数据接口创建、发布、申请/审批、调用的全生命周期管控,形成数据市场和数据服务管理平台,提高数据开发与共享效率。图 63 证

99、券数据服务市场袋鼠云数据治理行业实践白皮书(2023)第 61 页(3)交付内容(3)交付内容数据平台建设数据平台建设数据平台包含数据实时开发平台和数据应用平台,实现数据的“管、治、用”。一是构建大数据实时开发平台一是构建大数据实时开发平台,覆盖从实时数据采集到实时数据开发全链路流程,并提供运维监控曲线和日志功能。具体功能如下:1)实时采集,具备基于日志的实时数据采集和基于间隔轮询的实时数据采集方式,具有通过采集数据库的变化并进行还原的方式,将数据库静态的数据插入、更新、删除的动作转换为消息中间件的动态数据变化,或直接写入到 Hive进行数据落库。2)任务管理,平台应支持对实时同步任务的统一管

100、理,支持 FlinkSQL 和Flink API 作业开发支持,支持环境参数配置,历史版本管理等内容。3)资源管理,平台支持对实时开发过程中所使用的资源进行统一管理,支持用户上传本地 jar 资源,注册自定义函数等操作,并可实现对资源进行多版本管理。4)函数管理,平台集成开发过程中的常用函数,同时平台支持通过本地资源创建 UDF、UDAF、UDTF 函数,创建完成后用户可通过函数名称使用对应函数,也可以通过修改对应的资源文件,修改完成后重新提交任务即可实现在不修改代码的情况下实现函数更新。二是构建数据应用平台二是构建数据应用平台,这里主要为数据服务平台,这是数据中台中最顶层的组成部分,是数据能

101、力对外提供的接口层,通过数据服务平台赋能前端应用,是数据能力的出口。通过数据服务平台的建设,对数据能力进行抽象封装,系统实现以下目标:1)封装数据能力,对外提供 RESTful 接口。应用通过调用 RESTful 服务即可获取数据内容,应用程序无需了解表结构、分库分表等细节信息。2)横向扩展能力支持高并发和数据增长。通过增加存储节点支持数据量的增长,通过增加服务处理节点支持高并发。3)配置化创建数据服务。开发人员可以基于底层的数据库,在管理界面配置 SQL 数据查询语句、参数、数据库连接、权限等内容,即可创建发布一个新的袋鼠云数据治理行业实践白皮书(2023)第 62 页数据服务图 64 证券

102、数据服务平台数据服务平台的建设,将带来以下效益:1)减少数据复制,降低成本。应用系统无需拷贝数据内容,通过服务调用获取数据,从而降低数据存储成本,特别是包含历史数据查询的应用场景。同时,降低备份、安全等管理成本。2)提升应用开发效率。应用程序无需考虑大数据的分库分表设计、无需了解底层的数据存储细节,通过服务调用即可获得返回结果。大大避免数据不一致的冲突。由于同样数据无需管理多个副本,在数据发生变更时,无需复制更新,减少数据不一致的冲突。数据应用实施数据应用实施完成面向大数据平台的数据血缘关系梳理。重构大数据平台合约、账户资金、持仓、特殊证券场景数据模型,并进行落标实施。完成两融客户资产负债实时

103、统计推送、财务凭证流水实时统计推送、原生 Flink 作业 SQL 数仓化改造。袋鼠云数据治理行业实践白皮书(2023)第 63 页(4)建设成果(4)建设成果海量业务数据汇聚,构建金融级数据平台海量业务数据汇聚,构建金融级数据平台大数据引擎+流批一体数据采集满足证券公司业务系统的数据汇聚,对线上和线下业务数据进行采集汇聚,提供集中的大数据技术和存储能力,保障实时多样化数据采集、数据存储、数据计算;提供强大的大数据平台基础,满足现在和未来的数据采集、存储和技术需求。统一数据开发,降低大数据开发门槛统一数据开发,降低大数据开发门槛实时开发平台满足证券公司科技部门能统一在一个平台上进行集中开发和对

104、内外各种租户数据加工,提供统一一体化数据开发平台,满足大数据、SQL、图形化各种数据开发加工要求,降低开发工具的复杂度、数据开发成本,快速构建数据仓库。满足监管报送,实现一体化数据服务满足监管报送,实现一体化数据服务数据服务平台,提供对内的统一数据服务和数据交换,满足金融第三方机构的监管报送要求,证券公司提供标准化的数据报送服务出口,对外能满足第三方监管报送的数据服务方式和数据使用要求。数据分析场景服务数据分析场景服务根据某证券公司应用需求,袋鼠云为其设计了以下三种数据分析场景服务:一是客户办理的两融业务进行信用账户资产负债实时计算:1)实时获取柜台行情数据,并按照分钟级进行行情聚合。2)实时

105、获取客户的股票持仓数据,并将客户持仓数据按照状态进行管理并动态更新,同时按照客户持仓股票代码和分钟级行情进行关联实时计算客户总持仓资产。3)实时获取两融客户合约流数据,根据合约类型分类计算融资负债、融券负债。按照客户融券合约股票代码和分钟级股票行情进行关联,实时动态计算并更新客户融券负债。4)实时获取客户资金转入数据,并更新客户的总资金资产和可用资金。5)实时获取客户的融券卖出获得资金以及资金使用情况并动态更新客户资产负债表。并计算持仓集中度、分组持仓市值、高风险证券持仓市值、跌破下限价证券持仓市值等指标袋鼠云数据治理行业实践白皮书(2023)第 64 页6)通过多流关联的方式整合持仓、合约、

106、资金转入、融券交易的数据最终输出客户资产负债表。7)实时获取客户两融授信申请、客户征信申请、客户征信审批等数据,实时监控客户的授信申请额度、授信状态、征信审批状态、审批额度等变化,推送到下游系统。二是实时获取财务凭证流水:关联辅助核算维表(维表也存在日间变动的可能),根据财务指标计算规则,按照部门、科目维度计算财务指标日间变动数据并推送到下游。三是原生 FLink 服务缺少监控,为增强运维监控工作,拟将以下数据迁移到实时平台:1)当日股基交易量、当日理财交易量2)当日开户数和开户流水3)可转债提前赎回提醒4)中证易签私募回访:生成回访任务提醒、回访任务成功提醒3基金公司数据治理实践3基金公司数

107、据治理实践(1)案例背景(1)案例背景在数字经济时代下,数据驱动业务创新发展已经成为企业的主要选择,基金行业机构也在积极推进数字化转型,但机遇与挑战并存。数据要转化为数据要素,需要系统体系化的数据能力建设作为催化剂。基金行业也表现出一定的痛点,其中表现为数据安全保护不够到位,缺少数据脉络,数据质量得不到保障等。同时由于行业内在进行系统建设时,对数据管理工作的重要性认识不足以及长年累月杂乱数据的堆积,导致数据治理工作推进艰难,致使在营销端、分析端、监管报送端长期存在客户重复,资产异常等情况。在公司“十四五”数字化发展规划的指导下,基金公司坚持统筹推进、聚焦痛点,强化数据能力建设,在完善数据治理体

108、系、搭建大数据技术、提升数据服务能力等方面持续发力,多措并举逐步探索形成了符合基金自身特色的数据能力建设治理之路。袋鼠云数据治理行业实践白皮书(2023)第 65 页(2)解决方案(2)解决方案围绕监管规范打造基金行业数据治理体系围绕监管规范打造基金行业数据治理体系一是完善治理组织:建立完善的数据治理组织架构,落实组织在治理工作中的责任与职能,配套数据治理相关制度,推进数据治理工作落实。二是打造资产体系:梳理全域业务数据明确各项属性义,通过资产目录形式分类管理,实现数据可见、可用、可管理,全面量化数据价值。三是提升数据质量:根据金融监管相关规范,制定数据标准以及数据检验相关规范,通过数据标准化

109、的形式提升数据质量,提高数据可用性。四是加强数据安全:围绕数据安全相关政策法规构建安全体系,充分考虑数据之间关联关系,通过分级、加密等手段进行全链路安全管理。五是主数据统一:借助基金全要素规范整理公司级主数据体系,确保基金基础业务信息全范围内保持一致性、准确性、完整性、可控性。图 65 基金公司数据治理架构图基于资管全要素规范实现基金主数据管理基于资管全要素规范实现基金主数据管理主数据是用来描述基金核心业务实体的数据,主数据管理要做的就是从公司的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全

110、企业范围内需要使用这些数据的操作型应用和分析型应用,包括各个业务系统、业务流程和决策支持系统等。袋鼠云数据治理行业实践白皮书(2023)第 66 页主数据的完整性、准确性决定了企业数据共享、直通与应用的能力,基金行业的主数据主体上分为:客户主数据、证券主数据、产品主数据。不同来源客户信息整合的优先级是客户主数据治理的重点;选择数据质量最优的服务商为主,结合其他数据源进行交叉验证是证券主数据的治理重点;确定各产品要素属主,谁生产数据谁负责质量,属主制定质量标准、系统严控准入是产品主数据的治理重点。证监会、人行、基金业协会三大报送主体的监管报送数据具备维度多、标准清晰、数据质量要求高等特点。通过构

111、建相关主数据,为反洗钱、征信、利率等多监管要求提供了一道坚强的防线。图 66 基金主数据管理基于元数据打造企业级数据资产中心基于元数据打造企业级数据资产中心接入基金公司的数据仓库、各个业务系统库,采集库表元数据,获取数据使用的元数据信息;然后在采集的基础上,进行二次规范维护,补充缺失的业务元数据,汇总后提供元数据查询分析服务。制定基金公司数据标准,通过标准的映射比对,发现并修改存量不符合标准的数据。再通过数据模型的规范化建表和建模,让增量数据落地即是标准的。通过自动解析的数据血缘关系,可以辅助技术与业务人员发现数据流转关系、数据影响链路,合理订阅并维护用户关注的数据。袋鼠云数据治理行业实践白皮

112、书(2023)第 67 页图 67 基金数据资产中心围绕基金业务构建全维度画像体系围绕基金业务构建全维度画像体系近些年,随着投资者对专业资产管理的需求日趋旺盛,资产管理行业的竞争也在加剧,这迫使基金公司着重于投资者教育和陪伴工作。基金公司的数字化营销能力也逐渐成为企业关键竞争力,但建设过程主要存在以下难点:一是基础弱,由于公募基金存量客户庞大,而公募基金销售长期依托代销渠道和互联网渠道,客户数据分散、多端身份不统一,导致基金公司对自身客户的理解能力比较有限,缺少对投资者需求变化和行为变化有效研究手段。二是难匹配,透过大量问卷和数据分析发现,不同人群、不同需求的投资者,对产品要求和收益目标等有明

113、显的差异,操作行为也有明显的不同。这就要求基金公司具备有效客户分层识别能力,产品推荐的精细化能力,投教内容差异化能力,进而提升投资者投资体验。但由于营销系统的闭环能力较弱,很难了解基金产品是否满足了用户的需求,改善了投资体验。三是应用浅,在指标不科学、无体系,数据分析深度不够,缺乏业务洞察和建议等问题面前,很多企业止步在有数据和看数据阶段,并未将数据分析与营销业务结合起来,提出有意义的洞察和建议。通过袋鼠云客户数据洞察平台,建立涉及客户、产品、渠道的三层标签体系,支持销售、服务、合规等不同角度的需求,支持便捷的标签开发、运算、展示和袋鼠云数据治理行业实践白皮书(2023)第 68 页输出等全生

114、命周期管理,持续输出数据价值,支持客户个体及群组画像、客户群圈选和对比,支持快速推广、智能营销、精准服务,细粒度的标签权限管理和高效稳定的标签展示和输出,确保安全且高效的业务开展,积木式的组件标签搭建和复用,可快速支持例行、临时或专题性的数据分析图 68 基金全维度画像体系(3)建设成果(3)建设成果数据管理方面数据管理方面考虑到数据治理是一个公司数据知识、文化沉淀的长期过程,经过综合对比评估之后,基金公司结合自身组织架构及数据情况,以信息技术治理委员会作为数据治理的领导组织,以自有人员组成的数据治理小组为数据治理及落地平台建设的推进组织,推进数据治理相关制度发布和治理落地。在制度上,先后发布

115、了数据管理办法数据分类分级指引原则等制度规范。在平台落地建设上,以数字资产管理平台作为数据治理的落地支撑平台,实现了数据标准管理、主数据管理、元数据管理、数据变更管理、数字资产盘点、数据质量管理、数据分类分级、数据血缘分析等管理功能,将数据治理与开发设计过程紧密结合,形成数据模型变更设计、评审、事后审计、定期量化评分的管袋鼠云数据治理行业实践白皮书(2023)第 69 页理闭环,以数据治理为抓手,保障数据完整性、准确性、一致性,从而形成数据质量提升的长效机制。公司按照“点线面体”的方法推进数据治理落地,从数据源头系统开始全面治理,撇弃“头痛医头、脚痛医脚”临时解决方案。点是对点状的自研业务系统

116、逐个治理,线是推进系统间数据及流程互通,面是结合大平台化系统建设思路,以业务支撑基本面全局视角去完善治理体系,体是最终构建起数据共享、互联的高质量数据体系。当前数字资产管理平台已覆盖 40 个系统,且对于新增或重构的系统已实现数据标准覆盖率 95%以上。中台能力方面中台能力方面中台能力是公司内部共享资源所能提供业务、技术、数据能力水平的综合体现。基金公司业务相对比较稳定,构建稳定中台能力契合基金公司的需求,加强中台共享能力建设,沉淀业务及服务能力,将是未来的核心竞争力。公司将业务能力、技术能力、数据能力以技术视角映射成了业务中台、技术中台、数据中台 3 大中台技术能力,通过三者紧密协同合作,对

117、业务运营进行全面赋能。一是业务中台:当前为百万+客户提供基金销售服务。为提升系统交付速度和交付质量、更好地为客户提供精准贴心服务,公司对数据治理平台承载的所有服务进行梳理、抽象,采用容器+微服务技术架构,根据业务域进行服务细化、拆分,逐步沉淀营销服务、投顾服务等中台服务能力,减少系统重复功能建设和维护带来的资源浪费。同时,在获得客户授权前提下,历史交易行为、个人资产分布情况、投资风险偏好等信息,运用技术中台提供的大数据 AI 算法能力,为不同偏好及投资风格的客户提供历史盈亏分析,交易行为诊断,定投策略建议等个性化服务。采用微服务+微前端的技术架构,对 TA、估值、资金清算等中后台运营支撑系统中

118、的运营管理服务进行归集整合,实现登记结算部门日常工作(如:任务分配、团队协作、分红事项跟进等)集中式、标准化统一管理,通过沉淀的运营管理类数据资产,结合运营管理大屏可视化展示,让运营管理工作变得更加直观、高效,以数据驱动运营提效,有效规避日常运营工作中的风险及问题。袋鼠云数据治理行业实践白皮书(2023)第 70 页二是技术中台:为统一开发技术栈,避免各系统建设过程中在公共技术工具上重复“造轮子”,部门成立了技术中台小组,专门负责公共服务能力沉淀及建设、新技术引入、架构评审等工作,通过标准化通用能力的输出,为各业务系统建设赋能,其中主要包括应用技术赋能和 AI 算法赋能。当前技术中台已发布消息

119、投递服务、统一用印服务、统一数据网关、服务注册中心、工作流引擎等公共技术服务,以及 NLP、机器学习相关算法、智能机器人等 AI 智能服务,这些服务已被广泛应用于产品管理系统、投研一体化、智能客服、协同办公平台等多个下游业务系统中。三是数据中台:公司基于 Hadoop 技术生态体系,采用湖仓一体的数据技术架构,构建了公司级的数据湖和数据仓库,根据数据治理制定的相关数据标准规范,按主题对业务数据进行统一清洗、整合。同时,为了保障数据出口的一致性,提升数据存储、消费安全,公司基于数仓清洗整合后的标准数据,采用微服务架构,实现了数据服务接口开发、测试、验证、发布、授权、下线全生命周期在线管理,以在线

120、数据服务接口方式为多种数据消费场景进行数据赋能。此外,借助数据治理对各类指标进行梳理定标,明确指标的定义及统计口径,构建全局的指标体系,统一数据出口标准,实现“数出一孔”,避免不同数据消费场景“数据打架”的问题。(二)集团型企业数据治理实践(二)集团型企业数据治理实践1某央企数据治理实践案例1某央企数据治理实践案例(1)案例背景(1)案例背景某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。随着企业股份数字化转型不断深化,

121、数据应用方面的需求不断扩展。但公司缺乏统一的大数据资产管理平台,导致在数据应用方面,出现数据价值不凸显,袋鼠云数据治理行业实践白皮书(2023)第 71 页数据标准不统一,数据质量不可控,数据共享不畅通等问题。在此背景下,引入袋鼠云大数据团队,立足于打造全集团统一,能满足覆盖运管、风控、业务全过程数字化经营管理及分析决策的统一数据资产平台。对企业股份现有存量数据进行数据治理及挖掘,搭建数据管理体系,对增量数据进行有效管理和应用。通过梳理目前企业股份所有存量数据,提炼运营指标及管理指标,科学化管理公司数据资产和挖掘数据价值。(2)解决方案(2)解决方案袋鼠云团队根据企业股份集团公司提出的数据治理

122、需求,结合内部现有数据开发平台产品,以业务应用场景为导向,形成集团统一的数据治理方案。本期项目实施过程中,以数据治理、数据服务、数据应用三大方向展开实施;其中数据应用以聚焦供应链运营管理业务为核心,数据服务以满足集团下属各子公司数据需求为主,数据治理以统一集团数据归集方式、数据质量标准、元数据维护标准、数据建模标准为目标进行建设。其中数据治理设计的步骤为:确定当前项目的目标和范围,设计本轮数据治理的模式、架构和方法。以企业集团当前提出的数据需求场景出发,针对场景数据进行数据治理,主要包括以下几个步骤架构设计架构设计技术架构上,从场景需求出发,结合当前企业组织架构及数据权限出发,将数据中台设计为

123、多项目空间加经典 ODS、DWD、DWS、ADS 四层结构,其中企业股份为主项目空间,其余业务供应链平台为子项目空间。另外,根据前期调研结果,结合当前企业业务范围,将业务根据业务主体进行了数据域的设计与划分,其中重点建设数据域为:1)客商域:企业所服务的所有客户及供应商;2)商品域:企业自营或代理商品、SKU;3)交易域:客户与企业发生的所有交易行为,包括交易合同、订单、采购等;4)风险域:企业发生诉讼、处罚等风险数据;5)仓储物流域:所有仓库出入库、在途等信息;袋鼠云数据治理行业实践白皮书(2023)第 72 页6)公共域:系统码值、参数信息、组织架构、人员以及标准化映射信息。通过分层与分域

124、的设计,将企业原本传统数据架构转变为新数据架构,统一源端数据,建设公共事实层,建设服务层最后满足各个不同需求,有效解决传统数据架构存在的数据孤立、事实重复建设、资产盘点困难等问题,更适应当前企业发展阶段诉求。图 69 数据治理产品架构图及说明数据统一归集数据统一归集当前企业源端数据大体分为三类:第一种是传统业务数据,包含 SAP 系统、MDM 系统、CRM 系统、云链、高达、南北、OA 等系统;第二种是第三方数据,包含船讯网、启信宝、行情数据、价格数据等;第三种是其他手工填报数据。其中传统业务数据虽然存在数据源多,数据量级分布不均,部分系统只能取得界面全量数据或为高度汇总报表数据等问题,使用数

125、栈底层数据同步工具Flinkx 将不同数据接入数据中台中。第三方数据使用 PySpark 脚本任务,通过调取特定的 API 服务接口,完成数据的采集及简单清洗,接入数据中台。手工填报数据通过完成填报报表的初步设计后,回流手工填报平台(当前使袋鼠云数据治理行业实践白皮书(2023)第 73 页用饭软),进行定期同步,定期填报,定期回流采集的形式来完成数据的收集。图 70 数据采集流程数据集中处理及标准设计数据集中处理及标准设计从架构设计出发,对已接入的源端数据,进行明细事实层的建模设计,进行指标体系的统计和收集。明细事实层的建模设计秉持维度建模理念,根据不同的主题域,将 ODS 层数据进行特定范

126、围的清洗,处理,加工后形成可复用性强的描述某一颗粒度下,某一业务行为的各项信息,纵向可以进行上钻下钻,横向可以对比。针对指标层的加工处理,在引入数据中台之前,数据计算逻辑、指标口径都存放在 SAP 系统的代码中,无法进行有效复用。为了解决这一问题,根据指标体系设计方法论,统一定义指标体系的各信息(包含指标 ID,指标名称,指标主题,业务口径,维度,修饰词,计算方式,计算频率,时间周期,业务对接人及开发负责人),在接下来企业的数据应用过程中,完成数据指标口径的收口和统一。数据应用场景数据应用场景数据应用场景以集团供应链运营管理为核心,分别对运营管理、物流管理、信用管理数据进行统一归集,按照业务指

127、标逻辑进行数据处理开发,满足业务人员数据报表填报和数据统计分析应用场景。运营管理场景:通过重新梳理 SAP 客户逾期、客户赊销、现货敞口库存等业务报表数据逻辑为基础,结合大数据平台从 SAP 底表取数能力,实现风险周报袋鼠云数据治理行业实践白皮书(2023)第 74 页填报、签约情况分析、重大事项填报场景建设,有效减轻业务人员每周报表加工填报的工作压力,同时提高业务数据线上留存能力。物流管理场景:以物流合同、物流供应商、供应商库点、库点库存、库点盘点记录数据为基础,进行统一汇聚处理,按照业务指标口径进行数据开发,实现物流合同看板、物流供应商看板、库点盘点密度看板、库存看板 四大看板,为业务人员

128、发现潜在风险和日常业务数据便捷查询提供有利条件。信用管理场景:以客商授信额度、客商逾期、行业产品加工利润数据为核心,结合业务逻辑指标进行数据开发,实现授信额度跟踪、逾期数据分析、行业加工利润填报场景建设,为业务人员控制客商授信额度、发现客商潜在风险、明确当前各行业产品盈利情况提供有效支撑。(3)建设成果(3)建设成果截至目前,集团内部数据中台共构建 751 张表,数据执行任务总量 493 个,其中 ODS 数据源始层同步任务 247 个、DWD 数据明细层清洗加工任务 41 个、DWS数据汇总层汇总任务 64 个、DIM 数据维度层维度同步任务 22 个、ADS 数据应用层业务场景数据推送任务

129、 108 个。满足集团供应链运管部物流仓储管理、客商信用管理、价格管理、运营管理等部门数据分析需求,实施搭建签约销售/采购看板、物流仓储四大看板、授信额度跟踪看板、逾期数据分析看板、运管风险逾期周报填报等业务场景。2某旅游投资集团数据治理实践案例2某旅游投资集团数据治理实践案例(1)案例背景(1)案例背景某省旅游投资集团以“旅游产业”为主体,以“医疗健康”和“人力资源服务”为两翼,以产业资本和数字科技为支撑,重点打造了酒店、旅游目的地开发与运营、商务与后勤服务、产业金融、医疗健康、人力资源服务六大核心板块,旗下参控股了 140 多家企业。近年来,围绕省委、省政府提出的“打造省级旅游产业发展投融

130、资主平台”战略定位,该集团深入实施集团数字化转型战略,在集团管理、经营、业务的单点应用和创新上取得了一些实际效果,支撑了部分业务袋鼠云数据治理行业实践白皮书(2023)第 75 页的基本数字化需要。但统一的信息化建设仍处于初级阶段,众多业务板块的信息化建设各自发展,系统相对独立,数据尚未实现归集交换共享,业务协同联动缺少支撑,数字化运营能力薄弱,制约了集团的内部管控和经营效率的提升。作为一个拥有多元主业的综合型产业集团,以建设“数据中台”为基础,建设集团经营指标及标签体系,在场景化数据应用、消费者精细化营销等方面进行深化改革,发挥统一管控、统一运营和统一服务作用,成为该集团“提升在旅游产业领域

131、带动力”发展战略的必然选择。(2)解决方案(2)解决方案针对该旅游投资集团面临的数据上报周期长,上报方式落后,数据准确性无法保障、难以共享利用,口径不统一等一系列数据管理问题,通过构建集团数据中台底座,实现了对业务系统数据的采集、清理、建模、整合,建立了一个符合业务实际数据需求的数据决策平台。围绕以数据平台为支撑,以治理为手段,以数据服务为依托的原则。该集团数据中台的具体实施路径可以分为三个阶段:一阶段“搭平台,汇数据”;二阶段“做治理,立标准”;三阶段“建应用,启服务”。图 71 旅游投资集团数据治理架构图袋鼠云数据治理行业实践白皮书(2023)第 76 页搭平台,汇数据搭平台,汇数据建立集

132、团统一数据中台,基于多租户的隔离机制建设多个二级企业数据中台,既满足集团数据资产管控的要求,也满足二级企业数据应用的建设需求。归集人力、财务、酒店管理、医疗健康等业务板块 180 个系统核心数据,按照业务需求划分 8 个主题域,形成 430G 数据资产,包含 2000 多项指标和 300 多个标签。做治理,立标准做治理,立标准在数据归集阶段通过对数据进行全面探查,发现数据存在的问题并形成问题集,在治理阶段结合业务实际需求,制定基础数据标准与指标数据标准。对于接入中台的数据进行标准定义,实现词根统一。各业务板块按照其归属的行业标准形成内部规范。基于数据中台产品实现集团数据资产元数据的统一管理,业

133、务侧数据管理人员负责维护业务元数据,技术数据管理人员负责维护技术元数据,专人专责保障治理效果。针对数据中台运行的数据任务,配置单表校验及多表比对规则,对数据质量进行预警,避免不合格的数据流入生产应用。建应用,启服务建应用,启服务在搭好平台做好治理的基础之上,开展数据应用及数据服务的建设,包含领导驾驶舱,专题分析报表与数据接口服务。通过整合集团内部与外部数据,构建了集团管理的 13 个主题驾驶舱,帮助管理者掌握集团“人”“财”“物”家底的动态和二级业务板块的经营实况,例如酒店管理基于项目管理一张图,实现了酒店名片在线化,打造了全国酒店对外数字化展示窗口。通过建立起支撑 4 大业务板块的多维度多层

134、次专题分析报表,为各级管理人员提供经营、用户、舆情等多视角的全面洞察,为日常管理决策提供及时准确的数据信息。通过数据中台提供统一数据接口服务,在数据服务安全可控的前提下,实现数据在内部的跨业务共享利用。(3)建设成果(3)建设成果通过建设集团数据中台,规范了集团经营管理指标和标签体系,形成了集团数据资产,让文旅产业在数据驱动的科学管理下,取得更高质量发展。构建 1+N 形式的数据中台,形成良性数据生态构建 1+N 形式的数据中台,形成良性数据生态通过构建集团级数据中台,盘活集团现有数据,对数据进行充分的清洗、加袋鼠云数据治理行业实践白皮书(2023)第 77 页工、治理、建模,建立了为业务服务

135、的数据资产体系;夯实了底层数据服务能力,实现数据在线化。以 1 个集团总部物理中台为基础,满足集团总部数据管控的需求;以 N 个二级企业逻辑中台为扩展,满足业务经营管理的需求。各级中台执行统一的数据治理规范和技术标准,为数据的共享互通破除了标准差异的阻碍,为数据的跨业务场景利用建立了良好基础。图 72 旅游投资集团数据中台架构启用 X 个数据可视化场景,增强数据驱动能力启用 X 个数据可视化场景,增强数据驱动能力通过构建集团管理数字驾驶舱,以集团财务、集团人力、酒店服务、医疗健康为突破口,为集团管理及二级企业管理的关键环节设计指标体系;规范了数据分析体系,实现管理在线化。对专题分析场景中核心业

136、务指标进行层层拆分,形成业务数据下钻、联动的多维分析视图,及时发现业务问题,辅助管理人员精准决策。开启集团“平台化”的数据管控模式,缩短数据获取周期,提升数据准确性,实现数据从“层层上报”向“实时采集”转变。袋鼠云数据治理行业实践白皮书(2023)第 78 页图 73 旅游投资集团产业大屏洞察多类消费者偏好特征,发现业务增长潜力洞察多类消费者偏好特征,发现业务增长潜力以文旅产业中的酒店管理为试点,盘活集团会员资产,以客史数据作为营销链路中每一环节间的纽带,进行住前、住中、住后 3 个阶段消费场景的多点触达,对消费者施加个性化影响,提升消费者的五感六觉,收集消费者的实际反馈,实现消费者住宿习惯、

137、餐饮口味的偏好分析,最后回流数据用于下一次营销的催化,形成通过数据反馈指导运营策略的良性循环。通过优化重要业务场景的运营链路,推动营销活动从“广撒网”向“精细化”转型,实现“扩增量提转换”的运营目标。图 74 旅游投资集团消费者全生命周期袋鼠云数据治理行业实践白皮书(2023)第 79 页3某控股集团数据治理实践案例3某控股集团数据治理实践案例(1)案例背景(1)案例背景该控股集团是一家以供应链运营和房地产开发为主业的现代服务型企业,供应链运营板块包含的贸易模式有大宗供应链贸易及服务、4S 店销售、与零售贸易,是本次项目的主要服务范围。集团下属包含不同的板块集团,不同的板块集团经营不同的大宗商

138、品贸易,包括浆纸、钢铁、农产品等,是典型的集团管控型企业。集团的整体系统体系主要围绕核心 ERP 系统,股份总部的 IT 人员很多是 ERP的开发、运维人员,基于股份集团的业务管理,ERP 大量自研模块。ERP 作为核心系统,各大系统从 ERP 接入所需数据,同时将关键数据回流到 ERP。另外 ERP作为核心应用系统,大量的报表数据通过 ERP 计算、展现。随着业务的扩展,股份集团对外服务平台越来越多,数据的类型越来越复杂,需求越来越多样,数据资产管理的问题逐渐突出,主要表现在:一是 ERP 作为整个架构中的核心系统底层,在大数据的汇集、存储、计算的效率上,无法及时、准确满足数据使用需求,导致

139、整个系统性能较慢;二是缺少大数据平台工具,无法很好地对数据及数据处理过程进行管理,数据缺乏管理;三是数据应用覆盖率不高,以单点数据应用为主,目前的模式数据应用满足效率较差。在数字化转型是大时代背景下,为了实现集团科技赋能战略,促进核心业务的数据分析和运用,推动股份集团数据资产建设,项目从整体规划、架构设计、平台工具建设三大层面,构建股份集团的数据资产体系。(2)解决方案(2)解决方案为了全局性、统筹性地进行数据资产规划,梳理数据资产管理模式,开展数据治理,项目整体分为以下三大阶段。第一阶段:咨询规划,选模式,定方向第一阶段:咨询规划,选模式,定方向这个阶段,主要是通过咨询规划,初步确定数据治理

140、模式,确定落地方向。集团由信息化模式转向大数据模式,从治理模式、管理模式、未来的场景的方向看,对企业都存在不确定性,因此集团选择优先咨询规划,明确治理模式,然后袋鼠云数据治理行业实践白皮书(2023)第 80 页再逐步展开。1)调研诊断,全面盘点现有数据、业务现状,定位目前问题。一是现有源系统及现状盘点,包括内部系统、对外服务平台、外部数据盘点;二是数据架构的现状数据流转过程盘点,以 ERP 为核心系统与对外服务平台、内部业务系统和外部数据进行数据交互的过程分析;三是数据应用的现状盘点,面向集团管理层、行业板块中层管理等不同层级的数据应用现状盘点,整体以散点式基础统计为主,覆盖率不高;四是数据

141、权限管理,目前尚未建立权限管理,需求盘点;五是数据质量及管理情况盘点。2)数据治理模式选择,集团总部数据部门统筹规划集团的数字化建设工作,作为集团整体系统建设、数据应用建设的核心实施部门,板块集团承接小部分数据需求,数据团队主要集中在股份总部。核心数据管理团队在集团内拥有 10 年以上工作经验,对集团各板块业务内容非常了解,数据架构师具备集团架构设计及整体规划的能力。基于集团的现状及组织团队的现状,选择自下而上的数据治理模式。3)架构规划设计,集团整体升级大数据架构,打破数据孤岛,统一规划数据治理体系。架构规划整体采用中台的数据体系,即在全域原始数据的基础上,进行标准定义及分层建模,数据体系建

142、设最终呈现的结果是一套完整、规范、准确的数据体系,可以支撑数据应用。以此将数据资产全面汇集、建设、管理起来。针对股份集团而言,基于业务模式不同、管控权限差异,在架构设计上,设置集团通用模块、板块业务独立模块,满足不同的数据应用需求。图 75 数据架构整体框架示意图袋鼠云数据治理行业实践白皮书(2023)第 81 页4)大数据平台规划,搭建集团大数据平台体系,满足集团大数据汇集、存储、加工、服务的需求,为股份集团数据治理提供管理平台及工具。在平台内,股份、各业务板块单独开具租户,租户与租户计算资源隔离。集团与上级集团大数据平台形成集团的大数据平台建设雏形。图 76 集团整体大数据平台雏形示意图第

143、二阶段:架构规划,理框架,定目录第二阶段:架构规划,理框架,定目录这个阶段,主要基于数据治理模式,自下而上开展数据治理,整体规划数据架构,理清集团的数据资产框架,初步框定股份集团数据资产目录体系。1)调研诊断,全面调研方向系统使用现状及痛点、业务现状、业务流程、需求方向、未来期望等层面,调研覆盖信息部总负责人、信息部副总、总数据架构师、数据架构师,以及各业务单元涉及业务单元总负责人、骨干负责人等。详细梳理业务领域、数据内容,进一步明确架构设计思路。2)架构设计,以波特价值链分析模型为理论基础,全面梳理企业的业务领域及模式,包括企业决策层、管理层及运营层的业务活动,同时结合数据的生产管理过程,划

144、分架构框架,覆盖业务、管理、数据进行分类分域。架构设计整体考虑扩展性、通用性,数据不冗余,便于管理等层面。整体包含三个层级,如下图所示。袋鼠云数据治理行业实践白皮书(2023)第 82 页图 77 架构框架示意图3)数据资产目录建设,以架构框架为基础,在大数据平台中,采集数据,并按照架构框架进行分类整理,建立数据资产目录,将数据分类分级管理,详细描述数据的生产方式、业务信息、技术信息、管理信息等基础内容。不断梳理数据资产,构建数据资产地图,通过平台进行管理,逐步沉淀集团整体的数据资产。图 78 数据资产目录示意图袋鼠云数据治理行业实践白皮书(2023)第 83 页第三阶段:实施落地,搭平台,建

145、资产第三阶段:实施落地,搭平台,建资产这个阶段,在整体框架下,明确应用场景,搭建大数据平台,开始数据资产建设。1)搭建平台,搭建大数据开发平台,补充大数据实时、离线计算能力,测试平台实现路径,迁移原有数据应用。2)场景建设,以价格场景为试点,展开数据资产建设。价格风险是大宗供应链贸易及服务行业面临的主要风险之一,价格的种类繁多,包括合同价、到货价、发票价、出厂价等不同价格,价格还分为净价、含税价、总价等不同的类型,基于价格的来源不同,还存在外部价、内部价格,价格场景。价格场景主要在三方面进行梳理,一是将股份集团涉及的所有的价格进行梳理,并明确价格维度;二是梳理关联价格,例如对比分析采购净价及采

146、购到货价,从而分析采购合同的盈亏情况;三是价格分析,比如价格趋势分析,比如采购/销售合同净价趋势分析,看价格走向,或对比分析,比如同纬度下,内部到货价格对比市场价格、内部出仓价格对比.市场价格,以及基差分析。3)数据资产建设,以满足价格场景需求为目标建立搭建数据模型,按照数据架构框架,建立价格域、合同域、物流域、发票域、期货域、资金域、公共数据域等相关数据域,分层开发数据模型,支撑价格应用。在这个过程中,梳理股份集团数据标准,从业务分类、组织架构、部门等方面,梳理词根体系,建立词根标准、字段标准。(3)建设成果(3)建设成果一是明确数据治理模式,通过充分调研、规划,基本明确未来数据治理模式,股

147、份集团未来以自下而上的数据治理模式为主,逐渐纳入数据应用。二是制定数据架构框架。构建股份集团的数据架构框架,未来在这个框架下,进行数据资产建设、分类,统一数据认知,减轻未来数据资产建设团队压力,未来团队只需要将相关数据归到相关类别下,对人员的复合能力要求将降低。三是搭建大数据平台。搭建实时计算、离线计算的大数据计算能力,搭建数据资产管理平台,纳入数据质量管理工具,逐步搭建数据治理能力。四是探索大数据分析场景。以价格场景为试点,打通数据需求分析、数据模袋鼠云数据治理行业实践白皮书(2023)第 84 页型建设、数据开发的大数据交付路径,为未来更多大数据场景分析提供基础。五是构建数据标准体系。在数

148、据资产建设过程中,梳理词根词缀,建立数据标准体系,梳理词根标准 2300+,为数据标准体系建立,奠定了坚定的基础。(三)制造行业数据治理实践(三)制造行业数据治理实践1某汽车制造企业数据治理实践案例1某汽车制造企业数据治理实践案例(1)案例背景(1)案例背景随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业 IT 能力和 IT 架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。为更好应对数字化变革所带来的挑战,现有的竖井架构的数据体系难以满足越来越多、越来越快的系统和数据交互

149、、敏捷创新应用、数据共享、新业务拓展的需求。以数据驱动的数字化,将帮助车企全面了解用户的需求变化,也能为企业在营销、生产、服务等各个环节提供支撑,进一步提升企业的经营效率。在开展某车企数据化转型时,需要解决三个核心问题:如何收集汇总和运营自己的数据?如何建立数据治理运营团队?如何在短期内快速展现成果,在企业内部建立信心?本次某车企数据中心二期的建设重点是数据治理平台建设。数据治理平台的核心理念在于“数据取之于业务,用之于业务”,即完整构建某车企从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。(2)解决方案(2)解决方案咨询服务咨询服务在某车企组织架构、制度体系和数据资产盘点的基础

150、上,结合国际、国内和行业标准,围绕数据资产全生命周期管理,制定相关的数据规范体系。通过数据袋鼠云数据治理行业实践白皮书(2023)第 85 页治理咨询建设所涉项目的数据治理体系,包括标准、组织、规范、流程、制度等,实现营销业务线、制造业务线、研发业务线数据分级分类标准制定,形成包含主数据、数据标准、数据模型、元数据、数据质量、数据安全、数据生命周期、数据架构等标准、流程与管理制度,并具备推广至全公司业务线的能力。一是数据治理体系规划。一是数据治理体系规划。数据治理整体规划方面包括数据管理愿景、组织模式、管理边界和推动策略,数据管理体系设计方面包括数据治理基础、数据管理核心领域、数据应用,任务及

151、规划方面包括数据管理任务识别、实施原则分析、实施计划制定。二是数据治理组织规划。二是数据治理组织规划。根据数据管理工作的实际需要,在业务部门、技术管理部门和业务应用部门间要确定各个工作人员的职责。例如不同的业务部门应该明确各自业务开展对数据的具体要求和相关规则,而技术部门则会根据业务部门的需求负责具体的实施工作,包括将业务部门提出的要求转化成技术语言,用于事前的控制(如字段的约束)、事中的逻辑控制(例如控制不能为空)、事后的核查,以及具体的技术操作和编制定期的报告等。平台搭建平台搭建提供袋鼠云数据资产管理套件与可视化开发套件,满足数据离线开发、实时开发、数据建模、数据标准、数据质量、数据血缘、

152、数据安全、元数据管理、数据资产、数据标签等能力,集成自有大数据平台、开放平台、调度平台与可视化平台,管理数据资产、提升数据质量,打造数据资产中心、支撑业务创新的数据服务中心和应用中心。图 79 某车企数据治理架构图袋鼠云数据治理行业实践白皮书(2023)第 86 页项目实施项目实施梳理营销业务线、制造业务线、研发业务线数据资产,划分数据域,构建数据应用,实现数据生命周期全流程打通。具体实施内容包括数据资产地图、数据模型、数据标准、元数据管理、数据血缘、数据分级分类、数据质量规则及报告等。一是数据资产门户一是数据资产门户全局统计企业数据资产情况,让企业管理者对数据的分布、增长、使用、质量情况有直

153、观的了解。包括不限于:1)数据指标的统计:数据源数量、表数量、存储量、使用量、质量评分。2)数据趋势的统计:数据分布情况、数据增长趋势、数据使用热度。3)数据使用排行:数据存储排行;元数据质量:规范趋势、规范排行。图 80 某车企数据资产门户袋鼠云数据治理行业实践白皮书(2023)第 87 页二是数据地图二是数据地图数据地图的定位是可视化的数据资产中心,用户可以在数据地图模块中查看平台内的所有数据表情况,同时可以进行全方位管理数据资产。1)数据查找:汇聚平台内的所有数据表信息,方便开发人员快速定位所需数据表,支持用户根据类目、表名、所在项目、授权状态进行过滤,或直接根据表名搜索。2)数据表元数

154、据展现:用户指定某张表后,可以查看此表的基本信息,包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型、分区信息等,同时可以进行预览,直观地查看表内数据情况。3)数据类目管理:当平台内的数据表越来越多时,数据类目的重要性就会日益突出。提供 3 层类目的管理,用户可自定义层级、名称,并将数据表指定至某个节点上,数据开发者在寻找数据时可根据数据类目快速定位。4)数据审批授权:提供表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。4)生命周期管

155、理:提供表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。5)数据血缘解析:提供自动解析同步任务和 SQL 代码,自动建立各个数据表的表级、字段级血缘关系,用户可直接在页面上看到每个指标的“前世今生”,便于快速排查指标问题,检查指标统计逻辑,依赖链路是否正常等。三是数据质量三是数据质量作为数据治理的内容,数据质量的保障与提升是大数据平台的必备功能。数据质量的管理工作大致可以按照事前、事中、事后的流程化体系来进行,即事前的监控规则定义、事中的数据生成监控、事后的数据质量分析。袋鼠云数据治理行业实践白皮书(20

156、23)第 88 页图 81 某车企数据质量分析示意1)事前管理:接入需要管理的数据源,并结合对业务需求和数据的理解,对需要监控的数据配置监控规则。2)事中管理:通过对定义好的监控规则配置调度周期,系统自动执行,校验数据质量。3)事后管理:对校验不满足规则的数据,及时发出错误提醒。同时系统自动生成监控报告,帮助用户复盘总结数据问题。四是数据安全四是数据安全1)数据权限控制:支持表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。支持数据资源服务的权限申

157、请、审批,保障数据服务的安全性。2)生命周期管理:支持表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。3)数据影响解析:当用户配置了同步任务,并通过 SQL 任务进行多个步骤的清洗、转化处理之后最终会将结果数据输出,在整个处理链路中,数据的血缘关系就隐含在同步任务和 SQL 代码中,数据影响表示每个统计指标是如何从原始数据得到的过程。袋鼠云数据治理行业实践白皮书(2023)第 89 页4)数据脱敏:支持自定义脱敏规则,可应用于不同的敏感数据防止数据预览时造成数据泄露。包括支持根据国标自定义安全等级,对人、

158、表进行分级分类定级;支持自定义脚本函数、正则表达式,按需关联识别规则、识别函数及脱敏规则,自动动态识 别敏感数据;支持内置多种敏感数据识别定期模板,即身份证、银行卡号、邮箱、手机号、IP、固定电话、车牌号、姓名、公司、地址的识别,同时提供用户自定义规则。(3)建设成果(3)建设成果某车企通过数据治理平台项目,完成了数据规范、标准、质量、服务体系、治理组织架构等内容建设,基本能满足企业 23 年数据发展的使用诉求。结合数据中台+数据治理方案,在该阶段取得了阶段性的成果,概括如下几个方向:一是构建强大数据开发与治理平台体系一是构建强大数据开发与治理平台体系,通过数据中平台的建设,为某车企实现数据基

159、础处理平台、数据资产管理平台、数据服务平台。从而实现从标准化数据采集、数据质量管理、数据资产管理和数据应用的整套数据标准化处理流程,同时对接 BI 和报表工具,同时对元数据进行标准化的 API 管理能力。二是快速定位数据问题根本原因二是快速定位数据问题根本原因,有许多数据问题不一定是真正的数据问题,如果所有使用者一碰到难以理解的问题就找技术人员协助定位,技术人员则会花费过多时间在问题定位上的,最终导致数据问题会越堆积越多的。因此,本次项目为使用者提供自助排查的功能,协助用户找到问题原因,实在解决不了的再找到技术人员协助解决。另外将数据流中间结果的数据可视化呈现,便于在最终结果报表缺失或有误的情

160、况下,能够快速定位出是数据出错环节。三是数据质量得到保障,数据价值高三是数据质量得到保障,数据价值高。数据质量可靠不仅提升了决策人员的决策效率以及成果,也可以降低发生风险的概率。当客户用可靠的数据时,客户可以更快、更一致地回答问题,做出决策。如果数据是高质量的,他们也能花更少的时间发现问题,而将更多的时间用于使用数据来获得洞察力、做决策、服务用户。袋鼠云数据治理行业实践白皮书(2023)第 90 页2某芯片制造企业数据治理实践案例2某芯片制造企业数据治理实践案例(1)案例背景(1)案例背景某芯片制造企业是一家专注于 3D NAND 闪存设计制造一体化的 IDM 集成电路企业,同时也提供完整的存

161、储器解决方案。该企业为全球合作伙伴供应 3D NAND闪存晶圆及颗粒,嵌入式存储芯片以及消费级、企业级固态硬盘等产品和解决方案,广泛应用于移动通信、消费数码、计算机、服务器及数据中心。在企业的生产经营过程中面临大量的数据问题需要解决。一是传统数仓建设困难。自建数据仓库前期需投入较多固定成本,项目周期长,运维难度高,专业运维人员成本高。扩容需要较长部署周期,资源利用率较低,需要自行实现可扩展性架构,容易形成单点故障。二是数据质量问题频发。数据模型设计不合理,数据开发人员水平参差不齐,数据质量问题难以及时暴露和溯源。三是数据资产不规范。没有体系化地梳理数据资产,找不到想要的数据,缺乏元数据信息,找

162、到却又不理解数据。无法统计数据使用情况,无法判断数据热度,缺乏数据血缘关系,难以掌握数据流转情况。为解决某芯片制造企业集团统一数据管理和数据服务要求,必须打破数据孤岛,提供集团统一的数据服务标准和数据流程,通过企业全业务生产制造、经营、管理及服务数据采集、汇聚、加工和服务,建设统一数据资产平台进行数据管理,形成面向用户、面向管理、面向领导的全面数据管理视角。(2)解决方案(2)解决方案根据某芯片制造企业建设需求,并充分考虑数据服务所需要的高稳定高可用、业务需求快速响应、大数据分析支持、灵活可扩展、全方位安全保障的技术能力要求,设计总体架构如下:袋鼠云数据治理行业实践白皮书(2023)第 91

163、页图 82 某芯片制造企业数据治理架构第一步建设离线平台采集数据第一步建设离线平台采集数据通过建设离线开发平台采集某芯片制造企业 30+种数据源,运用数据同步技术解决多节点并发读写、可视化配置、增量同步、整库迁移等问题,以及管理部分数据源分库分表、通道控制等;利用元数据采集、生命周期管理、血缘解析、访问权限控制、对接 LDAP 账号体系、数据脱敏技术,实现多租户权限隔离,生产测试环境隔离技术,从而保障用户数据访问安全;通过监控每个任务的运行情况,实现记录每个任务的运行日志;通过发布管理采用双项目模式,将一个项目中开发的任务发布至另一个项目,实现很好的隔离性,保障数据安全。第二步建设资产平台,管

164、理数据第二步建设资产平台,管理数据通过建设数据资产平台来制定某芯片制造企业生产经营的元数据模型、数据标准等规范,采集并维护完整的元数据信息,打通数据关系网络,实现数据的标准化和资产化管理。通过规则配置监控数据质量,搭建起某芯片制造企业元数据中心,盘点数据资产,为数据价值挖掘提供“全、统、通”的元数据基础。全面统计某芯片制造企业数据资产情况,让用户对生产类、订单类数据的分布、增长、使用、质量情况有直观的了解。包括 300 余数据库,6000 余数据表、40 余 PB 存储量、使用量、质量评分;趋势类的数据分布情况、数据增长趋势、袋鼠云数据治理行业实践白皮书(2023)第 92 页数据使用趋势;元

165、数据质量:规范趋势、规范排行等等。图 83 某芯片制造企业数据资产门户示意图第三步建设数据质量平台,治理数据第三步建设数据质量平台,治理数据通过对某芯片制造企业生产经营数据事前规则配置、事中规则校验、事后分析报告的流程化方式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障企业数据服务,提高数据质量管理。袋鼠云数据治理行业实践白皮书(2023)第 93 页图 84 某芯片制造企业数据质量管理示意图(3)建设成果(3)建设成果一站式内网访问,提升工作效率一站式内网访问,提升工作效率避免用户使用多个系统反复登录,和企业集团内部统一登录打通,形成 OSS平台。随着某芯片制造企

166、业数据及业务系统越来越多,企业员工在日常工作中遇到的“难题”也越来越多。从牢记单个系统账密、频繁切换应用系统到复杂账密设置要求,每个系统都使用独立的登录和验证机制,降低了员工的工作效率、造成工作成本的浪费。而单点登录则为员工提供了一站式工作中心,仅需登录一次,即可在企业内部已被授权的应用系统资源里进行无感访问,极大地提升了员工工作效率。降低数据开发难度,提升企业运营价值降低数据开发难度,提升企业运营价值实现 40000 张表管理,准确分析数据血缘和影响分析,数据开发人员除了进行数据同步和数据开发之外,监控每个任务的运行情况,并记录每个任务的运行日志,开发人员轻松排查各种异常问题。有效提高了开发

167、人员排查问题的速率,降低了开发人员排查问题的成本,使开发任务更加平稳地运行,让企业有更多时间和精力在提高产能提升销量为企业带来更多价值。构建数据质量管理体系构建数据质量管理体系创建企业数据质量校验规则、管理质量校验流程,构建起企业质量管理体系。通过平台的内置规则模板、自动分析报告等功能的支撑,降低数据质量管理门槛,提高数据质量管理效率,实现数据质量管理的降本增效:通过质量校验及时发现袋鼠云数据治理行业实践白皮书(2023)第 94 页数据问题,并且支持和开发平台联动,有效阻塞问题数据的落地,避免错误数据流入下游,提高企业数据质量。3某半导体企业数据治理实践案例3某半导体企业数据治理实践案例(1

168、)案例背景(1)案例背景某半导体企业是一家为信息交互和人类健康提供智慧端口产品和专业服务的物联网创新企业,形成了以半导体显示为核心,物联网创新、传感器及解决方案、MLED、智慧医工融合发展的“1+4+N+生态链”业务架构。目前客户着力聚焦信息科技和制造业结合,提出实现从“制造”到“智造”的转变,通过在海量产线数据、供应链数据、营销销售数据中挖掘其中的关系,快速对“供、研、产、销”进行全链路分析及预测,助力企业实现生产方式和商业模式的创新,满足多场景需求,以科技赋能数字化、智能化升级客户在重庆、成都、武汉等多个省市地区建立有工厂。各个工厂包含 ERP、MES、OA、HR 等业务系统,同时厂区内通

169、过 DCS 及 PLC 来实现各设备控制。建设初期各个工厂都已建设有 CDH 集群,工厂之间数据物理隔离。客户需要建立统一的开发平台,满足集团对数据的统一管理,并从集团统一建设企业的数据标准,最终实现集团数据资产化的目标(2)解决方案(2)解决方案针对某半导体企业多厂区、多系统的问题,运用数据中台的技术及数据治理的方法论,以建设企业统一数据平台为目标。通过“数据标准化”“数据质量化”“数据资产化”“数据服务化”“数据安全化”来实现企业数字化转型。袋鼠云数据治理行业实践白皮书(2023)第 95 页图 85 某半导体企业数据治理解决方案架构图数据标准化数据标准化数据标准是制定并推行统一的数据标准

170、规范,实现数据全生命周期的规范化操作。某半导体企业数据标准,主要通过资源盘点的方法,对多个工厂近百个业务系统及设备数据进行整理归类后,最终修订生成了数据标准。其中标准包含基础属性(数据项编号、数据项大类、数据项子类)、业务属性(数据项中文名称、数据项英文名称、数据项描述)、技术属性(数据类型、数据长度、数据精度)、管理属性(归口工厂及管理部门)、代码拓展(代码值、代码描述)。数据质量化数据质量化通过事先、事中、事后三个环节解决了数据质量监控的问题,具体如下:1)事先预防控制。设置数据质量规则,即针对不同的数据对象,配置相应的数据质量指标。基于数据标准要求各个厂区、各个业务系统依照相应规范进行数

171、据整理后进行数据传递。并对数据库是否授权连接、数据源表是否存在、数据源名称检查、数据格式是否正确、数据是否为空等进行事前的预防控制。2)事中过程控制。针对待管理的数据元素的新建、变更、采集、加工、装载、应用等各个环节进行跟踪,通过系统自动化校验和人工干预审核相结合的方袋鼠云数据治理行业实践白皮书(2023)第 96 页式进行管理,保障数据在各个环节的质量进行有效控制。3)事后监督控制。基于元数据配置数据质量规则,即针对不同的数据对象,配置相应的数据质量指标,例如:数据唯一性、数据准确性、数据完整性、数据一致性、数据关联性、数据及时性等。同时设置成手动执行或定期自动执行的系统任务,通过执行检查任

172、务对存量数据进行检查,形成数据质量报告及改进方案。最终根据整改优化结果,进行适当的绩效考核。数据资产化数据资产化梳理数据资源,形成数据资产,丰富分析应用全面掌控数据来龙去 脉,以获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。数据资产管理主要从以下几个方面进行:1)元数据管理。主要以业务元数据、技术元数据和个性元数据进行分类管理,通过盘点、集成和管理,按照科学、有效的机制对元数据进行管理,主要包含元模型创建、元数据同步、元数据管理、订阅元数据等。2)数据地图。数据资产地图是对整个数据中台内的数据进行统一查询、管理的“地图”,数据地图主要面向数据开发者,汇聚某半导体企业所有数据信息,通过元数

173、据信息收集、数据血缘链路分析等手段,帮助企业可以一目了然地看到有哪些数据,在哪里可以找到这些数据,能用这些数据干什么等,并且提升数据资产的利用率。3)数据血缘分析。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来影响。数据服务化数据服务化客户由于工厂与工厂、厂区与集团、部门与部门之间都存在数据共享使用的需求,针对此帮助企业构建了服务共享平台,集团、厂区、部门按需可自行获取相应的资产数据:1)创建数据服务。通过可视化配置数据源或自定义 SQL 两种模式生成

174、API。并将企业多年来各个业务系统创建的接口统一纳管到平台上,实现数据服务接口统一管理的目的。袋鼠云数据治理行业实践白皮书(2023)第 97 页2)数据服务市场。搭建 API 的汇聚中心,在数据服务市场可查看发布的所有 API 名称、描述、调用情况等基本信息,在线进行 API 测试根据反馈结果判断API 是否符合需求,进行 API 申请,数据服务市场是企业 API 调用的入口。3)数据服务管理。平台可完成 API 创建、API 注册、导入、创建服务编排、创建服务分组、API 发布/禁用、API 管理、跨项目发布 API、版本一键切换等操作,并可查看 API 全局的调用情况、订购情况,掌握各

175、API 使用详情4)数据服务告警。调用失败的场景,通过短信、邮件和钉钉和自定义通道三种方式将告警记录及时告知 API 管理员,记录内容包括告警触发时间、API 名称、API 中文名称、API 创建人、告警规则、触发方式、告警方式、告警接收人数据安全化数据安全化某半导体企业数据安全面临多厂区、多用户以及不同权限的问题。数据既要保障传输使用安全,又要做到灵活赋权。所以整体通过以下两个层面进行安全管控:1)数据平台的安全防护。用户实现认证访问和授权操作,所有操作记录都有审计日志;支持多租户的使用场景,同时满足多用户协同、数据共享、数据保密和安全的需要;平台支持 ACL 授权、policy 授权、角色

176、授权、跨 project app授权多种权限管理方法。数据平台通过多租户、多项目空间、项目保护空间等数据隔离机制,可以把来自不同部门的数据隔离和保护起来,通过设置隔离区,把脱密数据管理起来。大数据云提供安全可靠的数据安全策略和访问权限体系,能够控制脱密后数据和非涉密数据的访问权限,能够控制各业务的数据访问权限,能够对数据访问进行多种颗粒度的权限访问。2)防止数据泄露。基于客户的数据体系,建立一整套数据安全分级机制,确保只有授权用户才能访问对应安全等级的数据。数据安全分级机制,针对每一张数据表,每一个数据字段进行安全等级定义。由数据安全团队,负责各个业务域的数据安全等级制定,并在数据安全管理平台

177、进行管理维护。同时建立起一整套敏感数据访问审批流程,做到专人专权。(3)建设成果(3)建设成果通过统一数据平台的建设,对“人”“机”“料”“法”“环”各个环节实袋鼠云数据治理行业实践白皮书(2023)第 98 页现了真正意义上的数字化转型。为企业实现灯塔工厂奠定了坚实的基础。数据资产统一管理数据资产统一管理在集团建立统一数据门户,将多个工厂间的数据进行了统一化存储。打通了集团内多个 CDH 集群的数据对接,并按不同类目进行了分类共享。实现了平台统一登录及管理,又做到了租户和用户逻辑隔离。降本增效,良品率由 81%提升到 98%降本增效,良品率由 81%提升到 98%利用大数据分析和机器学习的技

178、术能力,对生产线上数万个传感器进行工业数据(温度、压力、振动和噪声等)采集和存储,通过关键因子与产品质量合格数据之间的联动,识别跟踪关键因子的变化趋势。实现了良品率由 81%提升到 98%的突破。生产设备状态实时感知,异常监控由 4 小时降到 1 分钟生产设备状态实时感知,异常监控由 4 小时降到 1 分钟通过对 PLC、DCS 数据的实时接入,建立预警系统实现传感器数据流指标的实时监控,一旦偏离设定的阈值就会触发报警信号,快速地发现错误或者瓶颈,将原来突发异常监控时间由 4 小时降到 1 分钟。(四)政务领域数据治理实践(四)政务领域数据治理实践1某市住建局1某市住建局数据治理实践案例数据治

179、理实践案例(1)案例背景(1)案例背景某市作为全国住房租赁首批试点城市之一,通过本项目建设构建全市统一的住房租赁监管服务平台,实现住房租赁数据“全覆盖、全采集、全监管”,建立政府、企业、个人三位一体的市住房租赁监管服务平台,强化服务与监管,改善租赁住房消费环境,加快形成租购并举的格局,确保试点部署的各项工作任务得以落地(2)解决方案(2)解决方案数据资源是某市住房租赁监管服务平台建设最重要的资源,具有以住房租赁信息为主数据的基本特征,并体现数据资源的关联性的特点。根据“基于数据,袋鼠云数据治理行业实践白皮书(2023)第 99 页围绕数据,面向数据”的思路,进行数据治理。图 86 某市住建局数

180、据治理架构数据治理建设思路数据治理建设思路一是制定数据标准。通过对住房租赁业务数据进行全面梳理,制定出数据标准,实现业务数据标准统一,包括业务事项分类、事项名称、审批要素、监管事项、业务数据来源、业务数据描述等。二是理清数据关系。对住房租赁业务数据进行分类整理,理清各类数据项或明细指标,通过基础数据的唯一性,对与住建局业务相关的数据进行关联分析。三是明确数据来源。通过业务梳理,明确审批、监管涉及哪些数据,以及这些数据的来源,包括数据项、涉及部门、系统来源、保存格式、更新周期、获取方式、联系人等。四是把控数据质量。针对数据质量的把控要求贯穿数据汇聚、业务发生、信息传递、数据交换、数据归档等全过程

181、。根据房管工作需要,构建了“房屋安全”“市场交易”“住房保障”“住房租赁”“物业管理”五大专题库,实现了一线数据调查、基础数据核查、标准数据建立、统一数据进库等程序,打破了基础信息不齐全、数据进库不统一、部门信息不共享、数据更新不及时、数据应用不充分等制约瓶颈,为推进房屋可视化平台建设提供了坚实的数据基础。数据治理步骤数据治理步骤一是形成汇聚库。利用共享交换平台以及大数据基础平台采集数据源数据,袋鼠云数据治理行业实践白皮书(2023)第 100 页数据来源包括住建局内部业务系统及各区县(市)采集数据、市场监管局企业数据、自然资源和规划局不动产登记系统、第三方公司、政务云数据共享交换系统、其他互

182、联网及日志等数据;与源系统数据结构保持一致,不做任何的数据加工和处理,形成数据汇聚库。二是构建基础库。从汇聚库域加载数据到基础库,按照基础库建设的业务对象进行数据的清洗、转换、建模及标准化处理,形成基础数据库,保留历史和明细信息。三是产生主题库。从基础数据库加载数据到主题数据库,通过业务视角整合、逻辑关联等方式形成面向分析应用的主题数据库。四是支撑业务应用。面向某市住房租监管服务平台的数据应用,通过标准化的数据服务接口,从基础库或主题库中提供数据服务支撑。(3)建设成果(3)建设成果房屋信息“一点通”房屋信息“一点通”可显示全市主城区既有住宅和非住宅的情况。进入住宅专题,可以查询全市住宅的总量

183、和分布,以及到户房屋清单,涵盖经济适用房、人才房、公租房等保障性用房与房改房等房屋信息,以及实际承担居住功能的酒店式公寓的分布信息。并可实现教育、卫生等 6 大类领域相关的重点建筑、社区、地铁分布和交叉分析等实用信息均面向公众实现即时查询。图 87 某市住建局地产市场检测预警平台-房屋信息袋鼠云数据治理行业实践白皮书(2023)第 101 页房屋安全“报警器”房屋安全“报警器”平台建立了房屋安全专题库,用不同颜色醒目标识房屋房龄,并实现超龄房屋智能预警,实时导出对应房屋数据清单,落实到房屋安全责任人,提前加以安全预警与处置。从服务功能看,推出“安心住”场景,老百姓可通过政务网、微信小程序等途径

184、,实名认证查询本人名下房屋的健康档案信息。图 88 某市住建局地产市场检测监测平台-房屋安全房屋物业“导览图”房屋物业“导览图”从管理功能看,通过平台可以详细了解小区物业情况、小区边界、小区绿化环境、小区房屋现状、小区公共建设施、房屋公共维修资金使用、房屋装修等情况。从服务功能看,业主可通过微信小程序实时查询名下房屋的公共维修资金使用情况,包括余额和领用支出信息。同时实现小区经营性收益情况信息公开服务,为广大业主参与物业管理、物业精细化管理提供更大便利。袋鼠云数据治理行业实践白皮书(2023)第 102 页图 89 某市住建局地产市场检测预警平台-房产物业房屋交易“详情表”房屋交易“详情表”从

185、管理功能看,政府可借助信息平台进行房地产市场预警分析,通过综合施策,对房地产市场予以科学监管和调控。从服务功能看,与此平台相关联延伸出来的“购房易”应用专题场景,将“限购核查、合同签订、网签办理、交易确认”四个环节调整为“交易网签合同备案”一个环节办理,依托平台数据共享成果,实现本市户籍家庭购房资格的自动核查,实时生成购房资格审核结果,提高核查准确率,大大提升办事效率。图 90 某市住建局地产市场检测预警平台-房屋交易袋鼠云数据治理行业实践白皮书(2023)第 103 页房屋租赁“监测器”房屋租赁“监测器”从管理功能看,房屋可视化平台可清晰反映主城区各类租赁住房的出租情况,以及各类租赁住房的城

186、区分布和房源签约量、签约均价走势,实时掌控租赁动态信息,通过租赁行业数据分析,掌握市场运行规律,实施市场监管和预警。从服务功能看,通过租赁平台,可网签住房租赁合同,企业可根据房源数、签约数申报专项扶持资金等,真正实现“掌上办”。还可通过信息关联,为新就业大学生公共租赁住房申请提供一证通办业务。房屋保障“新管家”房屋保障“新管家”从管理功能看,通过平台大数据分析,可发现保障房转租、转借等违规行为,动态监测公租房保障对象入住情况。从服务功能看,新就业大学生完成合同签订或缴纳社保之后,系统自动获取社保数据,并进行有无住房核验,并以短信形式推送住房保障政策信息,提高目标人群覆盖率。2某高铁枢纽站数据治

187、理实践案例2某高铁枢纽站数据治理实践案例(1)案例背景(1)案例背景某高铁枢纽站总建筑面积达 122 万方,年到发客流 1.37 亿,东西跨度 820米,是集高铁、地铁、公交、长运、出租车等 10 种交通换乘方式于一体的亚洲最大的铁路枢纽站之一,也是我国最重要的现代化综合交通枢纽之一。该枢纽站涉及跨领域、跨地区、跨部门、跨层级、跨业务、跨隶属关系的管理协作单位超过 50 家并集多种交通换乘方式于一体。在日常运行中,面临站体结构复杂、管控难度大,突发大客流滞留应对难、人流密集疫情防控难、极端天气抢险救援难、治安管控协同联动难等一系列问题,为了更好地将管理经验从线下转为线上,需要大量的数据进行支撑

188、。(2)解决方案(2)解决方案根据项目建设要求,成立某高铁枢纽站数字治理实验室及工作专班,构建铁路、地方、院所、社会共同参与的“四位一体”驱动机制,完善“四横四纵”的保障体系,形成运营单位主驱动、研究机构深度协同、社会各方齐共享的格局。袋鼠云数据治理行业实践白皮书(2023)第 104 页按照字模型理论,进行业务拆解、数据归集、功能集成,建立以“IOT(物联感知)+GIS(地理信息系统)+BIM(建筑信息模型)+公共数据”为核心的数据底座,通过数据分析、交互反馈、算法模型支撑,建立三维数字孪生系统,推动交通运行、资源配置、力量调配等可视化管理,实现大型综合交通枢纽精细化协同治理。图 91 数字

189、孪生 V 字模型一是明确应用任务。围绕需求,明确客流预测预警、智慧防疫、气象防灾、消防安全、治安防控等 5 项一级任务,并逐项细化至最小颗粒度。如气象防灾包括雨、雪、冰雹、冰冻、大风、高温等 6 个二级任务,以及交通疏导、防滑处置等 18 个三级任务、63 个四级任务。图 92 某高铁枢纽站需求概览袋鼠云数据治理行业实践白皮书(2023)第 105 页二是建立指标体系。围绕 5 项一级任务,分别建立可量化的指标体系,并综合运算生成压力指数、通行指数、滞留指数、预警指数,直观反映运行全景态势。三是打通归集数据。联通系统平台,通过调用、接入、采集等多种方式,归集 200 余项数据,形成某高铁枢纽站

190、安全防控数据体系。四是实现综合集成。重点打造“一图一库一网+N 个子场景”。一图,即数字孪生全景运行图,运用三维建模、仿真模拟等技术,以全景视图和指标图表等形式,可视化管理交通运行、资源配置、力量调配等,实现统揽全局与精准对焦的有效协同。图 93 某高铁枢纽数字孪生全景运行图一库,即专题数据库,联通区一体化智能化公共数据平台,存储、归集基础数据、名录数据、事件数据等,通过边、云、超计算,生成治理数据。一网,即某高铁枢纽站智管网,依托部门管理端和移动执行端,通过信息一体化、业务一体化、执行一体化,建立完整的事项发现、上报、流转、处置、反馈工作链条和主体协作链路,实现跨部门、跨系统、跨地域、跨层级

191、事项处置“一体协同”。N 个子场景:根据急用先行、成熟先行的原则,先期打造 4 个子场景。一是客流预测预警场景,以客流数为核心,通过运力测算和压力评估两大模块,建立精准的客流预测分析系统,形成基于三维可视化指挥的预测预警、预案启动、协同处置、快速疏散五级工作闭环,实现动态数据可用、管理形势可判、调度指挥可视、工作流程可溯、风险隐患可控。袋鼠云数据治理行业实践白皮书(2023)第 106 页图 94 某高铁枢纽数字孪生出行安全场景二是气象防灾场景,建立枢纽气象微站,精准感知温度、湿度、气压、雨量、风向、风速等六要素,并生成气象预警指数,提前预测、实时预警,形成准备快一步、介入快一步、抢险快一步的

192、超前防范体系。图 95 某高铁枢纽数字孪生气象防灾场景三是消防安全场景,统合 8 大消安主体,归集消防设施、消防人员、隐患点位等多类数据,生成触发指数、预警指数,实现设备实时监管、火情及时发现、快速联动处置。袋鼠云数据治理行业实践白皮书(2023)第 107 页图 96 某高铁枢纽数字孪生消防安全场景四是治安防控场景。依托某高铁枢纽站实景三维平台,整合 1300 余个前端感知设备,打通路的警务资源平台,搭建人脸预警、车辆识别、执法管理等多元应用模型,形成路的警务融合、情指行联动、群防群治的全覆盖治安防控体系。图 97 某高铁枢纽数字孪生治安防控场景(3)建设成果(3)建设成果通过建设一数字底座

193、大型综合交通枢纽智治应用,取得了数字化改革的重要突破,也可以为更大规模的数字孪生城市建设提供样板和经验积累。一是重塑了一体化的运行机制。通过数字孪生底座和共享数据库建设,破除了政府和企业的数据传输边界,打通了信息传输“梗阻”,丰富了数据维度。同时充分利用前端感知设备采集的全生命周期数据,推进了安全风险的即时感知、研判、预警、处置、阻断和消除的全链条管理。通过建设大型交通枢纽智治一体化协同平台,线上提交、研究、会商、解决工作中遇到的实际问题,做到横向协调联动、纵向打通贯通,多跨协同,推动了不同部门机构、数据、队伍深度融合,袋鼠云数据治理行业实践白皮书(2023)第 108 页实现“分散管理”向“

194、一网统管”的转变。二是再造了智能化的业务流程。以“一件事”视角设计数字孪生应用场景、优化业务流程,改变原来“被动发现、现场会商、多头指挥、滞后处置”的工作方式,构建“主动感知、系统研判、一键触发、快速响应、动态反馈、自动评价”的智能化闭环,安全防控从“经验决策”转为“大数据决策”,将应急响应主体从单位细化到个体,利用数据平台将应急指挥从多部门下发、模糊指令转变为多指令并联、一键到人、精准调度、实时反馈,推动应急从“被动应对”向“主动干预”转变。三是构建了会思考的数字化系统。通过构建三维数字孪生世界,精准映射交通枢纽物理实体的全空间、全要素和全生命周期,不仅能模拟现在、回溯过去,更能预见未来。通

195、过多维量化、分析多重趋势,以小周期敏感度抓取细微关键信息,构建“算法+预案”模型,通过在数字孪生世界中仿真模拟运行、精准研判、智能匹配资源、可视化指挥调度,可以有效地推动从“模糊感觉拍脑袋”到“精准决策有依据”的新型治理模式的转变。图 98 某高铁枢纽数字孪生建设成果3某市数据治理实践案例3某市数据治理实践案例(1)案例背景(1)案例背景某省明确了一体化智能化公共数据平台是该省政府数字化转型的标志性成袋鼠云数据治理行业实践白皮书(2023)第 109 页果,是打破信息孤岛、实现数据共享的重要抓手,是全方位、系统性推进数字化改革的强大动力和重要支撑。数据资源体系是一体化智能化公共数据平台的重要组

196、成部分,由省市县三级体系组成。区级平台是省市两级平台向县(市、区)的拓展和延伸,是提升县(市、区)数据资源管理能力的基础,是赋能县域治理、推动基层数字化改革的保障。区级平台应按照“互联互通、以用促建、经济适用、共建共享”的原则统筹建设,实现本地数据的目录、归集、治理、共享和安全管理能力,构建安全可控、分级维护、协同共享的区级数据资源体系,完善全省一体化智能化公共数据平台。(2)解决方案(2)解决方案以深化城市大脑和政府数字化改革应用需求为导向,继续做好区本级部门数据归集、治理、交换、共享为主要建设目的,基于一期一体化智能化公共数据平台,新建运营中心、审批中心、项目管理中心、运维中心、“四纵”体

197、系,实现数据资源、应用组件、云资源等数据资源要素的统一运营、高效管理、规范运维;完善网络安全、标准规范、组织保障、政策制度等保障要素建设;加强省、市数据回家,基于业务应用需求,结合本地数据构建企业信息专题库、房屋信息专题库、景区景点专题库、古树名木专题库、审批事项专题库、行道树专题库 6 大专题库,提升数据治理,深化数据应用,不断强化“区一体化智能化公共数据平台”基础平台能力。数据目录体系数据目录体系以 IRS 门户为入口信息系统普查和数据目录编制遵循“一体化架构、差异化定位、多层级赋能”基本原则,以 IRS 门户为入口,依托市级公共数据平台和区级公共数据平台,以“构建统一的全域数据资源目录体

198、系”目标为导向,全方位、系统性提升公共数据资源目录编制工作效率与质量,实现数据目录全域性、动态化管理,形成数据目录化、目录全局化、全局动态化。袋鼠云数据治理行业实践白皮书(2023)第 110 页图 99 某市一体化智能化公共数据平台示意图数据治理体系数据治理体系通过建立数据清洗规则、数据质量评估标准、数据问题反馈机制、数据使用标准等相关规范,对本地数据进行治理,形成数据治理闭环,提升数据质量。数据质量治理体系包括数据质量检查清洗规则配置、检查任务自动执行、检查清洗任务监控预警、问题数据治理闭环管理、上级数据问题对接管理等功能,实现了全域区级数据的统一治理。数据仓和特色专题库数据仓和特色专题库

199、依托市级平台,做好市级按地域切分的本地数据仓管理,按需将本地数据仓数据与区本级的个性化数据在市级平台上实现融合分析,支撑本地数字化改革。按各业务部门需求建设本地特色专题库,对专题库数据资源进行分类分级管理,并将专题库数据资源纳入本地公共数据目录体系。按照“需求导向、以用促建”的原则,在归集本地个性化数据的基础上,融合下发数据,支撑本地数字化改革,按需建设街道数据仓。(3)建设成果(3)建设成果提高运维效率,降低开发成本提高运维效率,降低开发成本通过对各领域关键、核心数据元的标准化,使各关联部门在未来数据建设中(包括新增需求或者系统上线维护后提出修改等情况)有章可循、标准统一,避免出现信息混乱、

200、数据孤岛等现象,辅助各部门数据资源创建、运维和系统开发,极大地提高建设开发效率。袋鼠云数据治理行业实践白皮书(2023)第 111 页有效避免和减少重复投资,节约建设资金有效避免和减少重复投资,节约建设资金对数据局全局的信息系统建设进行统一规划,将可复用的管理能力、数据计算能力、数据分析能力、数据共享能力、数据处理能力等多方面进行统一整合,避免信息系统的重复建设。提升领导监管监控能力,切实保障各项权益提升领导监管监控能力,切实保障各项权益通过对各类数据资源的元数据、数据元、信息资源、业务信息的动态化、精准化、全面化、账目化管理,能够清晰、动态、直观地掌握城市数据资源全局情况,实现全局数据资源管

201、理能级的进一步提升。另一方面,通过大数据技术,让数据说话,使政府的决策更有依据、更智能、更科学。(五)港口行业数据治理实践(五)港口行业数据治理实践1某大型港口数据治理实践案例1某大型港口数据治理实践案例(1)案例背景(1)案例背景改革开放四十年以来,某港口实现了由内河港、河口港、海港、亿吨大港、东方大港到世界大港的跨越式发展,随着信息化的高速发展,各类信息技术应用助力港口转型升级,可以预见智能化的港口将成为未来港口发展的新业态。为了加快推进智慧港的建设,某港口这几年做了大量的工作,例如集装箱提重无纸化、智能理货、网上营业厅、云数据处理中心等,但这些努力远远不够,某港口需要投入更多的精力来实现

202、智慧化港口的目标。按照一带一路倡议和长江经济带发展战略的引领,根据省委省政府提出的十三五海洋港口发展规划和 5211 海洋港口行动计划,以集装箱和大宗商品运输为核心,并充分发挥港口对大宗商品交易、自由贸易、保税加工等拉动作用,将现在的传统运输港口,逐步打造成集贸易、产业、金融、物流等一体的综合性平台。切实发挥好港口一体化运营龙头和主力军的作用,为做强做优做大港口奠定坚实基础,为推进海洋港口一体化高质量发展,加快打造国际一流强港和世界级港口集群作出积极贡献。袋鼠云数据治理行业实践白皮书(2023)第 112 页(2)解决方案(2)解决方案根据某港口的目前的状况,围绕“一”规划“五”标准的方针,进

203、行全面的数据治理。数据域规划数据域规划在建设大数据仓库时需要对采集的港口数据进行全面分析,充分理解数据仓库面向主题、集成性、相对稳定性等特点,将其与港口大数据中心应用实际相结合,建设成具备支撑和增强港口业务的核心服务、数据分析和探索、业务分析和决策等各种能力的大数据仓库。数据域是在较高层次上将港口信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个数据域基本对应一个宏观的分析领域。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的港口各项数据,以及数据之间的联系。为保障数据中台体系的生命力,主题需要抽象提炼并且长期维护和更新,但

204、不轻易变动。在划分主题时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地包含进来,保障良好的扩展性。图 100某港口数据域规划图数据采集标准数据采集标准针对数据源类型、数据类型以及网络类型的不一致,设定了多种数据采集标袋鼠云数据治理行业实践白皮书(2023)第 113 页准方案。1)网络互通数据采集标准方案1)网络互通数据采集标准方案 数据库直连方案图 101 数据库直连方案 中转数据库方案图 102中转数据库方案袋鼠云数据治理行业实践白皮书(2023)第 114 页 API 接口方案图 103API 接口方案 Kafka 中转方案图 104Kafka 中转方案袋鼠云数据治理行业实践白

205、皮书(2023)第 115 页2)网络不互通数据采集标准方案2)网络不互通数据采集标准方案 中转数据库方案图 105 中转数据库方案 Kafka 中转方案图 106 Kafka 中转方案袋鼠云数据治理行业实践白皮书(2023)第 116 页 FTP 方案图 107FTP 方案数据开发标准1)离线数据处理流程数据开发标准1)离线数据处理流程离线数据公共层模型层次分为 4 个层次,DWD、DWS 属于中间层(CDM)。其中操作数据 ODS 层主要用于原业务系统的数据同步,保持与业务系统的一致性,同时基于同步策略,根据实际情况进行增量数据 merge 操作,需要有缓冲层进行存放。进入中台的数据根据维

206、度建模的原则划分维度 DIM 层,及明细业务数据DWD 层,后续根据公共维度进行聚合生成 DWS 层,也可以直接加工生成应用数据ADS 层。原则上不允许 ODS 层数据直接加工至应用层 ADS,需要经过 DWD 的数据加工,但比如像一些 EXCEL 数据导入等情况可以特殊处理。图 108 某港口模型设计与数据流向袋鼠云数据治理行业实践白皮书(2023)第 117 页2)实时数据处理流程2)实时数据处理流程图 109 实时数据处理流程第一层 ODS 数据贴源层第一层 ODS 数据贴源层实时计算的第一层,一般存放原始数据,主要分两种情况:第一种是直接从数据库将操作日志采集出来,存放形成原始数据;第

207、二种是上游系统直接将数据同步至本地,形成原始数据。第二层 DWD 数据模型层第二层 DWD 数据模型层实时计算订阅业务数据消息队列,以数据域的理念建设数据模型层,然后通过数据清洗、多数据源 join、流式数据与离线维度信息等的组合,将一些相同粒度的业务系统、维表中的维度属性全部关联到一起,增加数据易用性和复用性,得到最终的实时明细数据。第三层 DWS 公共实时汇总层第三层 DWS 公共实时汇总层与离线数仓不同的是,这里汇总层分为轻度汇总层和高度汇总层,并同时产出,且一般不在本地 Kafka 落地。轻度汇总层用于前端产品复杂的 OLAP 查询场景,满足自助分析和产出报表的需求。当应用端提供了明确

208、的业务口径或者在做过多的数据处理的场景下,将轻度汇总层数据推送至 Kudu 落地,后续可以基于Kudu 开发接口或者直接开放 Kudu 提供查询服务;当数据体量特别大,不适合在Kudu 做数据开发或者应用端有类似自主分析需求的情况下,将轻度汇总层数据直接推送至应用端的 Kafka 落地;高度汇总层用于前端比较简单的 KV 查询场景,提升查询性能,比如实时大屏等。将数据推送至 MySQL 数据库落地,后续基于MySQL 开发接口或者直接开放 MySQL 提供服务。袋鼠云数据治理行业实践白皮书(2023)第 118 页数据管理标准1)元数据管理数据管理标准1)元数据管理通过元数据管理,用户需要基于

209、元模型设计的规范约束,维护表的业务元数据信息,更规范地维护元数据信息,便于后续的元数据信息查询和利用。可以通过添加数据源的方式,自动解析出相关数据源下某个或者全部实例的元数据信息,再以人工的方式进一步完善缺漏的信息。完整度分析统计每张表的业务属性(必填项)是否均已完成维护。图 110 质量分析图 血缘分析发现血缘关系缺失的表,如数仓下游层级的表、BI 报表等。用户可以通过添加数据库,系统自动得出解析结果,统计库中血缘孤立的表。图 111 血缘解析袋鼠云数据治理行业实践白皮书(2023)第 119 页2)主数据管理2)主数据管理主数据是企业中需要在多个部门或系统之间共享的,核心的、高价值且相对静

210、态的数据。主数据是企业信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石和企业中的黄金数据。主数据管理是一个长期持续的建设过程,需要一砖一瓦地打好基础,切勿急于求成,追求速成。数据完整性主数据的数据质量需要有高标准高要求,所有的字段必须为非空,所有字段的中文注释都必须齐全且统一。数据唯一性主数据往往存在并应用于多个业务系统之间,必须对多个业务系统间同一业务口径的主数据进行标准化整合,确保下游系统使用的统一业务口径的数据时都是唯一的。数据扩展性如果主数据的内容为编码类型,例如箱号 CTN_NO,需要考虑到长期发展的扩展性。数据可读性尽量使编码标准具备一定的特征含义,可初步进行解读。数据

211、高效性因主数据多被应用于跨系统间的关联,一个场景下经常多次作为外键或者主键使用,考虑到整体计算的高效性,除了数字和字母以外还可以考虑使用符号,整体编码长度不能过长(建议不要超过 12 位)。数据兼容性在上文中提到的主数据因为业务的飞速发展,需要定期地进行标准的扩展。在扩展的同时还需要注意兼容性,新编码体系需要兼容旧编码体系。3)数据标准管理3)数据标准管理建立数据标准,对存量数据进行后向管理,映射至已有元数据上,统一字段标准;对增量数据进行前向管理,利用数据标准进行建模,使模型字段更加规范统一。袋鼠云数据治理行业实践白皮书(2023)第 120 页 词根管理对词根信息进行线上化管理,词根信息可

212、用于数据标准的定义,词根的管理有利于数据标准的长期维护,减少重复的维护成本。图 112 词根管理 编码管理支持维护管理编码数据,编码可用于数据标准的定义。图 113 编码管理 数据库导入用于数据标准的建立基础,根据导入条件,将已存在的字段名转化为数据标准或者词根,丰富平台数据标准。袋鼠云数据治理行业实践白皮书(2023)第 121 页图 114 数据库导入 数据标准自定义完成上述基础的配置之后,最后需要人工进行“查漏补缺”。图 115 数据标准信息数据服务标准数据服务标准为了统一数据中台应用服务的输出出口,使用 API 平台提供数据服务。对于API 平台的使用流程也需要制定统一的流程。袋鼠云数

213、据治理行业实践白皮书(2023)第 122 页图 116 数据服务流程数据安全标准1)数据分级数据安全标准1)数据分级数据表分级的目标,在于通过设置合理的等级,加强对数据仓库平台下数据表的安全管理,确保敏感数据的增删改查操作都能够经过适合的授权。由于开发人员为使用便捷,数据表的安全等级通常存在安全等级设置偏低的情况,因而需要根据数据表中安全等级最高的字段进行表安全等级的设定。简而言之,根据业务重要程度及计算关联范围两个象限,可以简略地将数据袋鼠云数据治理行业实践白皮书(2023)第 123 页表安全设置为四个等级:表 5 数据安全分级表实际上,可以根据自身公司的业务情况,设置更多的安全等级,以

214、标示不同业务场景下的数据安全情况,上述标准仅提出一个可参考的案例。但很多情况下,大量的敏感数据是混杂在普通表中的,例如个别经常用到的 S1 级别的字段会夹杂在大量 S3,S4 中间,整张表从全局上看,应该设置为字段安全等级最高的级别,也就是 S1。不论是数据表,还是数据字段,通常都需要开发人员、管理人员甚至是使用人员介入进行人工的制定,但为了简化打标签的流程,通常是开发人员进行初步设定,指派一名数据负责人进行二次审核,最后文档落地持续优化维护。2)数据管理委员会2)数据管理委员会数据管理不仅仅是数据问题,它涉及业务、IT、管理等方方面面,仅仅依靠技术部门来推动和开展数据管理工作是无法取得成功的

215、,只有来自更高层管理者的驱动力,建立自上而下的跨部门跨业务条线的组织体系,才能保证企业内部的高效协作。数据管理组织架构一般包括决策层、管理层、执行层三个层级。决策层组织是公司数据管理最高决策机构,由公司董事长担任组长,分管信息化领导担任副组长,其余领导担任成员。管理层组织是对数据管理日常工作进行直接管理的部门,由科研中心部门长担任组长,分管数据领导担任副组长,其他各部室科级领导担任成员。执行层组织是数据运行操作的具体落实部室(班组)、相关方,按工作性质可分为业务执行层和技术执行层两类。袋鼠云数据治理行业实践白皮书(2023)第 124 页3)数据审批3)数据审批根据申请数据的级别不同,申请单位

216、的性质不同,数据审批的流程需要具备区分性。S1 级别数据申请&审批S1(保密)级别的数据申请&审批流程,第三方单位的数据申请需求原则上是不允许的,在执行层的人员审批阶段即可驳回。内部门单位的申请需要执行层和管理层的人员审批。外部门单位的申请需要执行层、管理层和决策层的人员审批。图 117S1 审批流程 S2 级别数据申请&审批S2(敏感)级别的数据申请&审批流程,内部门单位的申请只需要执行层的人员审批,外部门单位的申请需要执行层和管理层的人员审批,第三方单位的申请需要执行层、管理层和决策层的人员审批。图 118S2 审批流程袋鼠云数据治理行业实践白皮书(2023)第 125 页 S3 级别数据

217、申请&审批S3(次敏感)级别的数据申请&审批流程,除了第三方单位的数据申请需求只需要执行层的人员审批即可生效,第三方单位的数据申请需求还需要管理层人员再次审批。图 119S3 审批流程 S4 级别数据申请&审批S4(一般)级别的数据申请&审批流程,不管申请单位是什么性质,只需要执行层的人员审批即可生效。图 120S4 审批流程(3)建设成果(3)建设成果通过数据治理理念的传达以及实施的落地,将前期的规划设计,中期的开发袋鼠云数据治理行业实践白皮书(2023)第 126 页实施以及后期的运营维护进行一体化建设,由数据中台统一提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于任务上

218、下线、建表等操作实现在线化、流程化操作,一方面减少人工提升效率,一方面完善数据治理的过程。经过 2 年多时间的耕耘,期间总共归集业务系统 36 个,3000 多个数据模型,上线任务达 8000 多个。数据架构的整体优化,帮助数据中台全面提速,在任务量提升了 50%的前提下,整体运行速度提升将近 100%;核心数据的数据标准覆盖率从 42%提升到 69%,在开发过程中就完成了数据标准的落地,极大降低了主数据多样重复、口径不一等问题发生的概率,重复率从 30%降低到目前稳定维持在0.5%以下。2某码头数据治理实践案例2某码头数据治理实践案例(1)案例背景(1)案例背景交通运输十二五发展规划提出沿海

219、港口需要形成布局合理、保障有力、服务高效、安全环保、管理先进的现代化港口体系。在此背景下,某码头积极建设现代化港口,经历从传统码头向智慧化港口转型,充分运用物联网、云计算、大数据的技术手段进行透彻感知、广泛链接、深度计算、运行核心系统的各个关键信息,在此过程中积累了大量物联感知数据及业务的执行数据,迫切需要通过一个统一大数据平台来汇聚所有设备、场地、运营等相关数据,再通过人、场地、设备将这些数据进行大量碰撞分析来支撑港口科学调度决策。当前某码头缺少统一的大数据资产管理平台,导致在数据应用方面出现数据价值不凸显、数据标准不统一、数据质量不可控、数据共享不畅通等问题。袋鼠云港口数据治理解决方案立足

220、打造领先码头大数据平台,能满足覆盖工程技术、运营操作、安全卫环等部门数据应用需求,对某码头现有数据资产进行盘点、治理及挖掘,提炼运营及管理指标,科学化管理码头数据资产和挖掘数据价值。(2)解决方案(2)解决方案袋鼠云跟随某码头智慧化不断深化的步伐,结合内部现有数据开发平台产品,通过数据治理、数据应用等方向不断探索,形成码头统一的数据标准治理方案。袋鼠云数据治理行业实践白皮书(2023)第 127 页在项目实施过程中,以数据接入、数据清洗、数据治理、数据迁移等几个方向展开实施,其中以数据治理及数据迁移为核心,迁移码头历年积累的数据,清晰化数据集成、数据质量、元数据管理、数据建模等内容,形成统一的

221、码头数据中台,并在数据应用方面进行扩展,为实现码头如下数字化目标:一是业务数字化:收集港区定位、设备、气象、指令等数据,将业务场景用数字进行表达。二是数据标准化:对不同类型、不同源的数据进行加工治理,形成格式统一、频率一致、口径归一的标准化数据。三是数据资产化:形成主数据、指标库等资产化数据,同时进行数据画像、数据挖掘、数据分析,对数据进行价值发掘,发挥数据价值。四是数据服务化:具备统一的对外接口,进行数据质量检测、权限管理、数据安全保障等管理,输出可用、可信、及时准确的标准化数据。袋鼠云通过一站式大数据开发平台工具产品数栈的数据离线开发、实时开发等模块,进行码头数字化建设。在实践过程中,着重

222、围绕以下几个方面进行深入交流图 121 某码头数据域规划数据归集数据归集某码头存在多源数据库,不同数据接入码头的来源多样化,如前端物联感知袋鼠云数据治理行业实践白皮书(2023)第 128 页设备数据,码头业务系统、IoT 设备数据、外部需要接入的系统数据等等。针对多样化的数据来源,基于数栈数据集成模块的能力,在各个存储单元之间执行数据交换,由于产品具备分布式底层架构,稳定高效、弹性伸缩等的特点,在码头复杂网络环境下,实现了的异构数据源之间高速稳定的数据移动及同步能力。图 122数据同步流程数据标准数据标准建立数据标准,根据大数据中心项目建设积累,围绕港口数据中台数据标准及规范体系,初步构建某

223、码头数据中台的采集规范、开发规范、数据管理办法、数据服务规范、安全管理规范,如命名规范,模型设计规范,代码规范,注释规范等。1)词根规范:为了规范数据标准的词根维护流程,保障词根的准确性和唯一性,提高开发效率,减少沟通成本,将常用的长单词或短语,通过统一命名的方式,保证全局范围内的命名含义一致性。2)命名规范:具体命名规范如下表所示。袋鼠云数据治理行业实践白皮书(2023)第 129 页表 6命名规范表3)模型设计规范:结合数仓建模理论,实现数据 ODS、CDM(DWD、DWS、DIM)、ADS 分层,构建数据模型,定义指标规范、指标口径,结合全域数据对数仓进行设计。图 123 模型国防设计图

224、4)代码注释规范:代码编写要充分考虑执行速度最优的原则,代码中应有必要的注释以增强代码的可读性,代码开发规范要求等。袋鼠云数据治理行业实践白皮书(2023)第 130 页主题域建设主题域建设建设码头全域数据主题。1)集装箱主题域:集合以集装箱为主体的数据,根据码头中集装箱数据的各个动态,再加上与集装箱关联的车辆和船舶相关数据,形成集装箱的主题数据域。2)船舶主题域:集合以船舶为主体的数据,形成船舶的主题数据域,可以为大数据中心提供相关航次优化及效率分析等数据服务。3)设备主题域:以设备为主体的数据,今后长远来看,所有设备都会趋向于智能化,以后的定位相关数据服务也不会只局限于车辆数据。4)人员主

225、题域:集合以人员为主体的数据,形成人员的主题数据域。配合设备信息输出设备操作相关的数据服务。5)公共主题域:将具有公共属性的数据集中放置在公共数据域。例如主数据,气象数据等服务于其他各个主题域的数据。6)物资主题域/工单主题域:基于即将接入的设备工程一体化系统。7)定位主题域:以定位数据为主体的集合,例如桥吊、车辆等设备的定位数据。全域数据重构全域数据重构针对码头已有数据情况进行数据探查、数据集成,数据中台模型开发、指标加工、数据校验、数据服务等。针对现有全域数据 150 张表数据探查;重点对可视化系统 130 个指标表重构加工,丰富中间模型层;对重构后数据进行逐一校验;最终形成数据资产目录。

226、(3)建设成果(3)建设成果截至目前,已完成码头已有数据资产接入,完成各系统数据迁移,建设某码头统一的数据模型。完成码头全域数据重构工作,整合历年指标逻辑,完成指标技术口径与业务口径重构,完成相关报表数据校验工作。实现了对全域数据 150 张表数据探查,重构相关模型层逻辑设计;重点对可视化系统 130 个指标表重构加工验证,在重构模型的基础上纠错旧指标逻辑,完善新指标逻辑,丰富中间模型层;完成重构后数据进行逐一校验;最终形成数据袋鼠云数据治理行业实践白皮书(2023)第 131 页资产目录。满足码头数据平台应用需求,优化数据链路,提升码头整体数据利用效率;满足业务系统相关数据需求,针对性开发相

227、关报表指标,提升码头数据中台服务能力;重构完善码头业务指标逻辑,修正历史遗留问题,拓展新思路,提升码头数据智能化能力。(六)教育行业数据治理实践(六)教育行业数据治理实践1某高校数据治理实践案例1某高校数据治理实践案例(1)案例背景(1)案例背景高校数字化改革是国家教育改革发展的战略部署,也是新时代高校加快实现治理体系和治理能力现代化的内在选择。党的二十大报告指出,要实施科教兴国战略,强化现代化建设人才支撑,坚持教育优先发展,深化教育领域综合改革,推进教育数字化,加快建设教育强国。2022 年全国教育工作会议明确提出要实施“教育数字化战略行动”,强化需求牵引,深化融合、创新赋能、应用驱动,推进

228、教育新型基础设施建设,强化数据挖掘和分析,健全教育信息化标准规范体系,为促进教育事业高质量发展注入新动力。教育数字化是教育未来发展的必然趋势和建设高质量教育体系的重要策略,是一个循序渐进的过程,经历了数字转换、数字化、数字化转型等阶段,下一个阶段的数字化改革必将成为高校当前乃至未来很长一段时间内的必答题和必修课。目前高校的数字化建设还存在诸多问题,比如数据应用较为单薄,由于长期对数据的重视程度不高、对数据价值的认识不够,导致高校前期业务系统的建设与数据应用脱节。线上业务环节的过程性数据、线下活动的全链路数据没有进行记录和采集,导致过程化数据严重缺失。数据质量问题普遍,且数据分散在各系统,如教务

229、系统数据、一卡通数据、保卫数据、网络日志数据等都没有进行统一融合,数据孤岛现象普遍存在。基于以上问题,高校的标准数据治理及数据价值挖掘和数据应用建设迫在眉睫。袋鼠云数据治理行业实践白皮书(2023)第 132 页(2)解决方案(2)解决方案项目调研项目调研全面盘点学校现有数据和业务现状,分析数据问题,准确规划数字化的建设方向。具体包括:1)现有信息化系统及现状调研,包括学校内部管理系统、对外服务平台、外部数据调研。2)数据架构的现状数据流转过程调研,学校总部与各院系、部门的业务系统架构与现状、内部业务系统的数据流转、互通情况和数据交互的过程分析。3)数据应用的现状调研,面向学校信息中心,管理部

230、门、院系等不同层级的数据应用现状调研。4)数据权限管理,数据权限的管理现状、问题和需求梳理。5)数据质量及管理情况调研。图 124 某高校数据治理项目调研流程中台搭建中台搭建为学校建设一套完善的大数据开发、治理和管理的能力中心。构建统一高效、互联互通、安全可靠的基础数据资源服务体系,打通信息孤岛,逐步推进不同部门、不同学院、不同层级、不同单位之间的数据融通,提升高校校内各部门业务协同以及校地协同,推进学校各治理要素数据空间化,支撑学院、部门各系统应用创新,以数字赋能整体智治,整体提升学校一体化智能化能力,推进高校的教育治理现代化。袋鼠云数据治理行业实践白皮书(2023)第 133 页高校大数据

231、能力中心是一站式数据中台 PaaS,目标是通过产品化的方式,帮助学校快速实现数据的集成、开发、治理、维护和共享。袋鼠云数据中台集成了高校大数据建设过程中所需要的各种工具,完整覆盖大数据离线计算、实时计算、资产管理和数据共享,满足开发人员从数据同步、数据分析、数据挖掘、数据质量、数据地图、数据模型、数据 API 的各层次应用,通过数据中台可以解放开发人员的生产力,极大地缩短大数据开发和治理过程,高效实现数据质量监控和维护及数据的开放共享,让学校具备可持续的数据资产生产能力。图 125 某高校数据中台架构图数据治理数据治理根据学校现有数仓中的数据子集,包括学校、档案、院系、消费、图书、学生、教学、

232、教工、科研、财务等,进行数据模型主题域设计。数据模型设计主要为学校提供一套统一的数据标准,包括维度和指标的规范定义、数据模型设计、数据开发和数据服务规范。结合设计好的数据标准和模型对学校学生管理、教学管理、科研管理、人事管理、财务管理、资产与设备管理、办公管理、外事管理、档案管理、学校概况及其他不同的管理模块的核心数据集进行清洗治理和规范化开发,为学校建设统袋鼠云数据治理行业实践白皮书(2023)第 134 页一规范的基础数据标准库。图 126 某高校数据标准库示意 数据应用数据应用随着学校管理和服务要求的提升,传统的信息化系统已经无法满足学校对精细化、个性化、整体性、及时性的管理诉求。需要建

233、设新的基于大数据的综合应用。袋鼠云以零代码/低代码的方式,帮助高校不同业务部门满足数字化分析、数字化展示、数字化管理等各类数字化场景的应用建设。包括:数据分析看板,学生、教师和学院的数字档案建设,自动化数据报表的生成和提报,自动化高基报表,数据开放和共享服务门户,校园数字孪生可视化管理等。帮助学校实现从底层数据治理到上层大数据应用的全链路数字化建设。袋鼠云数据治理行业实践白皮书(2023)第 135 页图 127 某高校数据应用示意图(3)建设成果(3)建设成果通过高校大数据能力中心,快速完成了学校全域数据的标准化治理,通过对规范化的校园数据资产的调用、分析和挖掘,结合学校业务需求,定制开发了

234、一系列的大数据分析和应用系统。学校的管理工作变得更加精准化和规范化,核心竞争力进一步地提升。数据的应用帮助学校厘清教育业务条线逻辑,利用大数据扁平化、交互式、快捷性的优势,推进高校治理精准化,极大程度提高了各部门的工作效率,减轻不同院系日常运营的人力成本和经济成本。同时,大数据技术有效支撑教学、科研效能的提升。教师通过数据来量化教学过程和状态,快速准确地发现学生的特点和问题,进行个性化教学。而对于学生成长来说,伴随式收集的多维数据,有助于形成学生全方位的数字档案,为其生涯规划和建立多元评价体系提供数据支撑。而科研人员则通过教育大数据审视教学活动的交互过程,发现新规律新趋势,用以指导教师教学和推

235、动教育变革。袋鼠云数据治理行业实践白皮书(2023)第 136 页参考资料参考资料1.中国信息通信研究院.全球数字治理白皮书(2022 年).2.数据管理协会(DAMA 国际):DAMA 数据管理知识体系指南,机械工业出版社 2020 年版.3.信息技术服务治理 第 5 部分:数据治理规范(GB/T 34960.5-2018).4.艾瑞咨询.2022 年中国数据中台行业研究报告.5.数据中台 元数据规范(T/ZAII 035-2022).6.华为公司数据管理部:华为数据之道,机械工业出版社 2020 年版.7.美国 约翰拉德利:数据治理:如何设计、开展和保持有效的数据治理计划,刘晨、车春雷、宾

236、军志译,清华大学出版社 2021 年版8.朱晓武、黄绍进:数据权益资产化与监管,人民邮电出版社 2020 年版.9.彭峰、宋文欣、孙浩峰:云原生数据中台,机械工业出版社 2021 年版.10.IBM.Deliver Business Ready Data Fast with DataOps.11.Gartner.2021 年十大数据和分析趋势.12.Gartner.Hype Cycle for Data Management,2021.13.中国信息通信研究院.数据价值化与数据要素市场发展报告.14.中国信息通信研究院.数据资产化:数据资产确认与会计计量研究报告.15.中国信息通信研究院.数据

237、安全治理实践指南.16.中国信息通信研究院.数据资产管理实践白皮书 5.0 版17.中国信息通信研究院.数据资产管理实践白皮书 6.0 版18.数据管理能力成熟度评估模型(GB/T 36073-2018).19.金融业数据治理能力建设指引(JR/T 0218-2021).20.证券期货业数据安全分级(JR/T 0158-2018).21.证券期货业数据模型 第 1 部分:抽象模型设计方法(JR/T 0176.12019).22.证券期货业数据模型 第 3 部分:证券公司逻辑模型(JR/T 0176.32021).23.证券期货业数据模型 第 4 部分:基金公司逻辑模型(JR/T 0176.42019).24.信息技术 元数据注册系统(MDR)第 1 部分:框架(GB/T 18391.1-2009).25.于施洋:我国构建数据新型要素市场体系面临的挑战与对策,电子政务2020 年第 3 期.26.普华永道.数据资产化前瞻性研究报告(2021).27.普华永道、上海数据交易所.数据要素视角下的数据资产化研究报告.袋鼠云数据治理行业实践白皮书(2023)第 137 页

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(袋鼠云:数据治理行业实践白皮书(2023版)(143页).pdf)为本站 (蒸蒸日上) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部