《金融级数据研发治理一体化平台实践_廖晓格.pdf》由会员分享,可在线阅读,更多相关《金融级数据研发治理一体化平台实践_廖晓格.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、金融级数据研发治理一体化平台实践廖晓格廖晓格廖晓格 长期大数据平台、长期大数据平台、AIAI平台建设经验平台建设经验 平安银行数据资产管理及研发中心团队负责人,负责大数据基础平台、数据中台、BI及AI中台能力的建设 曾就职于PPTV、ebay、携程、华为,负责大数据平台应用的研发工作目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望大数据服务应用数据质量缺乏缺乏必要的监控和告警必要的监控和告警各业务的数据存在孤岛孤岛数据多份存储,加大数据成本数据成本PB级别大数据海量存储和计算,造成极高的负载极高的负载,影响系统稳定性稳定性,批量时效批量时效难以有效保障大数
2、据测试数据难造,生产数据脱敏到测试环境又有安全有安全隐患,敏感数据多,安全管控难隐患,敏感数据多,安全管控难数据流量洪峰不断刷新记录,如何提升实时化能力提升实时化能力虽然提供了各种线上平台和工具,但思维思维和动作还未全面数据化数据化安全安全 提效提效 降本降本金融数据的特点及治理挑战金融数据的特点及治理挑战数数据据治治理理价价值值金融数金融数据治理的价值据治理的价值包包袱袱?资产资产!存储成本存储成本剧增剧增计算负载极高计算负载极高数据安数据安全隐患全隐患不可靠决策不可靠决策数据数据治理治理数据数据治理治理数据数据治理治理降低成本提升数据加工效率控制数据风险赋能管理决策改善数据质量ABCDE数
3、据治理传统模式的痛点数据治理传统模式的痛点传统模式下的数据治理工作更多参考DAMA或者DCMM理论体系推行,但公司内部从哪里入手、以什么样的路径推进目前并没有结合自身企业和行业特点制定数据治理的标准体系,涉及效率、技术、管理、安全等,导致治理效果一直不佳,主要体现在以下几个方面:通过事后治理事后治理,在短期内能看到一定成果,但因为没有融入到日常数据生产流程中,导致治理效果不可持续,不能长久解决治理痛点1 1、运动式治理、运动式治理治理成效难量难量化、可视化化、可视化,治理推进工作难度会倍数加大3 3、数据治理成效不可量化、数据治理成效不可量化很多企业的数据治理管理规范只能停留于纸面和规范文字层
4、面停留于纸面和规范文字层面,没有治理工具支撑2 2、治理措施落地难、治理措施落地难目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望金融行业数据治理核心目标在于兼顾安全、成本并最大化数兼顾安全、成本并最大化数据价据价值值,因此数据治理需要解决四个使命:治理标准化治理智能化数据成本数据价值最大化,包括通过数据生命周期、成本/价值评估逆向推动成本治理,释释放数据价值、降低数据应用放数据价值、降低数据应用成本成本全周期治理解决方案全周期治理解决方案,数据治理涉及多个流程、多个平台、多方不同角色,整合各方在平台提供统一治理能统一治理能力,实现治力,实现治理标准流程;
5、理标准流程;治理线上化治理治理DAMADAMA方法论与工具结方法论与工具结合合,将治理方法论以及行内所有规范,通过平台工具结合,提供工具化的治理能力,实现治实现治理线上化理线上化;集成规则策略,集成规则策略,可以通过自通过自动化治理能力动化治理能力识别安全风险、敏感数据,通过内置规则和策略提升治理效果;数据治理的目标是什么数据治理的目标是什么沉沉淀淀数据数据资产资产提供高可用的数据服务提供高可用的数据服务数据治理体系建设数据治理体系建设方案与规划方案与规划 制定数据资产治理管控方案,包括资产目录设计、资产范围、资产治理运营等流程与规范流程与规范 制定数据治理相关规范,流程、治理引擎和标准一个一
6、个平台平台1.数据需求环节数据架构评审数据架构评审影响分析影响分析2.数据研发环节元数据元数据治理治理质量治理质量治理血缘治理血缘治理数据服务数据服务3.指标定义环节规范定义规范定义度量定义度量定义属性定义属性定义业务范围业务范围4.数据应用指标服务指标服务数据特征数据特征数据报表数据报表数据服务数据服务数据资产分类数据资产分类(技术视角技术视角)数据资产分类数据资产分类(业务视角业务视角)表资产指标资产标签资产特征资产模型资产营销运营风险财务一套一套治理治理治理范畴治理范畴(规则规则)治理拦截治理拦截(优化优化)长效运营长效运营一套一套标准标准数据资产成本数据资产成本/价值评估价值评估低价值
7、低价值/高成本高成本治治理理数据健康运营数据健康运营一套一套资产资产配置治理检查项标准治理对象标准治理对象模版模版规范规范检查检查质量质量检查检查价值价值评估评估更更多多开发前检查开发前检查数据数据开发开发开发后检查开发后检查规范性检查质量内容检查治理治理目标目标治理全景治理全景健康分SLA数据质量治理考核资产服务资产服务资产目录资产详情资产搜索资源优化资源优化低价值下线高价值补充SLASLASLA管理基线预警SLA复盘目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望数据开发治理一体化解决数据开发治理一体化解决方案方案将数据研发与数据治理方法论结合,提供开
8、发治理一体化解决方案平台,目标实现数据安全可控、高质量,最终驱动数据在业务场景释放更大价值 DataOpsDataOps全周期数据研发全周期数据研发将数据研发过程标准化,引入CI/CD方法融入数据研发流程;数据治理嵌入研发过程数据治理嵌入研发过程 改变以往先产生后治理的 流程逻辑,将治理规范融入数据研发流程;先设计再开发服务先设计再开发服务 以数据服务和数据指标驱动数据研发过程,遵循先设计再研发的治理设计理念;数治理技术工具数治理技术工具 面向数据自动校验端,提供数据质量/数据血缘/元数据管理/规范检查/开发测试一体/能力服务,实现线上数据的自动检核;开发治理核心能力开发治理核心能力湖仓一体存
9、储层数湖存储格式数湖存储格式(Iceberg)(Iceberg)分布式文件系统分布式文件系统(HDFS)(HDFS)数据缓存与加速数据缓存与加速(JuiceFS)(JuiceFS)湖仓一体存储层湖仓一体存储层数据规范设计数据规范设计数据治理数据治理应用场景应用场景基于基于dataopsdataops的全数据研发的全数据研发流批数据流批数据集成集成流批数据流批数据研发研发数据研发规范检查数据研发规范检查流批一体流批一体研发研发IDEIDE数数据据研研发发运运营营数据建模数据建模指标设计指标设计数仓规划数仓规划数据标准数据标准检查规范设计检查规范设计数据治理技术工具数据治理技术工具数据质量数据质量
10、数据血缘数据血缘元数据管理元数据管理开发测试一体化开发测试一体化自助数据分析自助数据分析低代码数据低代码数据APIAPI构构建建数据报表数据报表数据建模数据建模成成本本价价值值评评估估体体系系数数据据安安全全治治理理数据研发治理一体化平台全流程数据研发治理一体化平台全流程数仓模型资产数仓表资产指标资产API资产业务元数据资产数据数据采集采集数据数据加密加密配置数据源模型模型映射映射数据数据开发开发敏感数据标准敏感数据发现敏感数据加密异构数据采集采集频率设定数据同步数据同步维度/码值统一映射数据开发语法校验数仓加工数仓加工数据数据测试测试数据数据上线上线案例数据执行集测试报告UAT验证自动发布调
11、度与监控指标定义指标定义指标服务指标服务对象、维度、度量定义业务/口径定义指标一致性检测指标发布服务元数据服务APIAPI加工加工统一存储统一查询服务配置指标加工指标加工OneServiceOneService数据主题研发研发流程流程数据数据资产资产平台平台统一数据研发全周期流程,标准化数据建模过程,降低模型研发过程中的人为风险同时,提升整个数据研发效率数据开发治理一体化解决方案数据开发治理一体化解决方案-DataOps-DataOps全周期开发治理能力全周期开发治理能力将数据治理融入数据研发的全生命周期流程中,在数据开发过程中完成全域数据治理工作,最终实现数据开发过程中自动化治理的管控目标架
12、构规范架构规范治理规范治理规范数据标准数据标准元数据规范元数据规范设计阶段设计阶段维度表维度表实时表实时表字段类型映射字段类型映射物理加密物理加密逻辑脱敏逻辑脱敏数据清洗数据清洗敏感自动识别敏感自动识别研发阶段研发阶段元数据管理数据数据标准标准模型模型设计设计数据数据集成集成数据数据清洗清洗数据数据研发研发数据数据测试测试数据数据发布发布数据数据运营运营发布阶段发布阶段数据质量质量规则质量规则技术元数据技术元数据管理元数据管理元数据业务元数据业务元数据质量校验通过质量校验通过运营阶段运营阶段ROI评估价值评估价值评估成本计算成本计算数据开发治理一体化解决方案数据开发治理一体化解决方案-元数据治
13、理元数据治理数据模型设计阶段,元数据治理是核心治理对象,遵循数仓层级、命名规范、数据标准落标数仓层级、命名规范、数据标准落标等通过开发治理工具执行,开发治理一体化平台针对事前、事后的自动盘点运营;数仓分层数仓分层数据命名标准数据命名标准数据码值落标数据码值落标数据认责数据认责开发治理一体化平台开发治理一体化平台数数湖湖MetaStoreMetaStore元数据元数据产生产生元数据扫描并自动采集元数据扫描并自动采集1技术元数据技术元数据业务元数据业务元数据1治理元数据注册治理元数据注册元数据元数据采集采集目录挂载目录挂载元数据元数据逻辑层逻辑层资产运营资产运营资产分类资产分类资产生命周期资产生命
14、周期资产管理资产管理资产打标复核资产打标复核属性管理属性管理数据地图数据地图元数据元数据应用应用2元数据服务元数据服务数据安全数据安全数据权限数据权限元数据考核元数据考核架构规范元数据规范批流统一存储批流统一存储Iceberg(Iceberg(批流统一批流统一schema)schema)分布式文件系统分布式文件系统HDFSHDFS元数据发布元数据发布数据开发治理一体化解决方案数据开发治理一体化解决方案-元数据元数据治理治理-强制检查项强制检查项(举例举例)针对于数据治理中基础元数据管理,基于行内统一数据标准治理规范,在开发过程中实现对于元数据管理的各项自动落标,确保元数据可用、可管、可控;数据
15、研发过程中明确分配归属部门管理命名规范自动化,包括表名和字段名码值落标线上化,开发过程中实现码值落标基于数仓建设标准,平台层面强制约束DWD/DWS/ADS分层的数据研发团队,通过平台约束分层落地检查检查1 1检查检查2 2检查检查3 3检查检查4 4数据开发治理一体化解决方案数据开发治理一体化解决方案-血缘治理能力血缘治理能力数据研发人员只需关注将自身需求的业务逻辑转换为开发逻辑,由开发治理平台自动进行脚本解析并生成血缘关系,同步实现血缘链路、血缘层血缘链路、血缘层级依赖、数仓分层依赖级依赖、数仓分层依赖等治理事项自动化检查,确保数据血缘健康运营;编编码阶段码阶段血血缘解析阶段缘解析阶段血血
16、缘应用阶段缘应用阶段 血血缘治理阶段缘治理阶段开发过程中血缘治理开发过程中血缘治理运营过程中血缘治理运营过程中血缘治理层级依赖检查:层级依赖检查:数据研发作业提交之后,依据自动计算的血缘分析与DWD层血缘层级,层级太深禁止上线;分层依赖层面:分层依赖层面:依据ODS-DWD-ADS分层规范,禁止进行跨层依赖,同时ADS内私有域集市层禁止互相依赖;运营时效检查:运营时效检查:实时分析层级依赖作业的调度运行时间,根据高保作业的时效要求,线上分析延迟影响;运营成本治理:运营成本治理:依据作业互相依赖以及访问热度,自动针对冷作业进行识别并进行下线,降低集群存储和计算成本;引擎层(hive/spark/
17、presto)hooksparkhookHiveSparkSQLSQLkafkaLineage 数据开发治理一体化解决方案数据开发治理一体化解决方案-自动调度能力自动调度能力开发治理一体化平台基于研发作业的依赖血缘,同时支持数据研发人员人工添加自定义依赖,实现对于调度的整体自动化平台管控,屏蔽人为控制影响,提升数据运行的自动性1.血缘依赖调度3.自定义条件调度2.并发度调度管控自定义调度属性自定义调度属性自定义调度属性自定义调度属性执行调度检查执行调度检查数据开发治理一体化解决方案数据开发治理一体化解决方案-质量治理能力质量治理能力数据质量已经成为银行数据治理的核心组成部分,从治理视角而言,建
18、立完整全流程的数据质量体系,及时发现质量问题-实时预警属主修复-事后复盘增强测试发布环节检测、提升银行数据整体质量,提供更精准的决策分析数据;1)1)表粒度规则监控表粒度规则监控2)2)字段粒度规则监控字段粒度规则监控3)3)自定义规则监控自定义规则监控事前-质量核验规则事中-质量核验通过数据血缘关系,实通过数据血缘关系,实时呈现数据调度进度时呈现数据调度进度实时质量异常阻断实时质量异常阻断(依据血缘依赖阻断下游自动调度依据血缘依赖阻断下游自动调度)事后-异常质量问题追踪复盘基于过程质量问题,工单追踪异常整改基于过程质量问题,工单追踪异常整改数据开发治理一体化解决方案数据开发治理一体化解决方案
19、-开发测试一体化开发测试一体化为解决大数据数据质量测试痛点,在测试环境无法完全复现生产问题,生产数据脱敏到测试环境仍有安全隐患,因此需要构建数据研发测试一体化平台,完善数据研发流程,满足监控合规的评审需求,数据需求闭环管理,数据开发、测试、变更流程统一管理,并和数据监控规则打通,保证全流程质量闭环作业调度作业调度/用例执行用例执行信用卡集市信用卡集市风险风险消金消金私行私行汽融集市汽融集市基础集市基础集市数据数据准备准备核心核心功能功能基础数据规则基础数据规则单/双表、字段级日期型类型数值型类型枚举型类型字符型类型自定义场景建模场景建模资损模型监管模型风控模型营销模型场景自适应数据模型(待建)
20、场景自适应数据模型(待建)机器学习自适应算法场景模拟精准测试效率优化效率优化流程流程管理管理质量门槛质量门槛分级别流程定制需求评审测试验收UAT/业务验收 结果大盘结果大盘测试自动测试自动执行执行缺陷标注缺陷标注聚合报告分析聚合报告分析用户&权限一键UM登录数据权限自动识别数据研发平台数据研发平台对接系统对接系统ROUTERROUTER权限系统权限系统JiraJira需求管理需求管理脱敏系统脱敏系统DQMDQM数据监控数据监控数据开发治理一体化解决方案数据开发治理一体化解决方案-数据安全治理数据安全治理从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号
21、,分析SQL/Job对应的元数据字段,判断用户权限,返回用户对应的脱敏数据。事前制度建设:数据安全“制度制度”先行先行,为此我行修改制定了“平安银行数据安全管理办法(2.0版,2019年)”;事前事前事中技术管控:采用 “数据加密数据加密”、“数据脱数据脱敏敏”、“敏感客群保护敏感客群保护”、”智能阻断智能阻断”、“数据数据外发外发”等手段构筑强固的数据安全保护伞;事后监控审计监控审计:基于规则引擎建立数据访问审计平台实时的自动+人工的识别可能的异常访问;事中事中事后事后大数据大数据平台平台客户端客户端调度平台调度平台AdhocAdhocSASSASJupyterJupyterAIAI算法平台
22、算法平台SQL/JobSQL/Job大数据SQL计算引擎PrestoPrestoKylinKylinSpark SQLSpark SQLHIVEHIVE血缘分析血缘分析权限管理权限管理脱敏引擎脱敏引擎安全决策引擎安全决策引擎元数据管理元数据管理统一统一SQLSQL引擎引擎RouterRouter数据开发治理一体化解决方案数据开发治理一体化解决方案-数仓分层加密数仓分层加密处理处理过程过程ODS ODS 贴源层贴源层(raw)(raw):敏感字段识别,利用 正则+算法+人工,识别出贴源数据表的敏感字段。ODS ODS 加密层加密层(mid)(mid):高敏感字段加密,将银行卡号,手机号,证件号进
23、行加密储存。数仓、集市等层:数仓、集市等层:利用字段级血缘关系,标识出每张表敏感字段。数据查询访问:数据查询访问:应用端查询数据时,对统一查询中心(router),根据访问的敏感字段及敏感脱敏类型进行脱敏处理。报表指标库(BU)标签指标接口(对外服务)私库(基本法)数据建设组织过程数据产出流转过程公共库一致性维度DIM 贴源层贴源层 RAWRAW信用卡DW消金DW汽融DW对公DW信用卡DM消金DM汽融DM对公DM风险DM财务DM信用卡MID消金MID汽融MID对公MID加密层加密层数据开发治理一体化解决方案数据开发治理一体化解决方案-敏感数据敏感数据发现发现源生产系统数据集成过程中,无论实时或
24、者离线采集,开发治理一体化平台基于数据规则自动实现敏感数据发现;Cert_noCert_张三数据自动数据自动识别识别身份证规则身份证规则:(1-9d5(18|19|(23d)d2(01-9)|(10|11|12)(0-21-9)|10|20|30|31)d30-9Xx)邮箱规则邮箱规则:a-zA-Z0-9_-+a-zA-Z0-9_-+(.a-zA-Z0-9_-+)+$规则库规则库采集表采集表A A字段名字段名安全标识安全标识Cert_noe身份证Email邮箱CHILD_CCHILD_CNTNT子女数量子女数量字段血缘分析字段血缘分析数据表数据表A A字段名字段名安全标识安全标识字段1身份证字
25、段2邮箱数据表数据表B B12人工人工标识标识3人工人工复核复核4数据表A数据表B.识别环节识别环节1 1,数据识别,数据识别:依据预定义规则库+命名实体算法服务自动识别敏感信息;识别环节识别环节2 2,血缘分析,血缘分析:依据上游字段的安全标记,下游字段自动继承;识别环节识别环节3 3,人工复核,人工复核:开放白名单数据环境,数据标准由人工进行复核确认;算法识别:算法识别:利用大规模语料学习标注模型,利用大规模语料学习标注模型,可快速识别文本中的实体可快速识别文本中的实体白名单数据环境白名单数据环境识别说明识别说明数据开发治理一体化解决方案数据开发治理一体化解决方案-基于元数据的加密方案基于
26、元数据的加密方案通过元数据标记、底层执行过程中即时加密的方式,兼顾数据安全的同时,提升处理效率。编译阶段编译阶段,调用元数据获取加密信息,给MapWork增加path到加密信息的映射 执行阶段执行阶段,MapOperator反序列化map.xml,获取加密信息,并初始序列化工具类,序列化工具根据加密信息加密数据加密数据 任务执行完成后任务执行完成后,根据执行计划,计算字段血缘并更新元数据表分区加密状态元数据信息元数据信息 HDFS HDFSInputSplit1(数据)InputSplit2(数据)InputSplit3(数据)表元数据分区元数据字段元数据加密方式血缘关系 运行阶段运行阶段 编
27、译阶段编译阶段MapReduceCompilerMapWork(包含加密信息)MapOperator1PostExecutionHPostExecutionHookook阶段阶段判断是否有写操作更新分区元数据MapOperator2MapOperator3Map.xml(配置)读取序列化更新14526读取读取读取处理处理处理更新6生成3以以MapReduceMapReduce为例为例数据开发治理一体化解决方案数据开发治理一体化解决方案-基于元数据的加密基于元数据的加密方案(方案(举例举例)CUST_NO CUST_NO CUST_TYPECUST_TYPEIDXIDX加密加密 hdfs:/hd
28、fs:/hive/xxx/xxxx.db/cust_info/dt=20221001 /hive/xxx/xxxx.db/cust_info/dt=20221001 “tableNametableName”:“cust_infocust_info”,“dbNamedbName”:“xxxx,xxxx,“partitionNamepartitionName”:“dt=20221001dt=20221001”,“fieldsfields”:“namename”:“cust_nocust_no”,“encryptorencryptor”:“IDXIDX”,“currentEncStatecurren
29、tEncState”:“PLAN_TEXTPLAN_TEXT”,“namename”:“cust_last_namecust_last_name”,“encryptorencryptor”:“FAKENAMEFAKENAME”,“currentEncStatecurrentEncState”:“PLAN_TEXTPLAN_TEXT”增加属性:增加属性:pathToEncInfopathToEncInfo,保存表分区的路径对应的字段加密,保存表分区的路径对应的字段加密信息信息Map.xmlMap.xml序列化保存为序列化保存为HDFSHDFS文件文件Map.xmlMap.xmlInputSpli
30、tInputSplithdfs:/hdfs:/xxx.db/cust_info/dt=20221001/0001+/xxx.db/cust_info/dt=20221001/0001+0:10240 0:10240 InputSplitInputSplithdfs:/hdfs:/xxx.db/cust_info/dt=20221001/0001+/xxx.db/cust_info/dt=20221001/0001+10240:20480 10240:20480 MapOperatorMapOperator加密数据加密数据MapOperatorMapOperator加密数据加密数据从元数据获取从
31、元数据获取客户表字段客户表字段加密信息加密信息MapReduceCompilerMapReduceCompiler客户表客户表字段名称字段名称加密算法加密算法当前加密状态当前加密状态分区分区CUST_NOCUST_NOIDXIDXPLAN_TEXTPLAN_TEXT20221CUST_LAST_NAMECUST_LAST_NAMEFAKENAMEFAKENAMEPLAN_TEXTPLAN_TEXT20221读取读取MapWorkMapWork根据语法树根据语法树生成执行计划生成执行计划处理处理1234客户表客户表字段名称字段名称加密算法加密算法当前加
32、密状态当前加密状态分区分区CUST_NOCUST_NOIDXIDXIDXIDX20221CUST_LAST_NAMECUST_LAST_NAMEFAKENAMEFAKENAMEFAKENAMEFAKENAME20221CUST_NOCUST_NOIDXIDXPLAN_TEXTPLAN_TEXT2022093020220930PostExecutionPostExecutionHHookook5执行执行PostExecutionHookPostExecutionHook4更更新新元元数数据据6数据开发治理一体化解决方案数据开发治理一体化解决方案-数据数
33、据沙沙箱实现数据流通、安全箱实现数据流通、安全共享共享基于沙箱数据只进不出和分析应用相互隔离两大原则构建数据沙箱环境,差异化数据融合模式,确保安全可控要求下,提升训练和探索环节效率,便捷化数据应用通道。Hbase/MongoDB/ESHbase/MongoDB/ESNoSqlNoSql存储存储生产生产YARNYARN统一统一SQLSQL语义引擎语义引擎数据生产环境数据生产环境数据沙箱环境数据沙箱环境A A模型结果模型结果写出信用卡写出信用卡信用卡消金资金同业B B模型结果模型结果写出资金同业写出资金同业其他统统 一一 脱脱 敏敏统统 一一 权限权限C C模型结果模型结果写出消金写出消金校验通过
34、校验通过校验通过校验通过校验不通过校验不通过x权限权限最小化申请最小化申请统统 一一 脱脱 敏敏A A模型模型输出输出批流开发平台批流开发平台AdhocAdhoc即席查询即席查询基础基础资源资源信用卡消金资金同业其他A A结果结果查看查看B B模型模型输出输出B B结果结果查看查看C C模型模型输出输出C C结果结果查看查看无需无需权限申请权限申请融合融合环境环境AicloudAicloud数据分析数据分析开发分开发分析平台析平台x业务业务数据数据业务业务数据数据场景场景可有效解决类似数据融合、公私联动融合分析等数据类场景沙箱数据只进不出沙箱数据只进不出分析应用相互隔离分析应用相互隔离原则原则
35、原则原则HDFSHDFS/I/Icebergceberg沙箱沙箱YARNYARN沙箱沙箱HDFSHDFS数据开发治理一体化解决方案数据开发治理一体化解决方案-沙沙箱环境数据流程箱环境数据流程构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出,数据采样。既满足应用系统的沙箱环境数据探索需求,同时提升数据研发使用效率。跑跑批批沙沙箱箱环环境境分分析析沙沙箱箱环环境境1、沙箱环境2、生产环境用户用户沙箱作业沙箱作业沙箱数据源生产数据源生产作业生产作业外部沙箱应用外部沙箱应用外部生产应用外部生产应用 沙箱库沙箱库 生产库生产库沙箱账号写入脱敏/抽样/保真/单向用户用户12判断权限 原原始层始
36、层 血血缘分析缘分析大数据大数据SQLSQL引擎引擎采采集团集团队队标注敏感字段 数数仓层仓层KAFKA消息队列报 警日志异步发送判断脱敏获取脱敏字段 算法平台算法平台生产环境生产环境是否命中阻断规则添加脱敏字段执行SQL 算法平台算法平台(沙箱环境)(沙箱环境)沙箱库沙箱库分析用户分析用户用户用户无需申请权限提供数据权限管理权限管理脱敏引擎脱敏引擎/采样引擎采样引擎安全决策引擎安全决策引擎元数据管理元数据管理输出脱敏/采样/保真1 12 2数据开发治理一体化解决方案数据开发治理一体化解决方案-成本价值管理能力成本价值管理能力平台层面深化数据价值评估体系探索,实现数据成本与价值的多维度可量化分
37、析,基于成本/价值实现数据资产的ROI分析以及成本治理。数据数据价值价值模型模型报表报表访访问问热热度度标标签签价价值值人人工工标标注注PV/UVPV/UVUSERUSER职级职级明细下载明细下载HIVEHIVESASSASPrestoPresto业务场景业务场景资金相关资金相关重要链路重要链路组合调用量组合调用量直接调用量直接调用量拉新关联提升拉新关联提升资产关联提升资产关联提升PV/UVPV/UV调用量调用量点击率点击率转化率转化率组合标签组合标签基础标签基础标签资源用量资源用量资源单价资源单价资源用量范围包括:存储用量 计算用量基础平台从存储和计算两个维度,计算每一份数据成本,计算公式如
38、下:数据使用成本数据使用成本存储成本+计算成本;存储成本=存储用量*存储单价计算成本=计算用量*计算单价对应资源的使用单价:存储使用单价:0.67(元/TB每天)计算使用单价:0.0000093(元/vcoreseconds)价值量化分析价值量化分析成本量化分析成本量化分析成本样例数据,仅供参考,不代表实际情况数据数据资产沉淀资产沉淀-全周期数据资产化治理过程全周期数据资产化治理过程数仓开发数仓开发加工加工数据加工人员数据加工人员资产认定资产认定定义资产业务属主定义资产业务属主(2).(2).认责定义认责定义;:基于推送的数据(元数据);定义业务属主和认责,将数据责任方界定清楚资产自动打标资产
39、自动打标(表类型表类型/是否敏感是否敏感)资产信息盘点资产信息盘点资产信息变更资产信息变更资产生命周期运营资产生命周期运营数仓目录管理数仓目录管理资产目录挂载资产目录挂载资产全景地图资产全景地图资产目录导航资产目录导航资产场景搜索资产场景搜索资产运营人员资产使用人员资产运营人员资产管理人员资产开发人员(3).(3).自动盘点自动盘点:按照事前定义的业务全景图谱,依赖治理工具实现资产的自动打标,并最终完成分类盘点(4).(4).自动挂载自动挂载:基于第三步的自动盘点,完成对于资产目录挂载(事前治理侧需先完成标准资产目录维护)(5).(5).资产化应用资产化应用:数据资产治理之后,结合数据价值/成
40、本,面向数据用户,提供资产目录和搜索服务,并打通资产与使用场景的平台断点打通资产场景打通资产场景开发治理一体化平台开发治理一体化平台开发治理一体化平台开发治理一体化平台数据资产平台数据资产平台数据资产平台数据资产平台数据资产平台数据资产平台平台平台工具层工具层数据数据治理层治理层目标目标用户用户元数据检查质量检查血缘链路核验业务属主定义数据分类识别数据盘点资产目录运营资产自动挂载资产查找服务资产链路地图(1).(1).资产产生资产产生(2).(2).资产认责资产认责(3).3).资产管理与盘点资产管理与盘点(4).(4).资产编目资产编目(5).(5).资产服务资产服务指标加工指标加工APIA
41、PI服务加工服务加工(1).(1).生成生成:依赖元数据治理规元数据治理规范范工具,检测通过的数据(元数据),接口推送至数据资产平台目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望逻辑数仓逻辑数仓-从用户从用户角度出发角度出发,基于数据,基于数据使用情况自动化使用情况自动化构建数据仓库构建数据仓库逻辑数仓以用户视角出发,以最大化数据价值和最优成本管控为目标,更敏捷响应用户需求,弱化繁琐的数据流ETL加工链路,让ETL工程师更专注企业通用模型设计,节约存储成本和管理成本核心能力:核心能力:逻辑数仓层逻辑数仓层 构建面向用户和下游应用消费的逻辑数仓层,将逻辑表
42、与物理表隔离,将物理表交给系统层优化 物理层智能调度物理层智能调度 透明数据ETL逻辑和物理存储介质,由逻辑层用户行为和需求触发,实现数据生产链路的智能编排智能编排和调度调度,针对重复、相似计算进行自动合并自动合并,下线或降权无效、低频、低价值数据生产 性能自优化性能自优化 基于用户查询行为实现自适应的查询性能优化,自动实现物化、缓存或构建Cube/索引 从被动到主动的数据治理,实现从被动到主动的数据治理,实现“数据数据自动驾驶自动驾驶”逻辑层基于业务需求快速调整,物理层自适应上层调整,识别数据核心资产元数据ODSODS逻逻辑辑数数仓仓贴贴源层源层 RAWRAW信用卡信用卡MIDMID消金消金
43、MIDMID汽融汽融MIDMID对公对公MIDMID物物理理层层批处理引擎批处理引擎实时计算引擎实时计算引擎T1T1x1x1DAG1DAG1T2T2TB1TB1x2x2DAG2DAG2TB2TB2x xDAG3DAG3T T逻辑数仓逻辑数仓-整体设计整体设计用用户户行为行为APIAPI查询查询标签标签指标指标特特征征报表报表查查询询逻辑逻辑ADSADS(数据应用层)数据应用层)逻辑逻辑DWSDWS(数据轻力度数据轻力度汇总层)汇总层)逻辑逻辑DWDDWD(事实明细事实明细层层)逻辑逻辑DIMDIM(维度层维度层)逻辑数仓逻辑数仓sql2sql2sql1sql1DAG1DAG1sql3sql3智
44、智能物化引擎能物化引擎sql2sql2sql1sql1DAGDAG2 2sql3sql3sql2sql2sql1sql1DAGDAG3 3sql3sql3T1.C1T1.C1T3.AT3.A执执行计划行计划DAGDAGT2.C2T2.C2优化后的执行计划优化后的执行计划DAGDAGT5T5物物化视图化视图物理表物理表&MappingMapping关系关系ODSODS优优化化物物化化平平台台产产生生123频次规则MappingMapping逻逻辑辑举举例例T4.BT4.BT3T3(逻辑表)(逻辑表)A AT4T4(逻辑表)(逻辑表)B BT5T5(物理表)(物理表)Z ZC CD DE EF FT1.C1T1.C1A/BA/BT2.C2T2.C2C CD DE EF FT1.C1T1.C1Z ZT2.C2T2.C2映射改变数仓开发模式,让数据人员更关注业务开发,解决大数据平台成本暴增问题,让平台做到主动数据治理