上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

翼支付数仓建设与数据治理实践之路(1).pdf

编号:149546 PDF 17页 1.23MB 下载积分:VIP专享
下载报告请您先登录!

翼支付数仓建设与数据治理实践之路(1).pdf

1、翼支付数仓建设与数据治理实践之路黄洛 翼支付 高级数据仓库开发翼支付介绍翼支付介绍天翼电子商务有限公司是中国电信集团有限公司的成员企业,是国资委双百改革和发改委第四批混改“双试点”企业,也是“双试点”企业中唯一的金融科技公司。公司以翼支付APP为载体,提供支付方案、会员权益、民生服务、分期借贷、保险理财、消费电商等服务内容,依托区块链、云计算、大数据、人工智能等技术,致力于推动包括生活服务、金融服务的数字化升级秉持“响应监管、服务民生、资源共享、合作多赢”的理念,聚焦“开放、安全、便捷”的核心产品力,翼支付坚持通过服务投入与产品升级,构建贴合需求的管理与业务体系,以交流融合的业务实践,推动产业

2、各方实现数字化转型。讲师简介讲师简介9年数据仓库开发及数据治理经验,曾就职于众安保险。2019年加入翼支付,现就职于大数据与人工智能研究院,负责金融版块业务数仓建设及治理。有丰富的数仓建设、数据治理实践及大数据平台应用经验。黄洛高级数仓开发C CO N T E N T S数据治理背景数据治理建设内容数据治理成效未来规划企业级数仓建设代码冗余、任务时效不稳定祖传代码严重,任务链路长,烟囱式开发严重,任务时效得不到保障。元数据信息严重缺失缺少建表责任人、字段中文备注、分区字段随意等,导致库表清理及新人上手难度很大。数据口径差异明显在一些整合数据口径下,由于各自整合口径来源不同,后续指标口径不一致数

3、据安全风险高敏感数据未加密,数据下载入口多或无下载记录等,数据安全风险高。数据治理背景数据治理建设内容平台建设平台建设依托数据开发平台、BI平台、元数据管理平台、数据资产平台,构建统一的数字化和数据平台架构数据应用治理数据应用治理通过提升数据易用性、缩短计算和查询时效、提升数据质量、降低计算存储成本,构建敏捷的商业分析和数据洞察能力数据规范数据规范通过规范业务生产系统数据保证源数据的质量,构建数仓规范、主数据&元数据管理、数据分类分级保证数仓数据治理的质量等,形成完成全面的数据治理标准数据安全数据安全从数据存储、数据传输、数据使用三个方向进行数据安全链路改造,让企业数据符合国家对于数据安全的合

4、规要求组织协同组织协同成立数据治理委员会(牵头各组织协同推进治理进程,为治理分歧的最终决策组织)、技术架构委员会(公司系统信息架构审核,基础数据规范推行落地,提升原始数据质量)、治理实施小组(治理的落地组织,由业务、研发、大数据组成,统一考核,统一调度),在数据治理委员会的统筹下,紧密协作,形成统一、顺畅、敏捷的组织协同链路企业级数仓建设-调研阶段01020304数据开发平台:hive-spark计算引擎升级,双环境调度开发保障、数据质量监控保障、数据运行监控保障、任务运维等即席查询平台:提供数据探查入口、管理数据下载审批流程等自研报表平台:自研可视化平台,推动国产化进程指标管理平台:管理原子

5、指标、派生指标、衍生指标的相关元数据信息元数据平台:覆盖建表管理、数据地图管理、血缘分析管理、表生命周期管理、冷热数据自动化管理、安全分类分级自动化管理企业级数仓建设-平台护航平台是骨架,数据是血液!企业级数仓建设-数仓分层企业级数仓建设-维度建模选择业务过程:以业务为基础,选择需要建模的业务过程,如授信、放款、还款、催收等均为不同的业务过程声明粒度:粒度是维度建模中非常重要的要素之一,在同一事实表中,必须有相同的粒度,不能混用多种粒度(如grouping sets),如授信表中的授信流水号,订单表中订单号等确认维度:维度在业务分析中占据了核心地位,一个好的数仓模型,通常会在不改变粒度的情况话

6、退化一些常用的维度信息确认事实:事实一般是数值类可累加的、不可重复的,在维度建模中一定要注意维度退化造成的数据重复问题,后续模型建设好也需要配置数据质量监控维度建模四步曲命名规范企业级数仓建设-维度建模表命名规范:包含层级、数据域、产品线、业务过程、刷新周期、增全量标识等。如:dwd_数据域缩写_产品缩写_业务过程缩写_自定义命名缩写_刷新周期标识单分区增量全量标识 字段命名规范:建设数仓共有的词根命名规范,原子指标命名如 crdt_cnt(代表次数),crdt_num(代表人数);派生指标命名不可以在已命名的原子指标中间穿插修饰词,如:succe_crdt_num,而不是crdt_succe

7、_num代码规范:代码中必须有任务名称(任务中文名+任务英文名),功能描述、创建人、创建时间、修改记录等,用于后续数据异常追踪命名规范命名规范企业级数仓建设-维度建模元数据建表:采取规范建表模式,除需要填写基本的库表信息及表的业务描述外,重要的是需要填写表的生产周期、分区的保留策略、数据层级、数据域、业务条线等信息来完善数据目录,还需要填写字段的分类分级、重要数据等保障数据安全资产沉淀。数据开发任务上线:按照规范创建好表、准备好代码,先在数据开发平台测试通过,经系统审核后才可以发布到生产环境。指标配置:完成任务上线后,需要在指标管理平台维护原子指标、派生指标、衍生指标的业务口径、技术口径及沉淀

8、指标目标的相关元数据信息。资产沉淀命名规范企业级数仓建设-维度建模任务资源保障:在需求承接的时候,需要沟通好需求的保障等级,若是需要保障的,根据数仓规范中的定义等级将任务调整到响应的资源队列保障凌晨任务有足够的资源队列。任务质量监控:对需要质量监控的任务配置 主键唯一性、枚举值是否有空、非空检查、长度检查、字段数值范围检查、数据波动性等任务调度监控:任务失败预警、任务运行相对最近7天运行平均时长过长预警、指定时间未完成预警等。任务保障企业级数仓建设-数据监控表命名是否规范、字段命名是否规范、代码注释是否规范规范通过定期复盘、团队总结,排查可能存在的风险项风险安全敏感信息加密、表字段分类分级、数

9、据下载定期审计计算成本(定期任务优化)、存储成本(生命周期、冷热数据管理)成本质量完整性(枚举值)、一致性(编码)唯一性(重复)、及时性(产出)数据治理是一个长期的过程,不是一次性的!数据治理成效u 从0-1建设,通过原子指标、统计粒度、业务限定、统计周期四要素来定义管理指标。指标管理u 敏感数据完成分类分级,且L3及以上数据100%加密,数据下载需要审批且下载记录留存。数据安全u 保障完整的元数据信息、血缘关系、表生命周期、冷热数据标识,次均治理人力节省3PD。元数据u 一站式治理,2023年治理多个部门,平均资源降低86.18%,计算成本降低近千万元/年,平均时效提升4.72h。成本&时效未来规划规划4数据赋能数据的最终要素还是提供生产力,努力去探索更多的数据赋能场景3指标管理通过指标管理四要素配置预生产代码,直接在生产使用,减少指标的重复建设2资产管理数据资产总视图,总览计算、存储、小文件、安全等问题,提供一站式治理方案1数仓驾驶舱数仓自己的管理驾驶舱,一览当前数仓模型中存在的不规范操作及异常监控情况等。感谢您的观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(翼支付数仓建设与数据治理实践之路(1).pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部