《2-1 王平-翼支付数据治理实践.pdf》由会员分享,可在线阅读,更多相关《2-1 王平-翼支付数据治理实践.pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、翼支付数据治理实践数据治理顶层设计与实践思考演讲人:中国电信翼支付-王平在过去三年里,数字化转型领军企业营业收入的复合增长率高达14.3%;同期,其他企业的营业收入复合增长率仅为2.6%.在过去一年中,领军者的销售利润率也远远高于其他企业,达到12.7%;同期其他企业的销售利润率仅为5.2%数字化转型领军者营收符合增长率是其他企业的5.5倍数字转型领军者定义为:在持续深耕传统业务的同时,果断向新业务拓展谋求转型.在过去三年中新业务的营业收入在总营业收入中占比已超过50%数字化转型领军企业营收增益显著数字化建设过程中的数据挑战数据孤岛&重复建设企业各业务系统之间数据割裂严重,未形成数据统一口径数
2、据割裂数据重复建设指标口径不一数据资产化未能有效积累企业数据资产数据安全&隐私保护数据治理缺乏规范数据治理前清后乱治理规范难以维系未能识别优先场景数据未充分发挥价值核心数据识别数据管理组织企业缺乏统一的数据管理部门,业务部门数据应用各自为政,流程紊乱资料来源:贝恩咨询、艾瑞咨询数据安全风险高个人隐私信息易泄露数据治理难企业缺乏统一的数据治理规范和持续化数据治理流程大量数据闲置数据质量底下缺乏统一资产管理核心数据识别困难数据一致性较差数据采集&接入企业缺乏规范安全的数据采集与接入流程“清洁数据成就卓越运营,智慧数据驱动有效增长。”华为数据治理之道成本和效益安全合规经营降本增效:公司整体离线数据计
3、算完成时间提前XX小时;预计节约新增服务器投入约XX万元(约XX台服务器);安全&合规:数据存储、传输、使用管控,数据泄露风险显著下降。不敢-制定规范,培训宣贯,确立红线不能-系统约束不想-事后稽核、通报,意识提升公司管理层为啥要“陪你”做数据治理?数据治理是企业的1号位工程。效率质量资源倾斜,紧密协同:主动挖坑,新世界新玩法资源倾斜(数据平台开发资源、计算资源)SLA保障及提升:核心任务识别与优先级提升数据质量稽核7*24小时运维保障业务团队为啥要“陪你”做数据治理?从哪些维度推进数据治理?组织协同模式平台建设数据应用及链路治理数据规范与数据质量数据安全治理委员会数据开发数据易用性数仓数据规
4、范数据存储数据使用方自助BI应用数据质量业务数据规范数据传输数据所有方数据标准计算&查询时效主数据&元数据数据使用数据治理方元数据数据计算成本指标管理规范数据加密数据资产数据分类分级个人信息脱敏尚不成熟,重点治理相对成熟,初见成效治理后治理前计算成本降低87.9%计算成本降低提前8.5小时核心看板计算时效计算成本计算时效查询时效提升4030%业务线看板查询时效组织协同模式平台建设数据应用及链路治理数据规范与数据质量数据安全治理委员会数据开发数据易用性数仓数据规范数据存储数据使用方自助BI应用数据质量业务数据规范数据传输数据所有方数据标准计算&查询时效主数据&元数据数据使用数据治理方元数据数据计
5、算成本指标管理规范数据加密数据资产数据分类分级个人信息脱敏治理效益12 3 45自主研发高性能云原生大数据平台,构建多源异构数据模型,承载翼支付数据治理方法论,助力企业数字化建设翼支付数据治理总体思路翼支付一站式数据治理解决方案两个牵引:标准牵引+应用牵引三个组织:数据治理委员会、技术架构委员会、治理实施项目组四个步骤:问题调研/需求提出、方案设计与评审、实施、验收全景画像数据标准元数据管理大数据平台数据治理数据应用数据管理精准营销智慧运营A/BTesting报表与可视化智能客服智能推荐智能风控自助分析翼支付电信集团合作央企第三方合作商安全合规隐私计算数据融通流式计算离线计算图计算分布式存储数
6、据服务机器学习先觉AI平台先知BI平台先枢数据开发与治理平台数据产品数据总线数据生命周期管理敏感数据发现数据分类分级数据安全治理数据地图数据血缘元数据采集元数据治理主数据治理主数据定义主数据集成&服务主数据应用&消费数据分层架构模型设计规范数据架构与模型数据开发规范数据服务生命周期管理数据传输管控数据服务治理数据服务质量提升翼支付数据治理能力体系核心能力 数据治理:面向多源异构数据模型,沉淀出翼支付数据治理方法论及治理平台,提升数据质量及治理效率,显著降低数据治理成本。大数据平台:基于海量异构多源产业数据,提供PB级数据存储与处理能力;流计算处理事件峰值百万级秒并发毫秒级响应;元数据支持千万级
7、实体毫秒级响应;支持以支付、金融与电商等场景为核心的全域数据智能产品服务体系;翼支付数据治理建设思路数据链路侧:核心数据链路治理业务核心任务提报上游依赖识别与评估任务优先级调整及治理实施任务时效、质量监控两个牵引:标准牵引和应用牵引1)标准牵引,规范先行:如何提高数据复用率?-仓库跨层引用规范,指标管理规范如何提高任务计算效率?-任务开发上线规范2)应用牵引,避免“大而全”数据是有生命周期的,大部分数据链路会逐步淘汰集中80%精力解决20%的核心业务诉求核心数据链路治理过程计算引擎侧:计算引擎升级与小文件治理计算引擎升级,计算效率提升2倍以上集群文件治理,控制小文件数量,保障集群计算性能1、计
8、算引擎升级,Hive-Spark提升2倍以上;2、开展任务资源消耗和计算时长监控,识别待优化任务;主要是数据倾斜类任务;3、任务定制优化1、集群调优:SparkSQL参数调优,并行度调小;小文件数下降75%;(小文件控制在80M以上)2、持续监控,针对特定任务自动合并小文件;Spark任务增长260%,集群小文件数量无明显增长。集群日增文件趋势图任务优化前后资源消耗对比(VcoreSeconds)任务优化前后运行时间对比(min)大数据产品侧:落地规范,释放效益智慧营销智能信贷智能推荐信贷风控支付风控.生产业务DBMySQL OracleFtpKafka .指标市场维度市场指标加工数据标准数据
9、目录数据质量资产管理数据资产标签管理标签加工标签服务全景画像运营分析与诊断策略编排A/B实验先鉴智慧运营报表中心多维分析数据探查智能诊断先知BI平台数据采集元数据查询数据权限管理META元数据平台策略管理决策服务开发中心先算智能决策智能标注可视化建模自助建模AutoML模型服务先觉AI平台API接入与服务服务治理变量管理先启外部数据管理平台知识库管理技能设计机器人设计CDD智能客服组件管理集群管理集群监控BOP运维管理平台调度作业实时作业数据服务运维中心数据总线先枢数据开发/治理平台大数据平台数字运营翼支付大数据产品矩阵智加(AIPlus)数据管理标签计算架构升级:调整标签表的存储方式,同步将
10、全量计算改为增量计算核心任务优化:针对资源消耗过大任务,进行SparkSQL定制优化;通过左侧方案,标签计算完成时效从11点提前至6点前数据同步时间由3小时缩短到30分钟突破标签450个上限劣势,不支持动态扩展列,需手动加列标签链路架构治理升级方案治理效益Hive(多张表)HBASEClickHose标签计算(增量)HBASE(一张宽表)HiveClickHose标签计算(全量)自研CK表引擎,支持表的增量同步,然后进行合并Hive-HBASE映射表支持列动态扩展方案一:方案二:11:067:485:50治理前标签计算架构升级标签任务持续优化标签计算完成时间均值实践案例-标签数据链路治理实践未来展望数据治理常态化生产数据标准统一数据智能化应用数据治理是一个持续过程,需深入融合到企业日常的数据运作过程中,而不能仅靠一段时期的攻坚就草草收场。与在线业务紧密协同,从源头统一数据标准,管控数据变更深入推进数据智能化应用,扩大数据治理成效ABC道阻且长,行则将至THANK YOU!