《vnd.openxmlformatsofficedocument.presentationml.pdf》由会员分享,可在线阅读,更多相关《vnd.openxmlformatsofficedocument.presentationml.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023泰康人寿针对大健康领域特征构建湖仓一体数据平台的设计实施、改良优化与应用实践演讲人:田昕峣 泰康人寿总公司 数据研发工程师致谢本次技术分享的汇报离不开多方支持,故演讲人在此一并表示郑重且真诚地感谢。首先,感谢泰康保险集团、泰康人寿的领导层,特别是泰康人寿科技创新中心 周雄志 总、付刚 总对于本次汇报的鼎力支持与提供的各项帮助,并给予内容创作者极大的创作自由和多方面的指导与鼓励;其次,感谢泰康人寿数据架构资深专家工程师 王可 老师作为直接技术指导对本次分享内容脉络和宏观与微观技术进行的全面总体把控,以及泰康人寿高级总监 周勇 经理对汇报内容进行多次精心的审核与
2、指导并提出宝贵的整改意见,使得汇报内容在技术性与专业性上尽可能地做到全面且细致;最后,本次技术分享的成功汇报还离不开平安人寿大数据架构师 杜天敏 前辈的引荐,以及此次 DataFun Summit2023 线上湖仓论坛的组织者 洪飞 老师对于整体流程的统筹与协调。在他们以及 DataFun 社区提供的优质平台及其相关人员的共同努力下,方才使本次分享的各个环节均做到了尽善尽美;此外,对于其他对本次技术分享作出贡献的老师与同仁们,以及使用宝贵周末时间来聆听此次汇报的听众朋友们,演讲人在此一并表示感谢。演讲人:泰康人寿 数据研发工程师 田昕峣01数据平台建设背景Introduction&Backgr
3、ounds02相关技术概念Related Technical Concepts目录 CONTENT03数据湖技术选型Datalake Selection Methodology04湖仓一体架构设计与实施Lakehouse Architecture05数据湖功能扩展与优化Datalake Feature ImprovementsBased on Apache Hudi06落地场景与应用成果Application Secnarios&Achievements07后续工作Further Works08讨论与问答Questions&AnswersDataFunSummit#202301数据平台建设背景
4、大健康领域核心板块示意图注:图片绘制参考自中商产业研究院:2021年“十四五”中国大健康产业市场前景及投资研究报告https:/ IT 成本;然而,公司规模的不断扩大和业务的持续发展,导致的“数据孤岛”现象亦愈发明显。企业级数据资产被妥善管理的难度呈增大趋势企业决策层与管理层对企业整体的数据资产产生宏观认知并决策的难度较大。企业级数据价值被有效发掘的成本呈指数增加的趋势面对行业内的新机遇和新挑战时,数据的潜在价值被及时发掘的成本较高。数据工具零散分布,数据处理各环节形成合力的愿景面临挑战数据采集、数据注入、数据治理、数据处理与加工、数据分析等工具分布零散,使用和开发效率有待通过集中的方式进一步
5、提高。DataFunSummit#202302相关技术概念湖仓一体架构相关技术概念数据湖(Data Lake)数据湖是一个集中式的数据存储,以原始形式摄取和存储大量数据。进入数据湖后,数据便可以被加工处理并被用作各种分析需求的原材料。由于其开放、可扩展的架构,数据湖可以容纳来自任何来源的所有类型的数据,从结构化(数据库表、Excel 工作表)到半结构化(XML 文件、网页)再到非结构化(图像、音频文件、推文),所有这些都不会牺牲保真度 1(翻译自演讲者,定义由 Microsoft 给出)。数据仓库(Data Warehouse)数据仓库或企业数据仓库(EDW)是一种将来自不同源的数据聚合到单个
6、集中式一致数据存储中的系统,以支持数据分析、数据挖掘、人工智能和机器学习。数据仓库系统使组织能够以标准数据库无法做到的方式对大量(TB 和PB 级别)的历史数据进行强大的分析 2(翻译自演讲者,定义由 IBM 给出)。湖仓一体(Data Lakehouse)数据湖仓是一个数据平台,它将数据仓库和数据湖的最佳方面合并到一个数据管理解决方案中。数据湖仓寻求解决数据仓库和数据湖的核心挑战,为组织提供更理想的数据管理解决方案 3(翻译自演讲者,定义由 IBM 给出)。1 https:/ https:/ https:/ Consider Dimensions社区相关情况(发展态势)Community M
7、omentum功能与特性Features性能指标Performance社区总体活跃情况Overall Activities主要贡献者来源Contributor Locations问题反馈及解决情况Problem Feedbacks主流数据湖开源社区总体情况注:数据采集时间段 From 1st/Dec./2022 To 31st/Dec./2022主流数据湖主要贡献者来源Delta LakeApache HudiApache Iceberg数据及图片来源:1 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-icebe
8、rg-lakehouse-feature-comparison主流数据湖社区的问题反馈及解决情况注:由于社区参与的直观感受和氛围难以使用数据量化评估,故此处我们仅截取部分参与社区的过程进行展示,以 Hudi 社区为例。主流数据湖功能特性对比注:相关功能特性分别来自三者的官方网站和官方技术文档,此处我们予以归纳总结。主流数据湖性能指标基线测试【图 1】开源社区给出的三大数据湖组件的基线性能测试 1,2,3【图 2】团队内部使用保险受理业绩数据集进行的基线性能测试1 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-ic
9、eberg-lakehouse-feature-comparison2 https:/brooklyndata.co/blog/benchmarking-open-table-formats3 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-transparent-tpc-ds-lakehouse-performance-benchmarks技术选型结果活跃的社区,多样化的贡献者,以及良好的发展势头具备满足需求的关键数据湖功能与特性,且对 Apache Flink 具有良好的适配满足业务需求的性能Apache HudiDataFunS
10、ummit#202304湖仓一体架构的设计与实施泰康人寿“湖仓一体分布式数据平台”宏观架构架构实施中的组件版本选型注:版本选型中若存在多个版本,则表示架构中相应组件进行过版本升级DataFunSummit#202305数据湖功能扩展与优化泰康方案:打造“长寿、健康、富足”的“三大闭环”泰康“三大闭环”战略概览 长寿=保险+养老 健康=保险+医疗 富足=保险+养老金与资产管理功能扩展1:基于主键的多字段分片插入更新功能【图 1】优化前数据湖的持久化数据湖每次增量插入(UPSERT)操作都会仅保留与自己相关的信息而将其他列抹除,最终数据湖内只包含最新插入更新的分段范围的数据。【图 2】优化后数据湖
11、的持久化数据湖可以直接将多段信息整合成一行完整的记录,最终数据湖内将会保留含有全部字段的数据。功能扩展2:基于多个事件时间字段的数据准确性保障机制【图 1】未使用数据准确性保障机制由于数据延迟或其他原因导致数据的状态没有按照既定的顺序抵达数据湖,则数据最新的状态被旧状态覆盖,导致数据产生错误。【图 2】已使用数据准确性保障机制判定入湖的数据是否具备最新的事件时间,并对延迟数据或不正确数据进行自动筛查和处理,保证数据湖中的状态始终处于最新。功能扩展的综合应用(Apache Hudi RFC-59)注:其原理的详细阐述及类与接口的详细设计请见:https:/ OLAP 分析合规监管1200+300
12、TB100+调度任务总数管理数据规模实时任务总数丰富多样的业务场景DataFunSummit#202307后续工作后续工作在保障易用性的前提下持续集成更多组件以满足大健康领域丰富的业务需求由于近年来大健康领域的迅猛发展,业务方对于数据的需求也变得前所未有地多样化。使用湖仓一体架构集中对数据进行集中治理只是一个开端,数据价值的真正体现往往离不开实际的应用。因此,在后续对更加丰富的数据应用的支持(包括对机器学习、深度学习模型的适配、对推荐算法或更复杂决策系统的支持等)将会成为湖仓一体架构发展的首要目标。进一步完善平台的监控机制、容错机制以及灾害恢复机制,以持续提升平台的健壮性和可靠性作为整个公司新
13、的数据类基础设施,湖仓一体数据处理平台将会在未来治理种类更加丰富、数量更加庞大的业务数据。因此,作为基础设施的健壮性与可靠性就变得尤为重要。如何在持续集成众多组件的同时始终保持数据平台的高可用性将会成为后续工作关注的重点。根据大健康领域的业务特点对底层数据湖组件进行持续优化与所有的业务相同,大健康领域的相关业务也具备区别于其他领域的独特性,这在保险与医养和资管相融合的业务场景中体现的尤为明显。如何借助数据湖组件 Apache Hudi 中提供的众多可自定义特性(e.g.Customized Filters,Customized Payloads,etc.)来最大程度地适配大健康领域的业务特征,
14、并优化其作为底层数据基础设施的性能,也是在后续工作必不可少的环节。参考文献 References-1 Microsoft-Whatis a Data Lake?https:/ IBM-What is a data warehouse https:/ Vinoth Chandar-Apache Hudi-The Data LakePlatformhttps:/hudi.apache.org/blog/2021/07/21/streaming-data-lake-platform/-4 Apache Iceberg-Official Websitehttps:/iceberg.apache.org
15、/-5 Apache Hudi-Official Website https:/hudi.apache.org/-6 Delta Lake-Official Websitehttps:/delta.io/-7 Onehouse-Apache Hudi vs Delta Lake-Transparent TPC-DS Data LakehousePerformance Benchmarks https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-transparent-tpc-ds-lakehouse-performance-benchmark
16、s-8 IBM-What is a data lakehouse?https:/ Apache-Briefing:The ApacheWay https:/www.apache.org/theapacheway/-10 ApacheHudi-Syncingto Hive Metastore https:/hudi.apache.org/docs/syncing_metastore/-11 Trino-Hive connector https:/ Xinyao Tian-ApacheHudi 使用文件聚类功能(Clustering)解决小文件过多的问题https:/ Xinyao Tian-通过源代码修改使 Apache Hudi 支持 Kerberos 访问 Hive的功能https:/ 中华人民共和国中央人民政府-健康中国行动(20192030年)https:/ 中商产业研究院-2021年“十四五”中国大健康产业市场前景及投资研究报告 https:/ 唐均-大健康与大健康产业的概念、现状和前瞻:基于健康社会学的理论分析 https:/ 陈东升-幸福有约第一课 https:/