上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

1-2 邵赛赛-湖仓一体在腾讯的实践落地.pdf

编号:121600 PDF 26页 5.84MB 下载积分:VIP专享
下载报告请您先登录!

1-2 邵赛赛-湖仓一体在腾讯的实践落地.pdf

1、湖仓一体在腾讯的落地实践演讲人:邵赛赛腾讯大数据实时湖仓团队负责人,负责流、批、湖等项目Apache Member,Apache Spark PMC Member曾就职于Hortonworks,Intel,多年开源大数据从业经验个人介绍个人介绍目录目录1 1湖仓一体技术诞生的背景和现状湖仓一体技术诞生的背景和现状2 2湖仓一体技术现存的问题3 3腾讯在湖仓一体上的工作4 4后续的规划湖仓的演进(1)湖仓的演进(1)Structured DataStructured DataBIBIReportsReportsData WarehouseData Warehouse数据仓库(90s)数据仓库(9

2、0s)优点:优点:高效处理结构化数据缺点:缺点:无法处理半/非结构化数据,无法支持多计算范式Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured DataBIBIReportsReportsData WarehouseData Warehouse数据科学数据科学机器学习机器学习Data LakeData Lake优点:优点:支持各类型数据存储、分析缺点:缺点:缺乏数仓的高阶特性数据湖 数仓两层架构数据湖 数仓两层架构(10s)(10s)湖仓的演进(2)湖仓的演进(2)仓仓湖湖流流A

3、d-hocAd-hocBatchBatchStreamingStreamingBIBIReportsReports数据科学数据科学机器学习机器学习仓、湖、流-孤岛式架构仓、湖、流-孤岛式架构(15s)(15s)一致性一致性保持数据湖和数仓数据一致性非常困难且耗费成本受限的进阶分析受限的进阶分析基于海量数据的进阶分析非常低效(数据出仓)数据成本数据成本多份数据拷贝(仓、湖、流)带来了加倍的成本解决之道 湖仓一解决之道 湖仓一体体Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured D

4、ataB BI IReportsReports数据科学数据科学机器学习机器学习元数据、缓存、索引层元数据、缓存、索引层Data LakeData Lake1.湖上可靠的数据管理湖上可靠的数据管理2.支持机器学习和数据科支持机器学习和数据科学学3.最先进的SQL性能最先进的SQL性能一种开放的,高性能一种开放的,高性能的数据组织格式的数据组织格式一套开放、标准的API一套开放、标准的API一个极致优化的执行一个极致优化的执行引擎引擎湖仓一体架构(20s)湖仓一体架构(20s)湖仓一体技术湖仓一体技术UberUberNetflixNetflixDatabricksDatabricks构建于存储格式

5、之上的数据组织方式数据组织方式提供ACID能力,提供一定的事务特性和并发能力事务特性和并发能力提供行级别的数据修改能力行级别的数据修改能力具备表结构进化能力表结构进化能力优化数据入湖流程优化数据入湖流程提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL提供Upsert能力,可以极大地缩小数据入湖延迟支持更多的分析引擎支持更多的分析引擎优秀的内核抽象使之不绑定于特定引擎,目前在支持的有Spark,Flink,Presto,Hive提供了java native API,不用特定引擎也可以访问表统一数据存储和灵活的文件统一数据存储和灵活的文件组织组织批任务和流任务可

6、以使用相同的存储模型,数据不再孤立。支持隐藏分区和分区进化,方便业务进行数据分区策略更新 支持Parquet,ORC,Avro行存列存兼顾增量读取处理能力增量读取处理能力支持通过流式方式读取增量数据Spark Structured Streaming 支持Flink Table Source支持3种主流开源技术3种主流开源技术湖仓一体技术的优势湖仓一体技术的优势2021年Lakehouse技术首次进入Gartner成熟度曲线2021年Lakehouse技术首次进入Gartner成熟度曲线复杂的增量入库方案来保证exactly-once和数据去重利用HDFS rename操作的原子性和复杂的命名

7、规则来保证一致性、可见性利用调度引擎来构建依赖关系,避免读写冲突Iceberg/Hudi格式是Hive/Spark兼容的可读写的表格式,可以直接使用Hive/Spark进行处理,无须再次将数据导入到数仓中Iceberg/Hudi支持读写分离,写入并且commit后的数据下游立即可见,因此可以实时读取到新增的数据,降低整体时延湖仓一体落地场景 加速数据入湖仓一体落地场景 加速数据入湖湖1.统一数据总线,扩展性好,方案成熟,组件维护成本高 2.链路更简单,存储成本低,扩展性稍差 湖仓一体落地场景 构建CDC Pipeline湖仓一体落地场景 构建CDC Pipeline湖仓一体落地场景 近实时的流

8、批一体架构湖仓一体落地场景 近实时的流批一体架构数据治理的问题数据治理的问题2008-11-012008-11-012008-12-012008-12-012009-01-012009-01-00622324252627282930-01PARTITIONED BY PARTITIONED BY MONTH(date)MONTH(date)PARTITIONED BY PARTITIONED BY DAY(date)DAY(date)1.无法支持表结构进1.无法支持表结构进化化2.无法支持行级数据修2.

9、无法支持行级数据修正正col_1col_21B3Ccol_1 col_21D3C数据查询的问题数据查询的问题col_1col_21B3C1.缺乏ACID能力1.缺乏ACID能力读读写写2.缺乏高效的data skipping能力2.缺乏高效的data skipping能力湖仓一体落地场景 更好的Hive湖仓一体落地场景 更好的Hive表表目录目录1 1湖仓一体技术诞生的背景和现状2 2湖仓一体技术现存的问题湖仓一体技术现存的问题3 3腾讯在湖仓一体上的工作4 4后续的规划湖仓一体内核的性能湖仓一体内核的性能数据治理数据治理高并发、准实时写入所引入的海量小文件问题海量元数据造成的Query Pl

10、an时延查询性能查询性能如何平衡读写性能,既能保证写的性能的同时能更快地查询如何自动加速查询,发挥极速性能流批一体流批一体如何平衡流批读写的性能湖仓一体技术的实时性限制湖仓一体技术的实时性限制计算对存储的需求不同计算对存储的需求不同存储能力的不同存储能力的不同流式计算流式计算离线计算离线计算访问要求访问要求低延迟、高响应高吞吐、低响应访问方式访问方式记录级别的读写文件(行列)级别的读写存储周期存储周期短(一般7天)长(保存较长历史数据)数据新鲜度数据新鲜度数据成本数据成本数据查询时延数据查询时延流式计算流式计算离线计算离线计算优势优势劣势劣势ObjectObjectStorageStorage

11、高吞吐、低成本、大规模高延迟,Posix支持有限(不可修改)QueueQueueStorageStorage低延迟、高响应顺序读写,不可修改blockblockblockblockObject StorageObject StorageQueue StorageQueue Storage目录目录1 1湖仓一体技术诞生的背景和现状2 2湖仓一体技术现存的问题3 3腾讯在湖仓一体上的工作腾讯在湖仓一体上的工作4 4后续的规划第三方测试效果第三方测试效果功能优化功能优化大宽表支持,支持超万列宽表写入流转批,兼容周期调度任务流式写入支持去重、增量读取、流量控制性能优化性能优化元数据读取加速,引入All

12、uxio复杂类型列剪支优化,基于列信息任务切分优化V2表 layout 改进与合并加速向量化,Async-IO,CBO等查询加速优化湖仓一体技术 内核优优化湖仓一体技术 内核优化化Parquet 内置 bloom filterParquet 内置 bloom filterPros:内嵌parquet文件,无需额外文件以及过滤逻辑Cons:空间浪费,影响写入;全局索引(bloom filter,bitmap)全局索引(bloom filter,bitmap)Pros:支持多文件格式,异步构建空间节省支持多文件格式,异步构建空间节省,数据准确,不影响写入,数据准确,不影响写入Cons:独立文件,独

13、立 filter 逻辑CREATE INDEX index_name ON TABLE table_name USING BLOOMFILTER(colName1 options ,.)options OPTIONS(key1 =val1 ,.)File 1File 3File 2File 2Partition Partition 0 0offset1Puffin Puffin filefileIndex Dataoffset2offset3offset4Manifest FileManifest File优化湖仓一体技术 二级索优化湖仓一体技术 二级索引引数据规模数据规模单分区,2500个文

14、件,4.1亿 records/260G点查Query点查Queryselect*from xxxwhere partition_time=xxxand site_set=xx and position_set=x and action_info.request_info.id=xxx;优化湖仓一体技术 二级索优化湖仓一体技术 二级索引引优化湖仓一体技术 流批一体的实时湖仓架优化湖仓一体技术 流批一体的实时湖仓架构构基于FLIP-188,MQ+数据湖融合方案基于FLIP-188,MQ+数据湖融合方案LogStoreLogStoreFileStoreFileStorewritewriteStrea

15、ming ReadStreaming ReadBatch ReadBatch Read下游作业下游作业交互式查询交互式查询Source 1Source 1Source 2Source 2SinkSinkJoinJoinFilteFilter rAggregationAggregationbackfilbackfill lStreamingStreamingStreamingStreamingbatchbatchbatchbatch流批表流批表流批表流批表流批一体引擎(Flink)流批一体引擎(Flink)完整的批流一体的语义支持批、流任务调度和优化的支持流批一体表流批一体表Hidden MQ+

16、表格式统一流批Schema优点:优点:引擎和表的流批一体,降低业务架构复杂度屏蔽流批差异,统一SQL操作提升时效性,兼顾流式和湖仓优化湖仓一体技术 自动数据治优化湖仓一体技术 自动数据治理理BinpackMergeColumn TTLRow TTLClusteringSortingIndexingCaching湖仓一体存储湖仓一体存储分区小文件状态表示分区小文件状态表示均方误差MSE均方误差MSE,MSE值越大表示分区内小文件比例越大。分区小文件状态更新分区小文件状态更新增量误差更新分区小文件状态MSEMSEnewnew=(MSEold*N+SE)/(N+M)N N=分区内文件个数Target

17、Target=目标文件大小ActualActual=min(min(实际文件大小,Target)Target)Snapshot EventSnapshot EventtableSummarySummaryPartitionDataSE 2021/8/1524302021/8/22613242021/8/3973442021/8/31213444 SESESETTActual File SizeActual File SizeDiff Diff(Target (Target Actual)Actual)Partition-0Partition-0Partition-1Partition-1MSE

18、 TMSE TMSE TMSE TThreshoThresholdld自动数据治理 小文件合并自动数据治理 小文件合并CREATE TABLE lo_iceberg USING icebergAS SELECT*FROM lineorderJOIN dates ON lo_orderdate=d_datekeyJOIN customer ON lo_custkey=c_custkeyJOIN supplier ON lo_suppkey=s_suppkeyJOIN part ON lo_partkey=p_partkeyDISTRIBUTE BY random();OPTIMIZE TABLE

19、 100_ssb.lo_iceberg_10000 BINPACK;OPTIMIZE TABLE 100_ssb.lo_iceberg_10000 ZORDER BYZORDER BY c_region,s_region,d_year;Original Query100%代表数据没有Skipping数据有效过滤80%+数据有效过滤80%+查询计算资源降低6倍+查询计算资源降低6倍+自动数据治理 自动重分布优化自动数据治理 自动重分布优化 自动索引推荐自动索引推荐根据 scan 上报 filter 信息支持 bloom filter 和 bitmap支持 bloom filter 和 bitma

20、p 自动统计数据构建自动统计数据构建更准确的查询初始计划,更准确的 join 顺序,更准确的任务切分基于theta sketch框架,支持表级别stats基于theta sketch框架,支持表级别stats和分区级别stats的增量构建和分区级别stats的增量构建自动数据治理 自动索引自动数据治理 自动索引1 1湖仓一体技术诞生的背景和现状2 2湖仓一体技术现存的问题3 3腾讯在湖仓一体上的工作4 4后续的规划后续的规划湖仓一体的演进湖仓一体的演进Ad-hocAd-hocBatchBatchStreamingStreamingBIBIReportsReports数据科学数据科学机器学习机器学习实时湖仓一体存储实时湖仓一体存储元数据、缓存、索引优化层元数据、缓存、索引优化层湖仓流一体-实时湖仓架湖仓流一体-实时湖仓架构构THANK YOU!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-2 邵赛赛-湖仓一体在腾讯的实践落地.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部