陈卓宇-Paimon架构下的数据湖探索PPT.pdf

编号：157209

PDF 25页 2.88MB 下载积分：VIP专享

下载报告请您先登录！

陈卓宇-Paimon架构下的数据湖探索PPT.pdf

1、DataFunSummitDataFunSummit#20242024PaimonPaimon架构下的数据湖探索架构下的数据湖探索陈卓宇-Paimon社区挑战挑战PaimonPaimon存储实现存储实现CDC IngestionCDC Ingestion数仓业务对存储的期望数仓业务对存储的期望目录目录 CONTENTCONTENTLookUp JoinLookUp JoinDataFunSummitDataFunSummit#202420240101挑战挑战Lambda Lambda 架构架构Lambda Lambda 架构架构DataFunSummitDataFunSummit#202420

2、240202数仓场景对存储的期望数仓场景对存储的期望数仓场景对存储的期望数仓场景对存储的期望1.批读场景：要支持分析、ETL能力2.流读场景：要支持有queue能力3.写场景：要有更新的能力4.点查的场景：lookup join能力5.存储在不同场景：要有做trade off的能力PaimonPaimon数据湖格式数据湖格式在内部：Paimon 将列式文件存储在文件系统/对象存储上文件的元数据保存在manifest文件中，提供大规模存储和数据跳过。对于主键表，采用LSM树结构，支持大数据量更新和高性能查询。提供表抽象：在批量执行模式下，它就像一个Hive表在流执行模式下，它的作用就像一个消息队

3、列PaimonPaimon数据湖格式数据湖格式Paimon是什么？是对LakeHouse中，流批统一存储的实现本质上是在计算引擎与底层存储之间，维护了一套，针对表级别文件粒度的元数据管理API优势在实时的场景，和Flink生态的结合的更好DataFunSummitDataFunSummit#202420240303PaimonPaimon存储实现存储实现文件组织文件组织 snapshot：数据某一个时刻的状态 schema：元信息 manifest、partition：查询分析场景下通过Data Skipping的方式来优化查询效率 bucket:桶是读取和写入的最小存储单元典型的典型的LS

4、MLSM树实现树实现DataFunSummitDataFunSummit#202420240505CDC IngestionCDC Ingestion什么场景使用？重构数仓ods层构建什么方式？1.基于CDC增量的实时同步2.自动建表3.Schema Evolution解决什么问题？1.集中式全量同步，上游压力大2.换取数据链路的产出提前3.链路复杂度将低，稳定性提高4.低成本同步大量小表CDC IngestionCDC IngestionSchema EvolutionSchema EvolutionSchema Evolution本身是解决是什么问题？协作问题那这个“协作”怎么实现那？1.

5、上游数据源字段变更后下游能感知到字段变更2.阻塞写流程3.进行表的Schema变更4.继续写流程实现流程实现流程实现流程实现流程数据完整性推理怎么实现？数据完整性推理怎么实现？什么场景？1.业务场景：0点前手机进隧道，数据缓存在本地，出隧道上报2.故障场景：0点mysql宕机什么方式？1.提取CDC事件数据的Event Time2.空闲水位推动策略3.空闲Tag生成策略解决什么问题？空闲时长和数据完整性推理的trade offDataFunSummitDataFunSummit#202420240404LookUp JoinLookUp JoinLookUp JoinLookUp Join什么

6、场景使用？什么场景使用？数仓基于事实表关联实时维度信息或缓慢变化维度信息的多维度数据分析场景。什么方式？什么方式？访问外部存储数据然后将维度字段拼接到当前这条数据上面。好比两层 For 循环。对于驱动表中的每一行，循环检查被查找表的每一行，如果满足 Join 条件则作为 Join 结果输出解决什么问题？解决什么问题？关联出表的额外数据属性Paimon LookUp JoinPaimon LookUp Join实现实现期望的能力是什么：期望的能力是什么：1.根据提供的键从查找表中检索数据，要支持Append table、PrimaryKey table2.支持下推做列裁剪，起到查询时只考虑符合特

7、定条件的数据3.支持刷新或更新查找表中的数据，保证查找操作总是针对最新的数据集进行怎么基于文件抽象怎么基于文件抽象点查接口接口 Lookup Join 会通过迭代的方式将paimon表对应的数据文件加载到内存排序缓冲区。在BulkLoader到RocksDB，然后基于RocksDB提供点查接口。Paimon LookUp JoinPaimon LookUp Join设计设计LookUp JoinLookUp Join 会有什么样的问题？1.数据分散问题2.内存限制3.过度使用磁盘为了解决这些问题：1.实施更有效的数据分区策略，减少每个TaskManager需要拉取的数据量2.使用独立基于内存的LookUp服务QueryServiceQueryService感谢观看感谢观看谢谢观看Apache Paimon 一键三连：加入 Paimon 钉钉交流群，Paimon 研发人员实时答疑：搜索群号关注 Paimon 微信公众号，大量生产实践与技术内幕：搜索公众号 Apache Paimon点赞 Paimon Github，搜索网址https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（陈卓宇-Paimon架构下的数据湖探索PPT.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。