【阿里云李劲松】Apache Paimon：Streaming LakeHouse 最新进展.pdf

编号：157161

PDF 31页 1.95MB 下载积分：VIP专享

下载报告请您先登录！

【阿里云李劲松】Apache Paimon：Streaming LakeHouse 最新进展.pdf

1、Apache Paimon Apache Paimon 流式数据湖流式数据湖 V V 0.40.4与后续展望与后续展望李劲松（之信）阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家，Apache Flink PMC，Paimon PPMC关于演讲者l 2015年毕业于电子科技大学，并入职阿里云从事上一代流计算平台 Galaxy 研发l 相继从事流计算、批计算、湖存储，并成为 Apache Flink PMC 成员，Apache Beam&Iceberg Committerl 目前是阿里云高级技术专家，开源大数据表存储团队负责人，负责 Apache Paimon 的研发和产品，专注流式湖

2、仓技术与产品CONTENT目录湖存储上的难点0102深入 Apache Paimon 0.403社区应用实践04未来规划一、湖存储上的难点数据湖新场景l 实时数据入湖实时更新来自数据库的 CDC 数据，能被多种引擎尽快分析l 实时字段打宽实时打宽维表的字段，提供给下游查询及流读l 实时数据流读提供消息队列体验的流读，并能根据主键生成 Changelog数据湖RDBMS字段打宽数据入湖Trino查询维表维表流读入湖的痛点数据湖RDBMS数据入湖Trino查询l 资源消耗与实时性更新吞吐差，资源消耗巨大 COW 更新差，MOR 查询差，难以选择反压、反压、还是反压l 数据湖需管理的事情

3、多管理 compaction 清理历史小文件清理过期分区l Schema Evolution 上游加列，湖存储怎么办？重启同步作业？一堆小表耗资源且耗精力吞吐与资源？新鲜度与查询性能？Schema Change？小表多同步资源消耗大？查询生态？打宽表的痛点数据湖Trino查询l 资源消耗与实时性同样重要l 输入多样性 CDC 输入输入可能是乱序的l 读取批读支持列裁剪流读？Project pushdown？CDC Delete怎么办？字段打宽维表维表能流读吗？吞吐与资源？输入乱序怎么办？流读的痛点数据湖l 全增量一体流读先读全量再接增量，完整的流l Changelog 生成有些

4、场景要低成本有些场景要低时延l 痛点：FileNotFound 数据湖文件清理和流读的矛盾l Lookup Join 支持 Flink 的 Lookup Join流读数据湖流读，建议 1分钟+延时的场景Apache Paimon is a streaming data lake platform that supports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon：一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。

5、二、深入 Apache Paimon 0.4Data Lake(HDFS/OSS/S3)001Schema EvolutionAppend Data宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data批读Ad-HocTrinoChangelog生成全增量一体流读顺序读Lookup JoinPaimon 架构Paimon:理解写入与查询写入：写入发生在 Flink Sink 中，当检查点到达时，它会对内存中的数据进行排序，并将记录刷新到 Level0 文件中。压缩：默认情况下，Flink Sink 中也会发生异步压缩，当然，

6、您可以启动单独的压缩作业。由于 LSM 的设计，合并是局部的，这可以有效地减少写放大。清理：写入作业默认会清理过期的快照，有效的清理可以减少DFS上大量的文件，而且你还可以配置分区的清理策略。读取：发生在新启动的作业中，您可以查询在文件系统上提交的快照。该查询将合并多个 Level 的 LSM，这可能会有一些开销，但不会很慢。Append 写(吞吐大)、局部压缩(消耗低)、自动清理(全自动)、有序合并(不会很慢)Paimon:入湖带来的收益资源节省：流计算任务资源节省30%实时ODS存储资源节省40%性能效率任务写入性能（全量+增量）提升3倍左右部分查询性能提升7倍#2#1来自同程旅行的生产实

7、践(对比原有 Hudi 表)：Paimon:CDC 入湖Schema EvolutionFlink CDC整库同步Changelog DataPaimonKafka 同步(0.5)Flink CDC 同步表同步Paimon CDC表结构变更同步增加列删除列 (忽略)类型变更 (0.4 隐式转换，0.5 强转换)重命名列添加新一列新增计算列定义分区列定义主键分库分表同步整库同步Paimon CDCINCLUDING/EXCLUDING表名前后缀自动跳过失败的表动态新增表 (0.5)一键同步入湖CDC DataStream API：编写 Schema 同步的流作业Paimon:部分更新流读：支

8、持流读合并后的数据。查询：支持列裁剪。乱序：支持定义 Sequence Field 处理乱序。0.5 引入 Sequence Group 概念：每个流定义自己的序列组应对多流乱序真正的部分更新，而不仅仅是non-null更新Paimon:流读增强流读：支持流读原始数据。(changelog-producer=input)变更日志：支持生成变更日志，Lookup 模式 cp 可见(1-3分钟时延)，Full-compaction 模式延迟可见(3-10分钟时延)Consumer-ID：支持 Consumer-ID，支持流读无状态重启，也解决流读恢复时的 FileNotFound 问题。Paim

9、on:生态即将发布！在路上！三、社区应用实践开源社区阿里云阿里云计算平台数据湖一号位，计算全集成替代 Hudi 成为实时入湖首选Data Lake(HDFS/OSS/S3)001MetaData实时计算入湖CTASCDAS实时计算实时数仓流读大数据计算EMR字节跳动业务数据业务数据Streaming Warehouse 生产体系OLAP QUERY实时 ETLADSDWDDWSHSAP/DB/KV实时ETL实时ETLDynamic TableDynamic Table血缘管理与一致性查询同程旅行场景1:实时写入ODS层场景Paimon任务数量：114+目前最大Upse

10、rt日增量：2000万+目前最大表总量：90亿+场景2：局部更新场景任务数量：10+真.局部更新优化后会逐步上线场景3：流读增量读场景流式增量读任务数量：20+批处理小时级增量读：10+陆续推广替换中#2#2#1 1#3 3引入 Paimon 优化原有 Hudi 近实时数仓社区的应用中原银行：探索流式数仓米哈游：流批一体近实时数仓 Bilibili：攻坚 AI 方向，Partial-Update 尘锋信息：TB级数据入湖，建设Flink流批一体巴别时代：整库入湖，CDC入湖海兰寰宇：替代Kafka作全增量顺序流读汽车之家：Partial-Update宽表拼接四、后续规划LogsRD

11、BM SFl i nk Tabl e StoreFl i nk Tabl e StoreFlin k SQ LStream in g&B atchFlin k SQ LStream in g&B atchbi nl ogD ata Servi ngSystem sFlin k SQ LQ ueriesFl i nk Tabl e StoreO D SD W DD W SA D SFlin k SQ LStream in g&B atchPaimonPaimonPaimonHologresStreaming LakeHouse易用的、简单的 Streaming LakeHouse1.更多 CDC

12、入湖2.动态 Bucket 全自动3.Create TagAppend-Only 处理增强无 Bucket，小文件合并Spark 读写增强Spark 执行过程发展历程规划图在在 FlinkFlink 社区讨论社区讨论FlinkFlink TableTable StoreStore20222022 5 5月月发布发布0.10.120202121底底20232023 1 1月月发布发布0.30.3生产版本生产版本20232023 3 3月月进入孵化器进入孵化器改名改名 PaimonPaimon20232023 6 6月月发布发布 0.40.4CDCCDC 实时数据湖完全成熟实时数据湖完全成熟AppendAppend 离线表生产可用离线表生产可用生态全面对接，生态全面对接，SparkSpark成熟成熟未来未来总结l 湖存储新场景：入湖、打宽表、流读，在资源和功能上有不少难点l 深入理解 Paimon，湖存储+LSM，从准实时出发的流式数据湖l 社区应用实践，阿里云、字节跳动、同程旅行等等公司的探索l Flink+Paimon 未来打造成熟的 Streaming LakeHouse项目信息Paimon 官网：https:/paimon.apache.org/微信公众号关注：Apache PaimonPiamon Github：https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（【阿里云李劲松】Apache Paimon：Streaming LakeHouse 最新进展.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。