上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf

编号:157161 PDF 31页 1.95MB 下载积分:VIP专享
下载报告请您先登录!

【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf

1、Apache Paimon Apache Paimon 流式数据湖流式数据湖 V V 0.40.4与后续展望与后续展望李劲松(之信)阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC关于演讲者l 2015年毕业于电子科技大学,并入职阿里云从事上一代流计算平台 Galaxy 研发l 相继从事 流计算、批计算、湖存储,并成为 Apache Flink PMC 成员,Apache Beam&Iceberg Committerl 目前是阿里云高级技术专家,开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,专注流式湖

2、仓技术与产品CONTENT目录 湖存储上的难点0102深入 Apache Paimon 0.403社区应用实践04未来规划一、湖存储上的难点数据湖新场景l 实时数据入湖 实时更新来自数据库的 CDC 数据,能被多种引擎尽快分析l 实时字段打宽 实时打宽维表的字段,提供给下游查询及流读l 实时数据流读 提供消息队列体验的流读,并能根据主键生成 Changelog数据湖RDBMS字段打宽数据入湖Trino查询维表维表流读入湖的痛点数据湖RDBMS数据入湖Trino查询l 资源消耗与实时性 更新吞吐差,资源消耗巨大 COW 更新差,MOR 查询差,难以选择 反压、反压、还是反压l 数据湖需管理的事情

3、多 管理 compaction 清理历史小文件 清理过期分区l Schema Evolution 上游加列,湖存储怎么办?重启同步作业?一堆小表耗资源且耗精力吞吐与资源?新鲜度与查询性能?Schema Change?小表多同步资源消耗大?查询生态?打宽表的痛点数据湖Trino查询l 资源消耗与实时性 同样重要l 输入多样性 CDC 输入 输入可能是乱序的l 读取 批读支持列裁剪 流读?Project pushdown?CDC Delete怎么办?字段打宽维表维表能流读吗?吞吐与资源?输入乱序怎么办?流读的痛点数据湖l 全增量一体流读 先读全量再接增量,完整的流l Changelog 生成 有些

4、场景要低成本 有些场景要低时延l 痛点:FileNotFound 数据湖文件清理和流读的矛盾l Lookup Join 支持 Flink 的 Lookup Join流读数据湖流读,建议 1分钟+延时的场景Apache Paimon is a streaming data lake platform that supports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon:一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。

5、二、深入 Apache Paimon 0.4Data Lake(HDFS/OSS/S3)001Schema EvolutionAppend Data宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data批读Ad-HocTrinoChangelog生成全增量一体流读顺序读Lookup JoinPaimon 架构Paimon:理解写入与查询 写入:写入发生在 Flink Sink 中,当检查点到达时,它会对内存中的数据进行排序,并将记录刷新到 Level0 文件中。压缩:默认情况下,Flink Sink 中也会发生异步压缩,当然,

6、您可以启动单独的压缩作业。由于 LSM 的设计,合并是局部的,这可以有效地减少写放大。清理:写入作业默认会清理过期的快照,有效的清理可以减少DFS上大量的文件,而且你还可以配置分区的清理策略。读取:发生在新启动的作业中,您可以查询在文件系统上提交的快照。该查询将合并多个 Level 的 LSM,这可能会有一些开销,但不会很慢。Append 写(吞吐大)、局部压缩(消耗低)、自动清理(全自动)、有序合并(不会很慢)Paimon:入湖带来的收益资源节省:流计算任务资源节省30%实时ODS存储资源节省40%性能效率任务写入性能(全量+增量)提升3倍左右部分查询性能提升7倍#2#1来自同程旅行的生产实

7、践(对比原有 Hudi 表):Paimon:CDC 入湖Schema EvolutionFlink CDC整库同步Changelog DataPaimonKafka 同步(0.5)Flink CDC 同步表同步Paimon CDC表结构变更同步增加列删除列 (忽略)类型变更 (0.4 隐式转换,0.5 强转换)重命名列 添加新一列新增计算列定义分区列定义主键分库分表同步整库同步Paimon CDCINCLUDING/EXCLUDING表名前后缀自动跳过失败的表动态新增表 (0.5)一键同步入湖CDC DataStream API:编写 Schema 同步的流作业Paimon:部分更新 流读:支

8、持流读合并后的数据。查询:支持列裁剪。乱序:支持定义 Sequence Field 处理乱序。0.5 引入 Sequence Group 概念:每个流定义自己的序列组应对多流乱序真正的部分更新,而不仅仅是non-null更新Paimon:流读增强 流读:支持流读原始数据。(changelog-producer=input)变更日志:支持生成变更日志,Lookup 模式 cp 可见(1-3分钟时延),Full-compaction 模式延迟可见(3-10分钟时延)Consumer-ID:支持 Consumer-ID,支持流读无状态重启,也解决流读恢复时的 FileNotFound 问题。Paim

9、on:生态即将发布!在路上!三、社区应用实践开源社区阿里云阿里云计算平台 数据湖一号位,计算全集成 替代 Hudi 成为实时入湖首选Data Lake(HDFS/OSS/S3)001MetaData实时计算入湖CTASCDAS实时计算实时数仓流读大数据计算EMR字节跳动业务数据业务数据Streaming Warehouse 生产体系OLAP QUERY实时 ETLADSDWDDWSHSAP/DB/KV实时ETL实时ETLDynamic TableDynamic Table血缘管理与一致性查询同程旅行场景1:实时写入ODS层场景Paimon任务数量:114+目前最大Upse

10、rt日增量:2000万+目前最大表总量:90亿+场景2:局部更新场景任务数量:10+真.局部更新优化后会逐步上线场景3:流读增量读场景流式增量读任务数量:20+批处理小时级增量读:10+陆续推广替换中#2#2#1 1#3 3引入 Paimon 优化原有 Hudi 近实时数仓社区的应用 中原银行:探索流式数仓 米哈游:流批一体近实时数仓 Bilibili:攻坚 AI 方向,Partial-Update 尘锋信息:TB级数据入湖,建设Flink流批一体 巴别时代:整库入湖,CDC入湖 海兰寰宇:替代Kafka作全增量顺序流读 汽车之家:Partial-Update宽表拼接四、后续规划LogsRD

11、BM SFl i nk Tabl e StoreFl i nk Tabl e StoreFlin k SQ LStream in g&B atchFlin k SQ LStream in g&B atchbi nl ogD ata Servi ngSystem sFlin k SQ LQ ueriesFl i nk Tabl e StoreO D SD W DD W SA D SFlin k SQ LStream in g&B atchPaimonPaimonPaimonHologresStreaming LakeHouse易用的、简单的 Streaming LakeHouse1.更多 CDC

12、 入湖2.动态 Bucket 全自动3.Create TagAppend-Only 处理增强无 Bucket,小文件合并Spark 读写增强Spark 执行过程发展历程 规划图在在 FlinkFlink 社区讨论社区讨论FlinkFlink TableTable StoreStore20222022 5 5月月发布发布0.10.120202121底底20232023 1 1月月发布发布0.30.3生产版本生产版本20232023 3 3月月进入孵化器进入孵化器改名改名 PaimonPaimon20232023 6 6月月发布发布 0.40.4CDCCDC 实时数据湖完全成熟实时数据湖完全成熟AppendAppend 离线表生产可用离线表生产可用生态全面对接,生态全面对接,SparkSpark成熟成熟未来未来总结l 湖存储新场景:入湖、打宽表、流读,在资源和功能上有不少难点l 深入理解 Paimon,湖存储+LSM,从准实时出发的流式数据湖l 社区应用实践,阿里云、字节跳动、同程旅行等等公司的探索l Flink+Paimon 未来打造成熟的 Streaming LakeHouse项目信息Paimon 官网:https:/paimon.apache.org/微信公众号 关注:Apache PaimonPiamon Github:https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部