上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

Apache Paimon 实时数据湖|Streaming Lakehouse 的存储底座.pdf

编号:155304 PDF 25页 4.25MB 下载积分:VIP专享
下载报告请您先登录!

Apache Paimon 实时数据湖|Streaming Lakehouse 的存储底座.pdf

1、Apache Paimon 实时数据湖Streaming Lakehouse 的存储底座李劲松/阿里云开源大数据表存储团队负责人Streaming lakehouse meetup关于演讲者l 2015年毕业于电科技学,并职阿云从事上代流计算平台 Galaxy 研发l 相继从事 流计算、批计算、湖存储,并成为 Apache Flink PMC 成员,Apache Beam&Iceberg Committerl 前是阿云级技术专家,开源数据表存储团队负责,负责 Apache Paimon 的研发和产品,专注流式湖仓技术与产品流计算邂逅数据湖0101CONTENT目录 0202Paimon CDC

2、 实时入湖0303Paimon 不止 CDC 入湖0404总结与生态01流计算邂逅数据湖流计算 1.0 实时预处理查询超快:向业务在线查询灵活度低:向业务定制化开发定制化灵活性低,查询模式受限流计算 2.0 实时数仓存储成本,只能保存较珍贵的数据查询较快:向量化计算 SSD存储灵活度中:存储 Schema 化,SQL 查询流计算 3.0 实时湖仓实时湖仓挑战:CDC 湖查询较慢:批查询,可通过 DataSkipping 加速查询灵活度:存储 Schema 化全量数据,通 SQL 查询Apache Paimon is a streaming data lake platform that sup

3、ports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon:一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。02Paimon CDC 实时入湖传统 Hive CDC 仓实时数据湖:按主键更新全量表与增量表存储成本和计算成本都很延时,T+1+合并时延Paimon CDC 湖全流程表三延时低:实时查询、离线查询、增量查询一键 CDC 湖:最简单的同步性能湖:计算成本低低成本存储:基于 LSM 复件Paimon CDC 简单的

4、数据集成Data Lake(HDFS/OSS/S3)001Schema Evolution宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data键湖:数据+Schema 变更整库同步:个作业搞定切 MySql 单表同步 MySql 整库同步 Kafka 单表同步 Kafka 整库同步 RichCdcRecord 编程同步Paimon 性能湖调优指南Paimon 提供灵活的参数让你在 写性能、查询性能、存储空间 权衡Paimon Tag 实时离线融合Snapshots:流不断产新的 SnapshotTags:Tag 是离线的视图

5、配置每天0点10分钟创建个 Tag,最保留3个的 Tag,Flink 流式写,动创建 Tags,动清理 Tags表三:查询最新数据 查询 Tag 的历史数据 查询增量数据Paimon LSM 件存储的复基于 LSM 复件多个 Tags 之前最层可能完全样,件全复!(调整 Levels 参数来达到更的复)03Paimon 不止 CDC 入湖Paimon 重进展Paimon Streaming LakeSparkStarRocksDorisPrestoSQL超83位贡献者繁荣的态各场景全可MaxComputePartial-UpdateSequence GroupFirst RowMerge En

6、gineLookup Changelog-Producer合并元数据HivePartitioned TableManifestFull CompactionStatisticsMode动态 BucketAppend 离线表Tag内核Flink CDC 同步Kafka 同步CombinedSink湖态跨分区更新Paimon 数据打宽 Flink Lookup Join Partial Update(Sequence-Group)Flink 双流 Join成本维表法更新外键打宽?To Be Continue Paimon 消息队列替代严格保序!消息队列样持 Watermark 且对动合并件持 Co

7、nsumer-ID(类 Kafka Group-ID)Append 表(主键)-Bucket=3Paimon 离线表替代Append 表(主键)-Bucket=-1持批读批写 INSERT OVERWRITE持流读流写 动合并件持湖存储特性 ACID Time Travel(即将来临)Z-Order 排序加速查询、DELETE/UPDATE 持04总结与生态总结1.流计算新时代:流式数据湖2.Paimon 核能:CDC 湖3.Paimon 功能集合:宽表、流读、消息队列替代、离线表替代4.Paimon 基本成熟,是 Streaming Lake 的优选Streaming Lakehouse 态

8、阵容统一的数据湖存储统一的数据湖管理统一的数据湖格式LogsRDBMSFlink Table StoreFlink Table StoreFlink SQLStreaming&BatchFlink SQLStreaming&BatchbinlogData ServingSystemsFlink SQLQueriesFlink Table StoreODSDWDDWSADSFlink SQLStreaming&BatchPaimonPaimonPaimonFlink CDC向全引擎可查Flink 最佳集成Spark 深度集成阿云实践Data Lake(HDFS/OSS/S3)001MetaData湖CTASCDAS流读数据计算通过 Metastore 完美集成到数仓中Thanks Streaming lakehouse meetup关注微信公众号:Apache Paimon,了解业实践与最新动态Paimon 交流钉钉群:搜索,讨论技术并得到实时的持Githubhttps:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Apache Paimon 实时数据湖|Streaming Lakehouse 的存储底座.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部