上海品茶

Apache Hudi 1.0 新功能预览.final.pdf

编号:157178 PDF 27页 5.05MB 下载积分:VIP专享
下载报告请您先登录!

Apache Hudi 1.0 新功能预览.final.pdf

1、许世彦Apache Hudi PMC,Onehouse 开源项目负责人Apache Hudi 1.0 新功能预览提纲Apache Hudi 简介Hudi 1.0 的重新思考Hudi 1.0-beta 的重点新功能 Apache Hudi 简介Apache Hudi 简介开开发发格式格式CDC 增量支持增量支持事事务务+并并发发内置性能内置性能调优调优+更多更多自自动动数据目数据目录录同步同步MOR 流式写入流式写入AWS Glue Data CatalogMetastoreBigQuery数据目录+更多湖仓平台Apache Kafka原始的清洗过的衍生的存储层Hudi 平台架构存储层(Clou

2、d Object Stores,HDFS,)开放文件数据格式(Parquet,HFile,Avro,Orc,)并发控制(OCC,MVCC,Non-blocking,Lock providers,Scheduling.)表服务(cleaning,compaction,clustering,indexing,file sizing,.)索引(Bloom filter,HBase,Bucket index,Hash based,Lucene.)表格式(Schema,File listings,Stats,Evolution,)缓存*(Columnar,transactional,mutable,WI

3、P,.)元数据服务*(Stats,table service coordination,.)事事务务性数据性数据库层库层查询引擎(Spark,Flink,Hive,Presto,Trino,Impala,Redshift,BigQuery,Snowflake,.)平台服务(Streaming/Batch ingest,various sources,Catalog sync,Admin CLI,Data Quality,.)用用户户交互交互层层读取器(Snapshot,Time Travel,Incremental,etc)写入器(Inserts,Updates,Deletes,Smart L

4、ayout Management,etc)编编程程 API 层层Hudi 1.0 的重新思考历时 5在0.X版本系列中增加了更多功能,并有一个活跃的社区来验证这一愿景年,从孵化起“事务性数据湖”,“流式数据湖”先行者的困境一个被当时查询引擎项目思维限制的激进新想法。Donec risus dolor porta venenatis Pharetra luctus felisProin vel tellus in felis volutpat Molestie nec amet cum sociis怎样实现更通用的数据库体验为数据湖构建第一个具有多语言持久性的事务性数据库?回溯新的机会查询引擎偏

5、好独立的集成。需要维护特定的Hudi连接器。通过Hudi的高级能力和多模式索引,改进了查询规划和执行。深度查询引擎的集成由于Apache Spark和Apache Flink等引擎的进步,实现了成熟的SQL支持。为支持Hudi表中的键提供了泛化数据模型。泛化的关系型数据模型迁移到混合架构:数据采用无服务器,表元数据采用有服 务器。元数据扩展性好。解决了不断发展的并发控制需求有服务器+无服务器支持具有索引、变更和变化捕获的复杂、非结构化、大型数据块。扩展到机器学习/自动学习建模、图像和视频处理应用。非结构化数据反向流式数据快照管理诊断报告工具跨区域复制TTL管理提升的自我管理能力数据数据库库体体

6、验验对比数据库组件DBMS的主要组件。Courtesy:The seminal database paper:Architecture of a Database System 突出显示了Hudi 现有的(绿色)和新的(黄色)组件,以及外部组件(蓝色)。参考 RFC-69Hudi 1.0-beta 的重点新功能https:/ In all,we propose Hudi 1.x as a reimagination of Hudi,as the transactional database for the lake,with polyglot persistence,raising the l

7、evel of abstraction and platformization even higher for Hudi data lakes.全新的记录合并APIs查询引擎和索引的全面集成多语言支持非阻塞并发无限时间线Metaserver-向数仓性能靠近缓存-用于平摊合并的开销,全面提升查询性能RFC-69-Hudi 1.xLSM Tree 时间线交易记录线性增长活跃(active)和归档(archived)时间线活跃时间线用于快速获取信息归档时间线读取花销大能否支持 10 年数据分钟级别的 commit?能否更高效地规划存储结构?如何解锁近乎无限的时间线,time travel 写入,和非

8、阻塞并发?LSM Trees!https:/ Tree 时间线1百万百万 commits(相当于每 5 分钟 commit 一次,跑 10 年)on AWS S3.367 ms 加载时间线(不包含所有元数据)LSM Tree 时间线:基准测试函数索引索引在数据库中广泛使用Hudi 开创了湖仓的通用多模式索引子系统。但仍然没有达到数据库提供的能力。数据湖分区是旧 Hadoop 时代的权宜之计关系数据库允许在函数或表达式上建立索引加速基于计算结果的查询。隐藏数据是如何分区的,以及数据是如何被查询的。将分区吸收进索引。不再需要隐藏和演进的分区!RFC-63函数索引SQL ScriptCREATE T

9、ABLE hudi_table_func_index(ts STRING,uuid STRING,rider STRING,driver STRING,fare DOUBLE,city STRING)USING HUDItblproperties(primaryKey=uuid)PARTITIONED BY(city)INSERT INTO hudi_table_func_index VALUES(.);CREATE INDEX ts_hour ON hudi_table_func_index USING column_stats(ts)options(func=hour);SELECT ci

10、ty,fare,rider,driver FROM hudi_table_func_index WHERE city NOT IN(chennai)AND hour(ts)12;函数索引用例新的文件组读取器和写入器高效的更新和删除是一种普遍的需要。Hudi 的MOR表已经在快速插入更新方面经过了实战考验基于主键的记录合并,将log 文件中的记录与base文件中的记录合并。支持基于最新语义的覆盖,基于提交或事件时间我们能做得更好吗?基于位置的合并而非基于键的合并-当超过 50%的基础记录发生变化时显著提升性能对部分更新提供一流的支持-减少写放大、读放大与引擎无关的抽象化新的文件组读取器和写入器P

11、osition-based 合并的基准测试在大规模更新上有好的收益-像 Iceberg 的现有实现表现不佳,需要扫描整个基础文件。-Hudi PR#10167 通过位置合并的过滤器下推使其成为现实。数据准数据准备备:MOR 表,500GB、1TB,1000 分区,删除 50%的记录,写入 log数据数据规规模模Key based 查查询询延延迟迟(ms)Position based 查询查询延延迟迟(ms)增益增益500GB9407868612%1TB0%集群配置集群配置:AWS EMR cluster,1 driver(m5.8xlarge)and 20 executo

12、rs(m5.4xlarge),Apache Spark 3.3.3Partial update 的基准测试极其极其显显著的性能提升!著的性能提升!数据准数据准备备:1TB MOR 表,1000 分区。80%随机记录更新。总共 100 个字段更新 3 个指指标标全更新全更新部分更新部分更新增益增益更新延迟(s)207214291.4x总写入字节(GB)891.712.770.2x 查询延迟(s)164295.7x非阻塞并发控制 我我们们是否是否过过于于乐观乐观?三种常见的并发控制:Pessimistic,Optimistic and Multi VersionArchitecture of a

13、Database System(Sec 6.2)我们可以避免由于 OCC(乐观并发控制)带来的性能和成本惩罚吗?一种方式是通过复杂的技术增强 OCC,以便早期冲突检测。怎么样使用一个通用的非阻塞基于 MVCC(多版本并发控制)的并发控制呢?类似 Spanner 的 TrueTime 全局单调递增时间戳非阻塞并发控制如何贡献1.0技术spechttps:/hudi.apache.org/tech-specs-1point0 RFC-多表事务:RFC-73-非阻塞并发:RFC-66-函数索引:RFC-63-联合存储层:RFC-60-二级索引:RFC-52Maven 下载试跑1.0.0-beta1

14、社区活跃度5个云提供商预装了HudiPMC/Committers就职企业众多的社区参与者7000+Commits415+Contributors6000+GH Engagers33Committers19PMCs800B+Records/Day(from even just 1 user!)欢欢迎参与构建社区!迎参与构建社区!Docs:https:/hudi.apache.org Blogs:https:/hudi.apache.org/blogSlack:https:/ Github:https:/ us a star!Mailing list(s):dev-subscribehudi.apache.org(send an empty email to subscribe)Thanks!Questions?

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Apache Hudi 1.0 新功能预览.final.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...  升级为至尊VIP   微**... 升级为至尊VIP 

 139**01... 升级为高级VIP 136**15... 升级为至尊VIP

jia**ia... 升级为至尊VIP wei**n_...  升级为至尊VIP

183**14...  升级为标准VIP  wei**n_...  升级为至尊VIP

微**... 升级为高级VIP   wei**n_...  升级为至尊VIP

 Be**en 升级为至尊VIP 微**...  升级为高级VIP

 186**86...  升级为高级VIP Ji**n方... 升级为至尊VIP 

 188**48...  升级为标准VIP wei**n_...  升级为高级VIP

iam**in... 升级为至尊VIP   wei**n_... 升级为标准VIP

135**70...  升级为至尊VIP  199**28... 升级为高级VIP

wei**n_...  升级为至尊VIP wei**n_... 升级为标准VIP 

wei**n_...  升级为至尊VIP  火星**r... 升级为至尊VIP 

 139**13... 升级为至尊VIP 186**69...  升级为高级VIP 

157**87...   升级为至尊VIP 鸿**...  升级为至尊VIP

wei**n_... 升级为标准VIP  137**18...  升级为至尊VIP

 wei**n_...  升级为至尊VIP wei**n_...  升级为标准VIP

 139**24...  升级为标准VIP  158**25...  升级为标准VIP

wei**n_... 升级为高级VIP  188**60... 升级为高级VIP 

Fly**g ... 升级为至尊VIP  wei**n_...  升级为标准VIP 

 186**52...  升级为至尊VIP 布**   升级为至尊VIP

 186**69... 升级为高级VIP  wei**n_... 升级为标准VIP  

139**98... 升级为至尊VIP   152**90...   升级为标准VIP

138**98...  升级为标准VIP   181**96...  升级为标准VIP

185**10...  升级为标准VIP wei**n_...  升级为至尊VIP

高兴 升级为至尊VIP    wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP  阿**...  升级为标准VIP

wei**n_...  升级为高级VIP lin**fe...  升级为高级VIP

 wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP 

wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP

180**21... 升级为标准VIP   183**36... 升级为标准VIP 

wei**n_... 升级为标准VIP wei**n_... 升级为标准VIP

xie**.g... 升级为至尊VIP  王** 升级为标准VIP  

172**75... 升级为标准VIP wei**n_...  升级为标准VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP

135**82...  升级为至尊VIP   130**18... 升级为至尊VIP

wei**n_...  升级为标准VIP wei**n_...   升级为至尊VIP

 wei**n_... 升级为高级VIP 130**88... 升级为标准VIP

  张川 升级为标准VIP  wei**n_...  升级为高级VIP

叶**  升级为标准VIP  wei**n_... 升级为高级VIP

138**78... 升级为标准VIP   wu**i 升级为高级VIP

 wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

 wei**n_...  升级为高级VIP 185**35...  升级为至尊VIP

wei**n_... 升级为标准VIP  186**30...  升级为至尊VIP

156**61...  升级为高级VIP   130**32... 升级为高级VIP

 136**02...  升级为标准VIP wei**n_... 升级为标准VIP 

 133**46... 升级为至尊VIP   wei**n_... 升级为高级VIP

 180**01... 升级为高级VIP  130**31...  升级为至尊VIP 

 wei**n_... 升级为至尊VIP 微**...  升级为至尊VIP