《9-1 Apache Iceberg 在网易严选批流一体的实践.pdf》由会员分享,可在线阅读,更多相关《9-1 Apache Iceberg 在网易严选批流一体的实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、Apache Iceberg在网易严选批流一体的实践祝佳俊网易严选2022-04-232目录/CONTENTS1234数据架构现状基于Iceberg的批流一体实践落地情况&未来规划Iceberg表治理Chapter01数据架构现状数据架构现状数据架构现状数据架构现状lambda架构,实时离线两套逻辑离线数据实效性低,依赖于快照制作同步链路组件多,可维护性差1.批流一体?2.存储支持Upsert?Apache IcebergApache HudiDeltaLake文件合并ManuallyAutomaticManually数据清理ManuallyAutomaticAutomatic文件格式Parq
2、uet,Avro,ORCParquet,avroParquet计算引擎Hive/Spark/Presto/FlinkHive/Spark/Presto/FlinkHive/Spark/Presto存储引擎HDFS/S3HDFS/S3HDFS/S3/AzureSQL DMLupsertACIDTimeTravel是否支持索引可扩展的元数据存储Schema演进方案比对 通用表格式,解耦计算引擎 存储批流一体 Upsert和ACID Schema变更 元数据管理 数据质量保障Iceberg简介Chapter02基于Iceberg的批流一体实践流批一体架构新的问题消息乱序&去重处理消息乱序&去重处理消息乱序&去重处理消息乱序&去重处理消息乱序&去重处理一致性快照一致性快照一致性快照Chapter03Iceberg表治理Iceberg表治理Iceberg表治理重写DeleteFile重写DeleteFile合并DeleteFile重排序治理效果Chapter04落地情况&未来规划落地情况 已完成ODS层数据产出的批流融合 离线数据延迟缩短至5分钟 所有ODS T+1快照的制作可提前半小时 已经有500+任务稳定运行未来规划010302更多的场景特征工程数仓DWD更好的管理产品化更快的查询PrestoAlluxioZ-orderBloom-FilterTHANK YOUTHANK YOU