《基于Apache Iceberg的湖原生数仓Arctic.pptx》由会员分享,可在线阅读,更多相关《基于Apache Iceberg的湖原生数仓Arctic.pptx(24页珍藏版)》请在三个皮匠报告上搜索。
1、,基于 Apache Iceberg 的湖原生数仓 Arctic,演讲人:周劲松网易平台开发专家,2023,什么是湖原生数仓,如何实现湖原生数仓,实践案例,总结与愿景,目录,什么是湖原生数仓,数据开发现状,传统数据湖架构,成本高昂数据冗余系统运维开销任务开发数据质量差数据延迟高口径不统一,湖原生数仓愿景,开源数据湖三剑客,Aimed for structured dataOperation transactionalSQL extensionsIncremental/stream processing,ACID,MVCC,Update/delete,Merge into,Time travel
2、,rollback,开源 Table format 的不足,lakehouse,lakehouse,lakehouse,所读即所写Deltalake/iceberg 是 table format,是元数据封装CDC 数据使用 MERGE INTO 合并存量数据流式摄取带来海量小文件问题,需要用户 optimize需要用户自己调用 optimize 来排序,实时能力不足基于 Lakehouse 的流计算延迟在分钟级别需要引入消息队列实现毫秒/秒级流计算需要用户自己保障数据一致性,如何实现湖原生数仓,湖仓管理系统-Arctic,Arctic 是一个开放式架构下的湖仓管理系统,在开放的数据湖格式之上
3、,Arctic 提供更多面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。,Multiple Formats,ACID 事务Schema evolutionHidden PartitionTime travel and Rollback,更强的主键约束基于 auto-bucket 的更强 OLAP 性能毫秒级的 data pipeline事务冲突解决机制更灵活的合并策略,Auto-bucket File Index,change file,base file,Key:11010011,94M,change node:11,12M,base node:111,82M,base n
4、ode:011,96M,108M,Snphot id:1000,base node,change node,000,001,111,0,1,0,1,0,1,0,1,0,1,。,011,Self-Optimizing,能力合并小文件合并冗余文件快照过期孤儿文件清理特性自动、异步与透明资源隔离与共享灵活可扩展的部署方式,Minor Optimizing,合并小文件条件:小文件数量输入:segment file 16 MB转化 Delete file条件:equality delete file 数量输入:equality delete file输出:positional delete file,M
5、ajor/Full Optimizing,Major optimizing条件:delete file 过大输入:data file+delete file输出:data fileFull optimizing条件:周期输入:data file+delete file输出:ordered data file,Lake Native Data Warehouse 性能,Find more:https:/,实践案例,网易云音乐推荐流批统一,网易有道实时报表 Doris 替换,实时报表,Flink,推荐系统,Spark,Spark,实时报表,Flink,推荐系统,Trino/Spark,湖原生数仓的
6、价值,降本提效消除数据孤岛带来流批一体的效果与数据工具无缝集成,总结与愿景,Lakehouse VS Lake Native Data Warehouse,Find more:https:/,LakehouseACID 保障SQL 增强支持流计算存算分离格式开放,Lake Native Data Warehouse 数据自优化约束与索引开箱即用的管理功能标准化度量数据安全,Enhancement,未来规划,性能优化持续 z-order 引入 LSM 结构优化 optimizing 写放大问题 湖原生数仓功能增强标准的 SQL 管理指令与命令行工具标准化的度量指标与查询命令提供湖原生的用户与权限体系Sort key/aggregate keyPartial upsert,谢谢观看,