《基于Flink+Iceberg构建企业级实时数据湖.pdf》由会员分享,可在线阅读,更多相关《基于Flink+Iceberg构建企业级实时数据湖.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、Apache Flink Community China 严禁商业用途 基于Flink+Iceberg构建企业级实时数据湖 胡争 阿里巴巴 / 技术专家 Apache Flink China Meetup 深圳 2020年09月26日 Apache Flink Community China 严禁商业用途 目录 01 数据湖背景介绍02Flink数据湖业务场景介绍 03 为何选择Iceberg 05 社区未来规划 04 Flink+Iceberg流式入湖 Apache Flink Community China 严禁商业用途 数据湖背景介绍 PART 01 Apache Flink Commu
2、nity China 严禁商业用途 数据湖数据湖 存存储储原始数据原始数据 结构化数据 半结构化数据 非结构化数据 二进制数据(图片等) 完善的数据管理完善的数据管理 多种数据源接入 数据连接 Schema管理 权限管理 多种多种计计算模型算模型 批处理 流计算 交互式分析 机器学习 灵活的底灵活的底层层存存储储 S3/OSS/HDFS Parquet/Avro/Orc 数据缓存加速 Apache Flink Community China 严禁商业用途 数据湖和数据数据湖和数据仓库仓库 Apache Flink Community China 严禁商业用途 开源数据湖架构开源数据湖架构 廉价
3、、弹性可扩展的分布式文件系统层 数据加速层,提供本地数据缓存和元数据加速服务。 Table Format层,提供面向用户的表级语义。 计算引擎层。多种计算引擎满足不同的分析需求。 Apache Flink Community China 严禁商业用途 Flink数据湖业务场景介绍 PART 02 Apache Flink Community China 严禁商业用途 场场景一:构建景一:构建实时实时Data Pipeline 原始表原始表提提纯纯后的数据后的数据聚合聚合结结果果 核心优势 可以借助flink实现数据exactly-once语义地入湖 和出湖。 新写入数据可在checkpoint周期内可见。 可以方便地构建data pipeline,满足不同业务层 的数据加工和分析需求。 对比Hive方案: hive的增量写入以partition为单位,长期高频率 的 checkpoint写