上海品茶(上海最佳喝茶去处，让你品味别样茶香)

上海品茶

基于Flink+Iceberg构建企业级实时数据湖.pdf

上传人：li

编号：29741

2021-02-07

38页 2.79MB

《基于Flink+Iceberg构建企业级实时数据湖.pdf》由会员分享，可在线阅读，更多相关《基于Flink+Iceberg构建企业级实时数据湖.pdf（38页珍藏版）》请在三个皮匠报告上搜索。

1、Apache Flink Community China 严禁商业用途基于Flink+Iceberg构建企业级实时数据湖胡争阿里巴巴 / 技术专家 Apache Flink China Meetup 深圳 2020年09月26日 Apache Flink Community China 严禁商业用途目录 01 数据湖背景介绍02Flink数据湖业务场景介绍 03 为何选择Iceberg 05 社区未来规划 04 Flink+Iceberg流式入湖 Apache Flink Community China 严禁商业用途数据湖背景介绍 PART 01 Apache Flink Commu

2、nity China 严禁商业用途数据湖数据湖存存储储原始数据原始数据结构化数据半结构化数据非结构化数据二进制数据(图片等）完善的数据管理完善的数据管理多种数据源接入数据连接 Schema管理权限管理多种多种计计算模型算模型批处理流计算交互式分析机器学习灵活的底灵活的底层层存存储储 S3/OSS/HDFS Parquet/Avro/Orc 数据缓存加速 Apache Flink Community China 严禁商业用途数据湖和数据数据湖和数据仓库仓库 Apache Flink Community China 严禁商业用途开源数据湖架构开源数据湖架构廉价

3、、弹性可扩展的分布式文件系统层数据加速层，提供本地数据缓存和元数据加速服务。 Table Format层，提供面向用户的表级语义。计算引擎层。多种计算引擎满足不同的分析需求。 Apache Flink Community China 严禁商业用途 Flink数据湖业务场景介绍 PART 02 Apache Flink Community China 严禁商业用途场场景一：构建景一：构建实时实时Data Pipeline 原始表原始表提提纯纯后的数据后的数据聚合聚合结结果果核心优势可以借助flink实现数据exactly-once语义地入湖和出湖。新写入数据可在checkpoint周期内可见。可以方便地构建data pipeline，满足不同业务层的数据加工和分析需求。对比Hive方案： hive的增量写入以partition为单位，长期高频率的 checkpoint写