上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2020Flink峰会报告:6- Flink SQL-TSY.pdf

编号:29337 PDF 39页 9.35MB 下载积分:VIP专享
下载报告请您先登录!

2020Flink峰会报告:6- Flink SQL-TSY.pdf

1、数据接入数据接入 #2 数仓数仓与数据集成与数据集成 #1 数据入仓湖数据入仓湖 #3 数据打宽数据打宽 ( Joins )( Joins ) #4 总结总结 #5 #1 数仓与数据集成 数据仓库 与 数据集成 数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时 间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管 理决策。 数据仓库之父 Bill Inmon 于1990年提出 数据仓库的首要目的:数据集成,将多个分散的、异构的数据源整合在一起,便于 后续分析。 数据集成 与 ETL 数据集成的主要步骤:

2、 数据接入(Extract) 数据清洗、打宽 (Transformation) 数据入仓、入湖 (Load) E T L 传统数据仓库 主要的问题: 实时、离线数仓两套割裂的链路,造成重复工作,重复资源消耗 实时、离线底层数据模型不一致,数据一致性和质量难以保障 ETL 数据集成 Hive HDFS KafkaKafka ODS ODS DWD DWD 业务数据库 业务日志 实时数仓 离线数仓 业务数据库 业务日志 Binlog 采集 定时 Query Flume DIM DIM Hive 打宽 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP

3、/KV/RDS) Flume Sqoop Canal Hive DB Flink Hive MR 流批一体的 ETL 数据集成 核心区别: Flink 原生支持 CDC,接入数据库数据更方便 强大灵活的维表关联能力,满足不同工作负载和时效性需求 实时层做数据接入和数据转换,离线数仓通过实时明细层回流 Flink 流式写入 Hive,自动合并小文件 优势: 统一基础公共数据,保障一致性 提升离线数仓时效性 减少组件和链路的维护 Hive Kafka ODSDWD DWD 实时离线一体数仓 DIM 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP/KV/RDS) 流式入仓 DB/Kafka/Hive Kafka 业务数据库 业务日志 Binlog 采集 Flume CDC 日志采集 Flink #2 数据接入 Kafka 业务数据库 业务日志

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2020Flink峰会报告:6- Flink SQL-TSY.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部