1、数据接入数据接入 #2 数仓数仓与数据集成与数据集成 #1 数据入仓湖数据入仓湖 #3 数据打宽数据打宽 ( Joins )( Joins ) #4 总结总结 #5 #1 数仓与数据集成 数据仓库 与 数据集成 数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时 间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管 理决策。 数据仓库之父 Bill Inmon 于1990年提出 数据仓库的首要目的:数据集成,将多个分散的、异构的数据源整合在一起,便于 后续分析。 数据集成 与 ETL 数据集成的主要步骤:
2、 数据接入(Extract) 数据清洗、打宽 (Transformation) 数据入仓、入湖 (Load) E T L 传统数据仓库 主要的问题: 实时、离线数仓两套割裂的链路,造成重复工作,重复资源消耗 实时、离线底层数据模型不一致,数据一致性和质量难以保障 ETL 数据集成 Hive HDFS KafkaKafka ODS ODS DWD DWD 业务数据库 业务日志 实时数仓 离线数仓 业务数据库 业务日志 Binlog 采集 定时 Query Flume DIM DIM Hive 打宽 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP
3、/KV/RDS) Flume Sqoop Canal Hive DB Flink Hive MR 流批一体的 ETL 数据集成 核心区别: Flink 原生支持 CDC,接入数据库数据更方便 强大灵活的维表关联能力,满足不同工作负载和时效性需求 实时层做数据接入和数据转换,离线数仓通过实时明细层回流 Flink 流式写入 Hive,自动合并小文件 优势: 统一基础公共数据,保障一致性 提升离线数仓时效性 减少组件和链路的维护 Hive Kafka ODSDWD DWD 实时离线一体数仓 DIM 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP/KV/RDS) 流式入仓 DB/Kafka/Hive Kafka 业务数据库 业务日志 Binlog 采集 Flume CDC 日志采集 Flink #2 数据接入 Kafka 业务数据库 业务日志
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
2020Flink峰会报告:demo-Flink 1.12.pdf
2020Flink峰会报告:7-朱广彬-360ULTRON-FFA2020-TSY.pdf
2020Flink峰会报告:2.FFA_2020-Flink as a Unified Engine - Now and Next-V4(1)(1).pdf
2020Flink峰会报告:7-FFA2020_李畅_英语_compressed.pdf
2020Flink峰会报告:5.】FFA_2020-YuTeng-v03-novideo的.pdf
2020Flink峰会报告:1.FFA_2020_贾扬清_Keynote_1212.pdf
2020Flink峰会报告:(线上)张晨娅-From Spark for Batch to Flink for Stream and Batch Unification-Exploration @LinkedIn.pdf
2020Flink峰会报告:【03】李钰&唐云-Flink State-Backend Improvements and Evolution in Recent Year.pdf
2020Flink峰会报告:【02】廖嘉逸-Single Task Recovery and Regional Checkpoint.pdf
2020Flink峰会报告:5、付典 - PyFlink 核心技术剖析及应用-ZH.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆