《1-1 从数据集成到现代数据栈.pdf》由会员分享,可在线阅读,更多相关《1-1 从数据集成到现代数据栈.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、徐榜江(雪尽)Flink CDC Maintainer&Apache Flink Committer|从数据集成到现代数据栈01数据集成02数据集成工具03现代数据栈04现代数据栈实践目录|数据集成Data Integration01|n数据集成数据集成是将多个分散的数据源,在逻辑或物理上有机地集中,为企业解决数据孤岛问题,通过统一的数据视图为企业提供决策支持。n目的数据集成的目标是对数据进行集成,最早的数据集成系统可以追溯到1991年,明尼苏达大学在构建人口数据库系统IPUMS1时,使用了一种数据仓库方法,从不同的数据源中进行数据提取、数据转换并加载到一个统一的模式中,实现了数据集成。1 h
2、ttps:/en.wikipedia.org/wiki/IPUMS数据集成(Data Integration)|n数据仓库数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策1。数据仓库之父 Bill Inmon 于1990年定义n与数据集成关系数据仓库的首要目的是数据集成,将多个分散的、异构的数据源在逻辑或者物理上整合在一起,便于后续分析。数据仓库(Data Warehouse)|n数据湖数据湖这个概念最早于2011年提出1。数据湖是一个集中式存储
3、,用于存储、处理大量结构化数据、半结构化数据、非结构化数据,它可以以原生格式存储数据,并处理任何转换格式。Google Cloud 的数据湖定义n与数据集成关系数据湖的首要目的也是数据集成,将多个分散的、异构的数据源的所有原始数据整合在一起。数据湖与数据仓库主要区别在于:数据湖的存储成本更低,无需提前定义数据的schema。1 https:/en.wikipedia.org/wiki/Data_lake数据湖(Data Lake)|ETL计算(T)?装载(L)采集(E)?ETL 是数据集成的主要步骤,即:数据接入(Extract)数据清洗、打宽(Transformation)数据入仓、入湖(L
4、oad)数据集成工具Data Integration Tool02|数据集成工具(Data Integration Tool)Gartner 数据集成工具魔力象限2022|数据集成工具lakeFS data engineering 2022 map|数据集成工具Stitch(Talend收购)FivetranAirbyteFocusData ingestion,ELT.Data ingestion,ELTELT as a first step.Reverse-ETL coming in 2022.SourcesMore than 130.More than 150.More than 120,
5、one year from inception.Goal is 200 by end of 2021.DestinationsAll major data warehouses,lakes and databases.All main warehouses and databases.All data warehouses,lakes and databases.Customizability of connectorsStitchs Import AI enables their users to push data from anywhere to their destination.Li
6、mited through Fivetrans Cloud functions.User can edit any pre-built connectors and build new ones within 2 hours with Airbytes Connector Development Kit.Database replicationFull table and incremental via change data capture.Pricing is indexed on rows.Full table and incremental via change data captur
7、e.Pricing is indexed on rows.Full table and incremental via change data capture.Pricing adapted for this use case.Integration with data stackNo.Supports dbt transformations.Integrate deeply with Kubernetes,Airflow and dbt.Airbytewill soon integrate with Prefect,Dagster,Great Expectations,and more.In
8、tegrations can be contributed by the community.Support SLAsAvailableAvailableAvailable|ETL vs ELTETLELT|ETL vs ELTFivetran 2019年提出 Modern ELT 口号现代数据栈Modern Data Stack03|n数据栈数据堆栈是一组对原始数据进行提取、转换和存储的技术或工具的组合,这些工具可以让数据工程师和分析师能够提取和清洗数据,将原始数据转换为有价值的数据并存储,然后根据需要进行分析。n意义原始的数据往往是不能提供给数据工程师和分析师直接消费的,数据栈可以完成抽取
9、原始数据,转换为有价值的数据并进行存储,让数据变得可消费,可分析,从而实现数据驱动业务。数据栈(Data Stack)|n现代数据栈现代数据栈是在数据栈的基础上,使用创新的或基于云上数仓/湖的工具或技术的组合,现代数据栈构建在云上,比传统数据栈更容易访问和扩展。n意义现代数据栈基于云上构建的特点,具备传统数据栈很难具备的弹性和扩容优势,现代数据栈层次清晰有利于垂直领域的工具形成标准的SaaS服务,而SaaS 服务可极大地降低了运维和管理成本。现代数据栈(Modern Data Stack)|现代数据栈围绕 Fivetran 的现代数据栈|现代数据栈围绕 Airbyte 的现代数据栈|现代数据栈
10、|速度相比传统数据栈,现代数据栈基于云的工具的弹性和扩容能力更加先进,执行同样的工作速度通常会更快。成本基于云的解决方案不需要关心硬件和平台维护,降低了开发运维成本。自动化云上的全托管和自动化服务简化了数据集成流程,减轻了用户负担。易用性现代数据栈中的工具都很容易使用,用户不需要理解底层技术细节现代数据栈优势现代数据栈实践Build Modern Data Stack04|现代数据栈实践(Build Modern Data Stack)不同公司的(现代)数据栈|现代数据栈实践围绕 Flink CDC 的数据集成|现代数据栈实践全量读取全量读取流式读取流式读取CDC CDC 流式读取流式读取维度
11、关联维度关联流式写入流式写入CDC CDC 写入写入数据库(MySQL,PostgreSQL,etc.)N/A(Flink CDC)消息队列(Kafka,etc.)数据湖(Hudi,Iceberg,etc.)数据仓库(Hive,etc.)N/AKV 数据库(HBase,etc.)N/AN/AFlink 集成能力|现代数据栈实践围绕 Flink CDC 的传统数据栈|现代数据栈实践围绕 Flink CDC 的现代数据栈?装载(L)?采集(E)计算(T)?Flink?|现代数据栈实践围绕 实时计算 Flink CDC 的现代数据栈?装载(L)?采集(E)计算(T)?Flink?|现代数据栈实践围绕 实时计算 Flink CDC 的现代数据栈实时计算Flink版?非常感谢您的观看|