数据集成指的是通过一定的规则,对多种异构的数据源提供统一的表示、存储和管理,通常通过将数据进行转换处理,使其标准化来实现异构数据的集成,即将不同的数据模型或不同数据源发送出来的数据转换成具有相同标准的数据,使其在逻辑上统一,屏蔽多种异构数据源间的差异。以下将主要介绍常见的数据集成技术和数据集成工具。
1 数据集成技术
(1)提取、转换和加载(ETL):在此过程中,收集、转换来自各种源系统的数据,并将其加载到目标目的地,如数据仓库或数据库。
(2)提取、加载和转换(ELT):在这个过程中,数据被导入到大数据系统,通常是数据仓库,然后转换为特定的分析目的。
(3)更改数据捕获(CDC):这是一个实时检测数据库中数据更改并将其应用于数据仓库或其他存储库的过程。
(4)企业数据复制(EDR):这是一种实时数据整合方法,其中数据集从一个数据库移动到具有相同模式的另一个数据库,以维护出于操作和备份目的同步的信息。
(5)企业信息集成(EII):EII是一种技术,它使开发人员和业务用户能够将多个数据源视为一个数据库,并以新的方式呈现传入的数据。
(6)数据虚拟化:在这个过程中,来自不同系统的数据实际上被合并以提供统一的视图,而不是将数据放入新的存储库。
(6)流式数据集成:它是一种实时数据集成方法,可不断将各种数据流集成并馈送到分析系统和数据存储中。
2 数据集成工具
(1)Hevo数据
Hevo是完全管理的无代码数据管道平台,能够以轻松的方式将100多个不同来源的数据实时集成并加载到数据仓库/数据库或您选择的目的地。具有最小学习曲线的Hevo可以在几分钟内建立起来,允许用户加载数据,而不必影响性能。
(2)Matillion
Matillion是一个基于云的ETL平台,它通过提取、迁移和转换云中的数据来实现数据旅行。这有助于从数据中提取可操作的见解,并做出更好的决策。
(3)Fivetran
Fivetran提供基于完全管理的ELT体系结构的自动化数据集成。Fivetran的幂等核心体系结构使其能够适应数据故障和数据重复,同时最大限度地降低计算成本。
以上是关于数据集成工具及技术的相关知识,更多信息请关注三个皮匠报告的行业知识栏目
推荐阅读:
数据集成是什么意思?方法有哪些?数据集成三种方法介绍
数据库安全的内容、要求及技术介绍
什么是云数据库?分类有哪些?主要云数据库介绍
2020年通过数据集成和人工智能绘制贫困地图:亚太地区关键指标补充 - 亚洲开发银行(英文版)(45页).pdf