上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

4-1 数据集成平台 - SeaTunnel V2 架构演进.pdf

编号:101925 PDF 30页 4.12MB 下载积分:VIP专享
下载报告请您先登录!

4-1 数据集成平台 - SeaTunnel V2 架构演进.pdf

1、|新一代数据集成平台Apache Seatunnel(incubator)高俊 白鲸开源 架构师|2关于我开源爱好者开源爱好者10年大数据相关工作,主要从事大数据平台建设、OLAP引擎设计研发工作。开源爱好者,参与多个开源项目的贡献。Apache DolphinScheduler PMCApache SeaTunnel(incubator)ContributorTrino ContributorApache Arrow-Datafusion Contributor|01SeaTunnel的设计目标02SeaTunnel现状03SeaTunnel整体设计目录CONTENT|04近期规划|01Se

2、aTunnel设计目标数据源多数据源多数据源多达百种,版本间不兼容,且不断有新的出现简单易用的,分布式可扩展的支持超数据级的简单易用的,分布式可扩展的支持超数据级的吞吐低延时的数据集成平台。吞吐低延时的数据集成平台。资源使用高资源使用高频繁读取 binlog 对数据源端影响事务、Schema 变更影响下游低吞吐时延导致数据法及时到达技术栈复杂技术栈复杂企业技术栈差异,导致选择同步组件时需要更多的学习成本。质量和监控质量和监控数据丢失与重复,法致性出现问题法回滚或者断点继续执同步过程不透明,缺少监控管理维护难管理维护难离线同步和实时同步常被分开管理,维护困难数据割接进SeaTunnel的设计目标

3、|02SeaTunnel现状|SeaTunnel现状连接器数量支持的连接器有50+支持数据源Source20+支持目标端Sink 20+支持Transform 10+|同个连接器,只需要在env配置中指定job.mode为BATCH或STREAMING即可轻松切换离线和实时同步两种模式。支持离线同步和实时同步两种式支持离线同步和实时同步两种式流批体流批体只需要实现只需要实现个连接器个连接器适配纯流和适配纯流和微批微批SeaTunnel现状流批一体|多引擎支持多引擎支持SeaTunnel多引擎支持为了更好的兼容企业已有的技术态,降低使用SeaTunnel的技术成本.已经支持的引擎支持多个版本的F

4、link引擎,完美支持Flink的Checkpoint流程Flink支持Spark微批处理模式,支持聚合提交特性Spark专为数据同步场景设计的引擎,还在开发中。SeaTunnel内部引擎,为那些没有数据态的企业或追求数据同步最佳体验的用户提供可选案SeaTunnel EngineSeaTunnel现状多引擎支持|高吞吐高吞吐低延迟低延迟精确性精确性SeaTunnel支持Source/Transform/Sink的并行化处理,提高吞吐性能基于引擎提供的实时处理或微批处理实现低延迟分布式快照算法支持两阶段提交幂等写入Exactly-OnceSeaTunnel现状性能、一致性|SeaTunnel

5、社区现状|SeaTunnel 用户|03SeaTunnel整体设计|Engine independent Connector APIConnector TranslationSource ConnectorTransform Connector多引擎支持,多引擎支持,Spark/Flink/?Sink Connector0SeaTunnel整体架构|SeaTunnel 使用方式|SeaTunnel Execution Flow|SeaTunnel Connector Flow|流批体流批体统了流和批的处理API,新的Connector只需要按API实现次,即可同时支持流处

6、理和批处理下的数据集成。03JDBC多复用多复用/数据库日志多表解析数据库日志多表解析支持多表或整库同步,解决JDBC连接过多的问题;支持多表或整库数据库日志读取解析,解决CDC多表同步场景下需要重复解析日志的问题。04与引擎解藕,专为数据集成与引擎解藕,专为数据集成场景设计场景设计.多引擎支持多引擎支持定义套SeaTunnel自的API,解决以往针对不同的处理引擎需要写两套不同的Connector的问题,实现套代码可在不同的引擎上执。01多版本支持多版本支持通过Translation层将Connector与引擎解藕,解决以往为了支持底层引擎个新的版本,部分Connector都需要修改代码的问

7、题。02Engine independent Connector API|SeaTunnelConnectorSparkTranslationFlinkTranslation基于基于SeaTunnelConnector API实现实现基于基于Spark Connector API,将,将SeaTunnel API实现的实现的Connector包包装成装成Spark Connector基于基于Flink Connector API,将,将SeaTunnel API实现的实现的Connector包装包装成成Flink ConnectorSparkConnector可以运在可以运在Spark上的上的

8、Connector,内部已经实现了从内部已经实现了从SeaTunnel Row转换成转换成Spark数据结构的法数据结构的法FlinkConnector可以运在可以运在Flink上的上的Connector,内部已经实现了从内部已经实现了从SeaTunnel Row转换成转换成Flink数据结构的法数据结构的法Connector Translation|Source APIKeywordSource特性特性KeywordSource API统一离线与实时统一离线与实时API支持并行读取支持并行读取支持动态发现分片支持动态发现分片支持协调读取支持协调读取支持状态存储、恢复支持状态存储、恢复Boun

9、dednessSourceReader&Source SplitSource Split&EnumeratorSupportCoordinate&SourceEventsnapshotState|CoordinatedSource Connector1.支持协调器2.只支持一个并行|ParallelSource Connector1.支持多并发2.需要定义分区算法|配合配合Source支持支持Exactly-Once次语义次语义Sink Write接收上游数据并写目标端State储存储存支持状态存储,由connector将状态存储在HDFS,支持基于状态重启connector分布式事务分布式事

10、务支持两阶段提交的分布式事务,配合引擎的checkpoint机制,保证Sink数据只写次commiter支持每个Task独立进事务提交聚合提交聚合提交支持所有Sink Task起聚合提交Sink API|GlobalCommit Run In DriverSpark version=2.3+Or Flink version=1.12|GlobalCommit Run In WorkerFlink version=1.11|Commit In Worker支持所有版本的Flink不支持Spark|面向应用的面向应用的API,简化同步作业配置,简化同步作业配置,提供可视化作业配置的基础提供可视化作

11、业配置的基础数据源管数据源管理理SeaTunnel定义了套API来支持创建数据源插件,基于SPI实现后即可集成该数据源的配置、连接测试作。元数据获元数据获取取支持获取数据源的表结构(库名、表名、字段名、字段类型等),便可视化的配置同步作业的源和目标端的表名映射,字段映射等。数据类型定数据类型定义义由于需要支持多引擎,所有连接器中都使用SeaTunnel的格式,在ConnectorTranslation会转换为对应引擎的格式。连接器创连接器创建建SeaTunnel提供了套API用于创建自动获取信息创建Source,Sink等实例。SeaTunnel Table&Catalog API|04SeaTunnel近期规划|更多、更快、更好用更多、更快、更好用V2版本连接器数量翻倍到版本连接器数量翻倍到所有Spark/Flink连接器升级到V2版本。连接器总数今年翻倍,达到80+发布发布SeaTunnel Web可视化作业管理编程式和引导式作业配置。内部调度+三调度发布发布SeaTunnel Engine更省资源更细粒度的容错更快SeaTunnel 近期规划过程监控|非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-1 数据集成平台 - SeaTunnel V2 架构演进.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部