《滴普科技数据集成产品FastData DCT架构演进与实践--刘波.pdf》由会员分享,可在线阅读,更多相关《滴普科技数据集成产品FastData DCT架构演进与实践--刘波.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023滴普科技数据集成产品FastData DCT架构演进与实践演讲人:刘波-滴普科技-FastData DataFacts PDT总经理01产品概述产品的整体介绍,是一款怎样的产品,如定位、价值主张等说明。02功能介绍模块化的功能说明,功能架构、功能模块与核心功能介绍。03技术架构演进技术架构的演进路线,先进性说明,及后续架构规划。04应用场景应用场景的说明,结合核心功能进行全链路的介绍,重点在数据传输。目录 CONTENT05成功案例典型项目的应用场景与价值说明。DataFunSummit#202301产品概述Data Fabric数据架构自2019年起,Ga
2、rtner连续4年将数据编织(Data Fabric)列为年度数据和分析技术领域的十大趋势之一。Gartner认为“Data Fabric是数据管理的未来”。Data Fabric是一种数据架构思想,包含DataOps数据工程,其中通过AI、知识图谱等智能技术,实现主动元数据治理。DCT简介DCT 1.0DCT 2.0配置化可视化组件化批流一体DCT 3.0DCT 4.0聚焦入湖入仓,出湖出仓场景,支持多引擎配置(PSC,Flink,Spark),支持批流一体,任务传输支持故障转移。致力于提供复杂网络环境下,丰富的异构数据源之间高速稳定的数据传输能力,以及繁杂的业务背景下的数据同步方案。DCT
3、(Data Collection Transform,简称DCT)支持关系型数据库、NoSQL、数据仓库(OLAP)、数据湖(Iceberg、Hudi)等数据源,可用于公有云之间、公有云与私有云之间的数据入湖入仓的结构迁移,存量数据同步和实时数据捕获同步。为企业实现数据流通,提供简单、安全和稳健的数据传输保障。产品定位:PB级数据量下高效、稳定的数据传输高速公路DCT产品是集数据迁移、数据集成、数据实时同步于一体的数据采集传输服务,解决远距离、毫秒级异步数据传输难题。为企业实现数据流通提供组件化、高可靠的数据采集服务。任务配置数据集成组件管理运维管理系统配置(数据源、引擎配置)实时采集离线采集
4、批流一体MySQLOracleHiveDLinkSQL ServerKafkaPostgre SQL DorisOceanBase DMIceberg HudiStarRocks读取源端MySQLOracleHiveDLinkSQL ServerKafkaPostgre SQL DorisOceanBase DMIceberg HudiStarRocks目标端写入产品价值异构数据源的实时融合支持 Oracle、MySQL、Iceberg、Kafka等实时增量数据捕获,基于异构语义映射实现异构数据实时融合,帮助用户提升数据流转时效性,提高数据融合、数据应用效率。整库入湖入仓,出湖出仓支持MySQ
5、L、Oracle等数据源入湖入仓,出湖出仓。快速构建湖仓内数据,打通数据孤岛,实现数据的统一管理和高效利用;为数据开发工程师和数据分析人员可以快速建立数据模型、构建应用提供数据来源。降本增效1)降本:多种架构简化场景,简化软件架构设计,降低异构数据融合成本。通过拖拉拽实现同步链路的创建,低代码,降低学习和维护成本。2)增效:无代码任务构建,提升数据集成敏捷性。支持组件自定义,提升客户业务创新效率。分布式引擎、组件级高可用保障,实时链路稳定高容错。支持关系型数据库、NoSQL、OLAP、数据湖等多种同构、异构数据源之间的结构迁移、离线同步和实时同步。使用同一套开发范式来实现大数据的流计算和批计算
6、,进而保证处理过程与结果的一致性。降低批流采集任务配置复杂度,一次配置,程序自动进行批和流的数据采集。高性能多源异构采集批流一体采集高可靠、高时效CDC机制,日志级监听,时效性有保障;支持断点续传、故障转移,保证数据传输的可靠性。组件插拔式组件插拔式管理,可自定义组件扩展,支持拖拉拽任务配置,低代码,易学易维护。低成本、高效率云原生架构单进程任务,最低1G内存,成本降到最低,支持并行度设置,有效地提高传输效率。无需调整现有架构,强兼容;基于日志,对源业务无侵入无影响,保证原业务库稳定运行。产品优势DataFunSummit#202302功能介绍基础服务数据源/逻辑组资源管理组件管理监控告警系统
7、管理数据传输任务类型离线同步实时同步批流一体采集模式一对一多对一一对多任务管理读取组件调度配置版本管理导入导出消息中心短信/电话/邮件组件配置转换组件写入组件映射规则字段映射批量映射整库映射大批量映射结构迁移分键策略分区策略分桶策略参数配置操作记录实例管理前置检测故障转移断点续传DDL变更监控大屏告警规则通知渠道Webhook数据质量BI分析/实时大屏项目空间项目配置成员管理DLink/EMR/MRS/CDH/CDP/.DCT业务应用实时数仓湖仓一体权限管理超时任务启动状态运行状态任务状态同步趋势资源消耗转移次数检查频率超时时间行数对比时延校验数值汇总对比分类分级自动标注加密解密静态脱敏数据安
8、全字符对比数值明细产品功能架构图产品核心功能1.资源管理支持界面配置多种计算&调度&存储资源类型。2.数据源管理支持界面配置多种类型数据源,测试连通性。3.组件管理将ETL能力抽象为“组件”,支持界面管理读取、转换、写入组件。4.任务配置支持按项目空间&目录进行任务管理。(1)离线数据采集:支持根据源表生成目标表建表SQL等,快速创建目标表,支持按时间周期自动调度全量/增量数据采集。(2)实时数据采集:支持通过订阅数据源Binlog等方式,无侵入实现实时增量数据采集。(3)批流一体数据入湖:支持通过一个任务实现批流一体数据入Iceberg等数据湖。5.运维监控(1)实例日志:支持根据日志层级,
9、分类查看日志信息,快速定位问题;(2)监控告警:支持钉钉、邮箱、短信、电话等多种告警方式;(3)数据质量:支持界面查看抽取总数、写入总数、运行时长等指标进行数据质量管理。资源管理数据源管理组件管理任务配置运维监控支持DCT On Local、DCT On Yarn、Spark on Yarn、DLink不同的资源调度引擎,用于不同的场景,如Yarn资源调度,满足湖仓一体、批流一体等。自研PSC调度引擎实现本地资源调度,资源消耗低。基于Yarn资源调度,通过队列隔离资源。基于Spark引擎,任务运行在Yarn里,高效稳定。基于DLink,任务运行在Yarn或者K8S里,适用于批流一体入湖场景。多
10、引擎调度DCT统一了数据格式标准和组件开发规范,支持根据需求进行自定义组件开发,开发完成后可以在页面上的组件管理界面,导入自定义的组件即可使用。扩展性-自定义组件构建任务-组件化配置、零代码开发全图形化的拖拽方式,设计各种读取、转换、写入过程。读取组件转换组件写入组件离线同步(全量&增量)全量:指源表中所有数据都传输。全量同步增量同步epdx.ep_kv:select id,code,value_str,value_numfrom epdx.old_ep_kv where etl_time$bizdate;增量:全量同步过程中或同步完成之后,源库产生的增量数据,支持通过自定义SQL引用变量获取
11、。实时同步MySQL,通过Binlog方式获取准确的数据,支持5.x及以上多版本,支持只读库权限的同步;支持断点续传。PostgreSQL,支持逻辑流复制,通过wal2json解析日志获取准确的数据;支持断点续传。Oracle,支持LogMiner读取数据库日志获取准确的数据;支持断点续传。采用基于日志的增量数据秒级获取技术(CDC),为数据仓库、大数据平台提供实时、准确的数据变化,从而使得客户可以根据最新的数据进行运营管理与决策制定。BinlogMySQLwal2jsonPostgreSQLLogMinerOracle批流一体使用同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与
12、结果的一致性。降低批流采集任务配置复杂度,一次配置,程序自动进行批和流的数据采集,便于任务管理;批流自动切换,消耗资源降低。批流资源配置Flink CDC配置丰富的监控运维实例监控业务监控支持实例级的输入、输出条数记录,平台级/项目级任务状态监控、同步数据趋势监控、资源消耗监控。可视化监控系统能够以直观的方式呈现监控画面,使得监控过程更加立体、全面,帮助监控人员更加清晰地了解监控场景,从而及时发现异常情况。新一代分布式任务调度平台,提供定时、任务编排、分布式跑批等功能,具有高可靠、海量任务、秒级调度及可运维等能力。04010203智能调度资源调度实时查看CPU、内存、I/O等资源使用情况;设定
13、任务优先级,智能分配资源。分布式跑批通过数据分片,将同一个任务拆分到不同的节点运行,实现分布式数据传输,提高传输效率。工作流调度通过可视化的工作流进行任务编排,支持Cron表达式和API。任务监控可视化运维大屏,实时监控任务状态、任务执行结果;设定重跑机制,支持原地重跑。智能调度断点续传基于WAL架构,通过定期保存CKP,出现断网情况,当网络恢复,可基于断网的定期保存检查点,实现断点续传,保证数据传输的稳定性。磁盘存储提交日志缓存磁盘存储Redo日志磁盘存储检查点提交日志所有操作记录保存在Redo日志定期保存检查点基于CKP快速恢复缓存通道当出现故障,数据传输中断,可基于CKP,快速恢复传输任
14、务的数据,高效解决数据质量问题。说明:需数据源支持断点续传机制。DataFunSummit#202303技术架构演进DCT 1.0核心功能 支持离线和实时数据同步;读写组件插件化;命令行的方式,单进程运行;支持MySQL、Oracle、SQLServer、Kafka、Hive等数据源。DCT 1.0技术架构DCT 2.0架构先进性 任务创建和配置支持界面化操作,以拖拉拽的方式进行任务开发;支持数据源管理、读写组件和转换组件的上传与下载;支持多任务并行运行。DCT 2.0技术架构DCT 3.0技术架构Manger管理端 控制创建任务以及启动停止;实时监控MasterNode是否在线。Master
15、Node主节点负责WorkNode注册上线,监控,状态维护;对提交的任务进行节点分配,任务下发,状态监控。WorkNode工作节点 负责MasterNode上报所在服务器节点的资源相关信息,接收来自MasterNode下发的任务;负责PSC启动,监控上报,结束、异常处理等整个完整生命周期。PSC(Programmable Scheduled Container)可编程调度容器 执行数据同步任务的最小管理单元,包含读取、转换、写入组件,共同组成一个同步任务;由WorkNode负责管理整个任务的生命周期。DCT 3.0架构先进性 支持分布式部署,Manager节点和WorkNode节点实现了无状态
16、化,能够独立的横向扩展,支持高可用和弹性扩缩容;实时查看CPU、内存、I/O等资源使用情况;设定任务优先级,智能分配资源;优化PSC,使得能快速地支持自定义组件扩展。DCT 3.0架构介绍DCT 4.0技术架构 优化掉了调度单点瓶颈的MasterNode节点,降低系统复杂度,提升了系统的可靠性;自主研发基于Manager结合PSC作为资源调度引擎,实现任务分片调度;WorkNode节点与PSC任务支持故障转移,使得系统具有更优的稳定性;DCT支持多种资源调度模式,能和大数据集群共享调度资源,降低硬件成本。DCT-on-Local模式:Local模式支持以工作节点作为任务运行的资源,不需要依赖外
17、部资源;DCT-on-Yarn模式:支持在Yarn集群运行;DCT-on-Spark模式:使用Spark引擎,以Yarn作为资源调度运行任务;DCT-on-DLink模式:使用DLink湖仓引擎,以Yarn或K8S作为资源调度运行任务。DCT 4.0架构先进性DataFunSummit#202304应用场景将业务库MySQL中的数据入湖,快速构建湖仓一体。仅需简单的四步,即可完成从基础配置到实例运维的全流程闭环。实例运维新建入湖任务配置资源配置数据源连接信息授权项目资源参数运维文件组件配置映射配置实例监控配置查看场景|整库入湖新建入湖任务配置数据源配置资源实例运维 新建MySQL数据源作为采集
18、源端,配置连接信息与用户信息。数据源连通性对网络连通性、数据库连接、数据库权限进行验证,通过授权指定项目空间。场景|整库入湖-配置数据源新建入湖任务配置数据源配置资源实例运维 选择DLink资源作为采集的资源调度引擎。湖内Catalog信息获取,作为目标端。运维文件上传(CDC jar上传)场景|整库入湖-配置资源新建入湖任务配置数据源配置资源实例运维 选择读取组件MySQL作为采集源端,写入组件Iceberg_DLink作为目标端。配置任务基础信息,例如:Flink重启策略配置、Checkpoint、并行度、日志存储等。分别配置批资源、流资源,实例运行自动切换。可根据源表结构,自动生成目标表
19、结构,支持预览、编辑、批量创建。前置检测通过后,启动任务。场景|整库入湖-新建入湖任务新建入湖任务配置数据源配置资源实例运维 支持查看实例状态、同步数量、异常记录等。通过查看实例配置,二次检验是否符合同步配置。场景|整库入湖-实例运维DataFunSummit#202305成功案例解决方案客户背景滴普服务:统一数据集成工具:滴普DCT提供统一的多源异构数据库实时同步+离线同步工具,支持结构化数据、半结构化数据实时汇聚。实时湖仓架构升级:滴普DLink实时湖仓引擎集成到勘探开发云平台,提供数据实时计算、联邦查询等高级特性。某能源公司是以油气业务、工程技术服务、石油工程建设、石油装备制造等为主营业
20、务的综合性国际能源公司,是中国主要的油气生产商和供应商之一。勘探开发平台是国内油气行业首个智能云平台,其依托数据湖和PaaS技术实现勘探开发生产管理、协同研究、经营管理及决策的一体化运营,支撑勘探开发业务的数字化、自动化、可视化、智能化转型发展。客户需求:由离线数仓升级为新一代实时湖仓提升油田勘探开发数据的服务时效性,原有数据需要T+1才能从数据源端到达数据服务端。全量油田数据入湖,油田边缘计算设备的时序数据需要实时上传入湖,原有离线数仓不支持数据快速去重能力,导致时序入湖性能达不到要求。八大油气数据应用场景地震钻井测井化验油藏生产作业 油田11大类数据源,通过边缘计算设备计算并上传滴普数据集
21、成DCT勘探开发云平台区域湖(B油田)区域湖(A油田)共享交换共享交换集团主数据湖滴普实时湖仓引擎DLink流式计算联邦查询调度引擎集团主数据湖与16家油田区域湖组成中国最大油气行业数据湖,数据覆盖50万+口井,4万多站库,8000+工区,5PB数据实时数据服务油气勘探油气开发协同研究生产运行经营决策安全环保工程技术油气销售某能源企业:集成滴普实时湖仓,油田数据服务时效性大幅提升数仓模数据源A1 勘探与生产技术A2 油气水井生产A5 采油与地面工程运行主数据A11 油气生产物联网A8 勘探与生产调度指挥实时湖仓DCT 数据集成Kafka 数据总线贴源ODS治理EPDM共享EPDM-XIcebe
22、rgFlink 计算集群ClickHouse(EPDM-X)实时计算应用服务Flink CDC入湖联邦查询统一数据服务接口APITrino分析引擎离线分析批量入湖DS离线调度Trino任务全量同步现有系统/模块新增系统/模块数据链路图例勘探开发云平台:勘探开发云平台新架构数据源数据湖边缘设备OraclePGMongo离线数仓OpenTSDB时序数据库KafkaQDSDatapipelineX离线同步实时同步没有工具支持单独链路XKafka 集群边缘设备OraclePGMongoDCT集群OpenTSDB时序数据库实时湖仓滴普数据集成组件DCT支持异构多模数据的同步/离线接入,作为统一数据入湖工
23、具,降低数据集成过程的复杂度。集群架构进一步提升容错性。离线+实时数据插件30+种,且不断增加中成果:异构多模数据通过统一数据采集架构入湖,优化运维成本数据湖应用层Oracle贴源层治理层资产层ClickHouseOracle贴源层治理层资产层ClickHouse从原批量导入+定时任务跑批架构升级为实时采集+实时计算的架构,数据时效从T+1升级为T+0。离线跑批离线跑批定时调度流批流批流式任务实时处理生产环境日志表日数据量峰值2亿条,按照2/8原则9200条/秒。实测入湖速度峰值到2.5万条/秒。数据湖数据入服务数据库ClickHouse,1100条/秒(北京-克拉玛依,跨机房)成果:数据入湖
24、、湖仓内模型处理速度大幅提升,时效升级为T+0升级前升级后硬件资源年维护成本(年)25%数据资产构建与业务价值项目背景及目标某大型时尚及运动产业集团,涵盖鞋类、运动和服饰3大业务,旗下拥有20多个品牌,是Nike、Adidas等国际运动品牌在华关键零售伙伴,在中国300多个城市拥有自营门店近20,000家。需求1:业务全链路数字化 希望建设自上而下商品管理策略,进行全流程商品数字化管理,及时呈现品牌运营状态需求2:实现数据标准化 希望基于标准岗位构建商品跟踪和分析体系,实现数据应用标准化、移动化需求3:实现运营智能化 希望实现商品订铺补迭调智能化,提升商品运营管理效率1、咨询设计2、数据基础能
25、力建设3、数据资产应用DIC:数字化转型咨询:就业务概念中的核心角色、价值逻辑、联动关系、业务元素等进行梳理和可视化呈现,帮助在共建团队之间达成三个核心目标:1、统一思想,建立共识 2、指导数字化工作开展 3、业务可持续演进FastData:搭建企业数据资产管理平台,建立指标体系、标签体系、模型算法,实现数据赋能业务底层数据平台升级统一全域数据实时分析高精准销量预测模型自主决策,智能运营滚动销量预测,精准率90%2.5PB数据量,500GB/每天新增,查询性能提升 30%门店商品主推智能播报,效率提升30%业务核心链路上,不再完全依赖于人力自主决策与执行HiveSpark离线计算Flink核心
26、大数据组件升级,实现数据T+0实时分析查询30+算法模型85基础商品标签64基础渠道标签940数据字典/指标注:全量标签数=基础标签数*SKU数某零售企业:构建围绕“货”“店”数据智能运营体系建设实施业务价值场景数据解决方案FastData数据平台基础底座FastData数据资产管理运营平台全域数据源业务库门店视频/IoT电商平台/舆情系统数据私有云+公有云内部数据外部数据天气/高德等一站式数据治理和数据服务平台指标体系商品八大业务场景经营计划补货迭代商品企划OTB采购管理货品首铺调拨调价下沉降解流批一体数据分析引擎PB级数据存储云原生架构识别服务统计服务分析服务预警服务决策服务商品域零售域交
27、易域财务域标签体系商品体系渠道体系门店体系模型尺码拆分模型商品等级模型门店等级模型店货匹配模型单品销售预测模型商品相似度模型商品畅滞销模型库存分析模型预测工具指标和标签赋能百丽补货平台升级DIC咨询设计某零售企业:基于FastData湖仓一体架构优化成本,性能和效率DCT数据集成问题:客户多个业务系统,多种数据库类型;底层需接入多个组件实现数据离线、实时同步,技术复杂度高,稳定性差,采购多套商业软件,费用高,资源消耗大。价值:统一数据入湖工具,降低数据集成过程的复杂度,减少维护成本,资源使用大幅减少。集群架构,高可用,支持故障转移,进一步提升容错性,提高可靠性。数据入湖速度、湖仓内模型处理速度大幅提升,数据服务时效从T+1升级为T+0。运行情况:1.DCT任务2000+,并发任务500+,平日数据量约为1亿+;峰值3万条/秒;2.DCT生产环境运行2年,运行稳定,无数据丢失;2.DCT扛住618、双11、双12的压力(数据量为平日3-5倍),无崩溃,无数据丢失,数据延迟2秒;3.DCT实时同步速率约80MB/s,日最高承受数据量达20TB。某零售企业:数据中台联合共创,全面提升业务效率感谢观看