《基于 OceanBase 阿里云 DataWorks 构建一站式数据集成、开发和数据服务_罗海伟.pdf》由会员分享,可在线阅读,更多相关《基于 OceanBase 阿里云 DataWorks 构建一站式数据集成、开发和数据服务_罗海伟.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、构建一站式数据集成、开发和数据服务罗海伟阿里云高级技术专家基于 OceanBase 阿里云 DataWorks01 DataWorks 介绍介绍阿里云 DataWorks 历史发展、模块架构等02 DataWorks OceanBase 数据集成原理介绍 DataWorks 针对 OceanBase 的数据集成原理,以及后续规划03 在 DataWorks 中做 OceanBase 数据集成、开发示例介绍在 DataWorks 中,基于 OceanBase 做数据集成、开发、服务案例演示Contents目录DataWorks 与数万家企业数字化转型一路同行DataWorks 是一站式智能化数据
2、开发与治理平台,支持 MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP 等大数据引擎,为企业构建现代数据仓库、数据湖以及湖仓融合数据架构提供数据平台产品解决方案。作为阿里巴巴大数据平台建设者,DataWorks 从 2009 年起不断沉淀阿里巴巴大数据建设方法论并产品化,同时与数万家政务/金融/零售/互联网/能源/制造等阿里云客户携手,助力企业数字化升级。非最新数据https:/ 产品模块架构数据治理业务场景开放平台政务云/城市大脑行业数据中台用户增长/分析/营销智能搜/推/广车联网/智能制造数据报表/大屏数据分析与应用开放接口开放消息开放数
3、据扩展点与扩展程序数据质量质量规则模板智能规则推荐动态规则阈值离线表、消息通数据资产地图元数据采集数据目录和检索全链路数据血缘影响分析数据安全数据权限管理数据分级分类隐私数据保护风险预警访问审计数据治理中心检查器(事前预防)治理项(事后发现)问题处理方案健康分评估模型规范设计数仓规划数据标准数据指标维度建模ER建模(Datablau)数据开发离线/实时/交互式分析/AI一体化集成开发环境任务统一调度任务运维和监控数据分析自助分析电子表格Notebook数据服务低代码化数据API构建服务编排API网关计算存储引擎阿里自研大数据计算服务(MaxCompute)交互式分析引擎(Hologres/An
4、alyticDB)开源数据湖计算平台(E-MapReduce)其他数据平台等(CDH/CDP/StarRocks/OceanBase)数据集成全量同步增量同步实时同步整库迁移分库分表同步数据转换DataWorks 数据集成平台包含功能异构数据存储、可靠、安全、低成本、可弹性扩展的数据同步平台离线/实时全覆盖繁多异构数据源安全控制运维监控支持复杂网络同步解决方案10PB+/每日数据同步数据集成 OceanBase 批同步原理基于数据库JDBC协议或数据源SDK进行读写OceanBase 源端jobsplittask1task2task3task4select min(select min(spl
5、itPksplitPk),max(),max(splitPksplitPk)from table)from tableDataX/DataXCDCReaderWriterBuffer Pooltaskthreadthreadselect c1,c2,from table where splitPk=min1 and splitPk=min1 and splitPk 云数仓同步典型场景:OceanBase 中存储面向OLTP数据,数据汇聚到数仓平台(MaxCompute、Hologres等)挖掘数据价值一键实时同步至MaxCompute:https:/ MySQL/MaxCompute-Ocea
6、nBase 同步典型场景:OceanBase 汇总存储分析型数据做OLAP分析;OceanBase 存储分享结果数据支撑数据服务和数据应用https:/ OceanBaseStep3:在 DataWorks 中对 OceanBase 数据执行分析典型场景:配置和编排ELT数据处理工作流,帮助企业构建离线数仓、实时数仓与即席分析系统智能SQL IDE与可视化工作流编排AI加持SQL编辑器,智能提示,拖拽式构建数据工作流稳定高效的调度系统自动解析任务依赖,千万级日调度能力,细粒度调度周期控制智能监控与运维诊断围绕任务运行的全链路给出诊断建议,快速定位原因Step4:在 DataWorks 中开发
7、OceanBase 数据服务使用场景:帮助企业统一创建和管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”零代码零运维多数据源弹性扩展蚂蚁银行新加坡分行:实现大集群模式的高效运维管理 OceanBase 通过灵活的部署模式,以及多租户架构,实现大集群模式的高效运维管理 私有化部署导致建站人力投入以及时间成本巨大TP+AP 技术栈分离,增加数据安全风险大量实例同时带来与日俱增的运维成本 业务挑战OceanBase SaaS 化复制能力,加速建站进程 松耦合的分布式架构,无需改变使用习惯,适用不同业务的需求 OceanBase 即时分析能力,提高在线核对效率以及准确度,把控资金风险客户收益通过 OceanBase 云化服务开箱即用减少部署周期以及运维成本消耗。并且通过OB 3.0 HTAP引擎,优化的整体的数据库链路架构,保持技术栈统一解决方案HTAP降本增效公有云MaxComputeDATAWORKSAPP在线分析实时同步小时增量/增量累计数据回流离线分析联机交易OceanBase 3.0DataWorks全链路大数据开发治理平台钉钉交流群产品官网:https:/