《基于阿里云构建博学谷平台实时湖仓.pdf》由会员分享,可在线阅读,更多相关《基于阿里云构建博学谷平台实时湖仓.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、基于阿里云构建博学谷平台 实时湖仓赵晨杰黑马程序员技术专家Based on Ali Cloud to build Erudite Valley platform real-time lake warehouseContents目录01项目背景02架构演变03技术选型04实践环节项目背景New Future on Cloud New Future on Cloud New Future on Cloud01项目 背景第一家A股IPO的教育企业以就业为导向职业教育集团,旗下黑马程序员,博学谷,大同互联网大学等项目 背景博学谷作为传智教育旗下IT在线学习平台以博学谷实际业务为背景,基于阿里云构建博学
2、谷平台实时数仓架构演变New Future on Cloud New Future on Cloud New Future on Cloud02博学谷大数据平台 版本变迁V1.0V2.0V3.0Debezium Pulsar ClickhouseV1.0阿里云平台 Flink CDC FlinkPaimonStarRocksV3.0阿里云平台Flink CDC FlinkHologresnextFlink CDC Flink Hudi DorisV2.0博学谷大数据平台 1.0版l数据源Mysql的数据使用Debezium工具单机同步至Pulsar七陌及诸葛智能的数据采用Http的方式同步至P
3、ulsarl数据处理中间无处理,数据最终在Clickhouse中进行处理l数据存储Clickhouse直接消费Pulsar的数据,写入到Clickhouse中博学谷大数据平台 1.0版Debezium仅能单机部署,只能单并发读取binlog日志Clickhouse存储的是大量明细数据,会导致Clickhouse变得臃肿Pulsar与Clickhouse之间缺少数据的处理过程Clickhouse单表查询性能强劲但多表join性能相对较差缺乏数仓分层的概念和支撑MySql业务数据库l数据源使用Hudi存储原始数据使用Doris存储宽表数据做查询分析l数据存储实时计算:使用Flink/Flink-S
4、QL进行实时数据处理l数据计算使用Flink CDC2.2作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用Doris灵活用于自定义数据分析l数据分析博学谷大数据平台 2.0版通过Hudi仅能实现准实时Hudi延时较高流式日志数据未纳入基于开源组件部署维护不方便博学谷大数据平台 2.0版架构博学谷大数据平台 3.0 技术选型基于Flink CDC的数据采集方案支持丰富的连接器 项目使用Flink CDC采集MySQL的业务库实时数据Kafka和Paimon的数据下沉使用Kafka实现实时数仓分层 通过Paimon将Kafka数据持久化保存基于FlinkSQL流批一体架构Fli
5、nkSQL支持窗口、水印、容错机制 项目使用FlinkSQL集成FlinkCDC完成数据处理StarRocks与DataV数据可视化项目基于StarRocks实现实时OLAP分析 使用DataV完成业务大屏展示博学谷大数据平台 3.0 技术选型ECS(Elastic Compute Service)低成本高性能高可靠云服务器ECS一种全托管Serverless的Flink云服务高性能计算引擎阿里云实时计算FlinkStarRocks是基于EMR之上OLAP分析引擎实时OLAP分析引擎StarRocks内置丰富上下游连接器助力企业数据应用数据计算全栈开发Flink CDC&FlinkSQL支持高
6、吞吐的写入和低延迟的查询流批统一的湖存储Paimon阿里云BI可视化产品,满足多种业务展示需求数据可视化Data VMySql业务数据库l数据源使用paimon存储原始数据使用StarRocks存储宽表数据做查询分析数据存储实时计算:使用Flink/Flink-SQL进行实时数据处理数据计算使用Flink CDC作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用StarRocks灵活用于自定义数据分析数据分析博学谷大数据平台 3.0 架构 流批一体基于Kafka和Paimon实现流批一体架构服务上云基于阿里云平台方便组件部署维护阿里云Flink版100%兼容Apache Fl
7、ink2倍性能提升拥有Flink CDC动态CEP等企业级增值功能博学谷大数据平台 3.0版 特点联合阿里云、Apache Flink共建Flink训练营Tips:扫码获取课程链接:相关资源和课程贡献博学谷大数据平台 优化架构MySql业务数据库l数据源使用Hologres存储原始数据l数据存储实时计算:使用Flink/Flink-SQL进行实时数据处理l数据计算使用Flink CDC作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用Hologres从库用于实时看板、实时查询等l数据分析技术选型New Future on Cloud New Future on Cloud N
8、ew Future on Cloud03项目平台 选型开源自建优点1.完全开源免费2.社区活跃3.文档、资料详实1.版本管理比较混乱2.集群安装部署复杂3.集群运维复杂缺点1.弹性扩展能力强2.高效,稳定3.集群运维简单1.企业使用需要收费优点缺点平台PK开源自建 vs 阿里云项目平台 选型中小型企业更多使用快速搭建大数据平台 完成业务迁移方便运维和集群管理节省了运维的成本和自建机房的成本方便后期维护安全稳定分布式存储 多副本策略结论 选择基于阿里云大数据平台New Future on Cloud项目平台 选型阿里云实时计算Flink版是一套基于Apache Flink构建的一站式实时大数据分
9、析平台。阿里云Flink提供端到端 亚秒级实时数据 分析能力并通过标准SQL 降低业务 开发门槛助力企业向 实时化、智能化 大数据计算升级转型什么是 阿里云实时计算Flink版阿里云Flink平台 在控制台上进行SQL作业开发 模版中心(20+),加速作业开发 开发过程,SQL语法的正确性检查 更清晰地展示资源使用情况 Catalog元数据管理和引用Step1-业务开发1 用session集群来临时运行作业 控制台预览结果表的数据 调式数据生成Step2-调试测试 作业提交启动作业 资源配置建议与自动调整 全新流批启动模式 状态集的生命周期管理 资源设置:资源配置建议 20+作业诊断规则及风险
10、提示Step3-运行运维一站式 开发运维平台23阿里云Flink平台流批一体的 作业开发与运行4稳定高效运行,批性能与Spark 3.2基本持平作业运行3支持批流混合调度作业调度2资源与其他运行参数配置流批作业不区分作业配置1完全一套代码,核心逻辑无需进行修改代码开发从开发到运行的 流批 统一 统一Pipelined Region调度 统一Shuffle Service插件接口统一ConnectorStream ModeBatch ModeDataStream APITable/SQL APIRuntimeExecution ModeAPI阿里云Flink平台一分钟上手 IDE Flink S
11、QL 一等公民内置SQL函数,鼠标悬停提示SQL语法校验,完善的错误提示SQL作业版本管理、不同版本的对比SQL Web-IDE 可视化编辑器SQL DDL 声明SchemaUDF 上传、管理支持内置/外部Catalog管理表信息支持文件夹和编辑锁支持用户自定义UDF上传、使用和管理同时支持Datastream Jar与PyFlink提交Flink SQL 纯SQL开发 简单易用 专注业务 Flink CDC 基于数据库日志的 Change Data Caputre 技术。阿里云Flink CDC什么是 Flink CDC实现了全量和增量 的一体化读取能力借助 Flink 优秀 管道能力 和丰
12、富上下游生态支持捕获 多种数据库变更,并将这些变更实时同步 到下游存储阿里云Flink CDCFlink CDC 核心技术 Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse)。阿里云 Hologres提供端到端 亚秒级实时数据 分析能力并通过标准SQL 降低业务 开发门槛助力企业向 实时化、智能化 大数据计算升级转型什么是 阿里云HologresHologres 核心特性 Hologres支持行存、列存、行列共存等多种存储模式和索引类型,同时满足简单查询、复杂查询、即席查询等多样化的分析查询需求。Hologres使用大规模并行处理架构,分
13、布式处理SQL,提高资源利用率,实现海量数据极速分析。多场景查询分析1 针对实时数仓数据更新频繁、数据模型简单和分析场景敏捷特性,Hologres支持高并发实时写入与更新,支持事务隔离与原子性,数据写入即可查。原生实时数仓2 支持计算负载、访问权限等细粒度管控要求,提供丰富监控和告警指标,支持计算资源弹性扩展,支持系统热升级,满足企业级安全可靠的运维需求。企业级运维能力3 兼容PostgreSQL生态,与大数据计算引擎及大数据智能研发平台DataWorks无缝打通。无需额外学习,即可上手开发。生态与可扩展性4阿里云 Hologres博学谷大数据平台 优化架构阿里云平台阿里云实时计算Flink版
14、Hologres 实际业务中,Hologres 的写入能力达到百万行+/秒,业务就能快速拿到数据并查询。通过 Hologres 多子实例的部署方式,天然的就支持了实时数仓的多个查询场景,统一了数据的出口,简化了数仓的使用。百万级写入和毫秒级查询能力1 实时数仓底座升级 Hologres 后,无需维护多套系统 减少了数据冗余降低成本近百万/年 很大程度减少了我们在运维层面上的压力 做到很好的一个资源伸缩和成本控制减少运维压力23博学谷大数据平台 架构优势基于阿里云构建数据治理平台数据隐私计算基于PAI平台构建LLM大模型应用下一步规划博学谷大数据平台 架构优势下一步规划实践环节04THANKS