上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

1-3 基于阿里云实时计算 Flink 构建现代化数据流.pdf

编号:101816 PDF 30页 4.07MB 下载积分:VIP专享
下载报告请您先登录!

1-3 基于阿里云实时计算 Flink 构建现代化数据流.pdf

1、基于阿里云实时计算Flink构建现代化数据流晟柏 阿里云计算 产品经理|01什么是数据流02现代数据流趋势03现代数据流特性总结04现代数据流最佳实践目录CONTENT|01什么是数据流数据流概述|数据流表面的含义指数据从输入到输出端的流动,在实践中也称为数据集成。是指一系列用来帮助企业使用、整合和利用各种数据的实践、工具和架构程序。除了整合不同系统的数据外,数据集成还可以确保数据干净、准确,优化其对业务的价值。|02现代数据流趋势数据引领发展|传统企业数据企业定位变革:数据成为一种产品|组织与数据关系变革数据民主化数据流正式化模型变革:复杂到简单|强耦合声明式低代码用户服务界面运行环境集成工

2、具数据控制流业务变革:ETL到ELT|对比项对比项ETLELT趋势分散化,指标与模型交给数据团队统一化,业务团队处理弹性需求中高存储成本中高实时要求低高转向数据转向业务转向模型关注数据本身价值分离复杂耦合架构重视数据服务企业工具正规化工具简单化工具稳定化改变数据分配方式明确数据责任分配实现数据共享重用总结:期待更好的数据流|03现代数据流特性总结|业务数据实时化Flink:从流开启的大数据计算框架Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。流式场景事件驱动应用流批分析数据管道&ETL正确性保证事件驱动应用流批分析数据管道&ETL分层API

3、SQL on Stream&Batch DataDataStream API&DataSet APIProcessFunction(Time&State)运维增强灵活部署高可用保存点大规模计算水平扩展架构支持超大状态增量检查点机制性能卓越水平扩展架构支持超大状态增量检查点机制|大数据技术整体发展实时化趋势Apache Flink已成为实时计算标准阿里巴巴Apache Flink社区驱动者阿里巴巴Flink云上企业版一站式实时计算解决方案实时ETL实时推荐实时数仓实时风控实时监控实时IoT分析短视频本地生活新金融在线教育300万+代码Meetup/FFACommitter/PMC开源社区Apac

4、he FlinkVervericaApache KafkaConfluentApache SparkDatabricks社交媒体新制造Apache Flink 实时计算事实标准|阿里云的解决方案StreamSQL更加面向数据分析领域,分析师无需学习即可完成业务代码StreamSQL屏蔽底层复杂的一致性细节,提供Exactly-once的处理语义StreamSQL编译器内置优化算法,入门用户即可写出高效的流式处理逻辑StreamSQL集成大量函数、算子,用户无需底层编码即可实现日常业务StreamSQL开放UDF接口,特殊领域逻辑使用插件即可完成业务定制化该业务使用该业务使用StreamSQL来

5、表示来表示:SELECT count(*)FROM wordsGROUP BY word WITH WINDOW(2,3)SQL化|内置SQL函数,鼠标悬停提示 SQL语法校验,完善的错误提示 SQL作业版本管理、不同版本的对比 SQL Web-IDE 可视化编辑器 SQL DDL 声明Schema UDF 上传、管理 支持内置/外部Catalog管理表信息 支持文件夹和编辑锁一分钟上手IDE简单易用的SQL开发体验|企业级Connector,ETL的关键能力Connector,产品的关键价值之一 涵盖阿里云产品/开源社区40+主流引擎,远多于开源 在存储,调度、网络传输等方面,都调试到最佳效

6、果,正确性和性能有保障 Metric指标丰富,并提供监控、告警能力,开源基本不具备 支持模拟数据生成Connector(行数、速率、格式,范围等),更便捷地生成贴近业务含义的测试数据,满足您开发测试中验证业务逻辑的需要 具备完善文档说明,with参数详细说明和代码实例 业界领先的能力,快速推出新场景的connector,connector版本可以独立更新 支持创建自定义connector|SQL代码模板,场景化代码示例 提供了21种代码模板,每种代码模板都为您提供了具体的使用场景、代码示例和使用指导。通过代码模板快速地了解Flink产品功能和相关语法,实现自己的业务逻辑解决最常见的问题:Fli

7、nk SQL不会写|Serveless化集群Serverless化服务Serverless化|3万+作业90+峰值40亿记录/秒150万+CPU计算能力服务BU任务规模计算资源数据中台流批一体数仓AI 中台在线机器学习安全实时风控运维实时监控搜索推荐实时索引集群Serverless实时计算Flink帮助阿里巴巴实现业务全链路实时化|Autopilot,产品的关键价值之一作业弹性调优自建集群的资源配置自建集群的资源配置实时计算实时计算FlinkFlink的资源配置的资源配置 作业提交时,资源为固定配置 业务高峰,手工调整资源和并发 业务低谷:再次调低资源配置 自动为作业生成资源配置,并根据作业的

8、运行情况进行资源配置的调优 在确保作业处于健康的状态下,优化作业资源的使用复杂度:工作量:效果:范围:TM级别复杂度:无工作量:一个开关效果:实现按需使用资源范围:TM和算子级别VS需求&痛点:当作业遇到业务高峰期或者新上线一个作业时,需要考虑如何配置该作业的资源、并发个数、Task Manager个数等 作业运行过程中,还需要考虑如何调整作业资源,使作业处于最高资源利用率;作业出现反压或延时增大的情况时,需要考虑如何调整作业配置等 如果作业数量多,工作量成倍增长|治理能力Metadata数据观察元数据管理数据血缘 如何在平台获取上下游数据内容 如何确认数据流任务的状态 如何快速找到上下游的数

9、据结构 如何在数据结构变动时实时感知 如何快速定位数据来源 如何快速判断异常数据影响业务范围|方便查看数据源的数据 结果表的preview查询展示 系统函数和自定义UDF的验证 支持手动上传CSV文件做为测试数据 支持选择部分语句单步调试 使用Session 集群支持SQL Preview像使用数据库一样进行SQL Debug简单快速调试|可观测 支持查看作业DAG图 支持查看vertex信息 支持查看历史实例运行信息 支持查看作业运行的事件/JM日志/TM日志 支持启动/暂停/停止作业丰富的功能,统一入口|元数据管理 Hive Metastore可以在Flink全托管开发控制台上直接使用DM

10、L创建业务逻辑,获取Hive中表的元数据信息,无需再使用DDL语句声明相应的表信息。Hive Metastore可以作为Stream作业和Batch作业的源表或结果表。Hologres Catalog在Flink全托管控制台直接读取Hologres元数据,包括数据库、表、分区、视图。不用再手动注册Hologres表,可以提高作业开发的效率且保证数据的正确性 MySQL Catalog在Flink全托管控制台直接访问MySQL实例中的表,无需通过DDL语句手动注册MySQL表,直接作为Flink SQL作业中的MySQL CDC源表、MySQL结果表和MySQL维表,支持RDS MySQL、Po

11、larDB MySQL或自建MySQL,支持直接访问分库分表逻辑表,支持配合CDAS和CTAS语法完成基于MySQL数据源的整库同步、分库分表合并同步、表结构变更同步 DLF Catalog阿里云官方提供的一款统一元数据管理的产品,表格的格式可以是流行的开源格式,例如Iceberg、Hudi湖、仓、数据库的元数据使用和管理|04现代数据流最佳实践|入湖入仓痛点和Flink CDC解决方案方案常见痛点:1.全量和增量两套架构2.Schema 变更导致入湖链路难以维护3.整库开发工作量大,数据连接对源库压力大4.ETL清洗、分析难度大5.资源、费用过高Flink CDC解决方案:1.全量和增量自动

12、切换2.表结构变更自动同步(Flink作业和sink端)3.整库同步只需要一条SQL4.双流 JOIN、维表 JOIN等可以非常容易地完成数据打宽,以及各种业务逻辑加工5.性能规格无限制,CDC不单独收费|实时计算Flink 实时入仓解决方案(Flink+Hologres)主要特性方案描述CTAS和CDASHologres支持实时同步单表或整库级别的数据在同步过程之中如果上游的表结构发生了变更也会实时同步到Hologres表中在Flink读取JSON数据时,可以自动解析类型,自动创建对应表的列,支持数据模型的动态演化宽表Merge和局部更新功能支持,场景举例为:一个数据流中包含A、B和C字段,

13、另一个数据流中包含A、D和E字段,Hologres宽表WIDE_TABLE包含A、B、C、D和E字段可以根据主键更新数据,以及回撤消息产生Delete请求。流式语义当同主键数据出现多次时,您需要设置mutatetype参数确定更新结果表的方式insertorignore(默认值):保留首次出现的数据,忽略后续所有数据。insertorreplace:整行替换已有数据。insertorupdate:替换部分已有数据。例如一张表有a、b、c和d四个字段,a是PK(Primary Key),写入Hologres时只写入a和b两个字段,在PK重复的情况下,系统只会更新b字段,c和d保持不变分区表支持,

14、当写入分区表时,根据分区值自动创建不存在的分区表攒批写入支持,默认值为256,单位为数据行数连接池数量自定义支持,默认值为3Hologres Binlog消费支持Flink Catalog支持,Flink支持导入Hologres元数据为Catalog,在Flink全托管控制台直接读取Hologres元数据,不用再手动注册Hologres表,可以提高开发效率且能保证表结构的正确性|实时计算Flink 实时入湖解决方案主要特性Hudiiceberg源表支持,全量和增量拉取支持,全量源表结果表支持insert模式:数据追加写upsert模式(默认值):数据更新bulk_insert模式:批量写入支持

15、:insert模式:数据追加写CDC结果表支持否结果表存储OSS,HDFSOSS,HDFSDLF Catalog支持,将数据写入至DLF Catalog下的Hudi表支持,将数据写入至DLF Catalog下的Iceberg表Hive Catalog支持,将数据写入至Hive Metastore下的Hudi表支持,将数据写入至Hive Metastore下的Iceberg表Changelog模式支持,保留消息的所有变更否批量导入支持,存量数据来源于其他数据源,则可以使用批量导入功能,快速将存量数据转换为Hudi表格式否备注:并不是要对比hudi和iceberg两种湖表格式,两个格式用途不尽相同iceberg主要目标是替换hive,进行日志场景分析CDC场景可以使用hudi,构建准实时数仓|非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-3 基于阿里云实时计算 Flink 构建现代化数据流.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部