《专场12.1-云原生无服务器数仓最佳实践与实时数仓架构-潘超.pdf》由会员分享,可在线阅读,更多相关《专场12.1-云原生无服务器数仓最佳实践与实时数仓架构-潘超.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、云原生无服务器数仓云原生无服务器数仓最佳实践与实时数仓架构最佳实践与实时数仓架构潘超亚马逊云科技数据分析专家议题议题1.亚马逊云科技云原生数仓亚马逊云科技云原生数仓Redshift 10年架构演进年架构演进2.Redshift Serverless架构设计与应用场景架构设计与应用场景3.基于基于Redshift的云原生实时数仓架构与最佳实践的云原生实时数仓架构与最佳实践议题议题1.亚马逊云科技云原生数仓亚马逊云科技云原生数仓Redshift 10年架构演进年架构演进2.Redshift Serverless架构设计与应用场景架构设计与应用场景3.基于基于Redshift的云原生实时数仓架构与最
2、佳实践的云原生实时数仓架构与最佳实践 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.全球数万客户每天使用Redshift来进行数据分析金融消费娱乐互联网游戏医疗健康Amazon Redshift最受欢迎的云原生数仓 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.典型数仓场景业务运营与商业智能实时数仓分析机器学习与分析预测查询、报表与数据分析 2022,Amazon Web Services,Inc.or its affi
3、liates.All rights reserved.Data lakeJDBC/ODBCData APIRedshift Compute ClusterLeader NodeComputeNodesAmazon NitroRedshift的架构演进ComputeStorageAccelerationOperational DatabasesQuery Live DataIncremental MVsCompilationServiceGlobalCache(*.o)CaaSData sharing clustersAuto-scaling clustersAmazon SageMakerRe
4、dshift MLRedshift Managed StorageAQUAParallel executionNodeAmazon-designed processorNodeAmazon-designed processorNodeAmazon-designed processorNodeAmazon-designed processorSpectrumNodeSpectrumSpectrumNodeSpectrumNodeSpectrumNodeAmazon S320021 2022,Amazon Web Services,Inc.or its affiliates.
5、All rights reserved.Amazon Redshift的创新更新分析所有数据卓越性价比简单易用的分析AQUARA3节点和托管存储写入的并发缩放新功能!安全、治理&合规工作负载管理增强功能SQL增强和迁移支持更新!新功能!无服务器更新!自动化数据仓库管理自动物化视图新功能!数据APICloudFormation模板Amazon Redshift顾问Grafana插件查询编辑器v2新功能!新功能!数据共享Redshift ML新功能!更新!数据交换集成更新!联邦查询更新!SUPER数据类型地理空间增强更新!秒级从数据获得洞察,无需关心基础架构在运营数据库、数据湖和数据仓库中进行复杂
6、、可扩展的实时和预测分析与其他云数据仓库相比,提供超过3X的性价比,并可动态扩展以提高复杂和关键工作负载的查询速度议题议题1.亚马逊云科技云原生数仓亚马逊云科技云原生数仓Redshift 10年架构演进年架构演进2.Redshift Serverless架构设计与应用场景架构设计与应用场景3.基于基于Redshift的云原生实时数仓架构与最佳实践的云原生实时数仓架构与最佳实践 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Amazon Redshift无服务器架构数据查询与分析高性能与高并发按需计费,优化成
7、本计算资源自动分配自动升级无宕机运维自动备份自动扩展自动冗余安全与加密实时监控客户只需关心数据价值探索其它所有基础架构管理自动、智能、按需扩展计算与存储资源 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.细粒度控制与定制化集群Amazon Redshift集群模式无需管理底层基础架构来帮助管理云基础设施Amazon Redshift无服务器灵活的云原生数仓部署模式 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Redsh
8、ift Serverless架构数据湖JDBC/ODBC数据 API计算存储加速运营数据库查询实时数据增量物化视图数据共享集群Amazon SageMakerRedshift MLRedshift 托管存储Amazon Redshift Serverless智能且动态的计算管理基于 ML 的工作负载监控自动化调优自动化扩展工作负载自动化管理按用量付费大规模性能自动化维护Amazon S32022流式数据实时入库Kafka/Kinesis 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Redshift Ser
9、verless特点自动扩展资源,而无需管理数据仓库集群简化用户体验自动调配和扩展数据仓库容量,提供一致快速的用户体验智能动态计算利用Amazon Redshift丰富的SQL功能、无缝数据湖集成和业界领先的性价比支持所有Amazon Redshift的功能和性能特性按秒使用的计算能力和持续时间来计费,空闲时不收费按需付费 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.统一计费新的标准化计算单元 Redshift Processing Unit(RPU)按照 RPU 使用小时数计费,计量精确至秒基础的数据仓库
10、、扩展容量和数据湖查询也包含在相同的 RPU 小时数之中不含并发扩展和 Spectrum 费用Redshift 托管存储和用户快照按照固定的每 GB月费率收取可免费将数据仓库还原为过去 24 小时内以 30分钟为间隔的时点计算存储 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.按用量付费2.00:002:05:002.10:002.15:002:00:00-2:03:002:00:30-2:02:302:07:00-2:08:10Q1Q2Q3Q42:12:00-2:13:202:01:30-2:03:00Q
11、5只为工作负载运行期间使用的计算容量付费(按秒计费)计费时段查询执行时间2:033 分钟(Q1、Q2、Q3)2:091 分 10 秒(Q4)2:141 分 20 秒(Q5)总时长5 分 30 秒闲置时段不收费 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Redshift Serverless适用多种应用场景机器学习报表与仪表盘实时分析无数据移动的数据共享应对从小到大的ad-hoc资源需求应对无法预测或瞬态高峰的资源负载需求有规律的高、低负载窗口端到端无服务器架构 数据库、分析、机器学习自助分析服务自动扩展
12、 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Serverless应用场景一:简单易用、轻松分析原因无需考虑基础设施即可轻松上手无需选择节点类型和数量并创建和管理集群用例范例:开发/测试环境以及即席业务分析按用量付费过去13 周的复合增长率为 4.85%2014 年 10 月 19 日这一周的销售额增长了 47.36(8,899.91 美元),从 18,793.38 美元增长至27,693.29 美元 2022,Amazon Web Services,Inc.or its affiliates.All r
13、ights reserved.Serverless应用场景二:支持多种工作负载多样化工作负载周期性工作负载稳态中存在峰值 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Serverless应用场景三:Provisioned与Serverless共存通过DMS将数据实时CDC到Redshift Provisioned Cluster在Provisioned Cluster里进行数据加工、转换,构建DWD/DWS层利用Data Sharing功能将数据共享给不同的Serverless WorkGroup业务部门
14、成本按需分摊计算资源物理隔离,确保业务SLA提升系统稳定性Redshift Provisioned Cluster(RA3)ODS-ETL-DWD-DWSDMS tasksAurora/RDSMySQLData sharingFull load+on-going CDCConcurrency Scaling ClustersServerless Work Group1Serverless Work Group2Serverless Work Group3Serverless Work Group4对账风控终端用户Dashboard业务bug探测与Ad-hocs议题议题1.亚马逊云科技云原生数仓
15、亚马逊云科技云原生数仓Redshift 10年架构演进年架构演进2.Redshift Serverless架构设计与应用场景架构设计与应用场景3.基于基于Redshift的云原生实时数仓架构与最佳实践的云原生实时数仓架构与最佳实践 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.客户对实时数仓的需求数据摄入高吞吐、低延迟处理任意数量的流式数据并处理来自数十万个数据源的数据,同时提供非常低的延迟和高带宽,可以实现可以在几秒钟而不是几分钟内获得数据分析见解。简单配置与使用在几秒钟内实现实时分析,无需管理复杂的管道
16、,完全托管,支持流处理应用,无需基础设施管理。提高生产力能使用SQL对流数据进行丰富的分析,无需依赖其它语言。2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.实时数仓应用场景改善游戏体验通过分析玩家的实时数据,专注于游戏转化率、玩家留存和优化游戏体验。物联网数据实时分析互联网APP、物联网等实时应用程序监控、欺诈检测和实时排行榜等应用。在线广告用户点击流数据分析客户通常在一次会话中访问数十个网站,但营销人员一般只分析自己的网站。通过将数据实时摄入到仓库中,可以实时评估您的客户足迹和行为。实时应用洞察通过访问和
17、分析应用程序日志文件和网络日志中的流数据,开发人员和工程师可以对问题进行实时故障排除,提供更好的产品,并为预防措施提供警报系统。零售行业实时销售分析近实时访问和可视化所有POS零售销售交易数据,以实现实时分析、报告和可视化。2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Redshift实时数据摄入Streaming Ingestion与 流 引 擎 原 生 集 成,实 现 快 速 流 数 据 摄 入高速摄入支持高达30万/秒的数据摄入(2KB size),小于30秒的延迟易于使用全SQL配置,直接将KDS中
18、的数据实时摄入到Redshift结构灵活通过SUPER数据类型来摄入半结构化数据Amazon KinesisData StreamsAmazon MSK othersAmazon RedshiftReal-time materialized viewStreaming dataPermanent tables 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.无需构建复杂的ETL任务流程近实时的对Aurora中的交易数据进行分析与构建机器学习模型零代码将多个Aurora数据库中的数据增量同步到一个统一的Reds
19、hift数据仓库中Amazon Aurora与Redshift的zero-ETL数据实时同步新功能预览持续数据同步客户端应用OLTP endpointsOLAP endpointsAmazon RedshiftAmazon AuroraAmazon Redshift 管理存储Aurora存储 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.通过Java、Python、Scala来编写Apache Spark应用程序,来访问数据仓库中的数据无需手动设置和维护开源Spark-Redshift connectors
20、通过仅将有关联的数据从Amazon Redshift移动到使用应用程序来提高任务性能基于 IAM的凭证来提高安全性Amazon Redshift 与Spark的集成新功能发布简化加速Spark任务直接访问Redshift中的数据Pre-packaged Amazon Redshift Connector for SparkAmazon RedshiftAWS GlueAmazon EMR 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.简单的低代码数据摄取避免重复加载和手动跟踪加载的文件轻松将现有的 COPY
21、 语句转换为自动摄取作业用户可自定义配置从 Amazon S3 自动提取新数据支持从S3自动加载数据新功能预览自动将S3上的文件加载到Redshift中Amazon S3 Redshift Copy JobAmazon Redshift TableContinuously monitoring S3 folderNew file(s)detectedIngestion automatically starts 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.实时数仓参考架构 APP埋点数据实时采集与分析R E
22、 D S H I F T S T R E A M I N G I N G E S T I O N 与 流 引 擎 原 生 集 成,实 现 快 速 流 数 据 摄 入实时数据摄入支持高达30万/秒的数据摄入(2KB size/row),小于10秒的延迟易于使用全SQL配置,直接将KDS中的数据实时摄入到Redshift结构灵活通过SUPER数据类型来摄入半结构化数据高并发实时查询支持大宽表、多表关联、复杂聚合等各种SQL查询,高并发,秒级响应 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.实时数仓参考架构 实
23、时查询与实时计算标号1日志数据通过KPL或者Kinesis Agent发送到Kinesis Data Stream,(KDS是Serverless服务,支持API方式扩缩容)标号3通过Redshift Streaming Ingestion可以直接消费Kinesis(预计2022 Q2Q3支持MSK)到Redshift,直接创建一个Kinesis的物化视图即可,秒级别数据延迟,30W/S吞吐(2kb size),小于30秒延迟。标号2端到端秒级延迟的数据,通过KDA(Flink Runtime)消费KDS中的数据,经过流计算后的结果Sink到RDS或者KV对外提供API查询。(KDA Flin
24、k Runtime是Serverless服务,KPU为计算单元,支持动态扩缩容)标号4对于RDS中的数据,DMS支持CDC同步,直接到Redshift中。比如MySQL开启Binlog,然后DMS同步Binlog信息到Redshift,支持Schema部分自动变更(比如源端增加列DMS+Redshift会自动同步变更)。同时DMS也支持跑批全量同步数据标号5可以通过DMS或者其他CDC工具(比如Debezium,Flink CDC,Canal)将CDC数据发送到Kinesis,通过Redshift Streaming Ingestion+存储过程(Updata=Delete+Insert)来进
25、行CDC数据实时写入Redsfhit。2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.Redshift实时数仓应用场景 用户行为日志分析存储从百亿扩充到千亿,成本降低50%查询效率提高 30%,分钟级别搜索到满足条件的用户群体数据分析效率显著提升无服务轻松应对业务流量突增情况 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.今天开始测试在Redshift Serverless GA的同时,我们也向下调整了Redshift Serverless的价格,以US-EAST-1为例,每RPU小时的价格从$0.5美金调整为$0.375美金,价格降低25%!300美金的Credit来体验Redshift Serverless$0.375$300CREDITPER RPU-HOUR 2022,Amazon Web Services,Inc.or its affiliates.All rights reserved.极致性能的数据仓库平台AmazonRedshift为云专门构建提供超过3X的性价比快速洞察,无需关心基础架构与数据湖深入集成