上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

10-5 阿里云 EMR StarRocks 介绍.pdf

编号:102405 PDF 29页 6.18MB 下载积分:VIP专享
下载报告请您先登录!

10-5 阿里云 EMR StarRocks 介绍.pdf

1、阿里云EMR STARROCKS介绍周康 阿里云智能技术专家|01开源开源OLAP综述综述02开源数仓解决开源数仓解决方案方案03StarRocks介绍介绍04StarRocks最佳实践最佳实践目录目录CONTENT|开源OLAP综述常见开源OLAP技术介绍01|开源产品-百花齐放|技术分类|计算与存储一体OLAP数据仓库StarRocks(DorisDB)ClickHouseApache Doris预处理/Cube/NoSQLDruid/Kylin/HBase计算引擎 SQL on HadoopMPP引擎:Trino/PrestoDB/Impala批处理引擎:Spark/Hive增量数据湖格

2、式Hudi/Iceberg/DeltaLake开源数仓解决方案02|E-MapReduce 开源大数据解决方案|离线数仓体系-Lambda架构|实时数据湖解决方案|实时数仓解决方案(1)|实时数仓解决方案(2)|试用场景小结|Lambda架构数据量10PB+级别,希望以离线数仓为基座建设数据中台,数据存储于OSS/HDFS将部分离线的热数据表导入StarRocks/CK(配合离线大宽表制作),做OLAP查询(500ms2s)实时链路将数据导入StarRocks/CK,做OLAP查询(500ms2s)Join查询较多的场景使用StarRocks实时数据湖方案数据量PB+级别,希望统一离线、实时数

3、仓,用一套代码构建业务,数据存储于OSS/HDFS部分业务有Upsert变更需求,希望建设分钟级小时级数仓将最热的数据导入StarRocks/CK,OLAP查询(500ms2s)Hudi/Iceberg/Delta,利用Presto查询(5s30s)实时数仓方案每天增量数据10TB+,希望直接以单软件构建业务底座,数据先存储于CK/StarRocks,冷数据转存到OSS不必再运维Hadoop庞大体系,极大简化运维操作,媲美全托管实时性非常强,极大简化开发效率,数据一致性最高存算分离,海量数据,cache加速StarRocks介绍StarRocks核心特性介绍03|StarRocks价值|极速的

4、任意维度OLAP分析和AdHoc查询全新的向量化执行引擎,亚秒级查询延时单节点每秒可处理多达100亿行数据综合查询速度比其他产品快10100倍!全新的业务洞察速度数据秒级实时更新可见单节点支持100M/秒写入速度全新的业务洞察实时性支持数千用户同时分析支持高并发,部分场景每秒可支持高达1万以上的QPSTP99可控制在1秒以内赋能更多人员进行业务洞察03基于多种数据模型皆可实现极速分析业务交付时间从周加快到小时甚至分钟级提升数据工程师和分析师工作效率可达10倍以上构建灵活,快速响应业务变化0401020304重构企业数据基础设施|ETLCDCIngestionExternal tableQuer

5、yBI,Reporting,Applications,Ad Hoc新一代弹性MPP架构|极简架构 FE、BE,易运维 水平扩展 FE、BE水平扩展 自动均衡 易用 兼容MySQL协议 可使用各类MySQL客户端StarRocks极速引擎-全面向量化|全面向量化执行按列存储,按列计算更少的虚函数调用CPU Cache更友好更少的分值判断更好地利用SIMD指令向量化提升效果向量化Filter:提升5.1 倍向量化聚合:提升14.9 倍向量化Shuffle Join:提升3.7 倍向量化Broadcast Join:提升3.5 倍更多优化手段低基数优化:提升3.2 倍延迟物化:提升3.3 倍极速引擎

6、-全新CBO|优化器将SQL语句转化为一个可执行的PlanAnalyzer、Transformer、Rewriter、Optimizer优化方法基于Orca论文表达式重写、表达式复用、公共谓词提取、谓词推导谓词下推、limit下推、聚合下推列裁剪、分区裁剪、shuffle裁剪子查询改写Join顺序调整、Join算法自动选择极速引擎-多种分布式Join|全场景-丰富的数据模型|特点适用场景明细模型用于保存和分析原始明细数据,以追加写为主要写入方式,数据写入后几乎无更新。日志,操作记录,设备状态采样,时序类数据等聚合模型用于保存和分析汇总类(如:max、min、sum等)数据,不需要查询明细数据。

7、数据导入后实时完成聚合,数据写入后几乎无更新。按时间、地域、机构汇总数据等主键模型支持基于主键的更新,Delete and insert,大批量导入时保证高性能查询。用于保存和分析需要更新的数据。状态会发生变动的订单,设备状态等更新模型支持基于主键的更新,Merge On Read,更新频率比主键模型更高。用于保存和分析需要更新的数据。状态会发生变动的订单,设备状态等每个模型都分Key列和Value列,Key列全局有序全场景-高并发查询|分区机制:高效过滤,提升查询性能 分桶机制:充分发挥集群性能,避免热点问题 Tablet是最小的数据逻辑单元,可灵活设置并行计算资源 高并发查询是相对于其他的

8、OLAP引擎,例如行存的OLTP引擎还是有差距全场景-LakeHouse|联合查询屏蔽了底层数据源的细节异构数据据源数据联合分析与增量数据湖格式完美结合查询加速查询加速就近计算:表达式下推、聚合下推分布式读取为每种数据源针对性优化向量化解析ORC、Parquet格式,字典过滤,延迟物化等测试结果TPC-H,查询Hive,同等条件,与Presto(ORC)相比,性能有3倍+使用1/3的Presto资源就能够获得同样的性能体验易运维-弹性伸缩,在线扩容|查询加速A-1Table AA-2A-3B-1Table BB-2B-3B-1B-3A-2A-1A-3B-1B-2A-2A-3B-2A-1B-3A

9、-3B-3A-1ALTER SYSTEM ADD BACKEND 192.168.0.1:9050;数据分布弹性,在线扩容控制成本,按需伸缩,应对流量增长小规模初始集群,逐步扩容StarRocks最佳实践04|案例1 统一|指标分析 Ad hoc查询 可视化报表;典型业务:用户行为分析、转化漏斗、用户画像、风控、交易等业务 Apache kylin支持汇总指标查询;Druid、ClickHouse支持明细数据查询;Impala、Presto支撑大部分可视化报表;Hive做历史数据跑批;分析人员需要按需分别去查询不同的引擎,存在一定的学习成本;运维难度大,系统性风险高、数据时效性差。统一集群对外

10、服务;可以支撑上千QPS,平稳应对突发流量;使用物化视图支撑实时数据报表,数据时效提升至秒级;使用更新模型简化数据开发链路;运维简单指标平台灵活查询固定报表典型业务业务场景原解决方案StarRocks解决方案案例2 数据湖分析|StarRocks 相对 Presto 有 3 倍以上的性能优势在相同资源的情况下,StarRocks 的查询速度比 Presto 快 3 倍在相同查询速度的情况下,StarRocks 的成本仅为Presto 的 1/3业务场景原解决方案StarRocks解决方案用 Presto 查询 Hive 外表做报表,集群节点百级别,负载达到80%,存在大量慢查询问题痛点:Presto 集群节点数量庞大,维护和运营成本太高存在大量慢查询问题,查询时延高可视化可视化报表报表Ad hoc查询查询案例3 TP实时同步到AP|业务背景大量业务依赖于OLTP系统GMV,订单,物流,客户分析,推荐系统等原有解决方案Hadoop数仓离线T+1分析系统系统运维复杂OLTP系统-OLAP系统替代原有数仓结构链路极其简化Ad-hoc查询灵活,方便分析细节数据对接线上系统点查E-MapReduce StarRocks|https:/emr-

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(10-5 阿里云 EMR StarRocks 介绍.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部