上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

StarRocks湖仓融合的四种范式.pdf

编号:121846 PDF 27页 4.52MB 下载积分:VIP专享
下载报告请您先登录!

StarRocks湖仓融合的四种范式.pdf

1、StarRocks湖仓融合的四种范式演讲:赵恒StarRocksPMC 2023 CONTENTS录为什么需要湖仓融合湖仓融合的难点StarRocks湖仓融合的四种范式StarRocks 3.0 预览为什么需要湖仓融合01什么是数据湖什么是数据湖?云商:基于对象存储S3/OSS/COS构建的统存储互联公司:持Upsert,Time travel等级特性的存储(Iceberg/Hudi/Delta lake)传统户:能够存储所有结构化、半结构、结构数据为什么要数据湖?更低的存储成本,更可靠性:从HDFS 到对象存储更好的Table format:持ACID事务,持Schema evolution

2、更好的File format:持半结构化map、Struct、Json,持嵌套结构。统的Catalog:统元数据管理、权限管理、统计信息管理、湖管理为什么要在湖上建仓为什么湖上建仓(OLAP)?数仓加速:基于数据湖的远程IO成本,早期的数据湖格式不成熟,索引不完善,查询性能需要提升,数据湖的底座针对吞吐优化,关注低成本和可靠,不适应性能需求。实时分析:基于数据湖的存储实时性不够,法解决秒级实效性的问题并发查询:对于并发查询,我们需要降低数据的扫描量,种是聚合类查询需要通过预计算的段来提并发,种是点查需要有细粒度的数据裁剪和索引优化来提升。引OLAP的问题?数据的导是个复杂问题,不仅仅是数据成本

3、的上升,也让管理成本成倍增长如何维护数据和元数据致性OLAP对AI等需要开放的底层件格式的业务不够友好为什么要湖仓融合?简化技术架构,降低运维成本Single Source of Truth:只有份数据,基于相同的数据来计算有湖仓融合的数据底座才可能做统的上层数据治理Lakehouse 分层与StarRocksStarRocks From OLAP to Lakehouse湖仓融合的难点02湖和仓的差异 Catalog 和建表都有类似的Catalog层次结构 Catalog database table建表语句和数据分布上有差异StarRocksHiveIcebergHudiDelta lak

4、e分区式表达式分/隐式分区多级范围分区表达式分区/隐式分区多级范围分区分桶式hash排序式orderorderorder/zorderorderCluster by湖和仓的差异 Table formatTable Format 对 Copy on write/Merge on read Delete and insert(Merge on write)对Merge-on-read:避免sort merge的开销,不存在频繁写下读放的问题 对 Copy-on-write:避免过多的写放 对 Delta store:能够充分利级索引StarRocks 可以补充数据湖上秒级实时性的场景湖仓融合需要让

5、数据湖有更好的实时性StarRocks IcebergHudiDelta lakeCopy on writeYYMerge on readYYYYDelete and insertYStarRocks as Lakehouse性能的差异本地IO和远程IO:通过Local cache加速File Format:数据类型:Json/Struct/Map,持bitmap/Hll,Fast Decimal 索引:聚簇索引和级索引数据分布 持 colocated join,colocated aggregation hash 分布可以进步裁减提升点查性能查询引擎 向量化引擎的MPP执框架 Query c

6、ache 统计信息 湖上统计信息还较基础,SR提供ndv ngram等复杂统计信息湖仓融合让户不做数据导获得和数仓样的性能StarRocks湖仓融合的四种范式03湖仓融合1:数据湖查询加速湖仓融合2:湖仓分层建模湖仓融合3:实时数仓与数据湖融合湖仓融合4:StarRocks 3.0 云原湖仓湖仓融合种模式的总结数据湖存储格式 数仓存储格式 读写流程适场景数据湖查询加速Hive/Iceberg formatLocal cache for Hive/Iceberg数据直接湖 StarRocks加速查询数据湖 Adhoc加速湖仓分层建模Hive/Iceberg formatMV using Star

7、Rocks format数据直接湖 StarRocks并发低延迟 报表实时数仓与数据湖融合Hive/Iceberg formatStarRocks format数据写StarRocks 异步刷新到湖实时场景并且有数据湖基础设施StarRocks 3.0 云原湖仓StarRocks formatStarRocks format数据写StarRocks 站式的Lakehouse案StarRocks 3.0 存算分离04StarRocks 1.0-2.001向量化引擎发布1.0.0-rc1 2020.9.4CBO 发布向量化导开启Hive外表1.162021.6.18Global runtime f

8、ilterPrimary keyStarRocks外表写1.192021.10.25低基数全局字典复杂表达式下推新内存统计框架2.0.0-GA2022.1.4Lateral Join 持FastDecimal发布Tableau兼容性提升 源代码开放1.182021.8.25Bitmap性能优化 1000列 10TB稳定导TopN优化1.172021.7.13StarRocks 2.0-3.001Iceberg外表发布Pipeline引擎发布单表性能进步提升(索引,次scan,cache)2.1.02022.2.24资源组管理Java UDFJSON类型主键模型部分列更新2.2.02022.5.

9、22Local cache for data lakeQuery cache for high concurrencyHudi&Iceberg MOR外表 Map/Struct 类型持Lambda表达式2.5.02023.01存算分离版本发布完整的RBAC持简化分区创建语法持完整的Update语法持算落盘3.02023.03多表物化视图统计信息完善,直图等Compute node on k8s存算分离alpha2.4.02022.10JDBC外表 全新数据源 Connector 框架 持创建外部数据录(Catalog)主键模型完善,持索引落盘2.3.02022.7.1StarRocks 3.0

10、 存算分离和StarOS云原架构降低存储成本,增加计算弹性StarRocks 3.0 存算分离和StarOS为什么要存算分离?计算和存储的增长并不匹配,随着数据量变,不便扩展计算的变化弹性很,尤其对于Adhoc场景下计算集群弹性会很持多集群能,把不同的负载分配到不同的集群上需要适配云原的架构,充分利云上的池化资源能StarRocks的存算分离有什么特?StarRocks的存算分离基于StarOS,有良好的架构设计,StarOS定位个通的云原基础架构,让各种应能够快速的获得云原的能我们的存算分离既能持云上的基础设施(对象存储)也能持建的传统基础设施(HDFS),既可以在云上部署,也可以在本地部署

11、。StarRocks的存算分离可以解决之前云原数仓中实时问题解决不好的困难。让实时的数据和可以在底层的湖上做统管理StarRocks 存算分离的价值:降低存储成本StarRocks 存算分离的价值:资源隔离StarRocks 存算分离的价值:Multi-AZStarRocks 存算分离的价值:Multi-cluster和弹性StarRocks 3.0 存算分离和StarOS当前能优化向 StarRocks 存算分离,持PK表的所有功能表级别的TTL和单副本,故障动恢复,降低总体持有成本,适合解决志分析场景的降本 多集群持,增强弹性能 Local LogStore、FileStore,统架构 实现完整的Primary key存算分离 FE存算分离,提升横向扩展能Cache 预热后,与存算体查询性能接近 AWS m5.2xlarge 8vCPU,32GB Bandwith 10Gbps.感谢您的观看演讲:赵恒StarRocksPMC THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(StarRocks湖仓融合的四种范式.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部