上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

极简数据服务Hologres:阿里云大数据分析服务一体化之路(28页).pdf

编号:86217 PDF 28页 5.04MB 下载积分:VIP专享
下载报告请您先登录!

极简数据服务Hologres:阿里云大数据分析服务一体化之路(28页).pdf

1、极简数据服务Hologres:阿里云大数据分析服务一体化之路姜伟华(果贝)阿里云实时数仓Hologres研发负责人目录 大数据实时数仓的发展和现状阿里云一站式实时数仓Hologres与分析服务一体化Hologres与PostgreSQL的不解之缘大数据计算正从规模化走向实时化春晚直播实时大屏双 11 GMV 实时大屏城市大脑实时交通监测银行实时风控监测淘宝实时个性化推荐业务在线化、运营精细化依赖数据驱动内部使用 商家助手 无人车 物流配送客户体验实时风控To BTo C大数据数仓体系的“纷繁芜杂”Kafka归档APIApplicationsReportsDashboards批处理离线加速联邦分

2、析点查询RedisMysqlDrillPresto结果缓存HiveMaxCompute实时写入ClickHouseDruidFlink订阅实时写入维表关联HBaseCassandra实时分析架构复杂、数据同步难、资源消耗大、数据孤岛、人才培养难、开发成本高、不敏捷ServingAnalyticsTransactionHybridTransaction/AnalyticsProcessing(HTAP)需要事务机制保证ACID适合模型简单,简单分析场景,以TP模型解决AP的问题HybridServing/AnalyticsProcessing(HSAP)无事务开销(分布式锁、同步)以数仓模型(抽

3、象、复用、标准)解决数据服务的问题随机读写、读写强依赖、强事务ACID、锁、面向交易等场景高并发、低延迟、查询为主、查询简单(点查为主)、数据可更新,面向在线应用(toB、toC)大规模数据扫描、过滤、汇总,语义层,分布式,列式存储,数据更新弱,面向分析师!大数据实时数仓的发展和现状 阿里云一站式实时数仓Hologres与分析服务一体化Hologres与PostgreSQL的不解之缘归档实时写入实时写入维表关联FlinkHive离线计算离线加速联邦分析点查实时分析结果缓存RedisMysqlDrillPrestoHBaseClickhouse结果缓存归档实时写入维表关联FlinkMaxComp

4、uteHologres点查结果缓存离线加速联邦分析交互式分析从N到1,融合的、实时离线一体化全栈数仓业务敏捷响应,数据自助分析,避免数据割裂,赋能数据服务,简化运维管理一站式实时数仓:分析、服务一体化数据应用数据报告(Analytics)数据看版(Serving&Analytics)在线应用(Serving)实时数仓Hologres离线数据:批量导入(Batch)实时数据:实时更新(Streaming)统一存储统一计算HSAP:HybridServing&AnalyticalProcessingHologres=更快的多维分析+更易用的点查+云原生的运维Hologres,一站式实时数仓,提供实

5、时分析(OLAP)与在线服务(点查)两种能力,与MaxCompute无缝打通,实现一套架构,多种负载(OLAP、在线服务、MC交互式分析)共存,减少数据孤岛,避免数据割裂,简化链路,提升用户体验。统一存储一份数据支持多种负载(OLAP、在线服务、MaxCompute交互式分析),减少数据割裂数据无孤岛,提高数据开发效率、简化链路实时离线一体高RPS 实时写入、实时更新、写入即可查与MaxCompute存储无缝打通,透明加速,无需数据移动,支持实时数据关联历史数据高性能 OLAP场景性能好于Clickhouse、Impala、Presto,支持亚秒级响应与高QPS 在线服务(点查)场景性能好于H

6、Base,点查支持100K+QPS统一接口接口兼容开源PostgreSQL协议,支持主流开发和BI工具,生态开放统一用SQL描述多种场景,提高数据应用开发效率统一数据模型Hologres:经过阿里核心场景大规模验证的一站式实时数仓支持阿里集团核心实时业务电商类:淘宝数字化大屏、AliExpress电商分析To B&to C:阿里妈妈广告、CCO智能客服物流类:菜鸟智能物流、达摩院无人车送货飞猪实时大屏、饿了么实时配送、等双11生产验证表现完美双11写入RPS峰值11亿+服务(点查)RPS:单业务峰值上亿+OLAP分析QPS:单业务峰值2000+PB级数据存储Hologres 线上应用阿里巴巴智

7、能客服达摩院无人车送货Hologres:一站式实时数仓云原生统一存储存储计算分离架构极致性能流批统一的存储C+Native执行引擎+优化器行列共存,列存对分析友好,行存对点查快速高效数据分片、分段、压缩、索引LSM-like写友好数据结构,高吞吐数据写入,支持更新,写入即可见向量化、全异步等执行引擎优化轻量级用户态线程调度,同时支持多种查询负载(高并发、复杂统计)公平调度算法(CFS),高并发充分利用计算资源计算存储资源弹性扩展,按需使用低成本、高可用、高可靠与MaxCompute底层打通,透明加速,实时离线一体磁盘:NVMe SSD网络:高带宽、低延迟CPU:多核化Benchmarks OL

8、AP分析TPCH1000(1TB,60亿行),8 Nodes,每节点(24 Core,192 GB,6T SSD)一站式实时数仓:简化大数据架构一站式实时数仓:一个系统同时解决OLAP分析与线上服务两个问题统一开发体验业务敏捷响应数据应用普惠化避免数据割裂赋能数据服务简化运维管理行存dws列存dimdwsdwd线上服务OLAP分析Hologres实时写入离线写入ReportsDashboardsAPIApplicationsHologres 一站式实时数仓:发展历程一站式实时数仓:一个系统同时解决OLAP分析与线上服务两个问题20202021Future一套技术栈 统一技术栈(引擎)统一模型、

9、统一SQL 不同的实例和数据链路One Data,Multi WorkLoad 一份数据(行列共存)读写分离 分析与服务隔离 高可用数据写入线上服务OLAP分析Hologres实例表(行列共存)链路最简化 用SQL在一个平台描述全链路Hologres数据加工、分层线上服务OLAP分析消息队列Hologres 实例(行存)Hologres 实例(列存)数据写入线上服务OLAP分析分析服务混合负载行列共存高QPS非主键点查多副本,Serving场景高可用、高QPS、吞吐线性扩展企业级在线服务热升级快速硬件故障恢复统一资源管理计算资源隔离一份数据多实例共享读写分离,分析服务互隔离Hologres:在

10、线服务(Serving)能力Hologres:企业级高可用部署,读写分离,故障隔离Shard1Shard2Worker NodeShard3Shard4Worker NodeShard1Shard2Worker NodeShard3Shard4Worker NodeFrontendFrontendShard1Shard2Shard3Shard4Pangu File System主实例(写,256Core)子实例(读,512Core)加工负载报表服务写入负载灵活分析Shard1Shard2Worker NodeShard3Shard4Frontend子实例(读,64Core)在线点查 多实例共享

11、同一份存储,实例之间同Region部署,毫秒级同步 计算资源物理隔离,实例之间故障隔离 基于此原理,支持系统在线热升级!大数据实时数仓的发展和现状阿里云一站式实时数仓Hologres与分析服务一体化Hologres与PostgreSQL的不解之缘2002120172016Blink为了解决状态管理难题,决定研发新型KV存储MaxCompute为了解决交互式分析和BI兼容难题,启动研发查询加速Lightning存储引擎立项查询加速立项新型KV存储引擎在Blink流计算上线,替换开源的RocksdbLightning支持弹内双十一关键业务在关键业务中验证两个项目分别成功支撑双

12、11关键业务,年底团队合并,启动Hologres产品化研发团队融合,启动Hologres发布0.1版本,采用PG协议,提供行存、列存两种存储,支持主键点查和OLAP分析能力兼容PG协议,孵化产品形态公有云输出,同时支持混合云形态提出分析服务一体化理念(HSAP)架构论文发表在VLDB2020商业化输出,提出HSAP理念发布1.x新版本,升级数据服务可靠性、安全性能力,支持企业级关键应用场景通过信通院8192节点大规模性能验证测试企业级能力丰富Hologres 发展历程OptimizerCoordinatorPG FrontendShardShardShardMCMCShardMCPangu F

13、ile SystemOSSOSSHiveHiveData LakeMeta ServiceResource ManagerPG FrontendHologres架构StorageFrontend:认证、解析、优化Worker Node:计算资源Shard:数据分片Cache:分层缓存SE:存储引擎HQE:Holo向量化执行引擎PQE:PG执行引擎Resource Manager:容器资源管理Meta Service:元数据管理计算存储分离Compute(Coming Soon)ShardShardCacheWorker NodeHQEPQESEShardShardCacheWorker Nod

14、eHQEPQESEShardShardCacheWorker NodeHQEPQESEShardShardCacheWorker NodeHQEPQESE为什么选择PG生态?为什么选择PG生态?需要一个数据库生态来支持CRUD能力PG生态非常的强大!OLAP友好PG在Holo中的作用生态、兼容性易用性、性能PQE提供大量现成函数大量扩展:e.g.PostGISOptimizerCoordinatorPG FrontendPG FrontendShardShardCacheWorker NodeHQEPQESEShardShardCacheWorker NodeHQEPQESEHolo和PG的兼

15、容性支持绝大部分系统表数据模型是PG的超集增加sharding、table group等分布式概念SQL兼容性支持PG 11主要数据类型和函数支持PG 11主要语法受限事务不支持DDL/DML混合事务不支持多行 DML SQL事务单行SQL ACID(不保证全局隔离)支持binlog大部分PG function可重编译成Holo版本(无全局变量)权限模型和PG相同不支持row level security扩展:两种简单权限模型仅支持部分语法完全使用PG实现MPP支持绝大部分语法客户端协议兼容语法基本支持,有扩展语法完整的PG事务客户端协议兼容语法基本支持,函数/类型兼容Hologres在这里典

16、型Query执行过程普通SQL PG完成parsing+元数据/锁检查+基本优化 ORCA optimizer生成分布式plan HQE/PQE执行 HQE、SE全异步简单DML/query(点查、点写)通过Fixed FE和Fixed QE实现超高性能 实测:写入最高数千万 RPS,点查约1亿次RPS 写入即可见 客户端自适应攒批,低延迟PG parsingORCA optimizerFixed FEHQEPQEFixed QESEPG SQL简单dml/query一些限制和解法多FE元数据一致性Meta Service有完整的元数据各FE和Meta Service实时同步元数据PG连接数问

17、题前置加proxy实现数千连接(Odyssey)pg_stat_activity和pg_locks等表的分布式化通过FE id+local id,实现分布式系统表两种分布式表:分布式数据表+分布式系统表分区表Working on 自动创建/销毁分区功能Insert overwriteWorking on 专门支持总结通过分析服务一体化,Hologres极大简化了大数据处理流程 One Data,Multi Workload 生产级高可用Hologres充分兼容PostgreSQL 使用习惯上充分照顾数据库用户 充分兼容PG,不自己发明语法 超强实时写入、实时更新、点查、OLAP分析能力THANKS谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(极简数据服务Hologres:阿里云大数据分析服务一体化之路(28页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部