《【alluxio】Alluxio在大数据分析场景中的应用.pdf》由会员分享,可在线阅读,更多相关《【alluxio】Alluxio在大数据分析场景中的应用.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio 在大数据场景中的应用车赛光2023-12-09目录 Alluxio里程碑回顾 Alluxio用户需求分析 大数据场景典型案例 Alluxio的架构升级Alluxio里程碑回顾PART 1Alluxio 数据编排平台Alluxio 0.2在UC伯克利AMP实验室发布2013Alluxio发布2.0版本大数据分析场景爆发式增长企业上云速度加快机器学习场景爆发式增长Alluxio项目正式开源2015开展商业化进程Alluxio发布1.0版本2000222023大力拓展中国市场AlluxioDora架构发布Meta 100%Presto 服务
2、使用Alluxio支付宝80%模型训练使用AlluxioAlluxio 数据编排平台成熟的方案更高的性能更短的时间更快的速度更低的成本Alluxio 核心能力Alluxio用户需求分析PART 2大数据分析场景的需求分类性能下降管理复杂成本过高$计算应用缓存加速HDFS集群负载分流供应商产品集成简化多存储间的数据管理对象存储成本控制$单一区域多个区域大数据分析场景典型案例分享PART 3HDFS集群负载分流场景&痛点国内互联网头部企业应用场景 单一IDC Impala&HDFS A/B Testing,用户画像,用户行为分析用户痛点 常见1000亿的查询 上百的并发为常态 100%HDFS硬盘
3、利用率失败比率:查询失败率减少5%HDFS利用率:80%100%降至50%70%超时比率:查询超时减少29%查询性能:IO为主查询提升240%查询平均提升120%解决方案用户收益 SSD节点组成Alluxio集群 Alluxio挂载多个HDFS Alluxio 为 HDFS 提供数据缓存 Alluxio 为多个 HDFS 提供统一命令名空间计算应用缓存加速公司:美国共享出行头部企业(类似滴滴)场景:-单一数据中心-Presto+HDFS的大数据平台-交互式查询、数据批处理背景:-规模大:5000 Presto 节点-负载高:HDFS 90PB 读数据/天-任务多:500K 查询/天需求:-优化
4、Presto的效率(1%的提升,其绝对数也是非常可观的)方案:-以Alluxio为缓存作为基础方案,并加上以下调整-HDFS文件mtime作为缓存数据键值(cache key)的一部分,这个信息用来评判缓存数据的时效性-使用一致性哈希(consistent hashing)策略,确保缓存数据的时候,数据和worker的位置不因worker的变化而受到影响-使用cache filter来管理可缓存的数据,保证Alluxio能够充分缓存热数据,而不是冷数据-从Block到Page,让Presto对Alluxio进行随机读的操作更加高效架构图效果:-40%的批处理集群的节点使用了该方案(1500no
5、des+)-13%Presto Batch任务的IO由HDFS转移到了缓存-数据读取的延迟降低了44%计算应用缓存加速场景&需求美国共享出行头部企业应用场景 单一IDC Presto&HDFS 交互式查询、批处理任务用户需求 规模大:Presto 5000节点 负载高:HDFS 90PB/日 任务多:50万次查询/日 更高效:优化Presto的效率 解决方案用户收益 SSD节点组成Alluxio集群 Alluxio挂载多个HDFS Alluxio 为 HDFS 提供数据缓存 Alluxio 为多个 HDFS 提供统一命令名空间多供应商产品集成简化公司:国内券商头部企业场景:-本地计算访问远端对
6、象存储-numpy&POSIX+oss:/-量化计算痛点-甲方云平台需要集成多个供应商的产品-供应商的产品提供的接口互不兼容,且项目时间紧迫-需要频繁访问大量小文件,且需要控制对象存储的成本-甲方希望能够拓展云平台能力,打造统一数据接入增,在架构上做到“向未来兼容”方案:-Alluxio作为数据编排层,北向为计算应用提供POXIS接口,南向通过OSS协议对接对象存储-提供对象的原数据和数据缓存架构图:中信PPT收益:-Alluxio 桥接不同厂商的存算平台,降低需求方和供应商的系统集成沟通成本-打造云平台数据编排基础能力,为云用户提供异构存储集成、泛化计算接口对接能力-通过热数据缓存,避免重复
7、拉取 OSS 数据-通过元数据缓存,提升文件扫描速度 10 x 以上多存储间的数据管理公司:国内电信行业头部企业场景:-多数据中心-HDFS-数据拷贝背景-河南拥有主数据中心,内蒙古建设新的数据中心-新的业务在内蒙数据中心部署运行-数据来自河南数据中心-不同的数据中心有独立的Kerberos安全域,建设初期需要限制两域的网络互通-批处理业务的实时性要求不强方案:-两地数据中心的多个HDFS挂载到Alluxio上-在上Alluxio定义、执行数据拷贝策略,实现数据拷贝架构图:增加优势:-Alluxio 本身提供数据管理引擎,提供数据的迁移、拷贝能力-Alluxio的数据管理引擎独立规划、独立部署
8、,不依赖于YARN,对已有任务的资源没有侵入性-Alluxio支持同时访问多个不同Kerberos 安全域的HDFS,并且不要求Kerberos必须配置cross-realm trust对象存储成本控制公司:美国旅行代理头部企业(类似携程)场景:-多个AWS Region-Presto/Trino/Spark+AWS-数据分析、数据批处理背景-多个子公司独立运营,产生数据孤岛-集团规划打造“主数据湖”,实现子公司的数据互访,最大化数据价值-新数据流入“主数据湖”,同时,各个租户能够访问数据孤岛中的历史数据方案试水:数据从孤岛复制到主数据湖-跨域数据拷贝产生高额的数据复制成本-数据量大(单表TB
9、级别)、跨域带宽限制导致延迟过高-数据变化和数据错误的处理导致成本和延迟问题进一步严重架构图收益:-避免了全表拷贝,常用表的访问成本降低了50%-访问数据不需要等到全表数据复制完成,极大降低延迟-简化了数据一致性和更新的处理流程和成本方案改进:基于Alluxio的跨域数据联邦访问-把数据孤岛的S3 bucket挂载到Alluxio上,实现基于Alluxio的全域S3对象存储统一访问:数据被Alluxio按需预加载,而不是全部复制-通过HMS代理访问远端HMS服务,数据访问根据客户端和服务端的相对位置动态调整:本域数据直接访问S3,跨域数据通过Alluxio访问Alluxio的架构升级PART
10、4大数据分析场景的需求分类Block-Page:Page防止读放大HA Master-Client+Worker:HA Master:block/page的访问需要多次和Master通信Client+Worker:client直接计算block/page的worker id,绕过master好处:IO吞吐随着Worker而扩展(高扩展性)防止Master问题而下线;Journal功能简化(高稳定性)Alluxio Edge:客户端缓存Fuse:随机写功能谢谢HDFS集群负载分流 架构图HDFS-1HDD NodeHDD NodeSSD NodeSSD NodeSSD NodeSSD NodeHDFS-2HDD NodeHDD NodeCluster-1Cluster-2Impala-1Impala-2计算应用缓存加速 图更多图多供应商产品集成简化 图