上海品茶

DataFunSummit 2024-刘嘉承alluxio.pdf

编号:157197 PDF 36页 5.48MB 下载积分:VIP专享
下载报告请您先登录!

DataFunSummit 2024-刘嘉承alluxio.pdf

1、Alluxio 3.0分布式数据湖/AI缓存架构的探索和实践Alluxio Staff Engineer,Alluxio PMC Member刘嘉承数据湖/AI世界现状:纷繁复杂的数据平台带来的新挑战Alluxio开源项目、公司历史及开源社区过去十年的演进Alluxio架构、主要功能及核心技术革新Alluxio 2.x-3.x 的演进过程及效果内容概览现状:纷繁复杂的数据平台ALLUXIO 4数据系统日益丰富数据获取的碎片化业务团队对数据统一访问的强烈要求存储与计算分离的架构创新分割的数据世界ALLUXIO 5数据复制&显性数据同步的复杂性数据分析的多样性&数据平台适配的复杂性技术变迁导致的多

2、平台混合架构&迁移的复杂性复杂的数据平台ALLUXIO 6低效I/O 低性能GPU昂贵&稀缺无法随时使用专用存储价格昂贵基础设施问题$大数据/AI之路的架构演进ALLUXIO 7同置(Co-located)计算引擎&HDFS 紧密耦合在一起在同一个集群上实现计算引擎与HDFS的解耦MR/HiveHDFSSpark/PrestoHDFS解耦(Disaggregated)将需要弹性伸缩的负载和数据迁移进公有云或者是私有云对应用透明,充分支持Presto,Spark,Impala,TensorFlow,PyTorch允许从传统大数据存储向对象存储过渡向对象存储过渡混合云化部署支持更多计算框架混合异构

3、(Hybrid)分布式缓存全局数据访问数据管理企业安全与合规性能和可扩展性DevOps能力Alluxio 数据平台云本地混合跨云分析框架AI/ML 框架Alluxio项目及公司简介Alluxio项目与公司历史源自加州大学伯克利分校AMP实验室(原名Tachyon Nexus),李浩源博士的博士论文课题,李浩源现任Alluxio公司董事长兼CEO20142015Alluxio项目自开源以来已经在全球有超过300个组织,1100+贡献者,并于2015年成立公司推动Alluxio项目的产品与商业化,2020年在Google OpenSSF最有影响力的Java开源项目中排名第9面向异构基础设施环境(本

4、地、混合云、公有云)实现高效的数据统一管理编排,服务大数据与AI应用!200202021Alluxio China 2021Alluxio 在2021年起开始大力拓展国内市场业务,并将北京设立为中国区总部,成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求。Alluxio 技术发展历程源自美国伯克利大学AMPLab开源项目1000+节点百度最大部署规模10亿文件由Alluxio2.0版本支持20/10 头部互联网公司 部署 Alluxio知乎LLM模型训练,Alluxio提供支持数据爆炸大数据和分析的兴起云采用单云到混合云、多云,跨区域深

5、度学习和AI大模型训练和部署 1000+开源贡献者1000+参会人 数据编排峰会100%Presto Meta与Alluxio全面集成9/10 头部互联网公司 部署 Alluxio支持千亿小文件ALLUXIO 12正在使用Alluxio的公司INTERNETPUBLIC CLOUD PROVIDERSGENERALE-COMMERCEOTHERSTECHNOLOGYFINANCIAL SERVICESTELCO&MEDIALEARN MOREAlluxio架构及主要功能数据湖&AI/ML领域常见的痛点AI/ML场景数据湖场景?GPU短缺?GPU利用率低?模型训练、模型上线时间长?跨集群、跨地域

6、、跨云数据访问?不同存储/计算引擎的复杂技术栈?昂贵/复杂的数据移动和数据副本训练过程中大量的远程读取数据移动/复制带来副本问题客户端缓存在计算应用内,使用本地存储或内存提供本地速度缓存集群缓存在计算集群内,或多个相近的计算集群共享,提供网络速度缓存如果缓存集群下线,客户端也可以直接连接底层存储,保证可用性Alluxio clientlocal cacheAlluxio Workerlocal cacheClient cache:计算应用内,计算节点本地存储Cluster cache:计算集群内或独立缓存集群RemoteStorageS3,HDFS Alluxio 主要功能-多级缓存Prest

7、o workerAlluxio 主要功能-多级缓存local cache一个高可用的 Service Registry(ETCD)记录了所有的可用 Worker 列表一致性哈希决定了如何选择缓存 Worker/s3/data/hdfs/tabless3:/bucket/data/customers/inventoryalluxio:/hdfs:/host:port/tables/customers/inventory/2023/2022/2023/2022通过Alluxio统一管理多个异构的存储系统通过Alluxio统一访问不同存储的接口动态加减挂载点方便管理Alluxio 主要功能-动态多挂

8、载点Alluxio 主要功能-多接口支持丰富使用场景 CREATE TABLE alluxio_table(id varchar)WITH(external_location=alluxio:/Data/Reports);Hadoop FileSystem APIrdd=sc.textFile(“alluxio:/Data/Sales”);rdd=sc.objectFile(“alluxio:/Data/Sales”);df=sc.read.parquet(“alluxio:/Data/Reports”)Spark/Presto等Java计算引擎通过Alluxio Java客户端使用Allux

9、io缓存Alluxio Java客户端使用RPC(gRPC/netty)读取集群缓存Alluxio 主要功能-多接口支持丰富使用场景POSIX/FUSE APIRESTful APIREST API callsAlluxio FUSE 作为特殊的 Java 客户端,提供了 POSIX 接口兼容Alluxio 同时提供了 Python 客户端,使用 REST/S3 接口使用集群缓存Ray/PyTorch/TensorFlow 通常使用 Alluxio FUSE/REST/S3 API#Import fsspec&alluxio fsspec implementationimport fsspec

10、from alluxiofs import AlluxioFileSystem#Overwrite S3 fsspec implementation to Alluxio fsspec implementationfsspec.register_implementation(s3,AlluxioFileSystem,clobber=True)#Create Alluxio filesystemalluxio=fsspec.filesystem(s3,etcd_host=args.etcd_host)#Ray read data from Alluxio using S3 URLds=ray.d

11、ata.read_images(s3:/ai-ref-arch/imagenet-full/train,filesystem=alluxio)Using Alluxiofs instead of S3fsOriginal S3 URLAlluxio 主要功能-多接口支持丰富使用场景S3 APIAlluxio使用场景案例利用其他业务资源满足计算扩容需求元数据&数据缓存其他业务集群元数据&数据缓存平台集群HDFS数据湖-存算分离场景存储独立扩容,数据冷热分离元数据&数据缓存计算集群HDFS大容量存储集群HDFS历史数据降级历史数据查询数据湖-存算分离场景数据湖-缓存加速场景Uber:3个Prest

12、o集群,1500节点只启用Alluxio client cache,不使用Alluxio集群缓存读性能提升50%HDFS流量减少10%数据湖-缓存加速场景Shopee Trino集群使用Alluxio client cache对查询进行加速只启用Alluxio client cache,不使用Alluxio集群缓存查询时延下降40%读吞吐提升10 x 40%Query Latency(Second)10 xIO throughput(MB)7070On PremCheckpointsTraining Data对象存储或HDFS单一真实数据来源模型训练集群DataLake机器学习-模型训练场景消

13、除数据拷贝,降低成本/复杂性从数据湖加载最新数据避免了拷贝和用于拷贝的数据管道,提升效率比商业化S3存储性能提升2-8倍比提供了Posix API接口的专用存储系统访问速度提升1.5-2X 相较直接数据访问,API成本节约高达95%7070On PremCheckpointsTraining Data模型训练集群7070On Prem线上AI应用集群线上AI应用集群7070On Prem线上AI应用集群线上AI应用集群对象存储或HDFS单一真实数据来源DataLake模型模型分钟级快速部署模型到推理集群支持高并发拉取线上AI应用集群无需再维护本地存储系统更快部署模型上线,生产环境下的部署时间降

14、低至原先的1/2-1/3机器学习-模型训练场景使用 Alluxio 之前 80%的时间用于数据加载;GPU使用率低于20%28GPU SummaryNameTesla T4Memory14.62GBCompute Capability7.5GPU Utilization16.96%Est.SM Efficiency16.91%Est.Achieved Occupancy68.75%Kernel Time using Tensor Cores0.0%CategoryTime Duration(us)Percentage(%)Average Step Time1,763,649,145100Ker

15、nel299,168,90516.96Memcpy10,521,7220.6Memset39,4590Runtime3,043,1690.17DataLoader1,446,068,95681.99CPU Exec1,570,0760.09Other3,245,8580.18Resnet-503 epochsS3 Fuse机器学习-模型训练场景使用 Alluxio 后在数据加载中花费的时间从82%减少到1%GPU利用率从17%提高到93%GPU SummaryNameTesla T4Memory14.62GBCompute Capability7,5GPU Utilization93.29%E

16、st.SM Efficiency92.98%Est.Achieved Occupancy68.03%Kernel Time using Tensor Cores0.0%CategoryTime Duration(us)Percentage(%)Average Step Time334,274,946100%Kernel311,847,02393.29Memcpy10,500,1263.14Memset43,9460.01Runtime3,899,2411.17DataLoader3,343,3011CPU Exec1,648,3910.49Other2,992,9180.9Resnet-503

17、 epochsAlluxio Fuse机器学习-模型训练场景Alluxio 2.x-3.x类HDFS的主从架构元数据由Master统一管理和服务,提供强一致性数据缓存由Worker提供Alluxio Journey-Alluxio 2.x 架构所有的元数据请求由Alluxio Master(Primary)处理,有明显的单点瓶颈,难以扩容Alluxio 2.x 提供强一致性,由Journal日志保证,这使得Journal日志的稳定性和性能极大程度上决定了系统的稳定性和性能。在生产中70%左右的问题和Journal日志本身的稳定性相关。Master需要管理命名空间内所有元数据,内存/存储压力大,

18、难以支撑亿级文件的负载由于 HDFS 的血脉遗传,Alluxio 使用 64MB 的数据块作为缓存单位,在 Presto/ML 场景为代表的小文件/随机读场景下带来了读放大问题只有 Worker 可以提供缓存,缓存速度多受到网络速度限制读路径需要通过 Master 和 Worker,多次 RPC 影响了性能Alluxio Journey-2.x 架构的天然问题可扩展性:可横向扩展支持十亿级别文件规模高可用:去除单点故障(single point of failure),天然支持服务降级提升性能:极大提升缓存性能,提升GPU利用率我们将 3.x 的架构命名为 Distributed Object

19、 Repository Architecture(DORA)Alluxio Journey-Alluxio 3.x 的核心设计理念可用性去除了Master的单点瓶颈,元数据和数据由Worker管理舍弃了由Master统一管理的Journal日志和元数据存储,减少系统维护的状态,降低复杂度将Worker列表、挂载表等状态由Master转移到Service Registry(一般使用ETCD),降低复杂度集群遇到故障时,客户端直接连接底层存储,保证可用性可扩展性通过一致性哈希将数据/元数据负载均匀分配给Alluxio Worker,天然支持动态扩缩容将十亿级文件的命名空间分片到每一个Worker管

20、理,极大降低了单节点压力通过Kubernetes Operator进一步优化(云上)动态扩缩容体验性能提升将基于64MB为单位的BlockStore改成以1MB为单位的PageStore,针对随机读/小文件优化,减少读放大问题数据传输的RPC通道从gRPC重新换回netty,获得30%+性能提升Alluxio Journey-Alluxio 3.x 的革新Alluxio 2.x 中的 Master 组件职责转移到其他节点元数据转移至每一个 Worker 节点存储和管理配置信息转移至配置文件和 Service Registry 管理挂载点信息(命名空间组成)转移至 Service Registry 管理Worker 列表和哈希环转移至 Service Registry 管理适配数据湖和ML/AI场景,降低一致性要求Alluxio 2.x 由 Master 统一管理元数据,用复杂的锁机制保证强一致性,用 Journal 日志保证持久化数据分析和 ML/AI 的场景主流是一写多读(WORM)和只读,不需要强一致性持久化和一致性职责转移到通过底层存储完成,Alluxio 层更加透明化Worker 中的多副本一致性仍在探索中,可以通过一个轻量级的类 Master 节点处理Alluxio Journey-Alluxio 3.x 的核心技术革新

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(DataFunSummit 2024-刘嘉承alluxio.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

183**14... 升级为标准VIP  wei**n_...  升级为至尊VIP

微**...  升级为高级VIP  wei**n_... 升级为至尊VIP

 Be**en 升级为至尊VIP 微**... 升级为高级VIP

  186**86... 升级为高级VIP Ji**n方...  升级为至尊VIP

 188**48... 升级为标准VIP  wei**n_... 升级为高级VIP

 iam**in... 升级为至尊VIP wei**n_... 升级为标准VIP 

135**70... 升级为至尊VIP  199**28... 升级为高级VIP 

wei**n_...  升级为至尊VIP wei**n_... 升级为标准VIP 

 wei**n_...  升级为至尊VIP 火星**r...  升级为至尊VIP 

139**13... 升级为至尊VIP  186**69...  升级为高级VIP

157**87... 升级为至尊VIP  鸿**... 升级为至尊VIP 

wei**n_...  升级为标准VIP  137**18...  升级为至尊VIP

 wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 

 139**24... 升级为标准VIP  158**25... 升级为标准VIP

wei**n_...  升级为高级VIP  188**60...  升级为高级VIP

Fly**g ... 升级为至尊VIP   wei**n_... 升级为标准VIP

186**52...  升级为至尊VIP   布** 升级为至尊VIP

 186**69...  升级为高级VIP  wei**n_... 升级为标准VIP

 139**98... 升级为至尊VIP  152**90... 升级为标准VIP

138**98... 升级为标准VIP  181**96... 升级为标准VIP 

185**10... 升级为标准VIP   wei**n_... 升级为至尊VIP 

 高兴  升级为至尊VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP   阿**...  升级为标准VIP

  wei**n_... 升级为高级VIP lin**fe... 升级为高级VIP

 wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

 wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

 wei**n_... 升级为高级VIP wei**n_...  升级为高级VIP

180**21... 升级为标准VIP  183**36... 升级为标准VIP

wei**n_...  升级为标准VIP  wei**n_... 升级为标准VIP

xie**.g...  升级为至尊VIP  王**  升级为标准VIP

 172**75... 升级为标准VIP  wei**n_... 升级为标准VIP

  wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

135**82... 升级为至尊VIP 130**18... 升级为至尊VIP 

 wei**n_...  升级为标准VIP  wei**n_... 升级为至尊VIP

 wei**n_... 升级为高级VIP 130**88... 升级为标准VIP

张川  升级为标准VIP wei**n_... 升级为高级VIP 

叶** 升级为标准VIP  wei**n_...  升级为高级VIP

138**78... 升级为标准VIP  wu**i 升级为高级VIP 

 wei**n_... 升级为高级VIP  wei**n_... 升级为标准VIP 

 wei**n_...  升级为高级VIP 185**35...  升级为至尊VIP

wei**n_...  升级为标准VIP 186**30... 升级为至尊VIP 

156**61... 升级为高级VIP   130**32...  升级为高级VIP 

136**02...  升级为标准VIP wei**n_... 升级为标准VIP 

 133**46... 升级为至尊VIP wei**n_... 升级为高级VIP

  180**01... 升级为高级VIP 130**31...  升级为至尊VIP

 wei**n_... 升级为至尊VIP 微**...  升级为至尊VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为标准VIP

刘磊  升级为至尊VIP  wei**n_... 升级为高级VIP

班长  升级为至尊VIP   wei**n_... 升级为标准VIP