《【Alluxio】Alluxio在高性能AIML数据访问中的应用.pdf》由会员分享,可在线阅读,更多相关《【Alluxio】Alluxio在高性能AIML数据访问中的应用.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio在高性能AI/ML数据访问中的应用2023/12/09目录 AI/ML 面临的挑战及数据架构发展 Alluxio 高性能AI/ML数据编排/访问平台 Alluxio 在高性能AI/ML数据访问中的应用AI/ML 面临的挑战及数据架构发展PART 1AI/ML 面临的挑战及问题?GPU短缺+GPU利用率低+AI技术设施昂贵+海量数据访问低效+模型训练/上线时间长AI计算/机器学习GPU短缺:”目前 GPU 比毒品更难获得”(Tesla 埃隆马斯克);即使是大型云供应商,分配也需要12个月或更长时间GPU利用率低:即使得到了GPU,GPU利用率也很低(可能由于数据访问问题);GPU花
2、费时间等待数据加载/预热,而不是计算AI基础设施昂贵:GPU资源及专用高性能存储等基础设施价格高昂,造成大规模AI/ML计算的成本问题海量数据处理/访问低效:通用人工智能通常需要海量的数据做支撑,这也要求企业有效地存储、管理及高性能访问大量数据模型训练/上线时间长:AI/ML数据访问/服务性能减缓了AI/ML模型训练及模型上线时间,影响企业快速构建部署模型的能力AI/ML 需要什么样的存储/缓存/数据访问系统?目前主流可选方案高性能并行存储系统:GPFS/CPFS,Lustre等 优点:高性能,POSIX兼容性好 缺点:成本较高;扩展性较差分布式对象存储系统:AWS S3,OSS,MinIO等
3、 优点:成本很低,扩展性好缺点:性能一般;POSIX兼容性受限存储中间件/加速系统:JuiceFS,JindoFS等 优点:成本适中,性能较好 缺点:数据格式私有;数据治理/运维成本高数据编排/缓存系统:Alluxio优点:成本较低,性能较好,数据运维简单 缺点:POSXI兼容性受限AI/ML模型训练需要的存储/缓存/数据访问系统架构选型标准?总体成本:使用较低成本构建面向AI计算任务的高性能数据访问平台-对象存储+缓存系统性能及协议支持:提供高性能数据访问接口,多数据访问协议兼容(POSIX,S3,HDFS等)数据格式及架构开放:支持透明数据格式(保持原始存储目录和文件格式不变);无厂商/技
4、术锁定数据治理/运维:降低数据治理/数据运维对训练流程/效率影响(最少数据迁移时间、简化Data Loader,Data Pipeline流程,减少运维等)Alluxio 在 AI/ML 技术栈中的架构定位持久化存储层Alluxio 高性能数据访问/编排层AI/ML计算框架/推理引擎AI/ML 统一编排层Alluxio 高性能AI/ML数据访问/编排平台PART 2Alluxio Enterprise AI 3.0 赋能高性能AI/ML计算数据处理特征工程模型训练模型部署原始数据处理过数据特征数据训练数据模型模型/缓存命中结果新结果Alluxio Enterprise AI 3.0基于模型训练
5、和推理的数据访问模式提供高性能数据服务针对大语言模型(LLM)、大规模自然语言处理(NLP)及计算机视觉(CV)等AI/ML计算提供高性能数据访问Alluxio 高性能AI/ML计算应用参考架构数据处理使用 Alluxio 作为数据访问网关或写缓存特征工程使用Alluxio作为在线存储或者离线存储模型训练使用 GPU 读取训练数据、视觉(图像)或 NLP/LLM(文本)模型部署使用经过训练好的模型进行推理或预测Curated/Processed DataModelSpark or PyTorchS3 or HDFSSparkSpark or PyTorchLanding/Raw DataS3
6、or POSIXS32FeatureProcessed dataModelData&FeatureResultModelModelRegion BRegion CRegion ATopologyStorageComputeStageNamespace or Write Cache1Read Cache2Data MigrationAlluxio 产品核心能力/特性及技术价值Alluxio面向AI/ML场景的应用Alluxio面向AI/ML场景的高性能数据访问加速基于Alluxio的 AI/ML数据访问技术架构及业务价值加速模型训练/上线速度提高GPU利用率30%90%降低API改造/适配成本减
7、少高成本专用存储75%减少数据复制任何和数据副本管理,减少运维人员2X更快的数据管道,减少专用存储和跨域数据传输带来更低的成本70%降低数据加载时间消耗;提高的GPU利用率和模型训练效率使用 Alluxio 之前使用 Alluxio 之后Alluxio 在高性能AI/ML数据访问中的应用PART 3应用案例-顶级互联网金融服务公司模型训练场景应用业务挑战Alluxio解决方案价值收益GPU 利用率较低:20%-30%的GPU利用率.随着模型训练任务数量的增加,数据迁移管道难以维护从主数据湖到AI/ML基础设施平台的大量冗余副本与云对象存储相比,GPU 利用率从 20-30%提高到 90%以上仅
8、维护活跃训练数据集(少于总数据集的 3%)降低数据工程成本75%大规模 AI/ML 训练的访问层应用案例-国内头部车载智能计算厂商模型训练场景业务挑战业务挑战Alluxio Alluxio 解决方案解决方案价值收益价值收益对象存储中的训练数据访问效率较低导致GPU 利用率低.不同部门将相同的数据集下载到NAS,导致NAS中有大量的冗余数据,增加存储和运维成本通过通过AlluxioAlluxio提供提供FUSEFUSE接口能力同时,提升模型训练性能和接口能力同时,提升模型训练性能和GPUGPU利用率利用率数据下载:模型训练数据预加载速度提升2倍到10倍简化运维:减少了大量跨集权数据工程运维和数据
9、冗余数据跨集群拷贝时间,成本高,导致整体模型的训练、部署周期长,成本高训练耗时:模型训练时间18小时缩短到14小时(训练脚本瓶颈)吞吐提升:相比NAS和直接访问S3存储,IO读取速度提5倍应用案例-国内Top3证券公司模型上线场景应用从主数据湖到AI/ML基础设施平台的大量冗余副本 在推理集群所在K8s集群的宿主机上部署Alluxio集群并启动Alluxio Fuse客户端。通过K8s标签的方式,让使用Alluxio Fuse的Pod能够发布在正确的宿主机上。推理集群的Pod通过Hostpath的方式挂载Alluxio Fuse目录到模型训练Pod内。通过Alluxio实现和HDFS Clus
10、ter进行安全集成(Kerberos认证,跨KDC集成)。通过Alluxio Cache实现当多个Pod加载同一个模型时的性能提升。利用Alluxio+HDFS替代NAS,降本增效:适应大模型对于更大存储空间、更高模型上线性能的要求,同时减少NAS采购成本。应用案例-国内Top3证券公司模型推理场景应用GPU 利用率较低:20%-30%的GPU利用率.从主数据湖到AI/ML基础设施平台的大量冗余副本业务挑战Alluxio解决方案价值收益某证券公司在智能云平台上建设量化投研平台-项目建设需要对接多方技术团队(存储和计算接口不一致)-计算侧需要快速访问对象存储上的大量小文件-期望控制对象存储的使用
11、成本架构要点-从云平台到本地机房的数据拉取-南向OSS协议访问对象存储;北向POSIX协议提供数据接口-K8s环境部署Alluxio组件Alluxio价值体现-Alluxio桥接不同厂商的存算平台,降低需求方和供应商的系统集成成本-通过元数据缓存提升文件扫描速度10 x以上;通过热数据缓存避免重复拉取OSS数据-打造智能云平台数据编础能力,为云用户提供异构存储集成、泛化计算接口对接能力证券期货证券数据(非因子)应用案例-顶级知识问答/内容服务平台模型训练&模型上线一体化场景应用业务挑战Alluxio 解决方案价值收益HDFS 中的训练数据访问效率较低导致GPU 利用率低.使用 Alluxio
12、S3 API 将模型部署速度提高 5 倍GPU 利用率从 45%提高到 98%模型上线/部署成本高,时间长帮助多集群模型快速上线,数据缓存加速模型训练过程提高用户留存率和用户在平台上的观看时间通过更高效的数据访问层将硬件成本降低 50%跨数据中心/跨多云数据访问造成网络瓶颈及成本较高应用案例-全球Fortune 5 科技公司-AI/ML场景应用GPU 利用率较低:20%-30%的GPU利用率.业务挑战Alluxio解决方案价值收益巨额的S3 网络出口费用数据访问速度太慢且分散,无法利用GPU有效地利用云中h或本地计算资源进行部署商业分析和洞察需要很长时间:数据无法立即获得获得混合云和多云的数据访问和商业洞察敏捷性根据可用性在本地和云端启动 GPU;适用于所有人工智能数据和模型开发的通用数据入口点每年节省$1000M以上,降低 S3 出口成本缩短洞察时间THANKS