上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf

编号:102473 PDF 24页 8.20MB 下载积分:VIP专享
下载报告请您先登录!

2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf

1、阿里巴巴万卡GPU PAI 集群的资源效率优化 数据剖析和工程实践AprilApril 20222022余英豪余英豪AIAI基础设施研发基础设施研发翁祈桢翁祈桢ResearchResearch InternInternOutline2 集群概览 GPU资源效率 数据分析和洞察 工程实践 挑战和展望集群概览 AI驱动核心业务 淘宝、搜推广、达摩院、高德、自动驾驶、菜鸟 训练,在线/离线推理 CV,NLP,推荐 万卡级别的集群规模 多种卡型号,从P100到A100 多种资源配置,从单卡16核到8卡192核8网卡3PAI:Platform for AI4 KubeDL all-in-one AI作业

2、控制器 兼容Kubernetes API的增强调度器 GPU 虚拟化、QoS管控 Scheduler Tailored for DL workloadsGPU Virtualization and QoS Control数据分析更多细节请参见NSDI22论文:MLaaSin the Wild-Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters5Traces arereleasedat:https:/ Overview PAI:包含 6000+GPU的生产集群,离线处理(训练、批量推理)为主,数据采

3、集于2020年7-8月;覆盖1300+用户,1.2M任务,7.5M实例6Traces arereleasedat:https:/ equipped with NVLink运行时长和调度延迟 运行时长从秒级到天级(Philly1)(a)短任务的调度延迟占据生命周期的相当比重(b)申请整卡和高端卡的任务等待时间更长(c)(d)74105106InstDnFe run-tiPe(seF)020406080100CD)(%)3AI3hilly02550751004ueueLQg/ComSletLoQ(%)020406080100CD)(%)/oQg tDsksAll tDsks6

4、hort tDsks3104105,nstDnFe queueing GelDy(seF)020406080100CD)(%)0.25,0.5)G38s0.5,1)G38s1 G38 1 G383104105InVtDnFe Tueueing delDy(VeF)020406080100CD)(%)T40I6C3100V100V100032(a)(b)(c)(d)1Jeon,Myeongjae et al.“Analysis of Large-ScaleMulti-Tenant GPU Clusters for DNN Training Worklo

5、ads.”ATC 19 https:/ mDin memRUy020406080100CD)(%)0em 5equest0em 8sDge0.00.51.01.52.0#GP8s020406080100CD)(%)GP8 5equestGP8 8sDge06102030#vC38 Fores020406080100CD)(%)C38 RequestC38 8sDge业务视角:资源需求 资源申请:CPU/GPU/Mem 均存在长尾分布现象:2-8法则(实线)资源使用:不均衡,超过90%的业务GPU算力用量少于半张卡(虚线)资源申请和使用量存在Gap 提升效率的空间8(a)(b)(c)025507

6、51008tilizDtion(%)020406080100CD)(%)P50 of 8-GP8 noGesCP8GP80ePGP8 0eP02550751008tilizDtion(%)020406080100CD)(%)P50 of 2-GP8 noGesCP8GP80ePGP8 0eP02550751008tilizDtion(%)020406080100CD)(%)P90 of 2-GP8 nodes02550751008tilizDtion(%)020406080100CD)(%)P90 of 8-GP8 nodes机器视角:资源效率 8卡机器的CPU利用率显著高于2卡机器(中位和长

7、尾)GPU利用率的中位(P50)和长尾(P90)存在较大差距 主存和显存水位不高9(a)(b)(c)(d)Insights10GPU共享 GPU 共享可以节省50%GPU,在业务峰值可节约2500+GPU9 10 11 12 13 14 15 16 17 18 19 20 21 22 23HouU of thH Gay02000400060008000#G38s allocatHGw/o G38 shaUing(siPulatHG)w/G38 shaUing(PHasuUHG)作业运行时长预测 重复提交的作业是常见的(65%的作业重复超过5次)基于作业元信息做特征工程,形

8、成标识符:Group(e.g.,启动脚本、命令行参数、数据输入输出)103104TDsk reFurrenFe020406080100CD)(%)01234567DDys frRm beginning005un-time(sec)7Dsk A7Dsk B7Dsk C5Sample inference tasks作业运行时长预测 预测算法:Regression tree 78%实例的时长预测误差在25%以内 调度仿真:SJF vs.FIFO 相比FIFO,JCT减少 63%-77%05000300003500

9、0400000250030003500400045005000550060006500Apletion time(sec)Num of GPUs in ClusterSJF-OracleSJF-SJF-SJF-FIFO(baseline)Features used工程实践如何提升万卡PAI集群的资源效率14SLO差异化GPU混部15 GPU没有时刻100%分配 已经分配的资源没有100%用完SLO差异化GPU混部16 GPU没有时刻100%分配 已经分配的资源没有100%用完SLO差异化GPU混部17 SLO分级 是否会被压制、驱逐?最少运行时长?驱逐是否有优雅退出等待?

10、等级等级SLOSLO保障保障Tier-0不会被驱逐Tier-1有最小运行时长保障Tier-2GPU虚拟化和QoS保障 虚拟化 vGPU1时分复用和MIG 空分复用,算力、显存隔离 基于云原生容器技术,业务无入侵 GPU QoS daemon 基于实时利用率,动态分配算力 资源争抢时,按优先级保障,及时压制和驱逐181类似vCUDA方案KubeDL AI负载高效率混部调度 All-in-one AI作业控制器,支持多种开源、自研深度学习引擎 支持高效混部 多级优先级队列,自动匹配资源;可根据时长估计优化出队策略 支持弹性训练1、Spot实例等,充分利用空闲资源 适配Gang调度、自适应等待时间

11、基于历史画像的训练训练实例规格自动更新 Morphling2,在线推理在线推理实例规格自动化压测和推荐 训练作业全生命周期元数据持久化和归类分析,资源效率洞察191 依赖深度学习引擎自身的弹性训练能力2 发表于SoCC 21:Morphling:Fast,Near-Optimal Auto-Configuration for Cloud-Native Model Serving挑战和展望21CPU瓶颈 相比GPU,CPU资源的竞争更容易影响作业效率22(a)(b)(c)(d)A sampleClick-ThroughRate(CTR)prediction taskGeneraltasks on

12、variousGPUnodesCPU瓶颈 CTR 模型训练有80%time消耗在 CPU(I/O和预处理)GNNs 30-90%时间在Edge Iteration,NeighborSampling等CPU操作 RL 仿真需要大量CPU-intensive的实例23(a)Recommending:CTRmodels(b)Graph NeuralNetworks(GNNs)06080100CD)(%)#vC38 FoUes#G38G%GDtD input(c)Reinforcement Learning(RL)机器和作业规格逐渐失配 机型汰换慢于业务演进 推理和训练的资源需求迥异,机器难以充分混部复用 推理仅前向计算,GPU利用率低;通信依赖H2D带宽(单机单卡)训练的GPU op利用率高;通信依赖D2D带宽(单机多卡)24Short ofCPUsRedundant ofCPUse.g.,12.0=96 vCPUs/8GPUsI/O Matters 训练作业的数据集普遍在TB级别 存储计算分离带来的长传网络开销25

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部