刘东阳-vivo大模型计算集群建设实践.pdf

编号：157164

PDF 22页 1.50MB 下载积分：VIP专享

下载报告请您先登录！

刘东阳-vivo大模型计算集群建设实践.pdf

1、vivo大模型计算集群建设实践vivo AI架构工程师刘东阳个人简介个人简介刘东阳 2018年加入vivo AI 研究院担任vivo AI计算平台研发工程师，参与平台从0到1建设，目前主要负责大模型训练算力及稳定性建设目录CONTENTS1 1、算力对大模型训练的重要性、算力对大模型训练的重要性2、大模型训练对计算集群的核心诉求3、vivo大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得算力对大模型训练的重要性大模型训练需要消耗巨大的算力，算力的不足会影响大模型的迭代升级效率，成为大模型的发展瓶颈。2020年，OpenAI团队在Scaling Laws for Neura

2、l Language Models论文中提出的Scaling Laws表明，要想模型效果（loss）好，模型参数规模、训练数据集、算力规模/计算量都要相应扩大。算力对大模型训练的重要性开源大模型的训练要消耗庞大的算力。以Meta的OPT-175B为例，单卡A100算力需要训练将近100年时间。假如要在30天完成训练，那么最理想情况下都要花费1000多张卡（809472/30/24=1124卡）此外，Meta近期公布推出两个24K H100 GPU集群（49152卡），用于训练LLaMA-3千亿级大模型目录CONTENTS1、算力对大模型训练的重要性2 2、大模型训练对计算集群的核心诉求、大模

3、型训练对计算集群的核心诉求3、vivo大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得大模型训练对计算集群的核心诉求大模型训练对计算集群的核心诉求是：高性能、高稳定的计算、网络、存储和调度。计算大模型训练对GPU性能的要求越来越高，低精度训练和高速互联是趋势。H系列卡具备新的精度FP8，使用FP8精度进行训练能带来可观的性能收益A800/H800系列特供版芯片对于国外芯片，对大模型训练主要的影响在于卡间NVLink互联带宽的通信影响（TP通信）计算优化GPU机内拓扑，提升大模型训练通信效率。机内卡间通信走NVLink跨节点卡间通信走GDR，绕过CPU和内存，提升通信效率GDR通

4、信效率 PIX PXB PHB SYS网络大规模分布式训练性能的关键是高带宽、低延迟、长稳定的网络。网络采用胖树和多导轨优化（NVIDIA称为rail-optimized）拓扑保证网络通信效率胖树：收敛比1:1，网络无拥塞。任何一张RDMA网卡都可以和整个网络中其他RDMA网卡高速通信多导轨：同号RDMA网卡接入同个叶子交换机，点对点效率最高（如 PP并行通信），也能让 nccl基于导轨做通信优化（如 PXN，可将异号卡通信转换为同号卡通信）存储大模型训练要求高吞吐、高iops、低时延的分布式存储。大模型训练场景中的痛点：大模型训练场景中的痛点：读场景痛点：多模态大模型训练对小文件（语音、图

5、片等）的iops和时延要求较高。写场景痛点：checkpoint的加载和保存性能存储采用分级缓存机制，优化训练读写性能，兼顾存储成本节省。无缓存，训练直接访问HDD分布式存储分级缓存（内存-本地SSD/nvme-nvme高性能缓存集群）存储分级缓存机制能有效解决分布式训练对于读写的痛点。读缓存对图像训练任务训练效率提升显著写缓存对写checkpoint的时间节省效果预估051015无缓存有缓存写checkpoint耗时时间（分）调度基于云原生的调度系统，提供面向AI训练的高效调度和资源管理。调度稳定性：故障率不可避免，调度侧重点要建设好异常快速识别、故障快速隔离、任务自动重启/快速恢复机制。案

6、例：Meta OPT 175B模型千卡训练的过程中故障频繁，训练中因为各种问题频繁中断，最长连续训练时间为2.8天目录CONTENTS1、算力对大模型训练的重要性2、大模型训练对计算集群的核心诉求3 3、vivovivo大模型计算集群的整体架构大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得vivovivo大模型计算集群的整体架构大模型计算集群的整体架构计计算算集集群群公有云集群IDC自建集群云厂商A 集群云厂商B 集群集群A集群BVTraining训练平台任务生命周期管理异常监控识别故障自动隔离任务自动重启语言大模型语音大模型视觉大模型蓝蓝心心大大模模型型高性能GPU卡（

7、A、H等系列）高性能RDMA（IB、ROCE）高性能分布式存储（云上、自建）目录CONTENTS1、算力对大模型训练的重要性2、大模型训练对计算集群的核心诉求3、vivo大模型计算集群的整体架构4 4、vivovivo自研蓝心大模型训练的一些心得自研蓝心大模型训练的一些心得vivovivo自研蓝心大模型训练的一些实践心得自研蓝心大模型训练的一些实践心得大规模分布式训练是一个软硬一体系统工程，离不开基础设施、训练加速、平台等团队的通力协作、软硬件协同优化，才能达到理想性能和稳定性。通信链路及流量监控基础设施保障基础设施保障训练、通信框架训练、通信框架调度管理调度管理服务器GPU掉卡慢节点网络网卡掉卡网络拥塞、丢包存储掉mount性能抖动任务生命周期任务异常检测故障自动隔离任务自动重启混合云异构算力管理大规模调度性能优化软硬协同保障大模型训练软硬协同保障大模型训练并行优化最优的3D并行TP通信量优化PP bubble优化通信优化（基于nccl）网络拓扑亲和优化通信链路流量监测

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（刘东阳-vivo大模型计算集群建设实践.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。