报告预览

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

编号：159590

PDF 31页 2.91MB 下载积分：VIP专享

下载报告请您先登录！

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

1、国产智能算力训练大模型的经验与教训陈文光提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n并行策略选取n容错o 经验与教训2大模型的计算特征 -计算形态3n 核心是 Transformer 模型n 模型的计算主要集中在n 嵌入层(Embedding)n 注意力层(Attention)n 前馈网络(FFN)n 计算核心均为矩阵乘法大模型的计算特征 -运算量与运算时间o 在数据、模型、训练所用的运算量大了以后发生了涌现，一般认为涌现点是千亿模型参数，所需运算量在1024 Ops BF16（100天*1000卡）4https:/hai.stanford.edu/news/examin

2、ing-emergent-abilities-large-language-models大模型的计算特征 -运算精度o 主要运算精度BF 16，但其中SoftMax部分需要FP32才能保证收敛5大模型的计算特征多种并行模式并存o 多种并行模式达到训练速度、通信量、显存容量的平衡6模型梯度新模型模型模型梯度 0梯度 1新模型新模型all-reduce模型P0模型P1梯度P0梯度P1新模型P0新模型P0all-gather/all-reduce节点 0节点 1节点 1节点 0串行训练数据并行(DP)模型并行(MP)gategate0 1 2 34 5 6 70 1 3 62 4 5 7专家 0专

3、家 1节点 0节点 1MoE并行AlltoAll提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n容错n框架的并行性支持n未来算法7在两个国产平台上训练大模型o 新神威计算机 Bagualu n174T参数 MOE 模型n国产超算平台o 鹏城云脑II 鹏城脑海 n2000亿参数稠密模型n国产智算平台8新神威计算机o 片上异构众核处理器，双精度：半精度算力1:4o 整机超过10万处理器9CG 0CG 1CG 2CG 3CG 4CG 5环网网卡网卡核组主核存控从核阵列超节点超节点超节点1/8 顶层裁剪胖树主存鹏城云脑II：E级智算平台10理论研究类脑计算深度学习理论方法核心技术大规

4、模异构集群管理新型计算架构与系统智能应用超大规模AI模型靶向药物研究响应国家战略新一代人工智能开放创新平台国家级重大科技基础设施提升大湾区AI研究基础地位与创新力支撑深圳AI重大应用需求服务本地需求鹏城云脑II（4096卡）硬件系统整体概况硬件系统整体概况11Atlas 800 AI服务器4x 鲲鹏920处理器8x 昇腾910 AI加速器机柜8个AI服务器多种交换机液冷+风冷全自主CPU和NPU超高效能超高扩展的超高效能超高扩展的E E级级AIAI算力系统算力系统集群系统4096个昇腾910(NPU)2048个鲲鹏920(CPU)功耗指标系统最大功耗PUE系统指标半精度峰值存储容量点到点带宽机

5、柜个数合计计算机柜其他机柜1 EOPS64 PB100 Gbps342 个64 个278 个5MW1.25高算力计算节点高算力计算节点12液冷散热方式2 PFLOPS/5.6kW超高能效比超高能效比NPU提供2P FLOPS FP16超强算力CPU提供2T FLOPS FP64算力CPU和NPU采用HCCS、PCIe高速互连算力密度高(8+2)*100G RoCE v2高速网络适应AI训练高带宽需要高速网络带宽鲲鹏920昇腾910HCCS专连高性能本地NVMe 盘多套专用网络组网多套专用网络组网1313 共共6464柜柜（AIAI训练面）训练面）100Gbps 100Gbps RoCERoCE

6、 FM8850-64CQ-EI FM8850-64CQ-EI（设备管理平面）（设备管理平面）GES5735GES5735Atlas AIAtlas AI集群集群液冷整柜液冷整柜Atlas AIAtlas AI集群集群通用计算区（弹性云主机）通用计算区（弹性云主机）存储区（对象存储、云硬盘）存储区（对象存储、云硬盘）网络服务区网络服务区每个液冷机柜提供每个液冷机柜提供3232*25GE25GE每个液冷机柜提供每个液冷机柜提供1212*GE RJ45GE RJ45每个液冷机柜提供每个液冷机柜提供6464*100GE100GE管理区管理区2 2*100GE100GE1 1*10GE10GE采用先进采

7、用先进RoCEv2RoCEv2网络网络提供广泛的以太网兼容性提供广泛的以太网兼容性支持支持RDMARDMA提高通信效率提高通信效率多套网络分工协作多套网络分工协作AIAI训练面：训练面：昇腾昇腾910910直出，直出，100GbE100GbE网络网络AIAI算力大规模扩算力大规模扩展展通用计算面：通用计算面：鲲鹏鲲鹏920920直出，直出，100GbE100GbE网络网络支持常规支持常规HPCHPC计算等用途计算等用途样本面样本面/业务面：业务面：25GbE25GbE网络网络访问访问OBSOBS存储系统，系统业务调度与管理存储系统，系统业务调度与管理设备管理平面：设备管理平面：GbEGbE

8、网络网络用于设备的管理与操作用于设备的管理与操作（样本面（样本面/业务面）业务面）25Gbps 25Gbps FM6865-46 S8CQ-EIFM6865-46 S8CQ-EI（通用计算面）（通用计算面）100Gbps 100Gbps RoCERoCE FM8850-64CQ-EI FM8850-64CQ-EI集群比集群比较较（均按（均按4096卡）卡）Ascend 910AA100 80G单卡算力256T312T单卡存储32GB80GB机内带宽30GB/s600GB/s机间带宽8x100Gbps400-800Gbps理论算力1 EFLOPS1.22 EFLOPSHFU3040%4060%提

9、纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n并行策略选取n容错15算子库实现n 新神威n一台以HPC为主要目标的机器，在AI方面缺少高性能算子库实现n开发了 swTensor 算子库，有效利用新神威的体系结构特点，性能优化100倍n工程量 60000 行 C/C+代码，实现了一百余个算子161.element-wise操作：对逐个元素计算的操作无元素表达式：常数、随机数等单元素表达式：sqrt，exp，激活函数等双元素表达式：四则运算等2.reduce操作：最大值、最小值、平均值、求合等3.transpose操作：reshape、concat、split、transpose

10、等维度变换操作4.index操作，按照一个tensor给定的index操作另外的tensorindex-select，index-copy，mask-fill,index-add等5.复合操作，多个操作fuse后的算子layernorm softmax uniform等总体而言，大语言模型的算子比视觉少很多，对定制体系结构相对友好算子库实现o 云脑IIn基础算子基本实现，但一些新的优化算子仍需要补充n例如支持FP32的FlashAttention优化17https:/arxiv.org/pdf/2205.14135.pdf并行策略选取18通用的并行策略：数据并行，张量并行，流水并行针对特定模型

11、的并行策略：专家并行（MOE）影响的主要因素包括：显存容量，卡间通信性能，重算问题：给定模型和训练的机器，如何生成最优的并行策略？FFNData 0Data 1AttentionAttentionFFNFFN N layersNode 0Node 1All-ReduceDataDataAttentionAttentionFFN N layersNode 0Node 1Data Parallelism(DP)Tensor Parallelism(TP)All-ReduceAll-GatherData 0AttentionFFNNode 0 N layersSingle Node Training

12、DataAttentionNode 0Node 1Pipeline Parallism(PP)FFNDataAttentionFFNsend 2 layers 2 layers并行策略研究现状19Data/Tensor ParallelismAutomaticMegatron-LMMesh-TensorflowGShardGPipePipeDreamDappleTofuFlexflowMegatron-LM-v2DeepSpeedAlpaPiperUnitySuperScalaPipeline Parallelism目前研究更多关注于并行策略的支持，没考虑自动并行对显存、网络拓扑以及可扩展性的

13、优化并行策略选取o 新神威 20n思路n根据通信特征和网络拓扑构建性能模型n指导将应用进程映射到物理节点 n具体方法n在超节点内做数据并行n在跨超节点做 MoE 并行n相比对称方案（超节点内 MoE）快快 1.6 倍以上倍以上超节点 0超节点 1超节点 2超节点 3超节点 4超节点 N超超节节点内：数据并行点内：数据并行跨超跨超节节点：点：MoE 并行并行并行策略选取o 云脑II21非最佳并行方案，但受MindSpore限制暂时使用n具体方法（3456卡并行）nModel parallel=4nData parallel=48nPipeline parallel=18n模型n200B参数，10

14、4 层n思路n机器内模型并行n利用卡间快速通信 200Gbps vs 100Gbpsn机器间数据并行 nAI 训练面4096卡无裁剪100Gbps网络互连自适应重计算技术自适应重计算技术AdaPipeAdaPipe 进一步优化缓存占用和进一步优化缓存占用和负载平衡负载平衡版本版本HFU初始23%+AdaPipe25.2%+AdaPipe+FlashAttention32%+AdaPipe+FlashAttention+Comp/Comm重叠34%容错o 全机平均无故障时间n新神威数小时量级n云脑II 数十小时量级o 容错方法n短期：checkpointn长期：学习spark的容错机制，在数据

15、并行的节点间自动容错23容错o 新神威的IO子系统24Comm.NetworkSupernodeSupernodeSupernodeI/O NetworkLustreNetwork topology on new Sunwayn高层的带宽裁剪网络nCheckpoint机制要有效利用I/O网络p足够多的进程进行Checkpoint IOp所有的supernode都参与checkpointIO容错o 新神威混合并行性下的checkpoint策略n超结点内数据并行，超结点间MOE并行nMegatron策略是每个数据并行的第一个进程写Checkpoint，IO带宽低n修订策略：数据并行结点都写一部分c

16、heckpoint25SN1SN3SN2All-to-All(MoE)SN4All-Reduce(DP)容错容错：云脑云脑IIII大模型训练过程故障情况大模型训练过程故障情况2023/6/10 2023/10/11 训练规模 432节点（3456卡）训练情况平均训练时长（73.3小时）平均无故障运行时间MTBF（113.3小时）最长训练时长（205小时）相比于千卡A100（30小时左右）02468101214160,50)50,100)100，150）150,+)任务时长（小时）任务时长统计手动中断故障中断故障原因故障原因类型类型具体故障具体故障次数次数NPU故障HBM发生ECC错误2DD

17、R发生ECC错误1DMA故障2网络故障光模块故障11交换机重启1铜缆故障1主机故障内存条故障1其他故障人为操作失误3容错-checkpointo 云脑II上checkpoint与恢复nCheckpoint时间间隔 3 小时nMindSpore系统限制p重新部署任务需要重新加载数据 1.5小时p重新编译需要2小时o 整体系统可用性较高n目前有效训练时间占比 95%左右，可以接受o 下一步利用好高性能本地存储组成的高性能缓冲存储支持容错28经验与教训o 鹏城云脑II 华为生态：经过优化后升腾910A在3000卡下的单卡训练性能达到0.5-0.6 A100：液冷系统，稳定性超过nVidia风冷系统：

18、软件生态问题，在大模型训练方面没有那么严重，可以花一个月移植优化，3-5个月训练：BF16精度非常重要，在千亿模型和长上下文窗口时，FP16精度不足（910B已经修正）29经验与教训o 新神威超算：超算可以用来训练超大模型，Bagualu系统2021年训练了174T参数的MOE大模型，参数量仍然保持世界纪录：系统的半精度算力较低，仅为双精度算力的4倍，如能做到16倍，就是一台非常有竞争力的超级计算机：顶层网络裁剪1:8，使得最大模型下的训练性能较差o 发挥我国在超算领域的技术优势，实现超智融合，是提升超算投资效率、解决我国智算瓶颈的一条重要路线30总结与未来展望o大模型训练是一个算法与系统技术结合的过程n运算精度的选取n类似FlashAttention的优化n支持低位宽的量化训练方法/细粒度稀疏训练方法o国产系统可以训练大模型吗？n可用但仍有局限n未来可能是落后1-2代，主要差距在单芯片的峰值算力上，通过软件优化可以缓解但无法完全弥补差距31

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（陈文光-国产平台上训练大模型的系统挑战-osatc.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf