《程稳-基于之江天目的大模型分布式并行训练软硬件协同优化技术介绍.pdf》由会员分享,可在线阅读,更多相关《程稳-基于之江天目的大模型分布式并行训练软硬件协同优化技术介绍.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、基于之江天目的大模型分布式并行训练软硬件协同优化技术程稳2023年11月03日中国Lustre用户峰会(China LUG 2023),2023年11月3日,北京目录n背景及动机n构建之江天目面临挑战及关键技术n之江天目应用实践n总结2一、背景与动机4应用需求与现状6278988484525474000022Training in Data CenterInference in Data CenterIDC的芯片市场规模预测(单位:亿美元)我
2、国每年的芯片进口已经超过了3000亿美元2021年英伟达GPU芯片占据国内人工智能服务器约95%的市场份额2022年英伟达GPU芯片占据国内人工智能服务器约85%的市场份额、华为市占率为10%,百度市占率为2%、寒武纪和燧原科技均为1%应用需求5能源需求模型训练的能源消耗和碳排放参数(单位/百万)能量消耗(千万时)碳足迹(二氧化碳当量/磅)云计算费用(美金/元)Transformer(1)65272641-140Transformer(2)2-981ELMo-275262433-1,472BERT1101,5071,4383,751-12571Transformer+NA
3、S213656,347626,155942,973-3,201,722GPT-21,500-12,902-43,008训练一个大型人工智能模型所需的计算能力产生超过60万磅的二氧化碳排放,相当于普通汽车寿命周期排放量的五倍中国数据中心耗电量占全社会用电量比重(单位:亿千瓦时,%)8290556393 56933597472852751101.50%1.80%1.90%2.00%2.20%2.42%2.71%0.00%0.50%1.00%1.50%2.00%2.50%3.00%0000040000500006
4、00007000080000200020数据中心耗电量全社会用电量数据中心耗电占比随着人工智能算力的逐步提升,数据中心的耗电量占全社会用电量比重不断攀升数据中心为训练AI模型产生的能耗将为常规云工作的三倍(Digital Information World)6能耗问题Amirali Boroumand,Saugata Ghose,Youngsok Kim,RachataAusavarungnirun,Eric Shiu,Rahul Thakur,Daehyun Kim,Aki Kuusela,Allan Knies,Parthasarathy Ran
5、ganathan,and OnurMutlu,Google Workloads for Consumer Devices:Mitigating Data Movement BottlenecksProceedings of the 23rd International Conference on Architectural Support for Programming Languages and Operating Systems(ASPLOS),Williamsburg,VA,USA,March 2018.62.7%of the total system energy is spent o
6、n data movement40%40%10%5%5%传统风冷数据中心用电分布IT EquipmentCoolingUPSLightningOthers自然冷源换热效率气流组织制程工艺持续优化,性能功耗比不断提升,但核心数量翻倍式增长带来功耗快速上涨内存带宽不断增长匹配算力增长需求,带来系统功耗进一步提升(内存通道:6812)(内存频率:32004800)7性能需求人工智能模型参数量增长情况ELMo(94M)BERT-Large(340M)GPT-2(1.5B)Megatron-LM(8.3B)T5(11B)Turing-NLG(17.2B)GPT-3(175B)Switch Transfo
7、rmer(1600B)Wudao(悟道)2.0(1750B)000008/32018/82019/12019/62019/112020/42020/92021/2模型大小(百万)深度学习神经网络参数规模越来越大,从数亿到数万亿模型算力需求增长趋势随着人工智能预训练模型规模的不断扩大,其对算力的需求也越来越高,训练人工智能模型的成本也不断增加(GPT-3需至少1200万美元)8性能瓶颈Bjorlin-Deploying AI at Meta Scale9生态壁垒NVIDIA CUDA(Compute Unified Device
8、Architectecture)生态AMD ROCm(Radeon Open Compute Platform)生态NVIDIA(2006)AMD(2015)ApplicationHPCAIHPCAIDevelopment ToolsNVIDIA GCDMROCm SMINVIDIA NsightROCm Validation SuiteROCm Data Centor ToolsLibrariesMathAIVideoCommuParallelMathAICommuParallelcuBLAScuDNNnvJPEGNVSHMEMThrustrocBLASMIOpenRCCLrocTHRUST
9、cuFFTDeepStreamCodec SDKNCCLrocFFTMIgrahXcuRANDDALIrocRAND MIVisionXcuSOLVERrocSOLVERCompiler ToolsCompilerProfilerDebuggerCompilerProfilerDebugHIPToolsProgramming ModelsCUDAOpenCLOpenACCHIPOpenMPOpenCLDriver&RuntimeNvidia Driver&CUDA RuntimeAMD Driver&ROCm RuntimeHardwareNvidia GPUAMD Radeon GPUIDC
10、:2021 英伟达全球市场份额高达91.4%,AMD全球市场份额为8.5%10千卡规模冷板式异构智能计算机支撑典型AI应用千卡线性度PUE(能效比)支持租户规模算力规模(FP16)0.9+易用-好用(生态建设)13之江天目整体架构图?唛鳄衬苕臬?霪霪黧%-+BPBP?筹响?钞脶霪,B真杠?真杠?真杠踵尽真杠?薷林真杠?筹响昆,B筹响?钞脶霪,B筹响?钞脶霪,B筹响?钞脶霪,BD K?钞脶%3,B筹响?B 钞脶燃-%3,B-%3,B,B,K 萆县?,+B宪?筹响毫?-%3,B-%-,B,%1,B筹响昆,+B真杠踵尽毫?筹响?钞脶霪,+B筹响?钞脶霪,+B筹响?钞脶霪,+B筹响?钞脶霪,+B,+B
11、筹响?BB 钞脶霪M?H 昆,%3,+B,+B,K 萆县?D K?钞脶%/,%3,+B,%3,+B-%-,+B,%1,+BM?H 毫?M?H 钞脶霪M?H 钞脶霪M?H 钞脶霪M?H 钞脶霪M?H 钞脶霪-%3-+B-%3-+B-%3-+B逼悸掺%3-+B-+B M?H?*真杠?C?M -+?谎钞脶霪?瘃标鼗钞脶霪蛲朕?喂县?,+B亏?,+B亏?IQ H N N?.)3/O d踵尽燃%3踵尽燃%3踵尽燃%3两台存储服务器组成Lustre集群:存储服务器1:1个mgs,2个mdt 和8个ost存储服务器2:2个mdt 和8个ost服务端:4 个mds,4个oss单台存储服务器磁盘:NVMe SS
12、D 15.36TiB*24 计算节点(160台)客户端缓存:NVMe SSD 3.84TiB*1监控、日志数据存储:单台HDD存储服务器 1.2TiB*2414软件栈框架示意图拶?AI?魍?储薷林?犷哏练?储?鲸?拊Model ZooBenchmarksTopsMatrixTensorFlowPyTorchOneflowTopsInferenceTopsDNNTopsOperatorECCLAI ChipProfilerDebuggerRuntimeLLVMCompilerCodeGenKernel Module Driver15软硬件“全栈”协同优化16性能优化 芯片、网络拓扑及分布式规约算
13、法协同设计 1280卡集群部分模型分布式训练完整测试线性度可达0.95+17高速互联 高速互联架构:高带宽、低延迟、可扩展、灵活共享 CPU和芯片间的互联:总最高带宽(双向链路)64GB/s;芯片间互联:总最高带宽(双向链路)300GB/s。服务器内互联 基于自研ESL协议 构成2Rings拓扑 服务器间互联 基于RDMA200Gbps无损网络 逻辑拓扑采用2D-Torus结构ESL链接拓扑示意图高性能服务器实物图18模型训练 PyTorch大模型框架支持(PyTorch+Megatron)、TensorFlow、天枢框架 模型并行、流水并行、混合并行 640卡Bert-Large混合并行 1
14、120卡GPT2-Chinese混合并行 内存优化 混精支持 算子支持 Stable Diffusion模型训练算子 LLaMA模型算子支持Yolo v5算子支持 19持久性客户端缓存助力模型训练单机模型训练模型GPT 2参数量 3.5亿数据集大小 1.5GB服务器配置 单机八卡模型参数配置 num-layers=24 hidden-size=1024 num-attention-heads=16效果说明 数据量太少 仅模型训练,未涉及:数据采集、数据清洗、标注、模型部署等任务 未发挥全局统一命名空间与数据按需迁移等功能特性20部分算子性能优化示例循环及切块优化内存局部性缓存Double Bu
15、ffer,并行化提高计算核心利用率 21算子性能优化:性能测试针对 Batch维无限制,M=16,N=16,K=64的特定shape,实现了全精度和半精度矩阵乘算子,采用launch-kernel信息的缓存方案,相比于原始算子库中的实现方案分布获得20%和80%的性能提升。针对 Batch=65538,M =65536,N =65536,K=65536的特定shape,实现了全精度和半精度矩阵乘算子,采用基于micro-kernel的反向tiling规划,充分利用各级缓存空间及计算核的利用率,相比原始算子库中的实现方案分别获得9倍和12倍的性能提升。22显存优化p背景:常规的大模型训练,需要存
16、储模型状态,当前可采用offloading技术,基于算力异构的原理,采用CPU的运算资源与存储资源分摊GPU的存储压力,但是offloading技术存在闲置GPU、CPU算力的问题,降低了大模型的训练效率。p方案:针对多级流水线实现了面向前向传播的offloading技术,显著减少了GPU、CPU 的闲置时间。p价值及研究结果:自 研 面 向 前 向 传 播 支 持 多 卡 并 行 的offloading 技 术(Multi-Stream Low-GPUMemory Optimizer),大幅度提升GPU与CPU的计算资源与存储资源的协同利用率。实验证明,前向传播可替代传统的后向传播技术,实现
17、大型模型的训练。实验证明,本方案相较最先进的DeepSpeed方案,在大模型训练领域,实现20%的训练收敛效率提升。23算法优化示例:计算天文1.基于CNN对射电望远镜观测生成的相位时域谱和相位频域谱进行分析和特征提取。准确率相同的情况下,速度比V100上同类方法提升100%。2.提出适用于低分辨率特征提取的CNN结构 PulsarNet。重新设计了输入通道数,卷积核尺寸,卷积层数,稠密链接(Dense Connectivity),控制特征图尺寸衰减,最大程度保留小尺寸图像中的细节信息。3.结合传统方法将专家筛选出的特征与神经网络自动生成的特征,进行相关性分析,筛选高价值特征作为特征融合输入。
18、4.采用基于Gate机制的特征融合方法,提升融合后的特征表现力,提升分类精度。提速75%基于多特征提取与筛选融合的脉冲星搜索架构p研究成效研究成效24算法优化示例:计算材料p背景:计算材料学主要是指基于物理学理论模型,利用数学工具和计算方法、计算手段进行材料研究的一门科学。计算材料根据不同尺度分为宏观有限元分析、介观相场模拟、分子动力学和电子第一性原理。目前计算材料学科面临方程多,计算量巨大的问题。p内容和方案:利用AI深度学习技术解决计算材料学科面临问题,加速计算材料的科学计算。p价值及研究结果:完成分子动力学DeepMD-Kit深度势能计算在天目集群(T11)的开发和移植。完成内嵌物理知识
19、神经网络(PINN)在天目集群(T11)的开发和移植,利用AI技术求解计算材料中的偏微分方程。以上AI+计算材料算法应用均为TensorFlow版本,对比V100训练性能相当。T11是类NPU(神经网络处理单元)芯片,后续重点是利用DTU神经网络属性解决计算材料学科中的问题。DeepMDDeepMD深度势能模型深度势能模型25算法优化示例:计算基因疫情出现以来,基因和蛋白质分析问题对全人类来说都变得前所未有的重要。对于蛋白质功能的预测长久以来都是学界难以攻克的高峰。传统的方法需要用湿实验对蛋白质的功能进行检测,但湿实验成本高、耗时长,一般的试验可能需要几周甚至几个月对蛋白质的特性进行判断。通过
20、对蛋白质功能的预测,健康管理,育种科学,生命科学,基因工程等一系列学科都可以摆脱对湿实验的依赖。在非实验室条件下对蛋白质的功能进行预测。p蛋白质功能预测蛋白质功能预测p基于分子动力学的蛋白质功能预测基于分子动力学的蛋白质功能预测p价值及研究结果:对GROMACS算法进行了包含加速性能,算子支持等一系列GCU兼容性评估。针对天目集群硬件资源进行分析,定制化编译GROMACS算法,并将GROMACS算法部署至天目集群,进行了线性度测试。小规模测试(4机32卡)测试线性度达到70%。26之江天目液冷概览示意图27基于OAI-UBB的液冷服务器基于OAI-UBB的服务器结构示意图基于OAI-UBB的服
21、务器实物图冷板覆盖CPU+GPU,分层分区域智能调控策略,实现最佳散热28散热系统液冷技术创新1.CPU、AI芯片采用冷板液冷,其余部件仍为风冷:2.CPU冷板为前后串联结构,AI芯片冷板为整体串联结构;3.系统风道为冷风自前窗流入,流向箱体后部。液冷系统安全1.为保证系统可靠安全,系统采用高效漏液控制系统:2.同时具备机柜级、微模块级漏液多级告警保障系统安全;3.采用恒压差模式,恒定冷板供液流量,稳定芯片散热能力。29运维保障 集群RAS(Reliability可用性、Availability可靠性、Stability稳定性)管理 平台支持,实现板卡状态、集群健康状态监控等主要功能 天目集群
22、AI任务管理平台(Slurm和KubeFlow)作业单次日志存储在docker本地文件 作业持久日志存储在分布式存储 Fluentd Bit:在K8S上负责从Docker或者分布式存储收集日志,存入ES Elasticsearch(ES):提供日志搜索浏览功能 Kibana:在ES基础上提供可视化统计面板三、之江天目应用实践31之江天目平台管理系统32之江天目助力模型训练与推理模型训练录屏AI写诗(推理)大模型 Bert-Large GPT2 Scaling Laws ChatBCG Stable Diffusion Videos LLAMA 大模型GPT 176B大模型GPT 176B 训练
23、loss曲线(1240 steps、48h56min)参数量 176B数据集大小 12.6GB集群配置 数据并行1 张量并行8 流水并行140 1120张AI卡 共使用140台服务器模型参数配置 GA=1 global_batch_size=1 num-layers=140 hidden-size=10240 num-attention-heads=8033之江天目|大模型预训练技术参数小结模型(注释)参数规模机器数量训练时间训练step数训练集loss是否收敛/备注Bert-Large340M80机28.7h11k2.6是/训练时间长(精度与GPU对齐)GPT2345M40机7d 2h36k
24、2.352是/训练时间长,轻微过拟合,6GBGPT2($)345M40机4d 1h20k1.681是/更新词汇表(6GB数据集)GPT2345M40机3d 1h16k1.672是/$基础上微调(1.5GB数据集)GPT2(*)1.5B40机16d 2h20K1.888是/随机初始化参数训练(3GB数据集)GPT21.5B40机3d 3h4k2.456是/*基础上更新数据(6GB数据集)GPT21.5B40机21h 17m21K1.858是/*基础上续训(6GB数据集)GPT21.5B80机5d 1h338402.71是/训练时间长(6GB数据集)GPT213B140机9d 8h294503.4
25、2是/训练时间长(6GB数据集)GPT2176B140机48h1240可见收敛趋势ESM650M116机7d+18k是/25GB数据集源1.0百兆单机(8卡)7h3k可见收敛趋势,开发中DALL.E开发中Stable Diffusion开发中34之江天目统一模型部署与管理YOLO 网络ResNet50网络目标检测图像分类自动驾驶手语翻译35文本生成图片科幻,外星文明,建筑,机械感,4k壁纸日出在印象的港口来回,唯美,插画36小之知道小之问答的系统结构图之江天目上服务搭建框架示意调优前调优后Langchain+向量数据库(e.g.milvus)37ZhejiangPPT(ChatBCG)输出结果演示视频FireFly 模型推理内容自动布局算法四、总结39总结4.应用3.大模型2.软件系统1.硬件系统天集群算线性度多租户低PUE分布式并加速数据并张量并流并混合并持规模语模型架构MegatronDeepSpeedFairScale持AI框架PytorchTensorflow天枢框架2D Torus络拓扑ECCL集合通信库基于Slurm/Kubeflow的研AI管理平台Bert-LargeGPT2-ChineseESM源 1.0本成本ChatBCG本成图物物种分类蛋质结构预测动驾驶语成计算天计算流体性能集群存储系统谢 谢!