中国移动：2024大模型时代智算网络性能评测挑战报告（17页）.pdf

编号：157974

PDF PPTX 17页 7.26MB 下载积分：VIP专享

下载报告请您先登录！

中国移动：2024大模型时代智算网络性能评测挑战报告（17页）.pdf

1、大模型时代，智算网络性能评测挑战中国移动研究院 2024.03 2目录01智算中心网络技术概况03智算网络技术评测面临的挑战02全调度以太网技术创新3随着算力需求的快速增长，AI基础设施建设不断布局，算与网成为AI算力重要基础设施的两大核心智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体，智能算力需求激增推动计算与网络基础设施建设不断布局算力需求激增，GPU是重中之重AI芯片市场规模不断扩大，较2022年，2026年AI芯片规模提升4倍GPU技术快速发展，Nvidia即将推出H200，H200的算力是H100的2倍左右AI基础设施GPU芯片为核心的算

2、力基础以太网交换芯片为核心的网络基础GPU市场规模提升，对网络设备需求激增，交换芯片的更新换代周期缩短至1.5年来源：Frost&Sullivan，中商产业研究院.来源：中商产业研究院，安信证券研究中心中国移动NICC技术架构基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed存储计算CPUGPU液冷高效供电机房配套冷却水系统应用使能.跨架构编译器算力抽象运行时算力原生裸金属实例虚拟机实例容器实例高速互联计算总线内存池融合存储全局统一存储Hypervisor+AI开发框架网络交换机高速以太网DPU注：New Intellige

3、nt Computing Center（NICC），新型智算中心算和网是新型智算中心关键基础设施算和网基础设施倍受关注4网络成为AI算力瓶颈，以网强算对我国更加重要AI大模型以算力集群分布式训练为基础，带来大量节点间通信消耗，组网规模、网络性能和可靠性决定集群有效算力，网络成为AI算力“瓶颈”，以网强算成为提升大模型训练效率的关键集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时网络可靠性决定GPU集群有效运行时间2%的丢包就会使RDMA吞吐率下降为0网络芯片容量决定GPU集群组网规模芯片容量提升2倍，组网规模提高4倍网络芯片性能决定GPU集群算力加速比GPU集群性能单GPU性能*

4、N5智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义；与通用云计算网络不同，AI参数面网络要求极高，是业界关注焦点智算中心网络概况面向任务场景，以算力资源为池化对象网络提供CPU、GPU、存储之间高速连接面向业务场景，以服务器/VM为池化对象网络提供VM/服务器之间连接通算中心As Is Data Center智算中心To Be Cluster Computing业务面管理面参数面存储面智算中心网络数据中心网络IPMIIPMIIPMIIPMI数据面业务面IPMIIPMIIPMIIPMI管理面存储面61243

5、Ring allreduce12431+21+23+43+41+2+3+41+2+3+41+2+3+41+2+3+4log?step1step2HD allreduceRing allreduceAllreduce：可以通过算法转化为对分通信通信数据量Double，无多打一0745607456特征：点到点通信，对分流量，无多打一网络同轨通信ALL Reduce：在主节点上进行Reduce（如sum、min）操作，通过Garther分发给所有节点，所有节点得到相同数据，一个典型的32卡 HD allreduce过程：Step1-3：通过总线完成机内8

6、卡通信Step4-5：通过网络完成4台服务器之间的通信AI训练依赖典型集合通信原语7通用算力以CPU芯片为主，业务种类多流量小，业务间相互独立；智能算力以GPU、Al芯片等人工智能芯片为主，通信关系固定，流数量少流量大，分布式训练带来大量节点的同步突发，木桶效应明显单个流量：数量多、带宽小、突发异步累积流量：抖动幅度较小，具有随机性单个流量：数量少、带宽大、突发同步累积流量：波峰、波谷效应明显，具有周期性单个流量累积流量单个流量累积流量通算中心流量模型智算中心大模型（All-to-all）流量模型GPU停工等待其他GPU完成工作通算中心与智算中心流量模型差异性8通算中心与智算中心网络差异性智算

7、中心组网方案端口速率方面：服务器端口10GE/25GE并存，汇聚层从40GE向100GE演进服务器网卡数量：一机双卡设备关系：交换机设备之间部署MC-LAG组网形态：Leaf为盒式设备，Spine多为框式设备通算中心组网方案Spine交换机Leaf交换机服务器端口速率方面：服务器端口200GE/400GE，汇聚层400GE/800GE服务器网卡数量：一机八卡设备关系：交换机设备之间独立组网形态：Leaf为盒式设备，Spine多为盒式设备业界主流通算中心与智算中心均采用spine-leaf架构，但两者端口速率、组网方式、网络协议均存在差异性9目录01智算中心网络技术概况03智算网络技术评测面临的

8、挑战02全调度以太网技术创新10有效通信带宽网卡/交换机组网物理带宽任务同步产生“多打一”流量，拥塞导致时延、抖动增加问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，产生多打一流量，导致网络产生拥塞或丢包，导致GPU空闲，算力损失问题：传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量现有以太网协议基于流的负载分担及拥塞控制机制，在AI模型训练场景存在天然缺陷，导致网络有效带宽和时延受限In-cast流量问题一：基于流的负载均衡存在哈希极化问题问题二：被动拥塞控制导致GPU闲置606060100100

9、switchswitch当前智算中心网络技术问题和挑战 InfiniBand和RoCE存在各自问题，基于新型以太网构建开放、标准的生态，成为智算中心网络技术演进方向11GSE链路层三大核心技术从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生基于算网协同的全局视野转发调度机制，实现集中式管理运维、分布式控制转发当前：逐流负载，链路利用率低、发生拥塞被动降速未来：逐报文容器转发，链路负载均衡，全局调度

10、，避免拥塞源leafSpineSpineSpine目的leaf2213213拥塞21321321丢包GSE创新以太网转发机制，基于三大核心机制转变，实现高精度负载均衡、网络层原生无损及低延迟12全调度以太网（GSE）技术体系框架部署自动化测试验收自动化变更自动化运维自动化物理层高速光接口光交换低延迟FECPhySec链路层报文分发和重组机制调度机制链路级安全及容错机制故障快速检测网络层新型组网拓扑新型组播/任播协议新型负载均衡机制传输层高可扩展的传输队列/连接管理新型传输服务灵活报文/事务交付序设计高效可靠性机制网络可视化管理与运维体系GSE技术体系最大限度

11、兼容以太网生态，从四层（物理层、链路层、网络层、传输层）+一体（管理和运维体系）等层级优化和增强，GSE体系架构最大限度兼容以太网生态，创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展选择性重传乱序重排拥塞/流量控制拥塞算法拥塞检测拥塞通告13全调度以太网（GSE）部署场景GSE协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，为后续网络建设和设备选型提供灵活的方案选择场景一：仅网侧运行GSE，网卡不感知场景二：部分功能下沉网卡，实现端网协同GSFGSFGSPLeaf网卡网卡

12、网卡计算卡计算卡计算卡GSP网卡网卡网卡计算卡计算卡计算卡SpineGSFGSFGSPLeaf网卡网卡网卡计算卡计算卡计算卡GSFGSPGSPGSP计算卡计算卡计算卡Spine网卡GSP和GSF角色均由网络设备担任，执行GSE头解封装、多路径分发、端到端授权应答及报文排序传统RoCE网卡，对网卡无额外要求适用于华为昇腾GPU生态系统源GSP、GSF由网络设备担任，执行、多路径分发等功能网卡承担部分GSP角色，负责GSE头解封装、授权应答和报文排序适用于英伟达及其他国产GPU生态系统14GSE部署优势，更好匹配国产芯片能力采用逐包分发技术后，对leaf上行带宽需求降低，同等芯片容量下，leaf上

13、行口的端口速率越小，组网规模越大，负载分担链路更加散列，包均衡能力更优，更适配国产芯片大规模组网需求21316112288.AI服务器64218.AI服务器1218.AI服务器64218.AI服务器1218.group1group4.Spine（32*400G）Leaf（64*100G+16*400G）训练网口1*100G1*400G21364112288.AI服务器64218.AI服务器1218.AI服务器64218.AI服务器1218.group1group16.Spine（128*100G）Leaf（128*100G）训练网口1*100GLeaf上行400G组网情况Leaf上行100G组

14、网情况同等芯片容量下，leaf上行端口速率为100G的组网规模较400G提升4倍，包均衡能力提升4倍组网规模：256台GPU服务器，2K张GPU卡包均衡能力：每Leaf上行有16条负载分担链路组网规模：1024台GPU服务器，8K张GPU卡包均衡能力：每Leaf上行有64条负载分担链路以Leaf、Spine交换容量为12.8T为例：15全调度以太网（GSE）推进计划进展概况中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系物理层：低时延Phy、P

15、hySEC、故障快速检测、高速光接口、光交换等链路层：基于报文分发和重组机制、调度技术、链路级安全及容错等网络层：新型组网拓扑、新型组播/任播协议等;传输层：改进的RDMA、新型拥塞控制等管理和运维体系：网络可视化、可调试能力、多维自动化能力对标UEC，建议在CCSA成立国家层面的全调度以太网（GSE）推进委员会，工作范畴建议如下：2023.11云网智联大会发布全调度以太网技术架构白皮书中国算力大会正式启动全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统2023.82023.92023.5ODCC冬季全会GSE特设组成立及第一次工作组会议技术标准技术标准联合仪表厂家开

16、展合作，制定普适统一评估方法，开展互联互通验证联合产业推动GSE方案成熟，形成开放统一的技术标准体系评估评估评测评测推动上下游产业支持，满足后续部署需求，推动技术成熟与规模建设产业推动产业推动GSE设备A厂商&B厂商互联互通测试2024.0216目录01智算中心网络技术概况03智算网络技术评测面临的挑战02全调度以太网技术创新17智算网络技术评测面临的挑战性能指标节点规模模型种类定制化模拟GPU实际的计算、周期性通信，测试结果是否可以客观反映实际结果仪表是否能支持千卡级、甚至万卡即模拟能力智算中心具有明显的通信特征，且AI技术的快速发展推动算、网软硬件技术的快速迭代升级，制定普适统一的智算中心网络性能评测体系仍面临诸多挑战测试仪端口、规模是否能匹配网络的演进速度能够反映的新指标（有效带宽、长尾时延等）基本的通信原语&通信原语不同的实现方式支持大模型的种类、测试工具迭代速度是否能匹配不同模型对网络的性能评价标准能否归一端网协同是趋势，需同时兼做网卡和网络私有拥塞控制协议、传输协议等优化，是否具备灵活的可编程能力和定制化功能

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（中国移动：2024大模型时代智算网络性能评测挑战报告（17页）.pdf）为本站（小荷才露尖尖角）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。