上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

电子行业AIGC系列研究之十二:技术解构英伟达H100体系800G光模块需求几何?-230404(28页).pdf

编号:121012 PDF 28页 6.78MB 下载积分:VIP专享
下载报告请您先登录!

电子行业AIGC系列研究之十二:技术解构英伟达H100体系800G光模块需求几何?-230404(28页).pdf

1、技术解构,英伟达H100H100体系800G800G光模块需求几何?AIGC系列研究之十二证券分析师:李国盛 A0230521080003林起贤 A0230519060002刘洋 A0230513050006联系人:李国盛 2023.4.42整体结论整体结论H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G-一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。资料来源:英伟达技术文档,申万宏源

2、研究RUkYhURUjXkZmPoNmO7NcM9PoMoOmOtQeRrRtPjMpPqN6MpNoMxNnOmONZtPpP3投资案件投资案件结论在英伟达DGX H100 SuperPOD最新的NVLink Switch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IB NDR网络则需要更多。原因及逻辑英伟达占训练推理环节GPU几乎90%以上份额,在DGX H100 SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的P

3、CIe两套体系解决通信问题。尽管目前InfiniBand NDR网络是主流,但新的NVLink Switch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLink Switch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。若不采用NVLink Switch架构或者需要多集群扩容,需要使用InfiniBand

4、NDR网络,则采用传统叶脊双层架构,需要800G+2x400G(NDR)的方案,数量关系可参考普通集群,核心是系统内带宽激增,依据不同规模可另外计算。有别于大众的认识鉴于H100 GPU的供货范围限制,市场对其实际的架构理解有一定信息差,我们借助英伟达技术文档试图拆解H100超算系统的通信架构;市场担心800G在AI算力环节并非刚需,但高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的迭代是AI刚需。风险提示NVLink Switch方案渗透不达预

5、期;技术迭代产生新的通信方案。主要内容主要内容1.DGX H100 SuperPOD架构引入更高速NVLink方案2.用NVLink和PCIe两套体系解决架构问题3.组网架构与光模块需求预测4.结论与相关标的451.DGX H100 SuperPOD1.DGX H100 SuperPOD架构引入更高速架构引入更高速NVLinkNVLink方案方案以全球算力领军和标杆NVIDIA为案例,在最新的DGX H100 SuperPOD方案下,做一个尝试性的定量测算,解释为何400G/800G以上光网络在AI框架下是必然选择:(一)NVLink迭代至gen4,每通道带宽达100 Gbps:NVLink是

6、专门设计用于高速点对点链路互连GPU(GPU to GPU)的网络方案,开销比传统网络更低,传统网络中复杂网络功能(例如端到端重试、自适应路由、数据包重新排序等)可以在增加端口数的情况下进行权衡。此外,基于NVLink的网络接口更加简单,允许将应用程序层、表示层和会话层功能直接嵌入到CUDA本身中,从而进一步减少通信开销。NVIDIA 在 2016-2022 年 迭 代 4 代 的NVLink满足了其算力方案的两大需求(专用连接方案解决专业问题),使GPU具有尽可能高的性能、使用专用协议和系统设计以实现更高的性能。传统的PCIe Gen5每通道仅为32Gbps,而NVLink每通道高达100G

7、bps、多个通道连接其GPU系统。最新的NVLink 4相比上代从12 Links升级至18 Links,每个GPU提供900GB/s(7200Gbs)的双向带宽(bidirectional bandwidth)。资料来源:英伟达技术文档,申万宏源研究61.DGX H100 SuperPOD1.DGX H100 SuperPOD架构引入更高速架构引入更高速NVLinkNVLink方案方案与英伟达H100 GPU结合:1)在DGX H100服务器内部,搭载了8个H100 GPU;2)每一个H100 GPU通过18个NVLink4连接到内部NVSwitch3芯片(每台服务器搭配4个NVSwitch

8、3芯片);3)每 一 个 NVLink4 拥 有 2 条 通 道(lane),每 条 通 道 参 数 为 100Gbps-per-lane(x250Gbaud-PAM4),即一个NVLink4单向200Gbps,或换算为25GB/s单向带宽、50GB/s双向带宽。在18个NVLink4时,H100搭配NVLink4可以实现900GB/s双向带宽。英伟达NVLink迭代至gen4资料来源:英伟达技术文档,申万宏源研究71.DGX H100 SuperPOD1.DGX H100 SuperPOD架构引入更高速架构引入更高速NVLinkNVLink方案方案(二)NVSwitch芯片迭代至gen3,每

9、个芯片64个NVLink 4接口:此外NVIDIA发布适用于超算服务器内部的NVSwitch芯片(类似于交换机ASIC),进一步通过上述NVLink协议接口将多个GPU高速互联到一起。在H100芯片+NVLink 4协议这一代,应为配套了NVSwitch 3芯片方案,采用台积电4N工艺,满足GPU间的点对点连接,内嵌ALU使NVSwitch提供FP32的400GFLOPS计算吞吐,每个芯片64个NVLink 4接口。资料来源:英伟达技术文档,申万宏源研究81.DGX H100 SuperPOD1.DGX H100 SuperPOD架构引入更高速架构引入更高速NVLinkNVLink方案方案依据

10、技术文档,NVSwitch3芯片大小50mm*50mm,包括一个 SHARP 控制器,可并行管理多达 128 个 SHARP 组;内嵌ALU可帮助NVSwitch提供FP32的400GFLOPS计算吞吐,并且支持FP16、FP32、FP64和BF16等精度计算。另外PHY接口可以兼容400Gbps以太网或者NDR InfiniBand连接,每个cage 4个NVLink4的OSFP接口,同时支持FEC校验。NVSwitch3芯片提供64个NVLink4接口,每个NVLink4通道x2即200Gbps单向带宽,单个芯片可提供64 x 200Gbps=12.8Tbps(1.6TB/s)单向带宽、或

11、3.2TB/s双工带宽。资料来源:英伟达技术文档,申万宏源研究NVSwitch3芯片架构主要内容主要内容1.DGX H100 SuperPOD架构引入更高速NVLink方案2.用NVLink和PCIe两套体系解决架构问题3.组网架构与光模块需求预测4.结论与相关标的9102.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题基本原则:GPU卡的通信以NVLink为基础,CPU/存储的通信+跨集群通信以PCIe为基础。NVIDIA的DGX H100服务器,每台服务器拥有8个H100 GPU、4个NVSwitch 3,且相互

12、连接。在服务器发布的同时,NVIDIA还发布了搭载2个NVSwitch 3芯片的NVLink交换机,连同GPU服务器和NVLink 4协议组成NVLink网络。(一)H100 GPU发布后,服务器架构变化较大:资料来源:英伟达技术文档,申万宏源研究112.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题DGX H100服务器架构:GPU Tray和Motherboard分离,是NVLink和PCIe分离的基础资料来源:英伟达技术文档,g-dep jp,申万宏源研究如左图,DGX H100服务器机柜内大致包括了GPU T

13、ray、Motherboard Tray、Power系统、Front Cage等部分。如右图,DGX H100服务器背面接口以Motherboard Tray为主。122.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题DGX H100服务器架构:Motherboard Tray中,ConnectX-7网卡是主要的网络组成部分,而CX-7网卡基于PCIe方案。按照公开参数,每台服务器拥有8个ConnectX-7 InfiniBand/Ethernet适配器(400Gb/s)。技术文档描述:4x OSFP ports s

14、erving 8x single-port NVIDIA ConnectX-7 400Gb/s InfiniBand/Ethernet资料来源:英伟达技术文档,g-dep jp,申万宏源研究132.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题DGX H100服务器架构:GPU Tray中,拥有8x H100 GPU+4x NVSwitch芯片,芯片端4-5-5-4共18组OSFP接口负责不同DGX H100节点(服务器)之间的连接。(理想情况)资料来源:英伟达技术文档,g-dep jp,申万宏源研究142.DGX

15、H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题(二)NVLink交换机是H100体系的创新,也是800G光通信方案应用的亮点。英伟达发布新的NVLink交换机,1U尺寸设计,32个OSFP接口的设计;和普通交换机不同,每台NVLink交换机搭载2个NVSwitch3芯片,提供128个NVLink4接口(单个NVSwitch3提供64个NVLink4),双工带宽6.4TB/s(单个NVLink4单向200Gbps,128 x 200Gbps=25.6Tb/s单向带宽)。资料来源:英伟达技术文档,HC34,申万宏源研究NVLin

16、k交换机搭载了OSFP等接口152.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题NVLink交换机推出背景是搭建H100 SuperPOD的计算集群。据英伟达设计,每套SuperPOD系统32台服务器折合256个H100 GPU,AI性能高达1EFlops;每套系统配18台NVLink交换机,系统双向带宽57.6TB/s;同时每套系统的32台DGX H100服务器中的400Gb/s ConnectX-7网卡对外与IB交换机连接,用于连接多套SuperPOD系统。两层NVSwitch芯片设计:一层交换芯片位于服务器内

17、,二层交换芯片位于交换机内。128个L1层芯片(32台服务器,每台4个)+36个L2层芯片(18台NVLink交换机,每台2个)。一个SuperPOD内所有256个GPU的互联,都通过NVLink协议和NVLink交换机单独完成,不经过CX-7 PCIe网络。因此,从通信网络角度看,DGX H100 SuperPOD高算力、高吞吐升级的精髓,在于:将过去A100及之前用于服务器内部GPU高效连接的NVLink,外化到整个集群,借助新的NVLink交换机,搭建L1、L2两层网络,实现跨服务器、跨机柜的GPU to GPU连接。162.DGX H1002.DGX H100用用NVLinkNVLin

18、k和和PCIePCIe两套体系解决架构问题两套体系解决架构问题若不使用新的NVLink交换机体系,DGX H100 SuperPOD也可以使用,但仍然用和A100类似的体系,使用CX-7 InfiniBand实现跨服务器的连接,则预计需要方案直接连接MotherBoard Tray进而外接交换机。(但该IB网络的H100方案训练效率明显逊于NVLink交换机系统。资料来源:英伟达技术文档,申万宏源研究172.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题如下图所示,H100架构中可能的OSFP存在于两处:若传统IB网

19、络方案,两张CX-7网卡各提供400Gb带宽,形成4个2x400G NDR OSFP需求;若新的NVLink交换机系统方案,则需要4个NVSwitch芯片对应了18个800G OSFP需求。资料来源:英伟达技术文档,HC34,申万宏源研究182.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题上述是从服务器角度;而如果从 NVLink交换机的角度,NVLink交换机中2个NVSwitch3芯片合计128个NVLink接口,双工带宽6.4TB/s,也必然需要使用高速率的400G/800G光通信方案。上一代DGX A100

20、 256 SuperPOD架构和目前最新DGX H100 256 SuperPOD架构对比,NVLink的作用方式差异明显。总结来看,A100架构下NVLink主要用于单个服务器内部GPU和NVSwitch的“板载”连接;而H100架构下,除了“板载”连接外,GPU到新的NVLink交换机之间的连接并非板载,optical OSFP等连接方式是新增需求,在极致性能的要求下,也就带动了光通信市场的必然需求。资料来源:英伟达技术文档,HC34,申万宏源研究192.DGX H1002.DGX H100用用NVLinkNVLink和和PCIePCIe两套体系解决架构问题两套体系解决架构问题如果在256

21、个节点的基础上,需要进一步扩容至1024个节点,则需要借助NDR InfiniBandLinks连接4个DGX H100 256 SuperPOD集群。这种方案搭配英伟达的ConnectX-7 NDR NIC网络适配器和Quantum2 NDR交换机,性能强于A100体系的HDR IB网络。下图以Quantum-2 QM9700交换机为例,拥有32个OSFP接口承载64x400Gb/s的容量。资料来源:英伟达技术文档,申万宏源研究主要内容主要内容1.DGX H100 SuperPOD架构引入更高速NVLink方案2.用NVLink和PCIe两套体系解决架构问题3.组网架构与光模块需求预测4.结

22、论与相关标的20213.3.组网架构与光模块需求预测组网架构与光模块需求预测扩充至32台服务器的一个SuperPOD集群,架构预计如下所示。资料来源:申万宏源研究223.3.组网架构与光模块需求预测组网架构与光模块需求预测H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G-一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。资料来源:英伟达技术文档,申万宏源研究主要内容主要内容1.DGX H1

23、00 SuperPOD架构引入更高速NVLink方案2.用NVLink和PCIe两套体系解决架构问题3.组网架构与光模块需求预测4.结论与相关标的23244.4.结论与相关标的结论与相关标的我们的结论在于:在英伟达DGX H100 SuperPOD最新的NVLink Switch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IB NDR网络则需要更多。具体而言,英伟达占训练推理环节GPU几乎90%以上份额,在DGX H100 SuperPOD架构引入更高速NV

24、Link方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBandNDR网络是主流,但新的NVLink Switch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLink Switch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。若不采用NVLinkSwitch

25、架构或者需要多集群扩容,需要使用InfiniBand NDR网络,则采用传统叶脊双层架构,需要800G+2x400G(NDR)的方案,数量关系可参考普通集群,核心是系统内带宽激增,依据不同规模可另外计算。高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的迭代是AI刚需。254.4.结论与相关标的结论与相关标的相关标的:天孚通信、中际旭创、华工科技、新易盛等。风险提示:NVLink Switch方案渗透不达预期。NVLink最新方案依赖于NVIDIA

26、最新的NVLink交换机,因此GPU to GPU光连接的放量取决于市场对该方案的接受程度。技术迭代产生新的通信方案。CPO/MPO/LPO等已经体现了光通信领域的新技术井喷,未来进一步的技术路径更新和选择也实际影响了光连接的需求。证券代码证券简称2023/4/3预测净利润(亿元)PE收盘价(元)总市值(亿元)2022E2023E2024E2022E2023E2024E300308.SZ 中际旭创67.24538.5712.3614.6617.72443730300502.SZ新易盛58.20295.129.4810.3912.663.SZ 天孚通信60.53238.47

27、3.995.096.36604738000988.SZ 华工科技27.95281.0472.9911.9415.3142418资料来源:Wind,申万宏源研究注:净利润取Wind一致预测。部分标灰为已披露业绩快报或年报。光通信相关上市公司估值表26信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司

28、。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人华东A组茅炯021-华东B组谢文霓华北组肖霞华南组李昇A股投资评级说明证券的投资评级:以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(Buy):相对强于市场表现20以上;增持(Outperform):相对强于市场表现520;中性(Neutra

29、l):相对市场表现在55之间波动;减持(Underperform):相对弱于市场表现5以下。行业的投资评级:以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight):行业超越整体市场表现;中性(Neutral):行业与整体市场表现基本持平;看淡(Underweight):行业弱于整体市场表现。本报告采用的基准指数:沪深300指数港股投资评级说明证券的投资评级:以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(BUY):股价预计将上涨20%以上;增持(Outperform):股价预计将上涨10-20%;持有(Hold):股价变动

30、幅度预计在-10%和+10%之间;减持(Underperform):股价预计将下跌10-20%;卖出(SELL):股价预计将下跌20%以上。行业的投资评级:以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight):行业超越整体市场表现;中性(Neutral):行业与整体市场表现基本持平;看淡(Underweight):行业弱于整体市场表现。本报告采用的基准指数:恒生中国企业指数(HSCEI)我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比

31、如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系,如果您对我们的行业分类有兴趣,可以向我们的销售员索取。27法律声明本报告由上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司,以下简称“本公司”)在中华人民共和国内地(香港、澳门、台湾除外)发布,仅供本公司的客户(包括合格的境外机构投资者等合法合规的客户)使用。本公司不会因接收人收到本报告而视其为客户。有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司http:/网站刊载的完整报告为准,本公司并接受客户的后续问询。本报

32、告上海品茶列示的联系人,除非另有说明,仅作为本公司就本报告与客户的联络人,承担联络工作,不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为作出投资决策的惟一因素。客户

33、应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险,投资需谨慎。

34、若本报告的接收人非本公司的客户,应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记,未获本公司同意,任何人均无权在任何情况下使用他们。简单金融 成就梦想A Virtue of Simple Finance28上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司)李国盛

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(电子行业AIGC系列研究之十二:技术解构英伟达H100体系800G光模块需求几何?-230404(28页).pdf)为本站 (gary) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
相关报告
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部