上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

人工智能行业GenAI系列之34:网络之辩英伟达Blackwell背后的光电演绎-240330(47页).pdf

编号:158068 PDF   PPTX 47页 3.08MB 下载积分:VIP专享
下载报告请您先登录!

人工智能行业GenAI系列之34:网络之辩英伟达Blackwell背后的光电演绎-240330(47页).pdf

1、网络之辩,英伟达Blackwell背后的光电演绎证券分析师:李国盛 A0230521080003 杨海晏 A0230518070003 黄忠煌 A0230519110001林起贤 A0230519060002 刘洋 A0230513050006 联系人:李国盛 2024.3.30GenAI系列之342投资案件投资案件结论AI底层硬件向“大系统”演进。市场较多讨论英伟达GB200 NVL系统的通信需求,光与铜“孰轻孰重”;我们认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。基于云厂商视角,我们预计GB200 NVL系统是AI训练+推理在云端的较佳选择。而在英伟达B系列

2、芯片更新的节点上,我们预计后续AI芯片迭代出货,对应的800G/1.6T光模块/光器件需求增长,硅光、液冷产业链投资机会也随之增加,看好海外大厂的高速网络需求的持续性。原因及逻辑1)英伟达的GB200 NVL72方案将72 GPU高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的NVLink网络为主,而机柜外扩容组网尤其千至万卡互联则需要2-3层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体升级。2)整体看,单一介质网络连接的性能,最大传输距离与最高带宽成反比,且综合考虑成本,同时考虑工程可行性。光电混合是当前出于成本考虑的重要架构,光网络和芯片层面的光

3、互联是长期方向。3)硅光的演进方向明确。芯片算力性能暴增+训练/推理的参数需求,网络、访存性能亟需同步提升。电口瓶颈已至,芯片-板卡-设备间高速互联,光电子几乎是迭代唯一出路。当前放量临近、格局逐步明晰。4)AI硬件高密度、高功耗的路径下,液冷方案的渗透空间巨大。zVnUnVeWhUiYjY8O9R8OnPoOpNnReRnNmQjMnNnP9PoPnNxNmMpQxNtPoR3有别于大众的认识市场担心英伟达GB200系统为代表的AI硬件演进,光通信需求降低。我们从GB200 NVL72系统的拆解与理想化测算、光铜两种方案的应用场景、硅光产业的发展节奏等角度出发,认为光电混合是当前重要架构,未

4、来更高速的光网络和芯片层面的光互联是长期方向。市场担心AI从训练到推理的过程,对硬件的需求降低。而AI大模型参数量的增速显著大于GPU内存与算力增速,高集成度+大内存+多GPU的系统更适配大模型训推,我们认为不管是800G/1.6T光模块/光器件需求,还是硅光、液冷的投资机会,均是后续重要的产业增量,看好高速网络等硬件需求的持续性。相关标的:聚焦AI算力网络产业链光通信之中际旭创、新易盛、天孚通信、华工科技、光迅科技、源杰科技等。算力设备之紫光股份、锐捷网络、中兴通讯、烽火通信以及盛科通信等。液冷与IDC之英维克、飞荣达、润泽科技等。风险提示:1)芯片与系统的技术演进速度几乎是历史最快,同时也

5、意味着演进方向可能多元化,科技大厂定制芯片的需求也说明了这一点。不同的系统架构和网络实践,可能会影响网络器件、设备等的长期需求。2)大模型算法的发展方向,例如参数量的变化、模型设计的变化等,也直接影响了底层的硬件架构设计,可能造成硬件需求的波动。投资案件投资案件主要内容主要内容1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示451.Blackwell1.Blackwell:英伟达新架构,变与不变:英伟达新架构,变与不变历史对比大表时间20016中文名

6、费米开普勒麦克斯韦帕斯卡英文名FermiKeplerMaxwellPascal核心参数512 Cuda Cores每SMX192FP32+64 FP64每SM 128 Cuda Cores+32 LD/ST+32 SFU 每SM 64 Cuda Cores+32DP16 SM15 SMX16 SM60 SM关键核心单元Cuda CoresCuda CoresCuda CoresCuda Cores特点首个完整GPU首次GPU DirectSM 单元精简(192到128)NV Link第一代共享内存性能双向带宽160GbpsECC GPUP100 56 SM HBM制程40/28nm28nm28

7、nm16nm内存12GB24GB16GB带宽288GB/s288GB/s732GB/SNVLink 带宽160GB/s功率235W250W250W代表型号Quadro 7000K80/K40MM5000P1002017(续表)20024伏特图灵安培赫伯布莱克韦尔VoltaTuringAmpereHopperBlackwell每SM 32FP64+64Int32+64FP32+8 TensorCores每SM 64FP32+64Int32+8 TensorCores每SM 64FP32+64Int32+2FP64+4 TensorCores每SM 128FP32+64Int

8、32+64FP64+4 TensorCores-80 SM102核心92 SM108 SM132 SM160 SM for 20,480 coresTensor CoreTensor CoreTensor CoreTensor CoreTensor CoreNV Link第二代NV Link第三代NV Link第四代NV Link第五代Tensor Cores第一代Tensor Core 第二代Tensor Core 第三代Tensor Core 第四代Tensor Core 第五代Transformer Engine 第一代Transformer Engine 第二代支持AI运算RT Cor

9、e第一代RT Core第二代结构稀疏矩阵MIG1.0结构稀疏矩阵MIG2.0结构稀疏矩阵MIG2.012nm12nm7nm4nm4nm16GB16GB80GB80GB192GB900GB/s320GB/s1935GB/s3.35TB/s8TB/s300GB/s600GB/s900GB/s1.8TB/s300W70W*T4400W700W1000W maxV100T4,RTX20A100,A30H100B100、B200注1:CUDA,CUDA(Compute Unified Device Architecture),是英伟达推出的运算平台。注2:SM:streaming multiproces

10、sor。SP(streaming processor)是最基本的处理单元,也称CUDA core。多个SP加上其他的一些资源组成一个SM大核。注3:NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。其采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。2016年4月发布帕斯卡架构,是NV Link第一代。注4:SFU,特殊函数单元,Special function units;LD/ST,读取单元,load/store units;SMX,Kepler中每个SMX中的Register较Fermi的SM放大

11、一倍注5:浮点精度对应不同AI训练要点。如A架构对稀疏矩阵支持利于CV分割、对象检测、通信编码。训/推任务常用FP16/BF16/TF32/INT8/FP16中的不同种类。资料来源:Nvidia Datasheet,申万宏源研究61.Blackwell1.Blackwell:英伟达新架构,变与不变:英伟达新架构,变与不变Key takeaways(一)性能跃升:内存、带宽、算力“三大件”TSMC 4NP工艺,2 dies,20 PFLOPSFP8(Hopper 2.5倍)HBM3e 192 GB内存8TBps带宽(二)NVLink 5th,拓展72 GPU集群,C2C互联单GPU 18x NV

12、Link,带宽1800 GBps(此前H100一代900 GBps)最新NVLink Switch交换芯片,可576 GPU互联(目前实际应用72 GPU互联,此前仅8 GPU)Chip to chip,真正意义上实现跨“服务器”互联,达机柜级(尽管此前H100也有尝试)(三)算力呈现方式:板卡-服务器-机柜系统GB200 NVL72系统,算力的“最小单元”从GPU扩大为机柜,以应对海量参数训推(四)网络场景:c2c,b2b,m2m,交换机网卡光、电混合,成本与性能平衡,200G SerDes,集群带宽首次应用1.6 Tbps光网络(五)液冷:高密度,高功率GB200功率可达2700 W,NV

13、L72单机柜总功率190 kW+,全液冷必备新变化新变化新变化主要内容主要内容1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示782.1 2.1 高速网络:高速网络:AIAI竞赛揭开序幕,技术迭代明确加速竞赛揭开序幕,技术迭代明确加速英伟达A100H100H200B100X100GH200GH200NVLGB200GB200NVLGX200GX200NVLX86训+推 产品线ARM训+推 产品线ARM推 产品线AMDMI250MI100MI300AMI300XGoogle

14、TPU v4TPU v5eTPU v5p华为昇腾910/610昇腾910B200G网络400G网络800G网络1.6T网络*APU 400G*GPU 400G2800G21.6T400G800G200G预计训练+推理密集预计训练密集2024-2025年开始训练+推理密集的产业需求,市场对算力网络的路径与需求有分歧/预期差。预计高速网络需求的持续性强!资料来源:申万宏源研究800G1.6T演进路线92.2 2.2 英伟达英伟达GB200 NVL72GB200 NVL72系统,组网推演系统,组网推演C2C NVLink-900 GBpsNVLink-1800 GBpsNVLink-1800 GBp

15、sGB200板卡Grace Blackwell架构GB200 Compute NodeGB200 NVL72(18 Node)GB200系统的构成:2x Blackwell GPU+1x Grace CPU=1 GB200GPU-CPU间由1组NVLink连接,带宽900 GB每个GPU对外分别有18条NVLink连接对应1800 GB的带宽在GB200 NVL72中:2张GB200板卡构成1个计算节点,1个机柜中有18个计算节点。相当于在1个机柜中,共计:18 x 4=72 GPUs18 x 2=36 CPUs资料来源:Nvidia官网,申万宏源研究102.2 2.2 英伟达英伟达GB200

16、 NVL72GB200 NVL72系统,组网推演系统,组网推演NVLink Switch1 NVSwitch 7.2 TBps8 ports 1.8 TBps-14.4 TBps=144 x 100 GBps=72 x 1.6 TbpsGB200 NVL72(18 Node)9台NVLink Switch共18个NVSwitch芯片72个ports 1.8 TBps交换机和计算节点之间的连接方式和GH200类似,通过盲插高速背板(blind mate backplane)互联,铜线为主。NVLink Switch x9盲插高速背板(含液冷接头)+blind mate backplane1个GB

17、200 NVL72机柜类似于过去1台服务器的颗粒度:背面正面资料来源:Nvidia官网,申万宏源研究112.2 2.2 英伟达英伟达GB200 NVL72GB200 NVL72系统,组网推演系统,组网推演CX NIC的OSFP接口对应4个GPURJ45ManagementBlueField-3的QSFP112接口据GTC 2024公开的GB200 NVL72系统的展示图,GB200机柜的正面的网络接口,包括:ConnectX对应的InfiniBand OSFP接口(x4 400Gb/800Gb)BlueField-3 DPU的QSFP112接口(x2)RJ45的以太网接口参考英伟达此前A100

18、/H100/GH200等系统设计,我们预计InfiniBand的网络采用外部网络机柜的fat-tree组网。4 GB200 NVL72sToR Switches资料来源:Nvidia官网,申万宏源研究GB200使用InfiniBand组网的区域2.2 2.2 英伟达英伟达GB200 NVL72GB200 NVL72系统,组网推演系统,组网推演此外,英伟达GTC 2024发布Quantum-X InfiniBand800交换机,1.6T时代来临!其中NVIDIA Quantum-X800 Q3400-RA 4U交换机:首个200G SerDes交换机;144个800Gb端口,整合72个OSFP口

19、(每个1.6T带宽,后续升级ConnectX-8 800 Gbps);2层fat-tree架构下,支持10368个NIC扩容&同时LD版本为液冷系统。资料来源:Nvidia Datasheet,申万宏源研究NVIDIA Quantum-X800 InfiniBand Platform1600G OSFP x72NVIDIA Spectrum-X800 Ethernet Platform800G OSFP x64132.2 2.2 英伟达英伟达GB200 NVL72GB200 NVL72系统,组网推演系统,组网推演8 GB200 NVL72s with liquid cooling资料来源:Nv

20、idia官网,申万宏源研究GB200 计算机柜外部网络机柜如IB等液冷机柜以8台计算机柜为例,GB200 NVL72系统需要额外的网络机柜实现扩容,同时配置液冷机柜;实际整个系统机柜数接近20台,而跨机柜扩容,预计需要较多光通信连接。2.3 NVLink2.3 NVLink和和InfiniBandInfiniBand双体系,训推一体(双体系,训推一体(4 4机柜组网)机柜组网)NVLink Switch-1GPU-1GPU-2CPU-1GB200GPU-3GPU-4CPU-2GB200 NVL Switches x9 in 1 RackRJ45 Switch(management)Connec

21、tX 1资料来源:申万宏源研究盲插背板copper cable cartridgeliquid coolingoptics(?)Compute Tray x1872 GPUs&36 CPUs=1 RackConnectX 2ConnectX 3ConnectX 4NVSwitchNVSwitchNVLink Switch-2 NVSwitchNVSwitchBF-3 DPU23per GPU:18 NVLink(=1,800 GBps)-9 lines/9 NVL Switchesper line:2 NVLink(=200 GBps or 1.6Tbps)per Switch:144 NVL

22、ink(=14.4 TBps)-72 lines/72 GPUsNVLink Switch-1L1 NVLink SwitchNVLink Switch-2NVLink Switch-3L2 NVLink Switch(?)BlueField-3 Switch2L1 InfiniBand SwitchIB Switch-1IB Switch-2CX-7-400 Gbps per lineCX-8-800Gbpsper lineIf Quantum-X800 InfiniBand Switch-72 OSFP cages 1.6 Tbps(800 Gb ports x144)IB Switch-

23、3IB Switch-4L2 InfiniBand SwitchIB Switch-1IB Switch-2per line:1.6 Tbps x18optics增加L2层的NVLink交换机理论可行,可拓展至576GPU,但未发布在目前方案中3 4optics152.3 NVLink2.3 NVLink和和InfiniBandInfiniBand双体系,训推一体双体系,训推一体GB200 NVL72系统对网络的需求测算,4机柜72 GPUs1)NVLink交换机需求量:9 x 4=36台(各自机柜内的L1交换机)2)InfiniBand交换机需求量:L1 4台+L2 2台=6台(X800 1

24、.6T交换机)每台交换机144个端口,无收敛网络下,L1交换机上下行端口等分,即上行72+下行72;第1台交换机的72个端口,分别连接4个机柜中18个Compute Node(共72个Node)中的第1张CX-8(800Gb),以此类推,由于每个Compute Node中均有4个CX-8,这样L1层的4台交换机,下行的72个端口可插满;继续,对于4台L1交换机剩余的上行72个端口,总计4 x 72=288个连接,L2交换机仅需288 144=2台,即可实现端口的全互联。3)光模块的需求量(对应4 x 72=288 GPUs):GPU侧,4 x 72=288个800G光模块(GPU比=1:1)交

25、换机侧,6 x 72=432个1.6T光模块(GPU比=1:1.5)以上的2层fat-tree网络,最大可支持10368卡扩容即144 x 72;当集群大于10368卡时,L1交换机将大于144台;由于该L2交换机单台端口数最大144,则L1和L2之间无法充分互联,需要增加一层L3交换机。此时会增加1.6T光模块的GPU比,至1:2.5。2.3 NVLink2.3 NVLink和和InfiniBandInfiniBand双体系,训推一体双体系,训推一体资料来源:Nvidia官网,申万宏源研究Keys:NVLink 5th最大可576个GPU扩容,目前商用连接72个GPU,仅机柜层面;未来可能扩

26、容。此前,H100一代对应的NVLink 4th,“通过在服务器外部添加第二层 NVLink 交换机,NVLink 交换机系统最多可以互连256 个 GPU”,即可通过新增网络投资的方式,实现算力性能跃升;而本次NVLink 5th,带宽与寻址性能大幅提升,系统性能的挖潜空间大(猜测或依据未来模型size、客户需求等进一步定制NVL网络)机柜外扩容,纯光网络:依靠InfiniBand网络,对应ConnectX-7的400G(800G)网络,或未来升级的ConnectX-8的800G(1.6T)网络。IB架构的fat-tree光通信需求,与H系列一致(3层网络对应,GPU:1.6T光模块需求量

27、1:2.5)机柜内组网,电信号为主:NVL72系统依靠NVLink网络(高速背板),未来或结合硅光?因此,尽管GB200在产品序列上是GH200的升级,但考虑GH200的实际推广情况,我们认为GB200的产业价值实际上应对标H100系统。H100服务器 8 GPU+2 CPU+4 NVSwitchvs GB200 NVL72 72 GPU+36 CPU+18 NVSwitch2.3 NVLink2.3 NVLink和和InfiniBandInfiniBand双体系,训推一体双体系,训推一体资料来源:Nvidia官网,申万宏源研究站在云厂商视角,我们预计GB200 NVL系统是AI训练+推理在云

28、端的较佳选择。具体:1)万亿以上参数训推,72 GPU机柜是相比8 GPU服务器更好的颗粒度选择;GB200 NVL72可单机柜胜任1.8 T参数GPT-MoE的推理。2)验证了大模型推理亦需要高速卡和大集群;NVLink网络本质是GPU和HBM的扩容。与H100相比,GB200可提供30倍的token吞吐量,对于多模态推理、并发用户数爆发,意义重大。GB200 NVL36的单卡token吞吐量是8路HGX H100的30倍,体现token性价比大模型参数量的增速显著大于GPU内存增速,高集成度+大内存+多GPU的系统更适配大模型训推资料来源:AI and Memory Wall,申万宏源研究

29、2.3 NVLink2.3 NVLink和和InfiniBandInfiniBand双体系,训推一体双体系,训推一体资料来源:Nvidia官网,申万宏源研究3)云端大概率训推一体,符合云的虚拟化和分布式需求;Gx系列是英伟达ARM训+推产品线重要布局,技术演进从传统服务器走向高密度集群云端AIDC虚拟化部署,考虑训+推硬件一体化配置增加FP4精度提升推理性能“the more you buy,the more you save”4)Fat-tree组网架构没有变化,这延续了光通信的需求趋势;5)机柜层面上,增加了部分铜与电气信号的连接需求;6)液冷需求爆发,未来更高的芯片密度(72 GPU甚至

30、更多)是摩尔定律的选择。因此GB200 NVL在AWS、MSFT、Oracle等客户中评价较高,且已形成初步订单。例据Amazon,AWS正在使用GB200 NVL72构建20736个B200 GPU的计算集群。主要内容主要内容1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示19203.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局市场较多讨论英伟达GB200 NVL系统的通信需求,光与铜“孰轻孰重”;我们认为光电混合是当前重要架构,未来更高速的光

31、网络和芯片层面的光互联是长期方向。整体看,单一介质网络连接的性能,最大传输距离与最高带宽成反比,且综合考虑成本。伴随带宽增长,无源铜缆传输的传输半径缩水(光进铜退的核心原因),预计有源铜缆和LPO在短距高速场景下有需求市场。而800G以上,高速模块的中长距离互联、单模光模块下沉至IDC内部成为可能;同时预计硅光渗透加速。LPO、有源铜缆的短距市场?单模下沉+硅光渗透?高速模块迭代加速?资料来源:drflyout,申万宏源研究213.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局在传统云计算场景,距离和带宽几乎是正相关的。尤其是100-200G网络下:DAC(铜缆)解决服

32、务器-ToR交换机、ToR-ToR之间的连接(距离相对固定,低速、短距);AOC解决ToR交换机-L1交换机/L2交换机之间的连接(距离相对固定,易维护,中速、中距);光模块解决集群内部、外部互联(架构灵活,高速、中长距离)。资料来源:ECOC Mellanox,申万宏源研究223.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局AGI的通信需求,带宽固定(等宽网络),但距离多变。核心是解决大模型的并行(Parallelism)问题。AI大模型训练相比通用计算需要更多运算单元的同时参与,产业主流的并行方式包括:1)数据并行(dataparallelism),数据集分解成众

33、多子集,并行训练;2)流水线并行(pipelineparallelism),模型分层至不同处理器训练,减少对内存的需求;3)张量并行(tensor parallelism),通过模型分解,减少每个处理器上的参数处理量。因此目前主流的AGI网络,以fat-tree架构为主,原因是充分解决GPU的并行效率。传统的树形网络,带宽是逐层收敛的;fat-tree是无阻塞网络,没有带宽收敛。尤其训练侧,数据、算力以内部流转为主,较多依赖内部径向流量的统一高带宽。高速网络设备/器件的需求量更大。资料来源:MSA,申万宏源研究233.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局在AI

34、训练下,铜连接/光连接的实际应用情况(下图实拍A100集群):特征:取消ToR,机柜内服务器数量减少(单个服务器占地面积更大),单个服务器GPU数量增加、但单个服务器的网口数量激增。参 考 一 个 机 柜 2m x0.6m x 0.8m的尺寸,仅一 个 5 机 柜 Pod 内 部(右),服务器到交换机一层的连接距离至少在5m以上,光连接是必要的;由于不同服务器到交换机距离不同,很难应用统一长度的AOC。因此小集群内的多模光模块+多模光纤连接是主流。较早的英伟达A100服务器为例,网络端口密度高(8口)资料来源:Nvidia官网,申万宏源研究243.1 3.1“光电混合”与“光进铜退”破局“光电

35、混合”与“光进铜退”破局AGI集群的网络中,铜连接(DAC等)最大优势是成本与功耗,痛点则是距离。参考英伟达官方配置的800G无源铜缆:最大传输距离3m;但优势是功耗极低,几乎没有额外耗电;以及相较于有源电缆更低的成本(没有驱动芯片)。有源铜缆可以以1.5w的功耗将距离扩展至最大5m;预计1.6T网络下,该距离缩短。而光模块的有效连接距离、速率升级潜力是最大优势。产品系列内部型号速率制式长度应用场景备注800G Copper(DAC)MCP4Y10-Nxxx Twin-port 2x400Gb/s OSFP to 2x400Gb/s OSFP Passive DAC2x400Gb/s8-cha

36、nnels of 100G-PAM40.5,1,1.5,and 2-meter lengths2x400Gb/s Quantum-2 InfiniBandSpectrum-4 Ethernetswitch-to-switchand switch-to-DGX-H100一对800G OSFPMCP7Y50-Nxxx 800Gb/s Twin-port 2x400G OSFP to 4x200G OSFPPassive DAC Splitter800Gb/s to four 200Gb/s100G-PAM41,1.5,2,2.5,and 3-meter lengthsQuantum-2 Infin

37、iBandSpectrum-4 Ethernetswitch-to-four 200Gb/sConnectX-7 OSFP adapters 一分四,800G OSFP to 4x200G OSFP产品系列内部型号速率制式长度应用场景备注800G Copper(ACC)MCA4J80-Nxxx 800Gb/s Twin-port OSFP to 2x400Gb/s OSFP InfiniBand ACC Produc2x400Gb/s8-channels of 100G-PAM45m max length2x400Gb/s Quantum-2 InfiniBandSpectrum-4 Ethe

38、rnetswitch-to-switch and switch-to-DGX-H100一对800G OSFPACC800G TranceiversMMA4Z00-NS 800Gb/s Twin-portOSFP,2x400Gb/s Multimode SR8,50m800G SR8 multimodeTwo ports of 4-channel100G-PAM4 optical modulation850nm VCSEL30m using OM3 fiber50m using OM4 fiberTwo MPO-12/APC optical connectorsQuantum-2 air-coo

39、led switches,liquid-cooled and DGX-H100 systems to switchesConnectX-7,and BlueField-3 DPUs800G多模SR8光模块NVIDIA MMS4X00-NM 800Gbps Twin-port OSFP 2x400Gb/s Single Mode DR8 500m800G DR8 single modeTwo ports of 4-channel 100G-PAM4 optical modulation1310nm EML laserTwo straight 400Gb/s fiber cables for 80

40、0Gb/s500m Max reachQuantum-2Spectrum-4 air-cooled switches800G单模DR8光模块资料来源:Nvidia Docs Hub,申万宏源研究253.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局有源铜缆(ACC/AEC)得益于增加了芯片架构对信号增益/整形,传输距离等性能优于无源线缆。例如网络连接巨头credo的铜缆产品,1.6T AEC铜缆覆盖距离在0.5m-2.75m。此外,AEC在实操中更大意义则在于:弯折性能(影响接线)、线材体积(影响散热)、运维(难易度+全生命周期成本)更有优势。直观比较无源(左)/有源(

41、右)铜缆的应用,随GPU系统密度和速率提升,铜连接的散热、维护等性能亦值得考虑资料来源:HiWire-Credo,申万宏源研究263.1 3.1“光电混合”与“光进铜退”破局“光电混合”与“光进铜退”破局综上,基于铜的电信号连接,最大价值是在机柜层面提升GPU密度,以匹配模型参数的迅速增长,提供8 16 72个GPU之间的内存一致性,且极大地提升系统的推理性能。我们认为,铜连接的范围一方面取决于工艺(速率和距离),另一方面则是工程问题。算力最小颗粒度的灵活性(匹配不同场景)热管理(液冷)和供电难度(例如TeslaDojo)维护难度,甚至IDC层面的载重等光电混合是当前出于成本考虑的重要架构,光

42、网络和芯片层面的光互联是长期方向。资料来源:Nvidia,申万宏源研究DGX H100 8 GPU互联GH200 16 GPU互联*机柜层可拓至256 GPU,实践规模待评估GB200 72 GPU互联*机柜层可拓至576 GPU,实践规模待评估铜与电气接口的增量价值,在于机柜层面算力密度的提升273.2 3.2 硅光路径:硬件大厂“必下”的一步“棋子”硅光路径:硬件大厂“必下”的一步“棋子”高速光通信的下一产业节点是硅光,爆发临近:AI需求与技术演进的交叉点。三场景共进(而非互斥)chip to chip(芯片间的光学IO),board to board(板卡间的光学模组),machine

43、to machine(光模块/CPO)提高集成度,满足带宽增长+降低功耗带宽100 Gb 1.6 Tb+1.6 Tb 3.2 Tb+40 Tb带宽密度5 20 Gbps/mm50 200 Gbps/mm5 Tbps/mm160 Tb10 Tbps/mm功效30 pJ/bit15 pJ/bit3 pJ/bit1 pJ/bit光模块共封装光学Optical IO历史上,网络与算力迭代周期基本同步(2-3年)成本、性能、功耗可以相对平滑AI拉动的算力革命,迫使网络演进加速光通信的形态巨大变化传统c2c、b2c、m2m的连接方式,需要光重构资料来源:Intel,Ayar Labs,申万宏源研究283.

44、3 3.3 硅光路径:混合硅光路径:混合/单片集成,不同技术方向单片集成,不同技术方向传统方案:片外光源+硅基集成电路,光纤耦合混合集成:2.5D集成(Luxtera方案选择-Cisco)混合集成:2.5D集成对接耦合(butt coupling)或光子引线键合(photonic wire bonding,类似电芯片的金属引线,替换为光波导)片上倒装集成:3D集成,边缘耦合flip-chip 倒装(Rockley、Global Foundries方案选择,Marvell?)micro transfer print 微转印?异质集成(单片):3D集成,片上键合键合-族外延材料到硅光晶圆,进一步加

45、工制成激光器(Intel方案选择)异质集成(单片):3D集成硅光晶圆上开槽,外延生长-族材料,进一步加工制成激光器(未来方案?)资料来源:Roadmapping the next generation of silicon photonics,申万宏源研究293.4 3.4 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长英伟达英伟达我们认为,NVLink是英伟达在网络领域布局的重要一环,预计未来将延伸至光路径NVLink:在IB/以太网等基础上,专门用于点对点高速互联,多个GPU之间或GPU与其他设备(如CPU、内存等)之间的通信。相比传统PCIe,传输速度更高且

46、延迟更低。第五代NVLink总带宽达1.8TB/s,为PCIeGen5带宽的14倍,且升级速度远高快于传统接口。资料来源:Nvidia,申万宏源研究303.4 3.4 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长英伟达英伟达目前英伟达NVLink和GPU直连,主要基于电通道传输。此前英伟达设计DGX H100服务器,曾在GPU板卡侧引入18个光通信接口,配合NVSwitch交换芯片进行对外连接;当前GB200 NVL72系统亦是代表。对比之下,光电共封装的方案在相当的成本水平下,功耗低于线缆;密度高于PCB、长度与AOC等相当;可靠性后续验证。未来光学路径的NV

47、Link,以及光学chip to chip连接,是英伟达算力系统的发展方向。IPoserPCBCPOCableAOCPower10-135x10-1210-125x10-1210-11J/bCost10-1510-1310-1010-1010-9$-s/bDensity10135x10112x10125x10101011b/s-mmReach0.0050.51005100m资料来源:Hot Chips 34,申万宏源研究GPU 机柜Switch 机柜未来,组网架构创新?外置光源TSMC“COUPE 2.0”(2023)Hybrid Bonding光、电芯片TSV垂直互联消除micro-bump

48、采用混合键合技术(SoIC,3DFabric)TSMC“COUPE”硅光平台(2021)异质集成,克服光、电工艺节点不统一采用wire bonding的方式在substrate上互联313.5 3.5 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长台积电台积电2021年:Hot Chips会议,TSMC公布初代硅光平台2023年9月:ECTC,更新硅光平台第二代,混合键合技术和先进封装2023年:硅光研发团队200人,Broadcom、NV合作,制程涵盖45nm 7nm2024年:ISSCC,正式公布其HPC、AI芯片全新封装平台资料来源:TSMC,申万宏源研究3

49、23.6 3.6 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长Ayar LabsAyar LabsAyar Labs(HPE、Intel、Nvidia等合作/投资)在光学IO领域深度布局。OFC 2023:发布双向4 Tbps方案,SuperNova光源+TeraPHY 光学 I/O(TeraPHY可直接从ASIC/CPU/FPGA封装中驱动几十Tbps的带宽,可承载8 个光通道,相当于x8 PCIe。OFC 2024:发布双向16 Tbps带宽方案,第二代SuperNova不仅在以太网/InfiniBand,未来可能应用于NVLink/Infinity Fab

50、ric等SuperNova光源TeraPHY资料来源:Ayar Labs,申万宏源研究333.7 3.7 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长IntelIntel行业最早硅光方案,行业出货百万级;2023年剥离硅光模块至Jabil,聚焦硅光芯片。硅光2.5D和3D封装,异质集成技术领先,800G硅光。OFC 2024展示光计算互连(OCI)小芯片,4 Tbps双向带宽,可与CPU/GPU等共封装。带宽密度比PCIe Gen6提升6倍能效3pJ/bit,延迟10ns,100米距离资料来源:Intel,申万宏源研究Intel较早布局硅光技术,当前聚焦芯片侧3

51、43.8 3.8 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长MarvellMarvellDSP优势巨大收购Inphi进一步补强推出100-400-800G硅光系列OFC 2024推出Nova 2,首款1.6TDSP。3D SiPho引擎(3D封装),32通道200G电气和光学接口。2.5D 封 装 光 引 擎:硅 光 芯 片TSV+Bump,电芯片flip-chip硅光芯片作为interposer,摆脱wire-bondingedge coupler+V groove耦合应用场景:已在交换机中应用,16个光引擎,总带宽12.8Tbps资料来源:Marvell,

52、申万宏源研究353.9 3.9 硅光进展:各显神通,剑指通信电子新成长硅光进展:各显神通,剑指通信电子新成长Broadcom布局3D封装:类似Intel,电芯片TSV+光芯片flip-chip可插拔的光纤连接器,无源器件外置光源模组(remote laser module),配合CPO方案,散热+维护+更换目前单光芯片64通道、单通道100Gbps;未来提升至200Gbps用于102.4T CPOCisco布局收购Luxtera(TSMC工艺);收购Acacia(DSP芯片、硅光芯片、相干光模块);CPO方案可以总结,AI+硅光演进的核心逻辑:芯片算力性能暴增+训练/推理的参数需求,网络、访存

53、性能亟需同步提升集群算力和内存的提升可以通过堆芯实现,但带宽提升只能通过网络技术迭代实现电口瓶颈已至,芯片-板卡-设备间高速互联,光电子几乎是迭代唯一出路当前重要变化在于:产业共识形成,工艺节点突破;AI芯片高速迭代,传统光芯片供给与路径倒逼,出货临近、格局渐明晰主要内容主要内容1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示36374.4.液冷:技术奇点,算力同行液冷:技术奇点,算力同行芯片技术的演进是散热需求的最核心驱动。从技术角度看,散热技术大致经历了风冷到液冷再到

54、风冷的阶段,当前进一步向液冷演进,驱动力在于半导体技术变化和功率密度提升。资料来源:液冷革命,申万宏源研究液冷是AI发展的必然选择阶段一:双极型晶体管主导,第一轮风冷到液冷的演进。上世纪80年代前芯片发热量增长较平缓,风冷可以满足绝大多数场景的散热需求;此后发热量指数级增长,液冷发展深入到芯片级。阶段二:CMOS技术迭代下风冷重回主流。90年代后仙童实验室CMOS流行,芯片功耗与发热量下跌,散热技术重新回到了风冷阶段,液冷技术被搁置。阶段三:当前的算力与AIDC。异构、HPC、AI等需求,散热需求复杂化,液冷重回舞台。384.4.液冷:技术奇点,算力同行液冷:技术奇点,算力同行液冷是算力爆发的

55、必然。芯片层面,芯片的典型功耗超过300W时,需要使用液冷才能保证算力性能释放;整机层面,AI服务器单柜功率4-5KW增至20KW以上,功率密度激增迫切需要液冷渗透;机房层面,PUE从1.5以上降至1.2只能选择液冷(能耗硬性要求!)。*英伟达GB200 NVL72机柜总功率190 kW+,借助液冷方案可实现“25冷水进、45热水出”。国内主流液冷方案,包括冷板式、浸没式、喷淋式三大类,冷板式较多应用。冷板式相变浸没单相浸没喷淋式示意图原理冷板贴近热源(xPU),利用冷板中的冷却液带走热量服务器完全浸没在冷却液中,冷却液蒸发冷凝相变带走热量服务器完全浸没在冷却液中,冷却液循环流动带走热量冷却液

56、从服务器顶部喷淋,对流换热降温特点硬件系统改造小,维护简单;(单相+相变)接头、密封件多,可靠性要求高散热能力强、功率密度高,静音;服务器刀片式,专用机柜,管理控制复杂散热能力强、功率密度高,静音;清理拆装难,较少运维经验静音,节省液体;运维复杂,排液补液复杂,密封结构生态IT、冷媒、管路、供配电等不统一;服务器多与机柜深度耦合定制化,光模块兼容待验证定制化,光模块兼容待验证冷媒国产化较少资料来源:电信运营商液冷技术白皮书,申万宏源研究394.4.液冷:技术奇点,算力同行液冷:技术奇点,算力同行尽管英伟达液冷产业链以海外为主,但我们需重视本土算力对液冷渗透的刚需。以华为为例,其全液冷方案,(据

57、官网数据)在密闭式液冷机柜中可以将散热功耗下降96%,能源利用效率(PUE)由采用风冷方案的2.2降低至1.1。在50千瓦柜功率设备上,每年可节省约50万度散热能耗。华为Atlas 900 AI训练集群即采用全液冷方案,支撑95%液冷占比(渗透率提高),单机柜50kW散热功耗(高功率即价值量提升);同时与传统8kW风冷机柜相比,节省机房空间79%(高密度)。若假设冷板式液冷每kW价值量在数千元数量级,则单柜50kW功耗下,Atlas 900的液冷单柜价值量在十万元数量级以上,预计后续芯片迭代后TDP提升、机柜功率密度提升,液冷价值量提升空间巨大。结合我国存量IDC“老旧小散”的改造需求,以及A

58、I智算中心的新建需求,我们认为液冷产业链正迎来需求爆发的黄金时期。华为Atlas 900 A2 PoD为例,机房采用二次换热Intel与浪潮信息等设计的全液冷服务器节点资料来源:华为技术文档,申万宏源研究资料来源:Intel全液冷冷板系统参考设计及验证白皮书,申万宏源研究主要内容主要内容1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示40415.5.结论结论结论AI底层硬件向“大系统”演进。市场较多讨论英伟达GB200 NVL系统的通信需求,光与铜“孰轻孰重”;我们认为光

59、电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。基于云厂商视角,我们预计GB200 NVL系统是AI训练+推理在云端的较佳选择。而在英伟达B系列芯片更新的节点上,我们预计后续AI芯片迭代出货,对应的800G/1.6T光模块/光器件需求增长,硅光、液冷产业链投资机会也随之增加,看好海外大厂的高速网络需求的持续性。原因及逻辑1)英伟达的GB200 NVL72方案将72 GPU高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的NVLink网络为主,而机柜外扩容组网尤其千至万卡互联则需要2-3层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体

60、升级。2)整体看,单一介质网络连接的性能,最大传输距离与最高带宽成反比,且综合考虑成本,同时考虑工程可行性。光电混合是当前出于成本考虑的重要架构,光网络和芯片层面的光互联是长期方向。3)硅光的演进方向明确。芯片算力性能暴增+训练/推理的参数需求,网络、访存性能亟需同步提升。电口瓶颈已至,芯片-板卡-设备间高速互联,光电子几乎是迭代唯一出路。当前放量临近、格局逐步明晰。4)AI硬件高密度、高功耗的路径下,液冷方案的渗透空间巨大。42有别于大众的认识1)市场担心英伟达GB200系统为代表的AI硬件演进,光通信需求降低。我们从GB200 NVL72系统的拆解与理想化测算、光铜两种方案的应用场景、硅光

61、产业的发展节奏等角度出发,认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。2)市场担心AI从训练到推理的过程,对硬件的需求降低。而AI大模型参数量的增速显著大于GPU内存与算力增速,高集成度+大内存+多GPU的系统更适配大模型训推,我们认为不管是800G/1.6T光模块/光器件需求,还是硅光、液冷的投资机会,均是后续重要的产业增量,看好高速网络等硬件需求的持续性。5.5.结论结论435.5.相关标的与风险提示相关标的与风险提示聚焦AI算力网络产业链:光通信之中际旭创、新易盛、天孚通信、华工科技、光迅科技、源杰科技等。算力设备之紫光股份、锐捷网络、中兴通讯、烽火通信以

62、及盛科通信等。液冷与IDC之英维克、飞荣达、润泽科技等。风险提示:1)芯片与系统的技术演进速度几乎是历史最快,同时也意味着演进方向可能多元化,科技大厂定制芯片的需求也说明了这一点。同时,实践中训练、推理的硬件方案也可能与参考架构不同。不同的系统架构和网络实践,可能会影响网络器件、设备等的长期需求。2)大模型算法的发展方向,例如参数量的变化、模型设计的变化等,也直接影响了底层的硬件架构设计,可能造成硬件需求的波动。445.5.相关标的与风险提示相关标的与风险提示资料来源:Wind,申万宏源研究注:部分披露2023年业绩预告/快报/年报的公司预测净利润取预告/快报/年报值。表:通信行业部分重点上市

63、公司估值表证券代码证券简称2024/3/29Wind一致预期净利润(亿元)PE收盘价(元)总市值(亿元)20222023E2024E2023E2024E000988.SZ华工科技33.80339.869.0610.0713.383425300308.SZ中际旭创156.561,256.9012.2421.8142.425830300502.SZ新易盛67.00475.659.046.9112.586938301165.SZ锐捷网络38.48218.645.504.017.345430300394.SZ天孚通信151.27597.354.037.3011.6.SH源杰科技1

64、25.00106.831.000.190.937.SZ英维克30.02170.662.803.895.234433000938.SZ紫光股份21.71620.9221.5822.6428.082722000063.SZ中兴通讯27.991,338.8380.8093.26108.20141245信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收

65、到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人华东A组茅炯021-华东B组李庆华北组肖霞华南组李昇A股投资评级说明证券的投资评级:以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(Buy):相对强于市场表现20以上;增持

66、(Outperform):相对强于市场表现520;中性(Neutral):相对市场表现在55之间波动;减持(Underperform):相对弱于市场表现5以下。行业的投资评级:以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight):行业超越整体市场表现;中性(Neutral):行业与整体市场表现基本持平;看淡(Underweight):行业弱于整体市场表现。本报告采用的基准指数:沪深300指数港股投资评级说明证券的投资评级:以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(BUY):股价预计将上涨20%以上;增持(Outpe

67、rform):股价预计将上涨10-20%;持有(Hold):股价变动幅度预计在-10%和+10%之间;减持(Underperform):股价预计将下跌10-20%;卖出(SELL):股价预计将下跌20%以上。行业的投资评级:以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight):行业超越整体市场表现;中性(Neutral):行业与整体市场表现基本持平;看淡(Underweight):行业弱于整体市场表现。本报告采用的基准指数:恒生中国企业指数(HSCEI)我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资

68、的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系,如果您对我们的行业分类有兴趣,可以向我们的销售员索取。46法律声明本报告由上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司,以下简称“本公司”)在中华人民共和国内地(香港、澳门、台湾除外)发布,仅供本公司的客户(包括合格的境外机构投资者等合法合规的客户)使用。本公司不会因接收人收到本报告而视其为客户。有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司

69、http:/网站刊载的完整报告为准,本公司并接受客户的后续问询。本报告上海品茶列示的联系人,除非另有说明,仅作为本公司就本报告与客户的联络人,承担联络工作,不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影

70、响本报告客观性的利益冲突,不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本

71、报告中的任何内容所引致的任何损失负任何责任。市场有风险,投资需谨慎。若本报告的接收人非本公司的客户,应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记,未获本公司同意,任何人均无权在任何情况下使用他们。简单金融 成就梦想A Virtue of Simple Finance47上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司)李国盛

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(人工智能行业GenAI系列之34:网络之辩英伟达Blackwell背后的光电演绎-240330(47页).pdf)为本站 (SIA) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部