《通信行业AI时代的网络:需求从何而来创新将走向何方?-240516(34页).pdf》由会员分享,可在线阅读,更多相关《通信行业AI时代的网络:需求从何而来创新将走向何方?-240516(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业深度 2024 年 05 月 16 日 通信通信 AI 时代的网络:需求从何而来,创新将走向何方?时代的网络:需求从何而来,创新将走向何方?网络是网络是 AI 大模型时代大模型时代的关键一环的关键一环。大模型时代,我们已经开始看到光模块、交换机等网络设备迭代加速,需求爆发。但市场对于为何显卡需要搭配大量光模块,以及通信为何成为大模型痛点体会较浅。本文中,我们将从原理出发,探讨网络为何成为 AI 时代的全新“C 位”,并将从最新的产业变化中,讨论未来网络侧的创新与背后的投资机会。网络需求从何而来网络需求从何而来?进入大模型时代
2、,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了 AI 时代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更多的用于同步显卡间的模型参数,对于网络的密度,容量都提出了更高要求。日益庞大日益庞大的模型体积:的模型体积:(1)训练耗时)训练耗时=训练数据规模训练数据规模 x 模型参数量模型参数量/计算计算速率(速率(2)计算速率)计算速率=单设备计算速率单设备计算速率 x 设备数设备数 x 多设备并行效率。多设备并行效率。当下,业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能缩短训练耗时,而单设备计算速率的更新有其周期
3、和限制,因此如何利用网络尽可能的扩大“设备数”和“并行效率”直接决定了算力。多卡同步的多卡同步的复杂沟通复杂沟通:在大模型训练过程中,将模型切分至单卡后,每经过将模型切分至单卡后,每经过一次计算,单卡之间都需要进行对齐(一次计算,单卡之间都需要进行对齐(Reduce、Gather 等等),同时,在英伟达的通信原语体系 NCCL 中,All-to-All(即所有节点都可以互相获取值并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。愈发昂贵的故障成本:愈发昂贵的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中断,需要回到几小时或者几天前的断点进行重新训练。而整个网络中某一
4、个软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代表着落后的进度和愈发高昂的成本。现代的现代的 AI 网络,已经渐渐发展成堪比网络,已经渐渐发展成堪比飞机、航母等的人类系统工程能力的结晶。飞机、航母等的人类系统工程能力的结晶。网络创新将走向何方网络创新将走向何方?硬件随需求而动,经过两年,全球算力投资规模已经膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。通信介质通信介质的的更迭更迭:光、铜与硅是人类传输的三大介质,在 AI 时代,光模块追求更高速率的同时,也迈出了 LPO、LRO、硅光等降
5、本之路。在当前时间点,铜缆凭借性价比,故障率等因素占领了机柜内连接。而 Chiplet,Wafer-scaling 等新半导体技术,则正在加速探索硅基互联的上限。网络网络协议的竞争:协议的竞争:片间通信协议与显卡强绑定,如英伟达的 NV-LINK,AMD的 Infinity Fabric 等等,其决定了单台服务器或者单个算力节点的能力上限,是非常残酷的巨头战场。而 IB 与以太网的斗争则是节点间通信的主旋律。网络架构的变化:网络架构的变化:当下节点间网络架构普遍采用叶脊架构,叶脊具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊稍显冗余的架构会给超大集群带来较大的网络成本。当下,如 D
6、ragonfly 架构,rail-only 架构等新架构有望成为面向下一代超大集群的演进方向。投资建议:投资建议:通信系统核心环节通信系统核心环节:中际旭创、新易盛、天孚通信、中际旭创、新易盛、天孚通信、工业富联、工业富联、英维克、英维克、沪电股份沪电股份。通信系统创新环节:通信系统创新环节:长飞光纤、长飞光纤、太辰光、源太辰光、源杰科技、杰科技、盛科通信盛科通信-U、寒武纪、德科立、寒武纪、德科立。风险提示风险提示:AI 需求不及预期,需求不及预期,Scaling law 失效失效,行业竞争加剧行业竞争加剧。增持增持(维持维持)行业行业走势走势 作者作者 分析师分析师 宋嘉吉宋嘉吉 执业证书
7、编号:S0680519010002 邮箱: 分析师分析师 黄瀚黄瀚 执业证书编号:S0680519050002 邮箱: 分析师分析师 邵帅邵帅 执业证书编号:S0680522120003 邮箱: 相关研究相关研究 1、通信:光纤光缆行业:海风为盾、特种为矛2024-05-14 2、通信:Open AI 新品在即全球算力及光模块景气加码2024-05-12 3、通信:特种光纤:始于通信,立足传感,赋能 AI与低空经济2024-05-10 -32%-16%0%16%32%--05通信沪深300 2024 年 05 月 16 日 P.2 请仔细阅读本报
8、告末页声明请仔细阅读本报告末页声明 重点标的重点标的 股票股票 股票股票 投资投资 EPS(元)(元)P E 代码代码 名称名称 评级评级 2023A 2024E 2025E 2026E 2023A 2024E 2025E 2026E 300308.SZ 中际旭创 买入 2.71 5.62 7.80 10.65 61.54 29.67 21.38 15.66 300502.SZ 新易盛 买入 0.97 2.15 3.16 4.22 83.27 37.57 25.56 19.14 300394.SZ 天孚通信 买入 1.85 3.50 5.10 6.53 73.18 38.68 26.55 20
9、.73 资料来源:Wind,国盛证券研究所 ZV9YqUpXyX0UkZmNaQcM7NsQmMnPrNlOpPqNlOpNmM8OmNqQwMnPpOvPnRsQ 2024 年 05 月 16 日 P.3 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 1.投资要件.5 2.从云计算时代迈向 AI 时代,为什么通信愈发重要.6 2.1 大模型时代的多卡合作原理,模型并行与数据并行.6 2.2 大模型时代的多卡互联核心:同步的准确率.8 2.3 大模型时代的系统工程:监测-总结-创新,迭代永远在路上。.11 3.通信协议的竞争与迭代:承载 AI 数据流的话语权.13 3.1
10、 节点内通信大厂核心壁垒,算力“摩尔定律”的希望.13 3.2 节点间通信协议:历久弥新,封闭与开放之争.19 4.AI 推动下,网络硬件创新将走向何方?.23 4.1 光、铜与硅,传输介质之争将走向何方.23 4.2 交换机的创新:光交换机初出茅庐.24 4.3 网络架构的创新:叶脊之后,走向何方?.26 4.4 数据中心集群的创新:未来算力网络的终极形式?.29 5.投资建议:创新永不停,核心环节与新变量两手抓.31 6.风险提示.33 图表目录图表目录 图表 1:数据并行演示图.7 图表 2:模型并行.7 图表 3:多维混合并行下的 AI 集群构建.8 图表 4:同步并行.9 图表 5:
11、异步并行.9 图表 6:环形同步.10 图表 7:环形同步原理.10 图表 8:Wireshark 图形用户界面.11 图表 9:DPI 和 DFI 的流程比较.12 图表 10:浩瀚深度 DPI 产品部署方式.12 图表 11:浩瀚深度 DPI 产品功能.12 图表 12:PCIe6.0 版本的带宽大幅提高.13 图表 13:PCIe Switch 架构.14 图表 14:历代 NVlink 性能跃升.15 图表 15:P100 NVLINK.15 图表 16:A100 引入 NV-link Switch 芯片.16 图表 17:面向游戏显卡的 NVLINK 桥接器.16 图表 18:第五代
12、 NVLINK 交换机.17 图表 19:HB-DOMIN 提升与训练性能的关系.17 图表 20:GB200 机柜支持 72 卡 NVLINK.18 图表 21:AMD 用于内部互联的 Infinty Fabric.18 图表 22:RDMA 与传统 TCP/IP 在显卡连接时的对比.19 图表 23:英伟达收购 Mellanox.20 图表 24:Sharp 协议下给通信集群带来的提升.21 2024 年 05 月 16 日 P.4 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 25:超以太网联盟.21 图表 26:AMD 发布会支持以太网.22 图表 27:GB200 机柜内采
13、用纯铜连接.23 图表 28:OCS 交换机原理.25 图表 29:谷歌 OCS 交换机.26 图表 30:纵横交换机制.27 图表 31:CLOS 网络架构.27 图表 32:基础树形网络.27 图表 33:胖树三层架构.27 图表 34:胖树架构浪费计算资源.28 图表 35:思科大二层网络.28 图表 36:蜻蜓架构.29 图表 37:Groq 使用蜻蜓架构来构建集群.29 图表 38:Rail-only 架构.29 图表 39:相关标的列表.32 2024 年 05 月 16 日 P.5 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1.投资要件投资要件 市场对于通信网络在市场对于
14、通信网络在 AI 训练中的重要程度认识不足。训练中的重要程度认识不足。AI 行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测算,但市场对于 AI 与通信的底层关系的研究较少。本文从模型,多卡同步,训练性价比等三大方面,对 AI 时代通信网络的核心地位进行更深入的讨论。概括来看,通信在 AI 时代站上 C 位主要有三大原因。第一,第一,日益庞大的模型体积下,显卡的数量和连接后的运算效率直接决定了训练所需的时间,而时间,恰恰是日益激烈的巨头 AI 竞赛中最为宝贵的资源。第二,。第二,从训练的原理出发,
15、在主流的并行模式由模型并行转向数据并行后,每一层运算后,都需要集群内的不同 NPU 之间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档至几小时前的存档点,对于整体训练效率和成本也会产生极大的损耗,对于分秒必争的巨头 AI 产品迭代来说,更为致命。同时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整体稳定和良品率,已经变成了一项极其深奥的系统工程。市市场对通场对通信网络未来迭代方向认识不足。信网络未来迭代方向认识不足。市场对于通信网络的迭
16、代更多的认识停留在跟随显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其余方向的迭代和产业链创新程度与日俱增。同时,当前海外巨头的 AI 资本投入战争已经达到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。“开放”和算力规模之间的平衡将是网络创新的主要议题。总体来看,产业链对于前沿的探索主要集中于三个方向。第一,通信介质迭代,第一,通信介质迭代,这里面既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技术创新,如 LPO、LRO、硅光、chiplet、Wafer-sca
17、ling 等。第二第二,通信协议的创新,通信协议的创新,这同样包含两个方面,第一,节点内部通信,如 NVLINK 和 Infinity Fabric,该领域壁垒和创新难度极高,属于巨头战场,第二,节点间通信,产业界则主要聚焦于 IB 与以太网两大协议的竞争。第三第三,网络,网络架构的更新,架构的更新,叶脊架构是否能够适应超多节点数量,OCS 助力下,Drangonfly 能否成为下一代网络架构主流,同时 Rail-only+软件优化能够成熟,都是产业的新看点。行业催化:1.Scaling Law 持续有效,集群规模经一部扩大,通信网络需求持续上升。2.海外 AI 正循环加速,互联网巨头加速资本
18、开支竞赛。投资建议:通信系统核心环节:投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、沪电股份。通信系统创新环节通信系统创新环节:长飞光纤、中天科技、亨通光电、盛科通信。2024 年 05 月 16 日 P.6 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2.从从云计算时代迈向云计算时代迈向 AI 时代,为什么通信愈发重要时代,为什么通信愈发重要 上一轮通信的辉煌,可以追溯到互联网时代,爆发式的网络流量传输需求,让人类第一次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模块与交换机更多的
19、随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速率,技术的更迭也较为按部就班,进入了周期波动向上稳态发展期。小模型时代,业界更加专注于算法创新,往往整个模型体积可以由单卡、单台服务器或者较为简单的小集群来承担,因此来自 AI 侧的网络连接需求并不突出。但大模型的出现改变了一切,OpenAI 证明了在当下,用较为简单的 Transformer 算法,通过堆砌参数的形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发展期。我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代,算力规模或者说算力硬件产业链会率先受益。(1)训练耗时训
20、练耗时=训练数据规模训练数据规模 x 模型参数量模型参数量/计算速率计算速率(2)计算速率计算速率=单设备计算速率单设备计算速率 x 设备数设备数 x 多设备并行效率多设备并行效率 在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大,在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时间是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设备并行效率也成为两个同样重要的一环,这也是英伟达前瞻
21、性收购 Mellanox 的原因,是希望在计算速率的每一个决定因子中,都能取得领先。我们在前期报告AI 算力的 ASIC 之路-从以太坊矿机说起中详细阐述了单卡算力的多种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并行计算的优化程度要求呈现指数级增加,这也是为何网络成为 AI 重要瓶颈之一的终极原因。我们在本节中会从训练原理出发,阐述为何设备的堆叠和并行销量的提升,是人类历史上最复杂的系统工程。2.1 大模型时代的大模型时代的多多卡合作原理,模型并行与数据并行卡合作原理,模型并行与数据并行
22、在模型训练中,将模型拆分至多卡的过程并非传统流水线或简单分割那样简单,而是采用更为复杂的方式来分配显卡之间的任务。总体来看,任务分配方式大体可以分为两种,模型并行与数据并行。模型并行与数据并行。最早在模型体积较小但数据量上升时,业界普遍采用数据并行的方式。在数据并行式的运算中,每张 GPU 上都保留有完整的模型副本,而训练用的数据被分割后进入不同显卡并进行训练,在反向传播后,每张卡上的模型副本梯度将被同步减少。但随着模型参数膨胀下,单块显卡愈发难以容纳完整模型,因此,在头部大模型训练中,数据并行作为单一并行的分配方式正在逐渐减少。2024 年 05 月 16 日 P.7 请仔细阅读本报告末页声
23、明请仔细阅读本报告末页声明 图表 1:数据并行演示图 资料来源:腾讯云,美亚柏科,国盛证券研究所 模型并行则是当下在大模型时代逐渐兴起的一种分配方式。由于模型体积过于庞大,因此将模型的不同部分装载进入显卡内,并给显卡灌入相同的数据流,对每一部分的参数进行训练。模型并行有两种主流模式,分别为张量并行与流水线并行。在一个模型训练运算的底层运算矩阵乘法中(C=AxB),张量并行指的先将 B 矩阵拆分成多个向量,每个设备持有一个向量,然后将 A 矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出 C举证。而流水线并行则是将模型按层进行分割,将模型按层分割成若干块,每一块都交给一个设备进行,同时在
24、前向传播过程中,每个设备将中间的激活传递给下一个阶段,在随后的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。图表 2:模型并行 资料来源:机器之心 Pro,国盛证券研究所 在当下的大模型训练中,没有任何一种数据并行能够单独存在,在头部大模型训练中,往往需要将上述的多种技术混合,实现多维混合并行。在实际连接时,会将这个 AI 集群划分为若干 Stage,每个 Stage 对应一个逻辑上的 Batch,每个 Stage 由若干台 GPU 节点组成。这样在架构上满足多维混合并行的需求。2024 年 05 月 16 日 P.8 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表
25、3:多维混合并行下的 AI 集群构建 资料来源:新华三,国盛证券研究所 无论是何种并行方式,都需要在每一轮计算后,无论是何种并行方式,都需要在每一轮计算后,都需要通过反向广播的形式来同步每一都需要通过反向广播的形式来同步每一张张 GPU 内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从逐步从“传输”“传输”进化成一个真正意义上的“系统工程”。进化成一个真正意义上的“系统工程”。2
26、.2 大模型时代的多卡互联核心:同步的准确率大模型时代的多卡互联核心:同步的准确率 AI 网络集群承担的一项重要功能,便是将不同显卡分工训练完成的结果,在计算单元之间进行对齐,从而使得显卡能够进行下一步的工作,这项工作也被称为反向广播,由于广播过程中往往对结果采用 Reduce,Gather 等算法进行处理,那么全局的广播则被称为 All to All,我们在 AI 集群性能指标中常见的 All-to-All 延迟,指的就是做一次全局反向广播需要的时间。从原理上来看,做一次反向广播同步数据似乎较为容易,只需要每张显卡互发数据即可,但在真正的网络集群构建中,却会遇到许多问题,这也让缩短这一时延,
27、成为了各种网络方案追求的一个重点方向。第一个问题在于,每一张显卡完成当前计算所需要的时间长短是不一致的,如果统一等待同一组内的最后一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显卡有大量的时间处于空置状态,从而降低整个计算集群的性能。而同样,如果采用过于激进的同步方法,则有可能导致同步期间出现错误,从而导致训练中断。因此,稳定高效的同步方法,一直是业界追寻的方向。从当下来看,主要的同步方法可以分为同步并行,异步并行,All-Reduce 等等。2024 年 05 月 16 日 P.9 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 我们先来看同步并行,同步并行的思路我们在前文中已
28、有提及,即在当前单元内,所有计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计算单元空置。以下图为例,计算单元一完成计算后,需要等待计算单元 4 完成计算,并等待集合通信的时间,造成了大量的空置,降低了集群的整体性能。图表 4:同步并行 资料来源:国盛证券研究所绘制 异步并行则是面对如兴趣推广等非生成式大模型时候的选择,当一个设备完成一轮正向与反向计算后,不需要等待另一台设备完成循环,直接进行数据同步,这种传输模式下,网络模型训练不收敛,不适用于大模型训练,但对于如搜索模型,推荐模型等较为适用。图表 5:异步并行 资料来源:国盛证券研究所绘制 第三类,也是目前大家使用
29、的最多的一类,All-Reduce 或者也可以称为 All-to-All-Reduce,即将所有设备(All)上的信息归纳(Reduce)到所有设备(All)上。显然,直接的 All-Reduce将带来极大的通信资源浪费,因为同一份数据可能会被冗余传输多次。因此,许多优化版 All-Reduce 算法被提出,如环状 All-Reduce、基于二叉树的 All-Reduce 等,这些算法均能极大降低 All-Reduce 的带宽和延迟。我们以中国 AI 龙头百度发明的 Ring All-Reduce 为例,来说明分布式计算工程师们,是如何通过不断迭代,来缩短同步时间的。在 Ring All-Re
30、duce(环同步)中,每台设备仅需与另外两台设备通信,分为 Scatter-Reduce与 All-Gather 两个步骤。首先对相邻设备完成多次 Scatter-Reduce 操作,在每台设备分别得到聚合后的完整数据的一部分。随后,每台设备再对齐相邻设备完成多次 All-Gather 2024 年 05 月 16 日 P.10 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 操作,在每台设备中补全完整数据。环状 All-Reduce 不仅能降低带宽和延迟,还可以简化网络的拓扑结构,降低网络的搭建成本。图表 6:环形同步 资料来源:腾讯云,国盛证券研究所 图表 7:环形同步原理 资料来源:国
31、盛证券研究所绘制 但无论是何种算法,都依赖于网络通信硬件的支持,无论是从芯片原生和协议层面支持更大的带宽,还是从纯铜线连接转为通过 NVLink,亦或是 IB 协议的引入,RDMA 需求的爆发,均是为了满足愈发复杂的沟通与同步需求,这些内容我们会在后文中陆续展开。至此,我们对于为何至此,我们对于为何 AI 需要高密度通信的原理层逻辑已经有了初步认知,首先从小模需要高密度通信的原理层逻辑已经有了初步认知,首先从小模型时代到大模型时代的迅速切换,使得多节点集群型时代到大模型时代的迅速切换,使得多节点集群与与分布式训练成为刚需,而将模型分分布式训练成为刚需,而将模型分拆至不同算力节点运算时,如何分拆
32、,如何保证同步则是更加繁复的系统工程,而通信拆至不同算力节点运算时,如何分拆,如何保证同步则是更加繁复的系统工程,而通信则是这一切软件原理实现的基础,高质量则是这一切软件原理实现的基础,高质量、高通量高通量、高稳定高稳定性的性的通信元器件与通信网络。通信元器件与通信网络。2024 年 05 月 16 日 P.11 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2.3 大模型时代的系统工程:大模型时代的系统工程:监测监测-总结总结-创新,迭代永远在路上创新,迭代永远在路上 上文中,我们阐述了训练原理决定了大模型对于通信体系的依赖程度。无数不同的,复杂的并行与同步需求一起,组成了 AI 集群中
33、的数据流动,虽然通信网络在此类需求的带动下,速率和产品迭代不断加速,连接方式创新不断,但时至今日,仍然没有一个完美的集群能够一劳永逸地解决所有问题,同时集群的稳定性虽然不断优化,但由上百万个精密器件组成的系统,断点与中断问题仍然时有发生。因此,大模型通信体系的进化方向可以大体分为三个,一个是对大模型系统的监测能力,能够实时感知大模型数据流动,运行态势,从而能够及时发现故障,在这一过程中,以网络可视化为基础的软硬件抓包成为了主流手段,通过 FPGA 芯片和专用软件,监控集群中的数据流动,从而为感知提供基础工具,以软件实现的数据抓包最常用以软件实现的数据抓包最常用,国内外知名产品有 Wiresha
34、rk(处理 TCP/UDP)、Fiddler(处理 HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet 等。以 Wireshark为例,其基本工作原理是:程序将网卡的工作模式设置为“混杂模式”(普通模式下,网卡只处理属于自己的 MAC 地址的数据包,混杂模式下,网卡会处理所有流经的数据包),同时由 Wireshark 进行数据包的截获、重发、编辑和转存。图表 8:Wireshark 图形用户界面 资料来源:techlockdown,国盛证券研究所 软件抓包会占用部分系统性能。软件抓包会占用部分系统性能。首先,混杂模式下网卡处于“广播模式”,会处
35、理网络下层收发的所有数据包,本身就会消耗网卡一部分性能;其次,软件抓包不是在链路层串行或并行抓取,而是将数据包进行复制和存储,占用了一部分 CPU 和存储的资源。同时,类似 Wireshark 这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆盖到全局网络,适合被动的故障排除作业,不适用于主动风险监测。为为了了不不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有,常用的工具有DPI 和和 DFI。DPI(Deep Packet Inspection,深度报文检测)是一种基于报文的应用层信息对流量进行检测和
36、控制的功能。DPI 着重对应用层的分析,能够识别各种应用及其内容。当 IP 数据包、TCP 或 UDP 数据流通过支持 DPI 技术的硬件设备时,设备会通过深入读取报文载荷来进行重组和分析,从而识别整个应用程序的内容,然后按照设备定 2024 年 05 月 16 日 P.12 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 义的管理策略对流量进行后续处理。DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DPI 技术适用于需要精细和准确识别、精细管理的环境;而 D
37、FI 技术适用于需要高效识别、粗放管理的环境。图表 9:DPI 和 DFI 的流程比较 资料来源:国盛证券研究所整理 DPI/DFI 由独立硬件串由独立硬件串/并接在物理层,不会影响物理层的性能表现。并接在物理层,不会影响物理层的性能表现。以浩瀚深度的DPI 软硬件产品为例,其可以部署在电信网络的各层级网络节点,同时通过 SaaS/PaaS完成对各层级监测节点数据收集、分析和呈现。DPI 硬件串接或并接在通信物理层,通过镜像数据包实现近乎无损的网络监测。DPI 软件嵌入在 DPI 硬件、独立服务器或交换机/路由器中,实现网络监测。图表 10:浩瀚深度 DPI 产品部署方式 图表 11:浩瀚深度
38、 DPI 产品功能 资料来源:浩瀚深度招股书,国盛证券研究所 资料来源:浩瀚深度招股书,国盛证券研究所 解决了监测问题之后,大模型系统工程的迭代之路便有了基础,前文提到,在实操中,更加需要注重的便是系统运行效率和稳定性间的平衡,一方面,我们通过 Reduce 方法的优化,并行方法的创新等等,创造出新的训练方法和理论,分布式训练的底层创新,然而底层创新始终需要相关硬件的支持,更大通量的交换机,更加契合的交换协议,更稳定,更便宜的通信器件将是大模型系统升级中永远不可或缺的一环。2024 年 05 月 16 日 P.13 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3.通信协议的竞争与迭代:承
39、载通信协议的竞争与迭代:承载 AI 数据流的话语权数据流的话语权 上一章节中,我们系统阐述了 AI 集群中的通信主要起到哪些作用,本节中,我们将系统性地介绍构成整个通信体系的最基础部分-通信协议。从直觉上来看,通信系统主要由交换机、光模块、线缆、网卡等等实物硬件组成,但其实真正决定了一个通信系统的建立,运行和性能特点的,却是流转在实物硬件内部的通信协议。通信协议是在计算机网络中,为了保证数据顺利、准确地传送,通信双方必须遵守的一系列约定。这些约定包括数据的格式、编码规则、传输速率、传输步骤等。在 AI 时代,通信协议的分类主要分为两大类,第一,用于算力节点内部的算力卡之间通信的高速协议,这一类
40、协议具有速度快,封闭性强、可扩展性弱等特点,往往是各家显卡厂商的核心能力壁垒之一,其速率,接口等等需要芯片层面的支持。第二类协议则是用于连接算力节点之间的协议,这类协议具有速度慢,可扩展性强等特点,第二类协议目前主要有两大主流,InfiniBand 协议以及以太网下的 RoCE 协议族,这类协议保证了数据的跨节点传输能力,也是构建超大集群的基础,同时也为智算单元接入数据中心提供了解决方案。3.1 节点内通信节点内通信大厂核心壁垒,算力“摩尔定律”的希望大厂核心壁垒,算力“摩尔定律”的希望 节点内通信,即单台服务器内部的显卡通信协议,负责同一服务器内部的显卡之间的高速互联,发展至今,这一协议主要
41、包括了 PCIe、NVLink、Infinty Fabric 三种协议 我们先来看历史最为悠久的 PCIe 协议,PCIe 协议是一种公开的通用协议,传统服务器个人电脑中的不同硬件都通过 PCIe 协议来进行连接,在当第三方组装的算力服务器中,显卡之间任然像传统服务器一样,通过 PCIe 插槽和主板上的 PCIe 线路进行互联。PCIe 是最广泛使用的总线协议。是最广泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔 2001 年提出的PCIe(PCI-Express)协议,PCIe 主要用于连接 CPU 与其他高速设
42、备如 GPU、SSD、网卡、显卡等,2003 年 PCIe 1.0 版本发布,后续大致每过三年会更新一代,目前已经更新到 6.0 版本,传输速率高达 64GT/s,16 通道的带宽达到 256 GB/s,性能和可扩展性不断提高。图表 12:PCIe6.0 版本的带宽大幅提高 资料来源:viavisolutions,国盛证券研究所 2024 年 05 月 16 日 P.14 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 PCIe 总线树形拓扑和端到端传输方式限制了连接数量和速度,总线树形拓扑和端到端传输方式限制了连接数量和速度,PCIe Switch 诞生诞生。PCIe采用端对端数据传输链路
43、,PCIe 链路的两端只能各接入一个设备,设备识别数量有限,无法满足有大量设备连接或需要高速数据传输的场景,因此 PCIe Switch 诞生。PCIe Switch 具备连接和交换双重功能,可以让一个 PCIe 端口识别和连接更多设备,解决通道数量不够的问题,并可以将多条 PCIe 总线连接在一起,从而形成一个高速网络,实现多设备通信,简言之 PCIe Switch 相当于 PCIe 的拓展器。图表 13:PCIe Switch 架构 资料来源:芯世相,国盛证券研究所 但正如上文中所说,随着模型规模逐步扩大,同时 NPU 之间同步循环愈发复杂,速率较低并未对模型运行模式进行专门优化的的 PC
44、IE 已经不能满足大模型时代的需求,因此,各大显卡厂商专有的协议在大模型时代快速兴起。我们认为,当先业界关注度最高,进化速度最快的协议便是 NV-Link 协议,英伟达提出的高速GPU互联协议,对比传统PCIe总线协议,NVLINK主要在三个方面做出较大改变:1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许 GPU 共享公共内存池,减少 GPU 之间复制数据的需要,从而提高效率;3)直接内存访问,不需要 CPU 参与,GPU可直接读取彼此的内存,从而降低网络延迟。此外,为解决 GPU 之间通讯不均衡问题,英伟达还引入 NVSwitch,一种类似交换机 ASIC 的物理芯片,通过 NVL
45、ink 接口将多个GPU 高速互联,创建高带宽多节点 GPU 集群。2024 年 05 月 16 日 P.15 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 14:历代 NVlink 性能跃升 资料来源:英伟达,国盛证券研究所 我们通过回顾 NV-link 的发展史,可以发现,节点间的 NV-Link 互联正是随着显卡间同步需求的变化而逐步迭代。第一代的 NV-Link 出现在 Pascal 架构上,英伟达通过在 PCB 板上的高速铜线以及通用的 PCIE Switch,在单台服务器内部链接了 8 卡服务器,我们通过下图中的连接方式可以发现,通过显卡外部大环叠加四张显卡内部 X 型连
46、接的方式,8 张 GPU 间,以任意一张为起点,都可以用最短路径完成全局数据对齐。图表 15:P100 NVLINK 资料来源:英伟达,国盛证券研究所 但随着单个显卡性能的扩张,吞吐量的提升,以及显卡之间同步方式的愈发复杂,单纯纯线缆连接以及固定的线路已经无法满足显卡间的沟通需求。因此在 Ampere 架构中,也就是对应的第三代 NVLINK,英伟达引入了第一代专用的 NV-Link Switch 芯片,从而进一步加大 NV-Link 速率,灵活性。2024 年 05 月 16 日 P.16 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 16:A100 引入 NV-link Swit
47、ch 芯片 资料来源:英伟达,国盛证券研究所 但从 Pascal 架构到 Ampere 架构的更新中,由于当时的客户需求仍然集中于小模型,大规模的计算集群并未出现,因此 NV-LINK 保持着常规更新的节奏,主要通过芯片内部通道迭代,NV-Link Switch 芯片迭代来实现速率的更新,期间英伟达还为游戏显卡推出了NV-Link 桥接器,来满足部分高端 C 端用户的需求。图表 17:面向游戏显卡的 NVLINK 桥接器 资料来源:pugetsystems,国盛证券研究所 从 A100 到 H100 的更新中,英伟达迈出了 NV-Link 进化的第一步,当大模型的需求开始涌现,超大的数据规模、
48、模型体积使得过去以 8 张显卡为上限的 NV-Link 互联难以应付,使用者们不得不把模型切片,装进不同服务器间进行训练以及对齐,而服务器间较慢的沟通速率直接影响了模型训练的效果。我们把能用最高速通信协议互联的显卡数量称之为 HB-DOMIN,而在模型参数日益庞大的发展过程中,在同等代际芯片内,HB-DOMIN成为了决定模型训练能力的关键因素。在这种背景下,英伟达的 NV-LINK 在 Hopper 架构上迈出了进化的第一步,通过外置的专用交换机,承载更多的 NV-LINK switch 芯片,从而扩大现有显卡的 HB-DOMIN。在Hopper100 时代,通过 GH200 SuperPOD
49、 产品,NV-LINK 第一次走出服务器内部,实现了跨越服务器的 256 张显卡互联。2024 年 05 月 16 日 P.17 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 18:第五代 NVLINK 交换机 资料来源:英伟达,国盛证券研究所 但由于 Hopper 架构下对应的 NV-Link 3.0 交换芯片成熟度较低,英伟达需要两层架构来连接显卡,因此一个 GH200 256 卡集群内需要大量的高端光模块,成本极高,给客户的采购带来了不便。同时,在 GH200 发布之时,模型的参数还未膨胀到万亿级别,根据Meta 的研究结果显示,在万亿参数之下,超过 100 后的 HB-Dom
50、in 扩张边际效应会出现加速递减。图表 19:HB-DOMIN 提升与训练性能的关系 资料来源:MIT、Meta,国盛证券研究所 在 Blackwell 架构时代,英伟达正式完善了 NVLINK 的扩张之路,随着 4NM 最新一代NV-Link 交换芯片的发布,英伟达推出了正式的拳头产品 GB200 NVL72。英伟达通过单机柜内部单层 NVlink+铜缆的连接,实现了用较低成本达成一个具有高性价比的HB-DOMIN 数字的目标,真正迈出了节点内互联协议向上层扩张的第一步。2024 年 05 月 16 日 P.18 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 20:GB200 机柜
51、支持 72 卡 NVLINK 资料来源:英伟达,国盛证券研究所 我们除了在最新一代 NV-LINK 上,也再一次重新认识了节点内互联协议的重要性,甚至可以说,节点内通信的扩张,已经成了摩尔定律是否能在算力时代节点内通信的扩张,已经成了摩尔定律是否能在算力时代延续的关键。节点内延续的关键。节点内通信协议的迭代以及低成本实现,是当通信协议的迭代以及低成本实现,是当前前应对应对“通信墙”、“内存墙”的最佳解决办法。通信墙”、“内存墙”的最佳解决办法。当前 NV-LINK 最大的竞争者便来自于英伟达在通用显卡领域的最大竞争者 AMD,与英伟达相同,即使是对网络协议开放最为支持的 AMD,在其节点内互联
52、领域,依然使用其专用的协议“Infinity Fabric”,但同时,与英伟达不同 AMD 将这份协议共享给了合作的博通、Arista、思科这三家以太网龙头。图表 21:AMD 用于内部互联的 Infinty Fabric 资料来源:servethehome,国盛证券研究所 2024 年 05 月 16 日 P.19 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 当下来看,Infinity Fabric 与 NVLINK 的差距仍然较大,在包括专用交换芯片、多卡互联、协议完成度等方面,AMD 仍然有较长的路需要追赶、这也体现出,当前的头部通用算力竞争,已经从芯片设计这一单一环节,慢慢扩大到
53、节点内通信这一环节。总结来看,节点间通信正在变成算力中愈发重要的组成部分,同时,随着总结来看,节点间通信正在变成算力中愈发重要的组成部分,同时,随着 HB-DOMIN扩大,“算力节点”也在逐步扩大,我们认为,这背后是节点间协议在整个扩大,“算力节点”也在逐步扩大,我们认为,这背后是节点间协议在整个 AI 集群内的集群内的“向上渗透”,同时,依靠“向上渗透”,同时,依靠在节点间协议及其承载硬件的系统化压缩,也是未来在节点间协议及其承载硬件的系统化压缩,也是未来 AI 算力算力实现摩尔定律的解决之道。实现摩尔定律的解决之道。3.2 节点间通信协议:历久弥新,封闭与开放之争节点间通信协议:历久弥新,
54、封闭与开放之争 现在我们把视角移到算力节点外部,来看一下当前构成全球算力集群连接的主流协议。当下的算力中心,NPU正在逐步迈向百万级规模,即使算力节点或者我们说的HB-DOMIN加速扩大,但节点间连接依然是构成全球 AI 算力的基石部分。从当前来看,节点间连接协议主要分为InfiniBand协议与以太网家族内的ROCE协议族。超算节点间互联的核心在于 RDMA 功能。过去,在传统的 CPU 为主的数据中心中,普遍采用 TCP/IP 协议进行传输,即数据从发送端内存发出后,经过发送端设备 CPU 编码后,发送至接收端设备的 CPU,经过解码后放入内存。这一过程中由于数据经过多个设备且多次编解码,
55、因此会产生较高的延迟,而延迟则是对计算卡间相互同步最关键的的因素,因此,在显卡间互联的需求下,绕过 CPU,实现内存之间的远程直接互访(Remote Direct Memory Access)RDMA 变成为了 AI 集群连接的刚需。图表 22:RDMA 与传统 TCP/IP 在显卡连接时的对比 资料来源:SDNLAB,国盛证券研究所 在这种背景下,当前由英伟达主导的原生支持 RDMA 的 IB 协议以太网下支持该功能的ROCE 协议族变成了当下的唯二选择,而这两种协议鲜明的特点又让整个节点间协议的竞争变得精彩异常。IB 协议的出现最早可以追溯至 1999 年,当时,通信能力过差的 PCI 总
56、线逐渐成为各个设备之间沟通的瓶颈,在此背景下,英特尔、微软、IBM、几大巨头成立的 FIO Developers Forum 和 NGIO Forum 进行了合并,创立了 InfiniBand 贸易协会(InfiniBand Trade 2024 年 05 月 16 日 P.20 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 Association,IBTA),并在 2000 年推出了第一版的 IB 协议框架。在在 1999 年创立的交年创立的交换芯片公司换芯片公司 Mellanox 也加入了也加入了 IB 阵营。阵营。IB 从创立之初,便领先性的提出了 RDMA 概念,从而能够绕开 PC
57、I 总线的限制,进行更加高速的访问,但好景不长,在 2022 年,英特尔,微软等巨头相继宣布退出 IB 联盟,转而转向我们上文提到的 PCIE 协议的研发,IB 因此走向衰落。但到了 2005 年,随着存储设备间的通信需求上升,IB 重新迎来上升期,再后来,随着全球超算搭建,越来越多的超级计算机开始使用 IB 进行连接。在这过程中,依靠着对依靠着对 IB 的不离不弃和相关收购,的不离不弃和相关收购,Mellanox 从一家芯片公司扩展到了网卡、交换机从一家芯片公司扩展到了网卡、交换机/网关、远程通信系统和线缆及模块全网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商,领域,成为世界级网
58、络提供商,在在 2019 年,英伟达用年,英伟达用 69 亿美元的报价击败英特尔与亿美元的报价击败英特尔与微软,成功收购了微软,成功收购了 Mellanox。图表 23:英伟达收购 Mellanox 资料来源:中关村在线,国盛证券研究所 另一方面,以太网则在另一方面,以太网则在 2010 年发布了年发布了 RoCE 协议,基于以太网协议实现协议,基于以太网协议实现 RDMA,同,同时在时在 2014 年提出了更加成熟的年提出了更加成熟的 RoCE v2。进入大模型时代以来,全球数据中心快速转向智算化,因此主要的新增投资设备都需要进入大模型时代以来,全球数据中心快速转向智算化,因此主要的新增投资
59、设备都需要RDMA 连接方式的支持。但当下的竞争格局又与之前的连接方式的支持。但当下的竞争格局又与之前的 RoCE V2 与与 IB 的竞争发生了的竞争发生了变化,由于英伟达在全球显卡领域的绝对领先地位,英伟达显卡对于变化,由于英伟达在全球显卡领域的绝对领先地位,英伟达显卡对于 IB 的适配程度更的适配程度更加完善,其中最明显的一点体现在加完善,其中最明显的一点体现在 Mellanox 交换机部署的交换机部署的 Sharp 协议中。协议中。2024 年 05 月 16 日 P.21 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 24:Sharp 协议下给通信集群带来的提升 资料来源:
60、英伟达,国盛证券研究所 由于在由于在 AI 运算中,显卡与显卡之间需要大量的复杂运算中,显卡与显卡之间需要大量的复杂 Reduce 通信,上文中也提到,这通信,上文中也提到,这也是也是 AI 通信系统工程中需要解决的核心问题,在通信系统工程中需要解决的核心问题,在 Mellanox 交换机产品中,在英伟达交换机产品中,在英伟达的帮助下,公司创新的帮助下,公司创新性性地地在在交换芯片中集成了计算引擎单元,可以支持相关交换芯片中集成了计算引擎单元,可以支持相关 Reduce 计计算,从而帮助算,从而帮助 GPU 减轻负载,但是相关功能需要减轻负载,但是相关功能需要 GPU 厂商的配合。厂商的配合。
61、由此可见,由此可见,AI 时代的通信协议之争,背后核心已然变成了显卡厂商的话语权之争,当下时代的通信协议之争,背后核心已然变成了显卡厂商的话语权之争,当下来看,来看,IB 协议凭借着英伟达的支持,占据了较好的竞争优势,而传统的以太网厂商们,协议凭借着英伟达的支持,占据了较好的竞争优势,而传统的以太网厂商们,由于缺乏一款有力的芯片支撑,则在部分功能上稍显弱势。但是由于缺乏一款有力的芯片支撑,则在部分功能上稍显弱势。但是 AMD 带领下的超以太带领下的超以太联盟的出现,有望逐渐扭转这一局面。联盟的出现,有望逐渐扭转这一局面。图表 25:超以太网联盟 资料来源:讯石光通讯,国盛证券研究所 2023
62、年 7 月 19 日,AMD、博通、思科、ARISTA、Meta、微软等来自计算芯片、网络侧 2024 年 05 月 16 日 P.22 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 以及用户侧的各个龙头厂商共同组建了超以太网联盟,我们认为,超以太网联盟成立的超以太网联盟成立的目的便是为了能够在以太网的基础之上,搭建起一个完全开放,更加灵活,目的便是为了能够在以太网的基础之上,搭建起一个完全开放,更加灵活,且且性能超越性能超越IB 的网络协议,从而与的网络协议,从而与 IB 进行抗衡。进行抗衡。图表 26:AMD 发布会支持以太网 资料来源:AMD,新硅,国盛证券研究所 AMD 作为超以太
63、联盟的核心成员,在 Mi300 系列发布会上,公司表示其显卡的后端连接将会无条件使用以太网,同时用于节点内互联的 Infinity Fabric 协议,也将开放给以太网厂商。我们判断,随着我们判断,随着 AMD 和和 UEC 联盟中博通等成员的合作进度逐渐加快,联盟中博通等成员的合作进度逐渐加快,UEC 联联盟也有望真正形成一套类似于盟也有望真正形成一套类似于 N 卡卡+IB 的兼容与合作体系,从而给英伟达带来挑战。的兼容与合作体系,从而给英伟达带来挑战。但其过程注定漫长,从但其过程注定漫长,从 AMD 侧单卡算力的追赶,再到博通侧交换芯片的进步,再到不侧单卡算力的追赶,再到博通侧交换芯片的进
64、步,再到不同厂商同厂商间的开放与间的开放与合作合作,仍有许多路要走。,仍有许多路要走。总结来看,总结来看,节点间通信协议之争,已经渐渐的从原理之争演变成了话语权之争,使用何节点间通信协议之争,已经渐渐的从原理之争演变成了话语权之争,使用何种协议,更多的是种协议,更多的是 GPU 话语权的延伸,英伟达希望通过话语权的延伸,英伟达希望通过 IB 扩大全环节话语权,客户则扩大全环节话语权,客户则希望拥抱更加开放的希望拥抱更加开放的 IB,行业的竞争将持续推动通信协议的持续进化行业的竞争将持续推动通信协议的持续进化。2024 年 05 月 16 日 P.23 请仔细阅读本报告末页声明请仔细阅读本报告末
65、页声明 4.AI 推动下,网络推动下,网络硬件硬件创新将走向何方?创新将走向何方?上节我们讨论了 AI 需求是如何推动 RDMA 功能的进化与放量,同样,在网络硬件的领域,AI 的新需求也正在带来除了速率更新外的其他变化,从传输介质、交换机、网络架构乃至数据中心整体形态都在发生变化。4.1 光、铜与硅,传输介质之争将走向何方光、铜与硅,传输介质之争将走向何方 近年来,随着人类数据量快速膨胀,以及传输速率成倍提升,我们在无线网、固网等电信侧率先迎来了光进铜退的浪潮,从最早的拨号上网,再到光纤入户乃至现在的 FTTR,正式一轮轮光纤光缆对于铜线的逐步替代。到了数据中心内部,光进铜退的进程也同样在进
66、行,由光模块、AOC 等等光通信组成的通信系统正在逐渐代替有 DAC,AEC 等组成的铜传输系统,这背后是高速率传输下,铜介质衰减愈发剧烈的必然物理规律。如果没有 AI 带来的多样需求,随着服务器网口速率逐代提升,光传输会渐渐向机柜内部持续渗透,并最终形成全光数据中心。但 AI 的出现,给个“光进铜退”这一过程带来了一丝波折,或者说让市场产生了一定的困惑。其背后的核心原因是:AI 带来了通信系统复杂度与造价的非代际线性增长,在指数级的需求增加面前,高速率光模块变得愈发昂贵。因此,性价比更高的铜缆在当前速率吸引力逐步提升,同时叠加散热等等配套部件的改善,显卡厂商得以将更多的计算单元尽可能多的压缩
67、在铜缆可以触及的单机柜范围内。图表 27:GB200 机柜内采用纯铜连接 资料来源:英伟达,国盛证券研究所 从背后我们不难发现,在 AI 时代,由于开支的增加,在当前 2-3 年的节点内,光铜之争的核心从速率升级变为了成本先行,同时由于通信系统的复杂程度加速上升,简化与低故障率亦成为了客户选择介质的关键考虑因素。长距离跨服务器传输:光模块是唯一方案,降本与简化是创新方向。由于铜缆的传输距离限制,所谓“光退铜进”也只能发生在短距离传输上,而面对 5 米 2024 年 05 月 16 日 P.24 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 以上的传输距离,也就是跨服务器或跨算力节点传输时,
68、光传输仍然是唯一选择。但当下,客户的除了关心常规的速率升级之外,对于成本和故障率(器件复杂程度)的追求正在愈发急迫,这也带动了光通信行业未来的升级方向。LPO/LRO:LPO 通过线性直驱技术替换传统的 DSP,将其功能集成到交换芯片中,只留下 driver 和 TIA 芯片。LPO 光模块中用到的 TIA、driver 芯片性能也有所提升,从而实现更好的线性度。LRO 则是在一端采用传统光模块,另外一端采用 LPO 光模块,从而使得客户的接受度更高的一种过渡方案。硅光:硅光通过成熟技术使得部分光模块的光引擎中的分立器件能够自动化集成在硅基芯片上,从而能够实现大幅的成本降低,同时自动化生产和制
69、程更新也能帮助硅光芯片进行迭代,我们认为我们认为,LPO、硅光是行业进度最快的两个降本创新方案。、硅光是行业进度最快的两个降本创新方案。薄膜铌酸锂:铌酸锂材料是可靠材料中电光系数最优的选择(考虑居里点和电光系数)。薄膜工艺拉进电极距离,降低电压提升带宽电压比。相比其他材料兼具大带宽/低损耗/低驱动电压等诸多光电最需要的优点。当下来看,薄膜铌酸锂主要用于高速率硅光调制器,我们认为,我们认为,使用薄膜铌酸锂调制器可以在使用薄膜铌酸锂调制器可以在 1.6T,3.2T 实现更好的性能。实现更好的性能。CPO:CPO 指将光模块直接封装在交换机主板上,从而能够共享交换机主板散热,同时缩短电信号在交换机主
70、板上传输的距离,但是目前来看,由于 AI 中心中的光模块属于易损品,共封装后维护难度较大,因此客户对 CPO 的认可程度还有待观察。机柜内连接:成本与稳定双重优势下,铜线是中短期优势选择,随着长期速率上升,光进铜退仍会发生。DAC:Direct Attach Cable,即为高速铜缆,可以适应较短距离内的超高速连接,当前市场主流 800G DAC 长度在 3 米以内,是一种拥有较高性价比的机柜内连接方案。AOC:Active Optical Cables,有源光缆,即为两端提前完成一体化分装的光模块与光纤构成的系统,其传输距离相较传统的多模或单模光模块较短,但是成本也较低,是超越铜缆传输极限后
71、的机柜内短距离连接选择。关于硅的演进,当下的主流思路主要包括了 Chiplet 与 Wafer-scaling 两种,这两种方法的核心思路都在于,通过更先进的半导体制造与设计工艺,从而扩大单块芯片能够承载的计算单元数,并尽可能的使得更多通信发展在单块硅片内,最大化计算效率,这部分内容我们在此前深度AI 算力的 ASIC 之路从以太坊矿机说起中有详细介绍,在本文中不再赘述。综合来看,传输介质的更迭与竞争跟随需求而动,而当下的需求则非常明晰,在综合来看,传输介质的更迭与竞争跟随需求而动,而当下的需求则非常明晰,在 MOE等新训练框架下,模型参数往万亿规模进发,如何高性价比的实现更可能强的单节点算等
72、新训练框架下,模型参数往万亿规模进发,如何高性价比的实现更可能强的单节点算力,或者说是扩大“力,或者说是扩大“HB-DOMIN”域的数量,从而使得模型的切”域的数量,从而使得模型的切分分不必不必过过于细碎,导于细碎,导致训练效率的降低,无论是光致训练效率的降低,无论是光、铜还是最底层的硅,都在此路线上不断努力。铜还是最底层的硅,都在此路线上不断努力。4.2 交换机的创新:光交换机初出茅庐交换机的创新:光交换机初出茅庐 交换机作为网络的核心节点,是承载通信协议的核心部件,在如今的 AI 集群内,交换机也承担起愈发复杂的任务,如上文提到的 Mellanox 交换机中,其就通过 SHARP 协议兼具
73、了部分对齐运算的功能,帮助 AI 运算进行加速。2024 年 05 月 16 日 P.25 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 但另一方面,尽管如今的电交换机愈发强大,更新迭代的速度依旧稳定,但纯光交换似乎正在成为一种全新的潮流。究其原因,我们认为,光交换机风潮的背后主要有两点原因,第一,AI 参与者的巨头化。第二,AI 集群的加速扩大。光交换系统相比于电交换系统,其去除了电芯片,使用光学镜片,对传入交换机内部的光信号进行折射与分配,从而让其不经过转换,从而传入对应的光模块之中。与电交换机相比,光交换机由于省去了光电转换的过程,因此功耗,时延等等会更低,同时由于其不受制与电交换机
74、芯片的容量上限限制,对于网络层数优化和单台交换机能够覆盖的台数也有增加,但相反,使用光交换机需要专门设计网络架构让其适配,同时光交换机的集群一旦建立,无法进行零散扩容,只能一次性扩容一整个网络集群,灵活性也较差,此外,光交换机在目前阶段,没有通用版本,需要自研或者定制化设计,门槛较高。图表 28:OCS 交换机原理 资料来源:谷歌,国盛证券研究所 但随着 AI 竞争正式进入巨头厮杀的后半程,巨头所拥有的 AI 集群规模正在快速扩大,巨头拥有成熟的投资规划、网络架构的自研能力、以及充足的资金,因此在节点规模不断扩大的今天,如谷歌等巨头客户正在加速 OCS 体系的研发与部署。2024 年 05 月
75、 16 日 P.26 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 29:谷歌 OCS 交换机 资料来源:谷歌,国盛证券研究所 而回归到传统的电交换部分,如今的电交换机的创新,除了上文的协议部分,更多的集中在了芯片部分,包括制程的迭代,功能的创新等等,同时,如博通等交换机厂商,凭借自有 IP 在不同下游客户芯片处的运用,使得自身的与客户的绑定变得更强,结合通信协议上的战队,在 AI 时代,交换机行业已经正式变成了芯片联盟之间的全方位比拼。4.3 网络架构的创新网络架构的创新:叶脊叶脊之后,走向何方?之后,走向何方?网络架构则是协议与硬件外的通信系统的重要构成部分,架构决定了服务器中的
76、数据以何种路径进行传输,同时优秀的网络架构能够使得数据流量全域可达的同时,缩减时延,保证稳定性。同时,网络架构还需要满足易于维护和扩容的需求,因此,架构是通信系统从纸面设计走向实物工程中的重要一环。现代社会的网络架构,从电话时代的矩阵图结构,再到 ClOS 网络模型为现代网络奠定基础架构,CLOS 的架构核心是,用多个小规模、低成本的单元,构建复杂、大规模的网络。在 CLOS 模型的基础上,逐渐发展出了各种网络拓扑结构,例如星型、链型、环型、树型等架构,随后,树型网络逐渐成为主流架构。2024 年 05 月 16 日 P.27 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 30:纵横
77、交换机制 图表 31:CLOS 网络架构 资料来源:维基百科,国盛证券研究所 资料来源:斯坦福,国盛证券研究所 树型架构主要经过了三代演变,第一代即为最为传统的树型架构,这种树型架构的特点在于,每经过一层,带宽严格 2:1 收敛,即两个 100M 的下游设备接入交换机后,固定输出一路 100M 的数据流,面对云计算到来之前较小的数据流,这种架构尚能应付,但随着互联网以及云计算时代的到来,逐级收敛的带宽无法满足流量传输需求,因此一种名为“胖树”的改进型架构被逐渐运用于数据中心。胖树架构采用三层交换机,其核心理念是,使用大量的低性能交换机,构建出大规模的无阻塞网络。对于任意的通信模式,总有路径让他
78、们的通信带宽达到网卡带宽,但是在上层运用更加高级的交换机,让顶层交换尽可能保持较低的收敛比。图表 32:基础树形网络 图表 33:胖树三层架构 资料来源:Pynetlabs,国盛证券研究所 资料来源:康奈尔,国盛证券研究所 “胖树”架构为现代数据中心的连接奠定了基础,但其本身也存在着诸如带宽的浪费、难以扩容、难以支持大规模云计算等等问题,面对日益庞大的网络规模,传统胖树的缺陷愈发明显。2024 年 05 月 16 日 P.28 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 34:胖树架构浪费计算资源 图表 35:思科大二层网络 资料来源:The Journal of Informat
79、ion Technology Systems,国盛证券研究所 资料来源:思科,国盛证券研究所 于是在胖树的基础上,进化出了当下先进数据中心与 AI 集群使用的叶脊(Spine-Leaf)架构,相比于胖树,叶脊更加强调扁平化,与繁复的三层胖树相比,每个低层级的交换机(leaf)都会连接到每个高层级的交换机(spine),形成一个 full-mesh 拓扑。leaf 层由接入交换机组成,用于连接服务器等设备。spine 层是网络的骨干(backbone),负责将所有的 leaf 连接起来。这样的构型下,任意两个物理服务器之间的数据转发,其经过的节点数都是固定的一台叶与一台脊交换机,保证了东西向流量
80、的承载和时延,也通过了脊交换机的扩容,避免了大量使用异常昂贵的核心层交换机,同时也可以通过随时增加脊层交换机的数量,来对整个网络进行扩容。当下来看,叶脊凭借其诸多优点,已经成为了主流 AI 集群与头部数据中心的标准架构,但随着单个AI集群内部的节点数量急剧膨胀,同时AI训练过程中对于延时的极端追求,胖树架构的一些问题也开始凸显,我们,第一,当规模急剧膨胀时,交换机的容量上限第一,当规模急剧膨胀时,交换机的容量上限更新是否能够满足显卡集群更新是否能够满足显卡集群进化进化的速度。第二,叶脊在面对上百万计算节点的互联时,的速度。第二,叶脊在面对上百万计算节点的互联时,是否还具备性价比?是否还具备性价
81、比?叶脊架构的如上两个问题,也带领着网络架构层面的创新,叶脊架构的如上两个问题,也带领着网络架构层面的创新,我们认为我们认为,创新主要集中在创新主要集中在两个方向,第一,追寻超大节点数下的新型架构,第二通过诸如扩大两个方向,第一,追寻超大节点数下的新型架构,第二通过诸如扩大 HB-DOMIN 叠加叠加软件优化的方式,在充分理解模型的基础上,缩减节点之间的流量沟通。软件优化的方式,在充分理解模型的基础上,缩减节点之间的流量沟通。第一种解决方法的代表之一,便是蜻蜓(Dragonfly)架构,蜻蜓架构最早在 2008 年被提出,最早被运用于 HPC 中,但由于其每一次扩展都必须重新布线,同时布线较为
82、复杂,所以即使其使用的交换机相较于 CLOS 架构的较少,但最终没能成为主流。但是如今在海量节点和 AI 硬件资本支出昂贵的背景下,Dragonfly 架构逐渐开始重新受到业界前沿的关注。在当下,随着上文提到的 OCS 光交换系统的出现,复杂的布线有望通过 OCS进行简化,第二巨头对于 AI 集群的规划和资本支出节奏更为明确,因此 dragonfly 较为繁琐的扩容过程也不再成为掣肘。第三,dragonfly 在时延上相较于叶脊,在物理层面更具优势,当下如 Groq 等对于时延更为敏感的 AI 芯片已经开始采用该架构来构建集群。2024 年 05 月 16 日 P.29 请仔细阅读本报告末页声
83、明请仔细阅读本报告末页声明 图表 36:蜻蜓架构 图表 37:Groq 使用蜻蜓架构来构建集群 资料来源:华为,国盛证券研究所 资料来源:Groq,国盛证券研究所 第二种解决方法的代表之一,是 Meta 与 MIT 提出的 Rail-only 架构,Rail-Only 架构通过将 GPU 分组,组成一个高带宽互联域(HB 域),然后再将这些 HB 域内的特定的 GPU跨接到特定的 Rail 交换机,虽然增加了跨域通信的路由调度复杂度,但是通过合理的 HB域和 Rail 交换机设计,整体架构可以大量减少交换机的使用,最多可以降低 75%的网络通信耗费。这一架构也暗合上文提到的通过片间通信的创新,
84、通过扩大后的 HB-DOMIN域,给予训练切分和软件优化更多的实现空间,从而减少 HB-DOMIN 之间的交换机需求量,为超大集群的网络降本提供空间。图表 38:Rail-only 架构 资料来源:SDNLAB,国盛证券研究所 4.4 数据中心集群的创新:未来算力网络的终极形式?数据中心集群的创新:未来算力网络的终极形式?随着 AI 集群规模继续膨胀,单个数据中心的容量终将达到上限,这里的上限指的并非是资本开支亦或是通信网络能够承载的节点上限,而是数据中心所在地的电力资源或是有性价比的电力资源承载能力将达到上限。2024 年初,微软与 OPENAI 开始探讨在 2028 年构建一台超级超算“星
85、际之门”,根据 2024 年 05 月 16 日 P.30 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 The information 报道,星际之门最终整体计划可能涉及超过 1000 美元的投资,并需要使用多达 5 千兆瓦的电力,这也将成为项目在芯片,资金之外,最急需解决的问题之一。因此,在当下的行业前沿,如何通过智算中心之间的长距离互联,使得算力能够均匀分布在有性价比电力的地区,避免因单一地区价格过高从而产生的算力成本上升或算力容量上限。而数据中心之间的互联,相比集群内部互联体系,所使用的协议,硬件等等都有很大的不同。当下数据中心通常通过对上层交换机或核心交换机与外部网络相连接,而数
86、据中心互联网 DCI 则往往由运营商搭建,其采用长距离的相干光模块,虽然传输速率较长,但其速率和稳定性相较数据中心用的光模块有较大差异,同时其价格居高不下,因此降本,重新搭建架构都是在正式建设前需要考虑的问题。但如若我们将视线拉到更加宏观的角度来看,单个的算力中心本质上与前文的一个HB-DOMIN 域类似且功能更加强大,因此我们认为该类连接未来的发展路径,一方面是加速对于相干光模块产业的投资,使其能够承担起 AI 中心互联的承载和容量要求,一方面是加强数据中心内部的互联密度,将数据中心打造的更加类似于单个 HB 域,最后则是对分布式软件和训练软件的创新,使其能够进行跨 IDC 的数据、模型切分
87、以及并行。2024 年 05 月 16 日 P.31 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 5.投投资建议:创新永不停,核心环节与新变量两手抓资建议:创新永不停,核心环节与新变量两手抓 和芯片一样,在 AI 需求的推动之下,通信系统也在不断的加速创新,但与芯片行业往往依靠一到两位“天才”来创新架构与思路不同,通信软硬件是一项需要众多工程师在不同环节共同创新和努力的的系统工程,从最基础的交换芯片、光芯片,再到上层系统集成的交换机,光模块,再到通信架构、通信协议的设计,再到组成系统后的运维,每一个环节都对应着不同的科技巨头与无数的工程师们。我们认为,比起更加偏向于创业投资的芯片行业,通
88、信行业的投资更加有迹可循,行业的更迭往往由巨头们发起并实施,同时由于通信系统工程的稳定性要求,大型 AI 集群的供应商选择往往非常严苛,首先在硬件环节,无论网络架构与协议如何变化,交换机与光模块始终会是构成系统的最基础积木,只要 Scaling-Law 一直有效,人类追求参数的过程依然存在,对于积木的需求就会一直持续。诚然,如 LPO、蜻蜓架构、rail-only 架构的确会削减相关器件的比例或是价值,但是降本一直是 AI 的头号要务,降本之后带来的需求扩张,将给行业带来更加广阔的空间。这是 AI 通信投资最先需要把握的核心理念与环节。同时,对于创新环节,我们也要积极跟踪新技术动态,找出由新技
89、术更迭所带来的核心环节的元器件变化,往未来来看,首先是由高性价比 HB-DOMIN 域构建带来的铜缆需求会率先放量,其次是 CPO,远距离数据中心带来的如保偏光纤、掺饵光纤等特种光纤需求,最后是全光交换机、超以太网联盟等等带来的国产交换机加速进化的产业机会。2024 年 05 月 16 日 P.32 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 39:相关标的列表 证券代码证券代码 证券简称证券简称 市值(亿元)市值(亿元)(5/14 收盘价)收盘价)简介简介 通信系统核心环节 300308.SZ 中际旭创 1377.2 全球光模块龙头 300502.SZ 新易盛 592.6 全球光
90、模块龙头 300394.SZ 天孚通信 533.1 全球光器件龙头 300570.SZ 太辰光 85.0 陶瓷插芯、AOC 龙头 601138.SH 工业富联 4767.4 全球电子加工龙头 002463.SZ 沪电股份 609.6 全球 PCB 龙头 002837.SZ 英维克 183.0 中国散热整体解决方案龙头 688498.SH 源杰科技 120.3 中国光芯片领先企业 通信系统创新标的 002281.SZ 光迅科技 267.2 中国领先的光学产品制造商 000988.SZ 华工科技 314.6 中国领先的激光、光学产品制造商 688205.SH 德科立 39.4 长距离光模块,光放大
91、器龙头 688195.SH 腾景科技 35.0 高端光学器件供应商 301205.SZ 联特科技 97.7 优质光模块企业 300620.SZ 光库科技 104.3 薄膜铌酸锂技术领先 002902.SZ 铭普光磁 52.2 优质光模块企业 301165.SZ 锐捷网络 186.5 中国交换机龙头 000063.SZ 中兴通讯 1274.7 中国通信设备、交换机龙头 000938.SZ 紫光股份 573.7 中国交换机龙头 688702.SH 盛科通信-U 136.1 国产交换芯片龙头 603118.SH 共进股份 58.6 交换机代工龙头 301191.SZ 菲菱科思 49.7 交换机代工龙
92、头 603496.SH 恒为科技 84.5 网络监测龙头 688041.SH 海光信息 1674.0 国产算力芯片龙头 688256.SH 寒武纪-U 692.6 国产算力芯片龙头 002916.SZ 深南电路 454.7 中国 PCB 龙头 600522.SH 中天科技 512.3 光纤光缆龙头 600487.SH 亨通光电 381.1 光纤光缆龙头 601869.SH 长飞光纤 142.3 光纤光缆龙头 688668.SH 鼎通科技 48.2 铜缆连接器供应商 002130.SZ 沃尔核材 171.0 高端铜线供应商 资料来源:Wind,国盛证券研究所 2024 年 05 月 16 日 P
93、.33 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 6.风风险提示险提示 1.AI 需求不及预期。当前 AI 依旧停留在模型研发阶段,具体 C 端产品开发仍在进行中,如果后续 C 端需求不及预期,全球 AI 需求有下滑风险。2.Scaling law 失效。当前全球算力放量的主要依据在于,通过算力不断堆叠参数规模从而使得模型更优秀的定律依然发挥作用,假如参数堆叠到达上限,将对算力需求产生影响。3.行业竞争加剧。全球算力行业以及网络行业在 AI 下迅速发展,如果吸引过多新进入者参与竞争,将摊薄现有龙头公司利润。2024 年 05 月 16 日 P.34 请仔细阅读本报告末页声明请仔细阅读本
94、报告末页声明 免免责声明责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情
95、形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。
96、本报告版权归“国盛证券有限责任公司”所有。未经事先本公司书面授权,任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用、刊发本报告,需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法,结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明 投资建议的评级标准投资建议的评
97、级标准 评级评级 说明说明 评级标准为报告发布日后的 6 个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中 A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普 500 指数或纳斯达克综合指数为基准。股票评级 买入 相对同期基准指数涨幅在 15%以上 增持 相对同期基准指数涨幅在 5%15%之间 持有 相对同期基准指数涨幅在-5%+5%之间 减持 相对同期基准指数跌幅在 5%以上 行业评级 增持 相对同期基准指数涨幅在 10%以上 中性 相对同期基准指数涨幅在-10%+10%之间 减持 相对同期基准指数跌幅在 10%以上 国盛证券研究所国盛证券研究所 北京北京 上海上海 地址:北京市东城区永定门西滨河路 8 号院 7 楼中海地产广场东塔 7 层 邮编:100077 邮箱: 地址:上海市浦东新区南洋泾路 555 号陆家嘴金融街区 22栋 邮编:200120 电话: 邮箱: 南昌南昌 深圳深圳 地址:南昌市红谷滩新区凤凰中大道 1115 号北京银行大厦 邮编:330038 传真: 邮箱: 地址:深圳市福田区福华三路 100 号鼎和大厦 24 楼 邮编:518033 邮箱: