上海品茶

通信行业深度:AI算力的ASIC之路从以太坊矿机说起-240320(26页).pdf

编号:157401  PDF   DOCX 26页 1.96MB 下载积分:VIP专享
下载报告请您先登录!

通信行业深度:AI算力的ASIC之路从以太坊矿机说起-240320(26页).pdf

1、 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业深度 2024 年 03 月 20 日 通信通信 AI 算力的算力的 ASIC 之路之路从以太坊矿机说起从以太坊矿机说起 近期关于近期关于 AI 算力的算力的 GPU 与与 ASIC 路线讨论渐多,从推理角度看,路线讨论渐多,从推理角度看,ASIC 在成本端在成本端优势明显,而优势明显,而 GPU 在通用性及生态上更胜一筹。若干年前,以太坊矿机也经历了从在通用性及生态上更胜一筹。若干年前,以太坊矿机也经历了从GPU 到到 ASIC 的迭代,从算力发展角度给我们诸多启发。的迭代,从算力发展角度给我们诸多启发。天下芯片,通久必专

2、,专久必通。天下芯片,通久必专,专久必通。回望芯片发展历史,从 CPU,到图像与深度学习时代大放异彩的 GPU,再到矿机 ASIC 的异军突起。芯片发展一直遵循着上述规律。某类需求的爆发,推动通用芯片中的某一功能独立并形成 ASIC,来更好的满足需求。通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,客户的需求决定一切。之道,归根结底,客户的需求决定一切。大模型算力需求急剧膨胀,推理大模型算力需求急剧膨胀,推理 ASIC 路径逐渐明晰。路径逐渐明晰。在 GPT 的推动下,世界迅速进入了

3、大模型的新纪元。在 Transformer 算法下,算力大小成为了模型迭代的关键因素,全球对于算力卡的需求迅速井喷,能够先一步满足算力需求的通用 GPU 变得一卡难求。经过一年发展,大家对于 Transformer 认可度逐渐提升,同时算力的需求持续加速,促使相关 ASIC 浮出水面。以谷歌以谷歌 TPU,Groq 为代表的优秀为代表的优秀 ASIC 作作品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路,在舍弃品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路,在舍弃通用通用 GPU 冗余小核提高性能的同时,也较好针对冗余小核提高性能的同时,也较好针对 Trans

4、former 做了优化。做了优化。以矿机为鉴,需求和算法确定性是以矿机为鉴,需求和算法确定性是 ASIC 起量关键。起量关键。复盘矿机 AISC 发展之路,受益币价上涨,算力需求井喷,且算法固定的比特币在问世的 3 年内快速完成了矿机的全面 ASIC 化。而币价前期走势较弱,算力需求不稳定,且一直存在转 POS(停止挖矿)预期的 ETH 则在结束挖矿时仍未完成 ASIC 化。由此可见,稳定且大量的客户由此可见,稳定且大量的客户需求需求、算法的确定性,是算法的确定性,是 ASIC 放量的关键。放量的关键。软件有望成为算力构筑第三极。软件有望成为算力构筑第三极。ASIC 时代,编译器成为了产品设计

5、的壁垒,如何有效的连接“流水线”中的计算单元与存储,如何在无小核辅助的情况下整理进入计算核的数据,编译器的难度陡然提升。同时,如何在 CUDA 生态对第三方“兼容”之路封锁加剧的情况下,做出好用的软件与生态,让用户较为舒适的进行切换,也将成为新进入玩家需要面临的问题。兼听则明,兼听则明,ASIC 是通往是通往 AGI 中不可或缺的一环。中不可或缺的一环。“硬件的使用者和开发者往往对“硬件的使用者和开发者往往对立”立”,这一现象似乎正在 AI 芯片界再次出现,当下,AI 工程师们普遍希望停留在舒适的 CUDA 生态,忽视通用芯片的冗余元件和低效。而芯片架构师们则在努力地创造 ASIC 架构,降低

6、最底层的计算成本。而最终决定双方胜负的,唯有需求,需求足够大,算力的建设方终将为 ASIC 的性价比而买单,需求不明朗,客户则会先采购通用的产品然后继续观望。全局来看,全局来看,AI 的叙事足够宏大,与比特币的一轮完全替代的叙事足够宏大,与比特币的一轮完全替代不同,不同,AISC 与通用芯片将螺旋发展,通用芯片探索新算法与模型、与通用芯片将螺旋发展,通用芯片探索新算法与模型、ASIC 将通过降将通过降本使得需求得以释放,繁荣的生态吸引更多用户与参与者,最终培育出新的本使得需求得以释放,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强更强的算法,循环往复,螺旋上升,最终达成的算法,循环往复,

7、螺旋上升,最终达成 AGI 的宏伟目标。的宏伟目标。投资建议:投资建议:关注五大环节,一线晶圆厂,一线晶圆厂,ASIC 设计龙头,散热厂商,设计龙头,散热厂商,ASIC 芯片公芯片公司、服务器。司、服务器。晶圆厂:台积电(晶圆厂:台积电(TSMC)、英特尔()、英特尔(INTC)、中芯国际)、中芯国际;AISC 设计龙头:美满电子(MRVL)、博通(AVGO);散热厂商:英维克、中航光电、高澜股份;ASIC 芯片公司:寒武纪、芯原股份、嘉楠科技(CAN);服务器龙头:工业富联、高新发展、中科曙光、紫光股份。风险提示风险提示:AI 发展不及预期发展不及预期,AI 算法切换风险,算法切换风险,AS

8、IC 用户认可度低的风险。用户认可度低的风险。增持增持(维持维持)行业行业走势走势 作者作者 分析师分析师 宋嘉吉宋嘉吉 执业证书编号:S0680519010002 邮箱: 分析师分析师 黄瀚黄瀚 执业证书编号:S0680519050002 邮箱: 分析师分析师 邵帅邵帅 执业证书编号:S0680522120003 邮箱: 相关研究相关研究 1、通信:光学创新的黄金十年2024-03-17 2、通信:GTC 将至,算力再预热2024-03-10 3、通信:Claude 3 问世大模型“多国争霸”已开启2024-03-05 -32%-16%0%16%32%-072023-1

9、1通信沪深300 2024 年 03 月 20 日 P.2 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 1、投资要件.3 2、ASIC 芯片概述.4 2.1 什么是 ASIC 芯片.4 2.2 芯片大势,通久必专,专久必通.5 3、大模型 ASIC 的发展路线.6 3.1 初步专用化:GPU 亦是 ASIC.6 3.2 进一步专用化:以谷歌 TPU 为例.8 3.3 极致专用化:以 Groq 为例.12 3.4 主要技术趋势总结:Wafer-Scaling+近存计算构建数据流水线.14 4、以矿机为鉴,英伟达与 ASIC 之争将走向何方?.15 4.1 比特币矿机发展史

10、,用何种速度取代 CPU.15 4.2 以太坊矿机发展史,为何一波三折?.16 4.3 以史为鉴,“算法确定性”和“用户需求”决定 ASIC 渗透速度.17 5、软件将成为算力第三极.18 5.1 推理时代,更加考验编译器的“流水线”构筑能力.18 5.2 两年硬件,四年软件,编译器和生态将成为进入者最大门槛.19 6、我们的理解:需求决定一切,AISC 与 GPU 螺旋上升.21 7、投资建议.23 8、风险提示.25 图表目录图表目录 图表 1:CPU、GPU、FPGA、ASIC 对比.4 图表 2:GPU 与 CPU 对比.6 图表 3:英伟达 GPU 架构迭代历程.7 图表 4:NVI

11、DIA H100 Tensor Core FP8.7 图表 5:英伟达 A100 架构图.8 图表 6:矩阵乘法公式.9 图表 7:TPU V1.10 图表 8:TPU V1-V2.11 图表 9:TPU V4.11 图表 10:Groq 推理效果对比图.12 图表 11:Groq 芯片工作流.13 图表 12:TSP Superlane 流水线架构.13 图表 13:嘉楠阿瓦隆 1366I.15 图表 14:NVIDIA CmpHx 专业挖矿专用 GPU.16 图表 15:CUDA 扩大支持多种算法.18 图表 16:TSP Superlane 位宽.19 图表 17:Groq 的研发历程.

12、19 图表 18:功能单元支持指令.20 图表 19:ASIC 与通用芯片带动 AI 螺旋上升.22 图表 20:相关标的.24 GUgVzWcZiYcXJViWdYnUaQaO7NmOqQtRtPeRoOoNeRsQnQ9PoPmNwMmPmNMYpNtN 2024 年 03 月 20 日 P.3 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1、投资要件投资要件 天下芯片大势,通久必专,专久必通。天下芯片大势,通久必专,专久必通。回望近年来芯片发展史,从最早的 CPU 独霸天下,并行计算时代 GPU 的崛起,挖矿时代专用 ASIC 的大放异彩,我们不难发现,新的一大类芯片的出现,往往是

13、因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求,专用芯片满足需求,这就是半通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切导体行业面对人类需求时的解决之道,归根结底,需求决定一切。芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。我们复盘矿机发展历史,算法较为简单且完全固定的比特币,在全网算力(矿工需求)的急剧内卷下,产业内较为快速地完成了 ASIC 对通用芯片的全替代,而一直存在有 POW转向 POS 预期的以太坊,由于客户考虑转向之后 ASIC 完全失效的风险

14、,因此残值较高的通用性芯片(显卡)一直保持了较高的市占率。因此,客户需求、算法稳定是 ASIC放量的两大条件。大模型时代,路线转变之快,需求放量之快,前所未见。正如同任何新爆发的需求一样,通用型芯片成为了开辟道路的急先锋,英伟达通过 A100,H100 两款产品,满足了 AI起量的第一波需求。如今,经过两年发展,全球对于 Transformer 及其变种认可度越来越高,同时推理,下游应用等需求释放迫在眉睫。我们认为,ASIC 将会成为 Transformer模式下训练或者下游应用推理算力的有效补充,正如同上几轮芯片周期所经历的一样,通用创造需求,专用满足需求。通用创造需求,专用满足需求。主流主

15、流 ASIC 大模型路线正在逐渐清晰,编译器愈发重要。大模型路线正在逐渐清晰,编译器愈发重要。回顾英伟达的芯片架构发展史,恰是一步步从专用走向通用的最好诠释,从最早的单小核,再到引入 Tensor Core 处理向量与矩阵,结合 CUDA 生态对于人类海量算法的积累,已然成为了 AI 的 CPU 芯片,从量子力学、光线追踪到大模型训练无所不能。大模型时代,随着 Transformer 及其变种的生态确立,亦或者说,以矩阵乘法为核心的运算方式的确立,主流 ASIC 得以将通用芯片中的不必要部分去除,保留单纯用于处理矩阵乘法的计算核,同时再利用Wafer-Scaling、近存计算等形式,在一张芯片

16、内,通过更多的乘法单元和存储之间的“流水线式”配合,从而实现了对于该类算法的高效计算。但与此同时,由于需要多个矩阵乘法核、存储之间的相互配合,同时少了对数据预处理的“小核”的帮助,该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的 LPU 芯片“Groq”的发展历程就可以看出,团队用于软件设计的环节,远长于硬件架构的设计。因此,进入 ASIC 和推理时代,编译器对于算核的控制能力,编译器的设计能力,将成为行业进入者最大的壁垒。行业催化:1.Transformer 及其变种算法加速成为主流,相关 ASIC 需求持续旺盛。2.AI 推理需求爆发前夜,ASIC 带来的降本或将成为客户追求的

17、主要方向。投资建议:晶圆厂:台积电(TSMC)、英特尔(INTC)、中芯国际;AISC 设计龙头:美满电子(MRVL)、博通(AVGO);散热厂商:英维克、中航光电、高澜股份;ASIC 芯片公司:寒武纪、芯原股份、嘉楠科技(CAN);服务器龙头:工业富联、高新发展、中科曙光、紫光股份。2024 年 03 月 20 日 P.4 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2、ASIC 芯片概述芯片概述 2.1 什么是什么是 ASIC 芯片芯片 ASIC,全称为 Application Specific Integrated Circuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门

18、目的或者算法而设计的芯片。ASIC 芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌 TPU,昇腾 910B 一类的顶尖 AI 芯片。ASIC 并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为 ASIC。当下,ASIC 芯片的主要根据运算类型分为了 TPU、DPU 和 NPU 芯片,分别对应了不同的基础计算功能。TPU 即为谷歌发明的 AI 处理器,主要支持张量计算,DPU 则是用于数据中心内部的加速计算,NPU 则是对应了上一轮 AI 热潮中的 CNN 神经卷积算法,后来被大量 SoC

19、进了边缘设备的处理芯片中。从芯片大类来看,目前人类的芯片可以被分为 CPU、GPU、FPGA、ASIC 四种大类,其中 CPU 是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务,GPU 则是人类历史上的第一大类“ASIC”芯片,通过大量部署并行计算核,实现了对于异构计算需求的优化。FPGA 芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。ASIC 则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。图表 1:CPU、GPU、FPGA、ASIC 对比 CPU GPU FPGA ASIC 性能和效率性能和效率 可在各种任务中

20、提供平衡的性能,串行处理架构限制了它们在可并行化的任务中的效率 能够高效地执行可以分解为更小的并发操作的任务 针对特定任务进行优化,与 CPU 和 GPU 相比,它可能为某些应用提供卓越的效率 在特定应用中表现出色,性能明显优于其他芯片 灵活性和定制性灵活性和定制性 灵活性较高,能够运行各种应用程序 灵活性较高,能够运行各种应用程序 可以在制造后重新编程,以执行不同的任务或适应新的要求 需要定制设计,缺乏灵活性 成本成本 成本较低 成本较低 初始成本高于 CPU 和GPU 初始开发和生产成本高,适用于大批量或高利润应用 应用场景应用场景 从运行操作系统到复杂数据处理的各种计算任务 图形渲染、科

21、学模拟和某些形式的数据分析 信号处理和新技术原型设计 高端消费电子产品和比特币挖矿 资料来源:D-central 官网,国盛证券研究所 2024 年 03 月 20 日 P.5 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2.2 芯片大势,通久必专,专久必通芯片大势,通久必专,专久必通 从最早的 CPU独霸天下,到并行计算时代GPU 的崛起,挖矿时代专用ASIC 的大放异彩,我们不难发现,新芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求通用芯片发现需求、探索需求,专用芯片满足需求,这就是半导体行业面对人类需求时探

22、索需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。一个芯片公司能否成功的重要因素。大模型时代,风来的如此之快,2023 年春节之前,业界还在努力优化复杂的 CNN 算法,追求模型的小而美,之后随着 GPT 和 OPENAI 的横空出世,将业界热点算法迅速从 CNN转变为 Transformer,底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性,对于算力的需求极速释放,2023 年来看,唯一能够满足

23、用户这一新需求的依然只有较为通用的英伟达芯片,因此,也在这一年多内造就了英伟达 2w 亿美金的传奇市值。但天下芯片,通久必专,专久必通,当矩阵乘法这一固定运算占据了大部分的大模型运算需求时,通用芯片中的小核心,甚至是向量计算核心,逐渐成为了功耗、成本和延迟的负担,客户终究不会因为单一的矩阵乘法需求,而为通用性去额外买单。因此,从海外大厂到无数业界大佬的创业公司,纷纷加入了“矩阵乘法”ASIC,又或者是大模型 ASIC的创业浪潮中,在下文中,我们将列举两个较为有代表性的 ASIC 芯片,去看看业界的设计思路与演化方向。2024 年 03 月 20 日 P.6 请仔细阅读本报告末页声明请仔细阅读本

24、报告末页声明 3、大模型、大模型 ASIC 的发展路线的发展路线 3.1 初步专用化:初步专用化:GPU 亦是亦是 ASIC 从历史来看,我们通过剖析 GPU 的结构和其与 CPU 的区别,不难发现,GPU 也是某种意义上的 ASIC,过去的数据处理任务,通常是单条复杂指令或逻辑运算,但随着图像处理需求的出现,计算过程中往往开始包含大量并行的简单计算,而 CPU 由于核心数量有限,虽然单核能够处理较为复杂的指令,但面对大量简单计算时,运算时间长的缺点逐渐暴露。所以正如前文所说,CPU 作为人类最通用的芯片,带领人类进入并探索了图像时代,紧接着,面对海量释放的 AI 需求,GPU 作为“图像 A

25、SIC”横空出世,满足了海量的图像处理需求。图表 2:GPU 与 CPU 对比 资料来源:英伟达官网,国盛证券研究所 进一步探究 GPU 的发展历程,我们会发现芯片趋势的第二部分,如果说 CPU 到 GPU 是我们提到的“通久必专”,那么 GPU 本身的发展历史则是“专久必通”的最好诠释。在并行计算早期,算法大多数是由简单的加减乘除构成,因此通过在 GPU 芯片内部署大量的小核来并行计算这些简单算法。但后来,随着并行计算,或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法,GPU 本身也从专用芯片,变成了面向并行计算模式或者海量图像需求的

26、“通用芯片”。其中最有意义的事件,也奠定了英伟达如今领先地位的是 Tensor Core 的发明与问世。英伟达在 2017 年 5 月发布的 Volta 架构中引入了第一代 Tensor Core,为混合精度矩阵乘法提供了突破性的性能,与上一代 Pascal 相比,用于训练的峰值性能提升了高达 12倍,用于推理的峰值TFLOPS性能提升了高达6倍。这项关键功能使Volta提供了比Pascal高 3 倍的训练和推理性能。2024 年 03 月 20 日 P.7 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 3:英伟达 GPU 架构迭代历程 资料来源:腾讯科技,国盛证券研究所 Tenso

27、r Core 又名张量计算核心,简单理解,便是专门用来计算矩阵乘法的一块大核,其具体结构为一个由乘法器和加法器共同构成的立方体。立方体的主要部分为乘法器,最底部一层则为加法器,根据矩阵乘法公式,加法器将上方乘法器的运算结果进行累加,从而快速得出矩阵乘法的结果,这一特殊结构,使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果,优化了许多。图表 4:NVIDIA H100 Tensor Core FP8 资料来源:英伟达官网,国盛证券研究所 Tensor Core 的问世,也标志着 GPU 的重心正式从图像训练转向深度学习,通过良好契合矩阵乘法的计算核形式,实现对于卷积或 Transformer

28、 的性能提升。此外,凭借 CUDA生态和无数开发者、使用者的努力,人类历史上的科学计算领域,除了大模型之外,如量子物理、药理学计算、流体物理等等,均得到了英伟达 GPU 的算力支持,至此,英伟达凭借大小核心的架构,与 CUDA 生态,成为了图像、科学计算领域的“通用芯片”之王。2024 年 03 月 20 日 P.8 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3.2 进一步专用化:以谷歌进一步专用化:以谷歌 TPU 为例为例 前文提到,随着大模型训练需求的跃升,Transformer 算法快速风靡,而海量的需求叠加相对固定的算法,则是 ASIC 发展的最好土壤。而谷歌 TPU,则是率先

29、崭露头角的第一块实际用于大模型训练的芯片结构。谷歌 TPU,原理脱胎于脉动整列取数法,脉动整列(Systolic Array)的概念最早在 1982年被提出,是一种快速将数据读取至矩阵运算单元的方法,由于当时矩阵运算需求极小,并且仍是 CPU 为主,并未受到重视。从 2016 年开始,谷歌开始在其训练芯片 TPU 上重新引入脉冲阵列概念,经过三年开发,于 2019 年形成成熟产品,首次通过脉冲阵列读取形式,开辟了除英伟达 CU+TU 体系外的全新矩阵运算架构。但同时,脉冲阵列由于其特殊的数据填充方式,导致了运算启动速度较慢、处理单元利用率不足等问题。前文提到,英伟达的 TensorCore 架

30、构,通过乘法器与加法器的 3D 堆叠,实现了超高的矩阵运算效率,但是在任何 TensorCore 结构的单元计算的过程中,决定运算效率,或者说是峰值算力的,一方面是 TensorCore 的大小,即能运行“NxN”的矩阵,N 越大,TensorCore 的运算能力越强。另一方面,决定 TensorCore 运算效率的则是需要运算的数字被装填进入 TensorCore 的时间,“取数时间”与“矩阵大小”共同构成了 GPU 运算能力的基石。通过英伟达的芯片结构图,我们不难发现,以 A100 为例,每一个 TensorCore(TU),会搭配 16 个 INT32 核心,16 个 FP32 核心,8

31、 个 FP64 核心,这些核心又称为 CU(计算单元)。在取数的过程中,每一个 Cycle 内,以 INT32 精度为例,每一个 INT32 ALU可以给相对应的 TU 灌入 1 个数,则 16 个 ALU,一个 cycle 可以给 TU 内灌入 16 个数。图表 5:英伟达 A100 架构图 资料来源:英伟达官网,国盛证券研究所 在这里我们先重温一下矩阵乘法公式,从而得出一个矩阵乘法中,需要给 TU 中灌入多少数字,以一个 16x16 的举证乘法为例,需要往 TU 内灌入 2*163 次数,则在则在 16 个个INT32 的的 ALU 努力下,需要努力下,需要 512 个个 cycle 将将

32、 TU 填满然后再进行运算。填满然后再进行运算。2024 年 03 月 20 日 P.9 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 6:矩阵乘法公式 资料来源:启航教育,国盛证券研究所整理 而脉冲阵列,则完全抛弃了由 CU 给 TU 供应数字的模式,而是直接将两个矩阵用类似于“推”的方法,装载进入 TU 中进行运算。我们用一个 16x16 的矩阵乘法为例,来探寻一下,填满整个 TU 需要多少 cycle。假设有一个 A 矩阵,一个 B 矩阵,则 TU 核心就是要计算的乘法矩阵。我们先根据矩阵的乘法公式,把 B 矩阵的数字调换一下顺序,使得其在推动的过程,符合矩阵乘法公式。第一个

33、cycle,我们将 A 的第一行与 B 的第一列往 TU 内“推”一下,这时候可以看到TU 的(1,1)格内同时被填入了 a11 与 b11 两个数字,这时 TU 内的乘法器会把两个数字相乘并将结果放入加法器内。第二个 cycle,我们将 A 的第一行与 B 的第一列再往 TU 内推一下,同时也会把 A 的第二行与 B 的第二列往 TU 内推动一格,此时 TU 内的(1,1)格内的数字换成了 A12 与 B21两个数字,而原有的 TU 内(1,1)格的数字则被推动,分别进入 T(2,1)与 T(1,2),同时,这三个 TU 内的格子分别进行一次乘法计算,然后把结果放入加法器中。如此循环往复至第

34、 16 个cycle,此时 A 的第一行与 B的第一列已经完全被推入了 TU 内,则 TU 的(1,1)格内已经完成了 16 次乘法运算,并且数据已经完全被存储进加法器中,这个循环内,加法器运算一次,得出 AxB 的结果矩阵的(1,1)格内的值。第 17 个循环,此时被推入 TU 内(1,1)格的数据,已经来自于新的两个矩阵,而 TU 的(1,2)和 TU 的(2,1)也将在这个 cycle 内完成相应的 16 次乘法与求和,在下一个 cycle内,这两个格子也将被用于新的两个矩阵的运算。因此,在连续推入数据的情况下,通过脉冲阵列,将一个因此,在连续推入数据的情况下,通过脉冲阵列,将一个 16

35、x16 的矩阵数据完全导入的矩阵数据完全导入TU,仅仅需要,仅仅需要 16 个个 cycle,其从架构层面实现了对英伟达通过,其从架构层面实现了对英伟达通过 FPU 与与 ALU 填单个数填单个数字进字进 TU 的超越,在同等制程下和的超越,在同等制程下和 TU 规模下,其潜力上限更高。规模下,其潜力上限更高。但由于脉动阵列的一些特性,其在拥有优异的“取数能力”时,也不可避免的会出现一些劣势。第一,GPU 遇到的数据往往不是连续的,在数据中断然后重新填入的过程中,脉冲阵列架构的 TU 内,部分运算单元会处于空转的状态,从而降低了芯片性能的整体利用率。第二,脉动阵列在前几个 cycle 内,推入

36、的数字较少,因此在数据中断后再次启动时,效率较慢,我们可以形象的理解为“启动慢,极速高”。第三,由于脉动阵列需要 CPU 直接把矩阵输入至 TU 的 DFF 内,因此需要把程序语言转换成矩阵,对于编译器的开发要求极高,这也是限制了脉冲矩阵发展的最主要因素。2024 年 03 月 20 日 P.10 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 但随着谷歌对于 TPU 的不断更新,最新版本已经迭代到了 TPU V5e,同时持续的软件投入叠加业内稀疏数据预处理能力的加强,TPU 路线已然成为了全球 Transformer 或是矩阵乘法的主流设计思路,也是英伟达最大的挑战者之一。在了解完了原理之

37、后,我们再来看一下 TPU 的架构图,从 V1 到 V4 的更新,我们也可以看出 ASIC 芯片的进化思路,英伟达的迭代思路类似,但后续的迭代空间有望更大。从 TPUV1 到 TPU V2 的变化最为显著,第一,往 MXU 内填充数据的存储由 DDR 变为HBM,第二则是增加了多卡互联的模块,这一层级的架构,对应上述的原理,主要为了优化往 MXU 内灌数的速度和流程。图表 7:TPU V1 资料来源:Jouppi,Norman P.,et al.In-datacenter performance analysis of a tensor processing unit.,国盛证券研究所 第三,

38、TPUV2 将 V1 的超大矩阵乘法器一分为二,降低了部分算力的空载时间,同时也降低了编译器的难度(这部分可以看出,ASIC 时代,软件会成为瓶颈)。2024 年 03 月 20 日 P.11 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 8:TPU V1-V2 资料来源:Thomas Norrie,Nishant Patil,Doe Hyun Yoon,et al.The design process for Googles training chips:TPUv2 and TPUv3.,国盛证券研究所 TPU V2 基本定型了后续的架构,V3、V4 的更新则类似于 Wafer-S

39、caling 和制程提升的结果,更高的制程、更大的芯片面积,换来了单芯片上更多的 MXU(矩阵乘法)核心。以 TPU V4 来看,单块芯片包含两个 Tensor core,共计 8 个 MXU,是 V2 的 4 倍。图表 9:TPU V4 资料来源:google cloud,国盛证券研究所 总结来看,TPU 的横空出世,基本奠定了大模型 ASIC 的开发方向,即舍弃 NV 架构中用于进行简单加减乘除计算的小核,单独保留 Tensor Core 进行矩阵乘法运算,在提高芯 2024 年 03 月 20 日 P.12 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 片效率的同时,也保证了一定的灵

40、活性。TPU 由于缺少小核,无法对训练过程中所遇到的带 0 数据进行提前处理,因此当下更多的被业界认为是一块针对“稀疏数据处理能力”弱化、同时强化了“矩阵乘法能力”的 ASIC,并没有针对特定模型做极致定制化,也并非大模型 ASIC 的终局。3.3 极致专用化:以极致专用化:以 Groq 为例为例 上节我们提到,以 TPU 为代表的芯片,由于需要兼顾训练、不同算法等需求,并没有做到极致面向推理或者是极致“ASIC”化,同一个芯片中单个 MXU 之间并没有很高效的互动,因此在保留了通用性的同时,也降低了计算效率。我们来看当下较为领先的“推理 ASIC”亦或是“LLM 专用 ASIC”Groq,G

41、roq 由谷歌TPU 团队成员创立,在经过了几年的默默发展后,最终在 2024 年 2 月一鸣惊人,运行在 Groq 平台上的 Meta Llama 2 模型,实现了领先的推理速度,将大模型的推理速度带到了 500 Token/s,而 GPT-4 的输出速度则在 40 Token/s。图表 10:Groq 推理效果对比图 资料来源:Groq,国盛证券研究所 为何一张 14NM 的芯片,能够在推理端打败昂贵的 4NM 制程 H100 呢?这其实就是极致ASIC 化的必然结果。我们从 Groq 芯片的架构图中可以看出,除了舍弃掉小核,只保留了矩阵乘法核与向量乘法核外,Groq 还创新性的引入了 s

42、RAM 作为核与核之间互相传递数据的工具,这样 MXU 就无需频繁与外界的存储进行互动,可以搭建出一条由“矩阵核、向量核、SRAM”三者共同组成的数据处理“流水线”,从而完美契合推理过程,即用先前推理出的 Token 代入模型,得到下一个 Token 的过程。2024 年 03 月 20 日 P.13 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 11:Groq 芯片工作流 资料来源:Groq,国盛证券研究所 但我们需要注意的是,由于 Groq 的芯片架构定型于四年前,以现在的视角来看,依旧有不少遗憾,第一,sRAM 的容量较小,导致需要更多的 groq 显卡才能完整容纳大模型,第二

43、,由于四年前依旧是 CNN 卷积计算占据主流,因此 Groq 有部分面积给了相对没有必要的向量计算核。图表 12:TSP Superlane 流水线架构 资料来源:Groq,国盛证券研究所 Groq 的成功已经向我们展示了未来推理 ASIC 的广阔空间,即在 MXU 堆叠的基础上,通过 sRAM、DDR7 等等高速存储进行桥接,使得 MXU 之间能够进行高速率的数据传输,使得推理结果流水线式加工,而不需要像英伟达架构一般,每次推理都需要去,而不需要像英伟达架构一般,每次推理都需要去 HBM 中中访问一次先前的访问一次先前的 Token,降低了数据交互密度,使得无论是访存,降低了数据交互密度,使

44、得无论是访存 IO,亦或是网络,亦或是网络 IO都不再成为瓶颈。都不再成为瓶颈。2024 年 03 月 20 日 P.14 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3.4 主要技术趋势总结:主要技术趋势总结:Wafer-Scaling+近存计算构建数据流水线近存计算构建数据流水线 我们先来总结一下大模型 ASIC 发展的道路,核心还是围绕聚焦“矩阵核”,舍弃多余部分来进行,从英伟达 GPU 到 TPU,初步实现了这一步,通过舍弃外围小核,采用全新的填充模式,获得了更高性价比的训练算力。第二部则是串联“矩阵核”,使得数据的处理更加流水线化,这一步也是目前芯片设计趋势中的“Streami

45、ng Processing”概念,进一步降低与外界的数据互动,实现超低延迟的推理,从 TPU 到 Groq,就是此种思路。往后来看,ASIC 的发展也将聚焦于两个方向,第一个方向为“Wafer-Scaling”,以 Sam Altman投资的cerebras为例,即扩大单个芯片面积,实现在单个芯片内装在更多的MXU,也即是矩阵计算核心。这样单次运算能够处理的数据量就更大,是最简单和直接的升级路线。第二个方向即为“近存计算”,Groq 给我们具体展示了这一路线,MXU 将数据运算后直接转移给相邻的 sRAM,由于传输距离短,叠加 sRAM 天生的高带宽,从而实现了绕过 HBM 的流水线式加工,我

46、们认为这种通过近计算单元的高速存储,来实现计算单元之间高速沟通的模式,将会是大模型 ASIC 发展的另一主要方向。2024 年 03 月 20 日 P.15 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4、以矿机为鉴,英伟达与、以矿机为鉴,英伟达与 ASIC 之争将走向何方?之争将走向何方?前面提到的两种 ASIC 代表性芯片,初看会让人觉得,从架构层面,对现有的英伟达体系实现了颠覆,但当下,英伟达的显卡仍然是客户需求的主流,那是什么样的原因造成了这样的反差呢?在接下来的章节,我们将通过对上一轮最激烈的“通用 GPU VS 专用ASIC”战场矿机市场进行复盘,来探寻当下和未来,在大模型领

47、域,这种斗争会走向何方。4.1 比特币矿机发展史,用何种速度取代比特币矿机发展史,用何种速度取代 CPU 比特币的挖矿历史,就是一部最生动的 ASIC 对于通用芯片的取代过程。在诞生之初,最早的挖矿工具是 CPU,2009 年 1 月,中本聪在芬兰赫尔辛基一个小型服务器上挖出了比特币的第一个区块即创世区块。中本聪所使用的正是 CPU 服务器。当时由于全网算力很低,因此并行计算能力较弱的 CPU 也能够参与挖矿,成为了当时矿工的主力机器。2010 年以后,随着比特币进一步爆火,全网算力提升,矿工对于算力的需求急剧膨胀。由于比特币采用 SHA256 加密算法,属于哈希算法,较为简单的算法更加适合

48、GPU 所擅长的并行计算,因此在 2010 年-2012 年的时间段内,GPU 逐渐取代 CPU,来给矿工提供更加强大的算力。同时,由于币价的不断上涨,矿工开始第一次追求专用芯片挖矿,2011 年,市面上出现了首台“FPGA”矿机,但由于 FPGA 的开发难度和性能提升有限,这种方式并未普及。2012 年之后,随着比特币算力需求持续井喷,同时比特币发明时就固定了 SHA256 加密算法,因此全球第一台商用比特币 ASIC 矿机迅速在中国出现,发明人张楠赓后来成立了全球矿机龙头之一的嘉楠科技。2013 年下半年开始,大量 ASIC 矿机雨后春笋般出现,比特币算力竞争进入 ASIC 时代,并延续至

49、今,通过芯片制程提升,不断提升性能。时至今日,比特大陆、神马、嘉楠三家中国厂商凭借优秀的迭代和周期管控能力,占领了全球大部分矿机市场。随着专用算法 ASIC 的普及,GPU 这一低效率的工具被迅速取代,目前全球比特币计算几乎全部由 ASIC 提供。图表 13:嘉楠阿瓦隆 1366I 资料来源:嘉楠科技,国盛证券研究所 2024 年 03 月 20 日 P.16 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 我们可以看到,在比特币挖矿诞生的短短三年内,就快速经历由 CPU 到 GPU,GPU 再到ASIC 的转变,即使中本聪早在 2019 年就提议防范 GPU 挖矿带来的军备竞赛,主张让所有

50、人通过拥有一块 CPU 就能够参与竞争。但是财帛动人心,暴涨的币价,日益加剧的算力对抗,使得矿工对于算力的需求出现井喷,这点和当下的 AI 类似。第二是比特币算法简单且固定,对于 ASIC 的设计过程更加友好,因此行业内部会有无数的新玩家进入,竞争、迭代、繁荣。4.2 以太坊矿机发展史,为何一波三折?以太坊矿机发展史,为何一波三折?相比于比特币矿机流畅的换代过程和最终格局,以太坊挖矿算力的发展则显得更加波折。从以太坊 2014 年发起众筹后,再到 2022 年 9 月正式完成 POS 升级,在 8 年的 POW 历史中,直到最后,以太坊专用矿机也并未完成对显卡挖矿的完全取代。我们认为主要有两点

51、原因,第一,以太坊虽然 ICO 于 2014 年下半年,但是早期也仅仅被当成是一个创业项目,此后经历了各类网络测试才正式上线,2015 年 7 月 30 日,随着以太坊第一阶段版本 Frontier 发布,第一个以太坊区块才被开采出来。因此以太坊初期并未像比特币一样由于币价暴涨,从而引发全网算力暴涨,矿工需求急剧膨胀,因此,参与以太坊挖矿的矿工,大多是利用手头的闲置显卡,也并未有专门的矿机被发明出来,核心还是需求较为疲软。第二则是以太坊在发明之初,就为防止出现类似于BTC一样的恶性算力竞争做足了准备。第一,以太坊虽然一开始采用了使用挖矿算力来维持网络稳定的 POW 模式,但始终把转向完全无法挖

52、矿的 POS 模式作为一大愿景,这也对后续希望进入以太坊矿机的投资人构成了显著的限制,没有人希望从事一项随时会失去意义的研发,同时,也没有如此多的矿工敢于购买一台未来会完全失效的 ASIC 矿机。第三则是以太坊的挖矿算法设计之初,就已经有意识的防范 ASIC 矿机的出现,以太坊采用的是 Ethash 加密算法,在挖矿的过程中,需要读取内存。当时计算机每次读取内存的带宽都是有限的,因此也就让以太坊的 PoW 机制有了“抗 ASIC 性”。当然后来随着显存读取速度加速提升,英伟达看到了这一点后加速介入了以太坊挖矿市场,这也造就了英伟达在 AI 前的上一轮辉煌。图表 14:NVIDIA CmpHx

53、专业挖矿专用 GPU 资料来源:英伟达官网,国盛证券研究所 再到后来,固定的算法无论如何在设计之初对抗 ASIC,都不能阻止 ASIC 矿机的出现,后续国内如比特大陆、芯动等公司都陆续推出了面向 ETH 的专用矿机,但是由于 POS升级始终如一把利剑悬挂在以太坊矿工之上,矿工担心自己的矿机会完全失效,而显卡在停止挖矿后仍有残值,因此以太坊 ASIC 最终并未占领全部市场。2024 年 03 月 20 日 P.17 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4.3 以史为鉴,“算法确定性”和“用户需求”决定以史为鉴,“算法确定性”和“用户需求”决定 ASIC 渗透速度渗透速度 对比以太坊

54、矿机的一波三折和比特币矿机的一帆风顺,我们不难发现,ASIC 能否迅速完成对于通用芯片的渗透和替换,主要取决于两点,第一,也是最核心的一点,用户的需求,第二,算法的稳定性。我们先来看第一点,比特币起步较早,币价涨幅较快,因此涌现海量的用户算力需求,上文提到,客户需求是芯片厂商的第一目标,因此比特币快速完成了对于通用芯片的淘汰。而以太坊则由于币价的波动,POS 的愿景,并没有产生过渡膨胀的用户需求,因此矿机厂商大举进入并持续迭代 ETH 矿机的意愿不高。我们再来看第二点,算法的确定性,这里要特别强调,算法的确定性,不是算法的难易度。因为一个算法即使再复杂再艰难,只要保持不变,就一定可以开发出专用

55、的 ASIC来提高效率,即使复杂如矩阵乘法、CNN 卷积算法,也能够拥有相应的 ASIC。而算法的不确定性,则是 ASIC 最大的敌人。ASIC 的高性能是以舍弃通用性为代价的,当下全球比特币算力已经进入 E 时代,而 H100 仍然停留在 P 时代,但比特币矿机除了简单的哈希算法外,不能进行任何运算。因此,算法的更换会导致 ASIC 芯片部分或完全失效,从而导致开发者、使用者承受极大的损失。我们将这两点类比到如今的 AI 时代。第一,客户需求的问题无需多言,模型的持续内卷,推理需求的箭在弦上,无疑不告诉芯片开发者和芯片使用者,这是一个旺盛的市场,是远超比特币级别的全球趋势,这显然满足了 AS

56、IC 芯片起量的土壤。第二,算法的稳定性,这一点上,在大模型时代,我们依旧需要观察,当下 Transformer算法是绝对的主流,目前新的算法方向也集中在以 Transformer 为本,去做一些变种,因此,矩阵乘法运算似乎正在慢慢成为大模型时代的主流,ASIC 崛起的第二条件似乎也已经具备。但正如同以太坊 POW 一样,客户也在担心,当 Transformer 的参数达到顶峰,是不是业界会更加激进的寻找下一代算法,亦或是老旧的卷积算法重出江湖?这一不确定性,也是客户持续衡量是否大量投入 ASIC 的原因。2024 年 03 月 20 日 P.18 请仔细阅读本报告末页声明请仔细阅读本报告末页

57、声明 5、软件将成为算力第三极、软件将成为算力第三极 上文提到,用户需求与算法确定性是矿机时代决定 ASIC 趋势的两条生命线,但进入大模型时代,或者说 AI 时代,软件也成为了非常重要的一部分,或者更精细一些,软件一个是决定了用户需求,一个是决定了开发成本。我们先来看用户需求,相比于较为“傻瓜式”的矿机来说,如何调动显卡的算力,如何实现显卡运算单元和指令的契合是一件更加专业的事,以英伟达为例,英伟达的 CUDA生态上,积累了无数应用场景的应用经验和过往代码,每一名 AI 软件工程师从入门,到工作,到创造都在 CUDA 上进行学习、编程和创作,用户对于软件的依赖也成为了英伟达的壁垒之一。而离开

58、熟悉的软件,进入新的操作环境,无疑会让一部分用户犹豫,这也是为什么软件将会影响用户需求的原因。图表 15:CUDA 扩大支持多种算法 资料来源:英伟达官网,国盛证券研究所 第二,软件开发门槛。Transformer 算法的操作软件,算法库开发相对简单和单一,我们这里更多是指编译器层面。除了最基本的架构设计外,大模型时代,对于控制 ASIC 芯片内部器件的编译器,设计难度和工作量与日俱增,这也将成为新进入者的门槛。5.1 推理时代,更加考验编译器的“流水线”构筑能力推理时代,更加考验编译器的“流水线”构筑能力 编译器负责将指令转化为对于芯片内部器件的控制,上文我们提到,由于现有 ASIC 结构,

59、跳过了小核心,直接将数据存入乘法器中进行运算,因此对于编译器的指令调度能力提出了极高的要求,谷歌就因为编译器开发难度过大,从而在 TPU V2 中不得不缩小乘法器体积。再往后看,前文提到,面向 LLM 推理的专用 ASIC 芯片,一套计算流程往往需要多个计算核和存储的配合,如何保证这些元器件同时稳定运行,保证计算的确定性,这就需要非常复杂的编译器设计。以 Groq 为例,其在芯片架构内部,甚至专门增加了用来协调不同计算单元指令流的专用模块,足以见得这项工作之复杂。2024 年 03 月 20 日 P.19 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 16:TSP Superlane

60、 位宽 资料来源:Groq,国盛证券研究所 往后来看,随着 Transformer 及其变种的持续进化,如何设计出一款优秀的编译器,能够让芯片快速适应新模型以及微调的 Transformer 算法,将是考验一款 ASIC 除了架构外最重要的能力。5.2 两年硬件,四年软件,编译器和生态将成为进入者最大门槛两年硬件,四年软件,编译器和生态将成为进入者最大门槛 我们来看 Groq 团队近年来发布文章的顺序,可以看到,初步的硬件架构在 2020 年的论文中就已完成,后续至今的四年,团队主要专注于相关编译器和软件生态的研发。可谓是两年做硬件,四年完善软件。由此可见软件的重要性不容小觑。图表 17:Gr

61、oq 的研发历程 年份年份 事件事件 2016 年 Google TPU 架构师 Jonathan Ross 和 TPU 团队的其他成员创立了 Groq 2020 年 1 月 发布GROQ ROCKS NEURAL NETWORKS 2020 年 7 月 发布Think Fast:A Tensor Streaming Processor(TSP)for Accelerating Deep Learning Workloads 2022 年 6 月 发布A Software-defined Tensor Streaming Multiprocessor for Large-scale Machi

62、ne Learning 2023 年 8 月 发布The Groq Software-defined Scale-out Tensor Streaming Multiprocessor 2024 年 2 月 因为 Mistral-MOE 7*8B 500 tokens/s 真正火起来 资料来源:Groq,国盛证券研究所 由于第一次引入了“流水线式”的处理理念,Groq 的软件语言也更加复杂,需要同时对多个功能单元的指令集进行设计,使用时也需要重新学习,这无疑对于新用户上手来说更加困难。2024 年 03 月 20 日 P.20 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 18:功能

63、单元支持指令 资料来源:Groq,国盛证券研究所 在此之前,许多新的 AI 芯片公司,希望通过在用户层来模拟“CUDA”系统,然后在软件底层通过转译软件将用户的“CUDA 指令”转化为自身产品能理解的指令,帮助用户大幅缩短上手时间,这也是大家所热议的“兼容 CUDA”。但近日,根据 Toms Hardware报道,英伟达进一步加强了对于 CUDA 转译软件的封锁,将封锁范围从在线使用扩大到所有本地文件,这也进一步彰显出,英伟达正在通过进一步加强软件封锁,来拖慢竞争者们的进度,同时,也更加体现出软件在未来芯片战争中的重要性。2024 年 03 月 20 日 P.21 请仔细阅读本报告末页声明请仔

64、细阅读本报告末页声明 6、我们的理解:需求决定一切,、我们的理解:需求决定一切,AISC 与与 GPU 螺旋上升螺旋上升 我们通过前文章节,较为系统地描述了当下主流大模型 ASIC 的设计思路、原理,以及过往 ASIC 芯片的发展历程,以及提出了“软件和编译器”将成为继算力、通信后的计算第三极。阅读至此,相信大家对于 ASIC 在大模型时代的竞争力和发展都有了些初步的判断。当下,海外 ASIC 设计巨头的财报已然出现了一些积极的变化。博通在近期的 FY24Q1财报上表示,FY24Q1 网络业务收入为 33 亿美元,同比增长 46%,主要得益于 2 家超大规模客户对定制人工智能加速器的强劲需求;

65、公司上季度法说会预计 AI 占 FY24 半导体收入的 25%,现上调指引至 35%,超过 100 亿美元,其中 70%是 AI 加速器,20%是交换机、路由器,10%是其他产品(PAM4、DSP、光学元件等)。美满电子在近期的 FY24Q4 电话会议上表示,预计来自云优化芯片(cloud optimized silicon)的年收入有可能与数据中心光学业务相媲美(数据中心光学业务在 2024 财年的收入将超过 10 亿美元)。可以看到,在生成式 AI 大时代面前,从头部大厂,再到中小客户,再到创业团队,均已经开始投身 ASIC 芯片的星辰大海。同时海外产业界也正在加速认识到 ASIC 对于

66、AI 后续算力供给的重要性,黄仁勋近日在母校斯坦福大学的访谈上,就被多次问及 ASIC 的挑战。最后,用一句话来总结和引发思考,“用硬件的人和开发硬件的人对立”“用硬件的人和开发硬件的人对立”。这一故事似乎正在 AI 芯片界再次上演,当下大模型,英伟达用先发优势和 CUDA 积累,让硬件的最终使用者软件工程师们,能够在熟悉的环境更加轻松地去工作,他们似乎更希望能够继续拥护这一稳定的格局,换取较为轻松的编程压力,从他们的主观感受上,日常使用的CUDA 和英伟达帝国似乎是不可战胜。但是我们也应该看到,也有众多优秀的硬件工程师们,前赴后继,从最底层的架构层面为 Transformer 计算提供更优性

67、价比的选择。然而使用者与开发者,最终都绕不开市场需求,也就是购买算力的客户。当下,为了迅速追赶头部,扩容算力,大量采购英伟达是大家公认的选择。但是当算法固定,AI 下游需求加速放量之时,ASIC 芯片也有望凭借更高的性价比,以及更加“开源”的生态而放量,因此,我们判断,只要有充足的下游需求,大模型 ASIC 的前景广阔。从全局来看,ASIC 放量与对应的算力降本,是大模型走向一个更大产业的必经之路,但AI 的算力叙事足够宏大,与比特币的一轮代替便成终局不同,我们认为在 AI 芯片的发展上,将会经历多轮螺旋上升式的发展,最终达到全社会的 AGI,新的模型与算法通过通用性 GPU 被发现和初步开发

68、,通过专用 ASIC 将需求繁荣,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成 AGI 的宏伟目标。2024 年 03 月 20 日 P.22 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 19:ASIC 与通用芯片带动 AI 螺旋上升 资料来源:国盛证券研究所整理 2024 年 03 月 20 日 P.23 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 7、投资建议、投资建议 我们认为,抓住 AISC 的机会,主要从五大投资方向出发,第一,全球晶圆代工龙头。第二,协助全球 ASIC 开发的半导体平台类公司。第三,参考矿机发展,散热对于

69、 ASIC的性能提升至关重要,因此散热公司将持续获得收益。第四,过往拥有丰富 ASIC 设计经验的公司有望转型推理。第五,ASIC 路线有望带动国内芯片起量,利好国内服务器公司。一线晶圆厂:一线晶圆厂:随着 ASIC 生态迅速繁荣,大量中小 ASIC 创业公司的流片需求将会爆发性释放。由于 AI 芯片不再为某一大公司垄断,晶圆厂的议价能力将显著提升,同时由于ASIC 芯片需求量巨大且性价比高,产业链的大部分利润将从晶圆设计转为晶圆厂代工成本。晶圆厂的分配地位有望上升。推荐标的:台积电(推荐标的:台积电(TSMC)、英特尔()、英特尔(INITC)、中芯国际)、中芯国际。ASIC 设计龙头:设计

70、龙头:全球 ASIC 设计项目主要由两家业界巨头承担,两家公司为业内 ASIC创业者提供设计平台、相关工具、部分功能 IP 等一站式解决方案,让创业公司能够专注于架构设计,随着 ASIC 创业热潮加剧,两家公司有望凭借“平台能力”迅速扩张业务。推荐标的:美满电子(推荐标的:美满电子(MRVL)、博通()、博通(AVGO)。散热厂商:散热厂商:参考矿机芯片,ASIC 芯片具有频率越高,性能越强,性价比越高的特性。矿机芯片的散热性能直接决定了矿机的性价比。矿机使用者目前是全球大规模液冷机房的使用者之一,因此我们认为,ASIC 芯片占比提升后,相较于传统 GPU,对于散热的原发性需求会持续提升。对于

71、客户来说,投资散热不再是可选项,而是有经济利益的必选项。推荐标的:英维克、中航光电、高澜股份推荐标的:英维克、中航光电、高澜股份。ASIC 芯片公司:芯片公司:全球目前活跃的,对于顶尖制程掌握最深,并有大规模流片能力的 ASIC公司中,矿机公司是最为重要的力量,将来有望凭借相关优势转型模型 ASIC 厂商。推荐标的:寒武纪、芯原股份、嘉楠科技(推荐标的:寒武纪、芯原股份、嘉楠科技(CAN)。服务器龙头:服务器龙头:与晶圆厂类似,大量中小 ASIC 公司将会催生大量的新建服务器需求。同时,国内芯片有望通过 ASIC 公司加速形成可用大模型算力,从而带动国内服务器需求起量。推荐标的:工业富联、高新

72、发展、中科曙光、紫光股份推荐标的:工业富联、高新发展、中科曙光、紫光股份。2024 年 03 月 20 日 P.24 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 20:相关标的 代码代码 名称名称 市值(亿元市值(亿元或亿或亿美元美元)2024 年净利润年净利润预测(亿元预测(亿元或或亿亿美元美元)PE 简介简介 ASIC 设计龙头 MRVL 美满电子 646.0 12.13 53.3 全球以太网交换机芯片、ASIC 设计领先企业 AVGO 博通 5,726.0 228.34 25.1 全球半导体设计龙头企业 晶圆厂 TSM 台积电 7,104.0 313.75 22.4 全球半导

73、体 Fab 龙头 INTC 英特尔 1,802.8 55.82 34.0 全球最大 PC 零件及半导体芯片制造商 688981 中芯国际 3,812.1 67.02 56.0 国内最大的集成电路制造企业 散热厂商 002837 英维克 201.2 5.24 38.4 散热系统集成商龙头 002179 中航光电 769.2 42.32 18.2 领先的散热系统商 300499 高澜股份 43.7 1.76 24.8 领先的散热系统商 ASIC 芯片公司 CAN 嘉楠科技 3.1 0.87 3.6 挖矿芯片设计商 688256 寒武纪 812.5/国内算力芯片早期参与者 688521 芯原股份 2

74、14.0 0.53 403.8 国产通用服务器、协处理器 服务器龙头 601138 工业富联 4,968.0 259.42 19.2 服务器代工龙头 000628 高新发展 306.5/子公司华鲲振宇是华为鲲鹏生态合作伙伴 603019 中科曙光 780.1 24.39 32.0 领先的服务器代工厂 资料来源:Wind,彭博,美满电子官网,福布斯中国,BBC NEWS,昆山发布,中芯国际官网,英维克官网,深圳市电子商会,高澜股份官网,嘉楠科技官网,寒武纪官网,芯原股份官网,中证网,华鲲振宇官方公众号,中科曙光公众号,界面新闻,国盛证券研究所,数据截至 2024 年 3 月 18 日,注:美股市

75、值、净利润单位均为亿美元,其余均为亿人民币;除英维克、嘉楠科技外,美股净利润预测(non-GAAP)均取自彭博一致预期,A 股净利润预测均取自 Wind 归母净利润一致预期 2024 年 03 月 20 日 P.25 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 8、风险提示、风险提示 AI 发展不及预期,AI 算法切换风险,ASIC 用户认可度低的风险。(1)AI 发展不及预期。相关公司业绩成长空间集中于 AI 相关的算力芯片,若 AI 发展不及预期,ASIC下游需求疲软,利润和估值可能不及预期。(2)AI 算法切换。如果迅速出现替代 Transformer 且底层运算脱离张量运算的新算

76、法,则现有面向张量运算的 ASIC 体系均将失去价值,ASIC 行业渗透速度将显著延后或下降。(3)ASIC 用户认可度低。受制于软件生态、可用程度、初代成本等因素,通用芯片的粘性持续变高,客户切换 ASIC 的速度将会变慢。2024 年 03 月 20 日 P.26 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 免责声明免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司

77、认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成

78、客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本报告版权归“国盛证券有限责任公司”所有。未经事先本公司书面授权,任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用、刊发本报告,需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会

79、授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法,结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明 投资建议的评级标准投资建议的评级标准 评级评级 说明说明 评级标准为报告发布日后的 6 个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中 A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普

80、 500 指数或纳斯达克综合指数为基准。股票评级 买入 相对同期基准指数涨幅在 15%以上 增持 相对同期基准指数涨幅在 5%15%之间 持有 相对同期基准指数涨幅在-5%+5%之间 减持 相对同期基准指数跌幅在 5%以上 行业评级 增持 相对同期基准指数涨幅在 10%以上 中性 相对同期基准指数涨幅在-10%+10%之间 减持 相对同期基准指数跌幅在 10%以上 国盛证券研究所国盛证券研究所 北京北京 上海上海 地址:北京市东城区永定门西滨河路 8 号院 7 楼中海地产广场东塔 7 层 邮编:100077 邮箱: 地址:上海市浦东新区南洋泾路 555 号陆家嘴金融街区 22栋 邮编:200120 电话: 邮箱: 南昌南昌 深圳深圳 地址:南昌市红谷滩新区凤凰中大道 1115 号北京银行大厦 邮编:330038 传真: 邮箱: 地址:深圳市福田区福华三路 100 号鼎和大厦 24 楼 邮编:518033 邮箱:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(通信行业深度:AI算力的ASIC之路从以太坊矿机说起-240320(26页).pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 wei**n_... 升级为高级VIP  wei**n_...  升级为高级VIP

 ji**yl 升级为高级VIP  DAN**ZD...  升级为高级VIP

wei**n_... 升级为至尊VIP   wei**n_... 升级为高级VIP

 wei**n_...  升级为至尊VIP 186**81... 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_... 升级为高级VIP  

wei**n_...  升级为至尊VIP  wei**n_... 升级为标准VIP

wei**n_... 升级为高级VIP 升级为至尊VIP

msl**ng 升级为高级VIP  刷** 升级为至尊VIP 

186**12... 升级为高级VIP 186**00...  升级为至尊VIP

182**12... 升级为高级VIP  185**05... 升级为至尊VIP

Za**ry  升级为标准VIP  wei**n_... 升级为高级VIP 

183**46...  升级为高级VIP 孙** 升级为标准VIP 

 wei**n_... 升级为至尊VIP  wei**n_... 升级为高级VIP

  wei**n_... 升级为至尊VIP  微**... 升级为至尊VIP

180**79...  升级为标准VIP Nik**us  升级为至尊VIP

 138**86... 升级为高级VIP wei**n_... 升级为标准VIP 

183**37...   升级为高级VIP  wei**n_... 升级为标准VIP

wei**n_...  升级为标准VIP 159**85... 升级为至尊VIP 

137**52... 升级为高级VIP  138**81... 升级为至尊VIP

wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

  微**... 升级为至尊VIP 136**16... 升级为标准VIP 

186**15...  升级为高级VIP  139**87... 升级为至尊VIP

wei**n_...  升级为至尊VIP 137**01...  升级为标准VIP 

182**85...  升级为至尊VIP  158**05... 升级为标准VIP

 180**51... 升级为高级VIP wei**n_... 升级为高级VIP  

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

h**a  升级为高级VIP  wei**n_...  升级为高级VIP

Ani** Y... 升级为标准VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP    微**... 升级为高级VIP

 137**22...  升级为至尊VIP  138**95...  升级为标准VIP

 159**87...  升级为高级VIP  Mic**el...  升级为至尊VIP

wei**n_... 升级为至尊VIP wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP  胖**... 升级为至尊VIP

185**93...  升级为至尊VIP  186**45... 升级为高级VIP 

 156**81... 升级为高级VIP wei**n_... 升级为高级VIP

180**85...  升级为高级VIP 太刀 升级为至尊VIP 

135**58... 升级为标准VIP  wei**n_...  升级为至尊VIP

183**12... 升级为高级VIP  wei**n_...   升级为高级VIP

dri**o1  升级为至尊VIP 139**51... 升级为标准VIP 

wei**n_...  升级为至尊VIP   wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP  158**68... 升级为标准VIP 

 189**26...  升级为至尊VIP Dav**.z 升级为高级VIP 

wei**n_...  升级为标准VIP  坠**...  升级为标准VIP

 微**... 升级为至尊VIP  130**26... 升级为至尊VIP  

131**35...  升级为至尊VIP  138**53...  升级为至尊VIP

wei**n_...  升级为高级VIP wei**n_...  升级为标准VIP 

186**17...  升级为标准VIP 151**79...  升级为标准VIP 

  wei**n_... 升级为高级VIP 雄**... 升级为高级VIP 

wei**n_... 升级为高级VIP   135**48...  升级为至尊VIP

 158**58... 升级为至尊VIP   wei**n_... 升级为高级VIP