上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

电子行业:“AI革命”算力篇-230408(29页).pdf

编号:121348 PDF 29页 2.11MB 下载积分:VIP专享
下载报告请您先登录!

电子行业:“AI革命”算力篇-230408(29页).pdf

1、请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业深度 2023 年 04 月 08 日 电子电子“AI 革命”革命”算力篇算力篇 GPU:算力的核心硬件算力的核心硬件,海外绝对垄断,海外绝对垄断。根据 Verified Market Research 数据,2021年全球 GPU 市场规模为 334.7 亿美金,预计到 2030 年将达到 4473.7 亿美金,期间CAGR 33.3%。全球 GPU 市场目前被海外企业垄断,根据 Jon Peddie Research 数据,2022年四季度PC GPU中,英特尔/英伟达/AMD份额分别为71%/17%/12%;2022Q4

2、独立 GPU 中,英特尔/英伟达/AMD 份额分别为 6%/85%/9%,全球范围内 GPU 市场呈现出海外三巨头垄断局面。LLM 模型带动算力需求模型带动算力需求。LLM 模型的训练需要大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。例如,GPT-3 模型拥有约 1750 亿参考量,这使得 GPT-3 拥有其他较少参考量模型来说更高的准确性:仅需少量的样本训练就能够接近于 BETR 模型使用大量样本训练后的效果。但同时,如果以英伟以英伟达旗舰级达旗舰级 GPU 产品产品 A100 对对 GPT-3 进行训练,进行训练,1024 块块 A100 卡需要耗费超过卡需要

3、耗费超过 1个月(大于个月(大于 30 天),则我们可以按比例计算出,如果需要单日完成训练,需要的天),则我们可以按比例计算出,如果需要单日完成训练,需要的A100 数量将超过数量将超过 30000 块。块。我们认为,LLM 模型无论在性能还是在学习能力上,相较于其他模型都具备明显优势,未来或将成为行业趋势,同时大规模的训练模型与之对应的便是庞大的算力需求。服务器:服务器:GPU 市场的重要增长动力。市场的重要增长动力。服务器中 GPU 由于其具有最强的计算能力同时具备深度学习等能力,目前成为服务器中加速芯片的首选。AI 服务器中服务器中 GPU 单单品类硬件价值量占比较高:品类硬件价值量占比

4、较高:我们以我们以 Nvidia DGX A100 为例,通过计算我们发现其为例,通过计算我们发现其GPU 价值量占比约为价值量占比约为 48.24%。根据 TrendForce 数据,截止 2022 年全球搭载GPGPU 的 AI 服务器出货量占整体服务器比重约 1%,同时 TrendForce 预测 2023年伴随 AI 相关应用加持,年出货量增速达到 8%,20222026 年 CAGR 为 10.8%。我们假设训练我们假设训练 AI 服务器和推理服务器和推理 AI 服务器的比例为服务器的比例为 1:4,计算得到,计算得到 2023/2026 年年训练服务器的数量大约为训练服务器的数量大

5、约为 3.60/5.00 万台。同时假设推理万台。同时假设推理 AI 服务器和训练服务器和训练 AI 服服务器使用的务器使用的 GPU 数量分别为数量分别为 4 张和张和 8 张,算出张,算出 2023 年和年和 2026 年全球年全球 AI 服务器服务器领域所需领域所需 GPU 数量约为数量约为 86.4 万张和万张和 120 万张,以万张,以 A100 约约 1.20w 美金的价格作美金的价格作为参考计算出为参考计算出 2023 年和年和 2026 年年 AI 服务器所需服务器所需 GPU 的价值分别为的价值分别为 103.7 亿亿美美元和元和 144.0 亿亿美元。美元。硬件国产化迫在眉

6、睫!硬件国产化迫在眉睫!2022 年 8 月,美国政府通知英伟达,其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的 A100 GPU 或 DGX/HGX 等系统,同时该项规定也同时适用于最新发布的 H100 GPU 或者实现类似功能的产品。国内公司百度国内公司百度旗下大模型旗下大模型 ERNIE 3.0 Titan 参数量达到参数量达到 2600 亿,高于亿,高于 GPT-3 的的 1750 亿,其亿,其所需的同规格所需的同规格 GPU 数量将远大于数量将远大于 GPT-3,根据比例我们可以计算出在相同时间下,根据比例我们可以计算出在相同时间下(超过一个月)(超过一个月)ERNIE 3

7、.0 Titan 所需所需 A100 数量约为数量约为 1522 块。块。同时我们认为,未来 AI 倘若进入大模型时代,相关算力需求将快速增加,届时对于国产高算力 GPU需求将进一步提升,所以说 GPU 国产化进程迫在眉睫。优秀国产优秀国产 GPU 公司不断涌现。公司不断涌现。目前包括景嘉微、沐曦集成电路、壁仞科技、摩尔线程在内一批优秀的国产 GPU 公司不断涌现,通过对比我们发现:在单精度浮点运算性能(FP32)算力中,国内外厂商均处于 TFLOPS 量级,海外龙头英伟达和海外龙头英伟达和 AMD旗舰信号旗舰信号 H100 SXM 和和 MI250 x 分别实现分别实现 FP32 算力算力

8、67 TFLOPS 和和 47.9 TFLOPS。国内摩尔线程最高。国内摩尔线程最高 FP32 算力产品算力产品 MTT S3000,算力为,算力为 15.2 TFLOPS;壁仞科技壁砺壁仞科技壁砺100P 产品最高实现产品最高实现 240 TFLOPS 的的 FP32 算力;芯动科技“风华算力;芯动科技“风华1 号”产品实现号”产品实现 FP32 算力算力 5 TFLOPS。通过对比通过对比我们发现我们发现在大部分情况下国产在大部分情况下国产GPGPU 相较于海外旗舰款仍存在差距。相较于海外旗舰款仍存在差距。标的推荐:标的推荐:景嘉微、寒武纪、芯原股份、海光信息。景嘉微、寒武纪、芯原股份、海

9、光信息。风险提示风险提示:下游需求不及预期,国产化进程不及预期,测算误差风险。增持增持(维持维持)行业行业走势走势 作者作者分析师分析师 郑震湘郑震湘 执业证书编号:S0680518120002 邮箱: 分析师分析师 佘凌星佘凌星 执业证书编号:S0680520010001 邮箱: 相关研究相关研究 1、电子:先进封装引领“后摩尔时代”,国产供应链新机遇2023-04-05 2、电子:AI 带动存算需求提升,存储国产化有望持续推进2023-04-03 3、电子:卫星通信:推动智能终端设备技术创新升级2023-03-21-32%-16%0%16%-

10、-03电子沪深300 2023 年 04 月 08 日 P.2 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 一、GPU:始于图形,不止于图形.4 1.1GPU算力核心硬件.4 1.2 需求端大模型算力需求激增.7 1.3 供给性能高速迭代,海外绝对垄断.14 二、相关公司.17 2.1 英伟达:复盘全球 GPU 龙头.17 2.2 国产 GPU 欣欣向荣.21 三、标的推荐.25 3.1 景嘉微:潜心研发,国产 GPU 龙头静待花开.25 3.2 寒武纪:国产 AI 芯片领军企业.25 3.3 芯原股份:国产 IP 龙头,Chiplet 持续加速.26 3.4 海光信息

11、:国产 CPU、DCU 龙头.27 四、风险提示.28 图表目录图表目录 图表 1:英伟达专业 GPU:A100(For HGX).4 图表 2:英伟达消费级 GPU:GeForce RTX 4090.4 图表 3:独立 GPU 和集成 GPU.5 图表 4:GPU 具有更多处理单元.5 图表 5:GPU 在训练速度上具有绝对优势(注:CPU 选择英特尔至强 Gold 6240 处理器).5 图表 6:GPGPU 架构.6 图表 7:CPU 全球市场规模及复合增速(亿美金,%).6 图表 8:算力数量级前缀及说明.7 图表 9:世界范围内最快的超级计算机算力演变过程(GFLOPS).7 图表

12、10:历史上经历的重大产业革命.7 图表 11:人工智能、机器学习与深度学习的关系.8 图表 12:深度学习的训练和推理阶段.8 图表 13:全球范围内 LLM 模型爆炸增长.8 图表 14:参数提升对于模型整体改善显著.9 图表 15:GPT-3 仅需 32 条样本即可达到其他模型相同训练效果.9 图表 16:GPU 数量和总算力的关系(GPU 为英伟达 A100).9 图表 17:浪潮 AI 服务器:NF5688M6.10 图表 18:全球服务器出货量(万台)及增速(%).10 图表 19:全球服务器市场规模预测(百万美元)同比(%).10 图表 20:AI 服务器(推理)出货量预测及复合

13、增速(千台,%).11 图表 21:2022 年采购 AI 服务器占比(%).11 图表 22:GPU 在 AI 服务器中的价值量占比(%).11 图表 23:从 AI 服务器数量角度测算所需 GPU 数量和对应价值.12 图表 24:汽车 L0-L5 不同层次功能.12 图表 25:智能网联汽车技术路线图 2.0中我国自动驾驶发展规划.13 图表 26:英伟达车载算力演变过程.13 图表 27:2022 年全球新能源汽车销量(分企业,万辆).14 图表 28:中国新能源汽车月销量(辆).14 EY8VhUkW9XlWvUtWvUbRcM6MpNnNtRpMkPmMsOeRmNnNbRnMqQ

14、wMsQmQvPpMqP 2023 年 04 月 08 日 P.3 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 29:英伟达单芯片推理性能演变过程.14 图表 30:英伟达近三代 GPGPU 对比(Nvidia H100 价格为沐曦预测).15 图表 31:全球 PC GPU 份额情况(按季度,%).15 图表 32:全球独立 GPU 份额情况(内圈为 2022Q3,外圈为 2022Q4,%).15 图表 33:SEC 对英伟达 A100、H100 等高端 GPU 出口限制文件.16 图表 34:模型参数不断演进.16 图表 35:英伟达 19992012 年复盘(美元).17 图

15、表 36:英伟达 20132019 年复盘(美元).18 图表 37:英伟达 20202023 年复盘(美元).19 图表 38:NVIDIA H100 Tensor Core GPU.19 图表 39:H100 在 LLM 模型中进行 9 倍的训练(相较于 A100).19 图表 40:NVIDIA DGX H100.20 图表 41:英伟达近年营收及增速(亿美元,%).20 图表 42:英伟达近年净利润及增速(亿美元,%).20 图表 43:英伟达近年毛利率、净利率变化(%).21 图表 44:景嘉微 JM9 系列 GPU 参数.21 图表 45:沐曦集成电路产品:MXC(主要针对 AI

16、训练,AI 推理等场景).22 图表 46:沐曦集成电路产品:MXG(主要针对图形渲染).22 图表 47:壁仞科技产品:壁砺100P.22 图表 48:壁仞科技产品:壁砺104P.22 图表 49:摩尔线程 MTT S80 产品.23 表 50:芯动科技“风华 1 号”服务器显卡.23 图表 51:芯动科技“风华 2 号”桌面显卡.23 图表 52:登临科技产品:Goldwasser-UL.24 图表 53:登临科技产品:Goldwasser-XL.24 图表 54:国内专业 GPU 算力与海外龙头比较.24 2023 年 04 月 08 日 P.4 请仔细阅读本报告末页声明请仔细阅读本报告

17、末页声明 一、一、GPU:始于始于图形,不止于图形图形,不止于图形 1.1GPU算力核心硬件算力核心硬件 GPU 用途由图形处理拓展至计算用途由图形处理拓展至计算。GPU 是图形处理器的简称,它是一种专门用于处理图形、视频、游戏等高性能计算的硬件设备。GPU 相对于传统的中央处理器(CPU)而言,其拥有更多的计算核心和更快的内存带宽,能够大幅度提高计算效率和图形渲染速度。现阶段,随着例如英伟达 A100、H100 等型号产品的发布,GPU 在算力方面的优势相较于其他硬件具有较大优势,GPU 的工作也从一开始的图形处理逐步转化为计算。根据用途和性能表现,GPU 可以分为专业卡和消费级卡两类:专业

18、卡通常用于工程、科学、医学等领域的高性能计算和大规模数据处理,主要厂商包括英伟达、AMD 等;消费级卡则主要用于普通家庭和游戏玩家,主要厂商包括英伟达、AMD、英特尔等。图表 1:英伟达专业 GPU:A100(For HGX)图表 2:英伟达消费级 GPU:GeForce RTX 4090 资料来源:英伟达官网,国盛证券研究所 资料来源:Amazon,国盛证券研究所 根据芯片不同,GPU 又可分为独立 GPU 和集成 GPU:其中独立 GPU 表示具有自己的处理器、存储器以及电源,可以独立于计算机主板的独立芯片;集成 GPU 是一种内置于CPU芯片中的图形处理器。二者区别主要在于性能和功能,独

19、立GPU性能通常更为强大,可以处理较为复杂的图形、计算任务;集成 GPU 性能通常低于独立 GPU,但其优势在于低功耗以及小型化设计,更加适合笔记本电脑、平板电脑等小型设备。2023 年 04 月 08 日 P.5 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 3:独立 GPU 和集成 GPU 资料来源:CGDIRECTOR,国盛证券研究所 目前 GPU 在硬件中拥有最高的算力,成为最适合支撑人工智能训练和学习的硬件,我们认为其原因主要在于:更多处理单元:更多处理单元:GPU 相比于 CPU 等其他硬件有更多的处理单元(核心数更多),因此可以并行处理更多的数据。主要系 GPU 最初是

20、为了图形渲染而设计的,而图形渲染涉及的计算是高度并行化的。这种并行化的特性使 GPU 非常适合进行机器学习和深度学习这样的大规模数据并行计算。具有更高的内存带宽和更大的内存容量:具有更高的内存带宽和更大的内存容量:在进行深度学习等计算时,需要大量的内存和高速的内存带宽来存储和处理海量数据。GPU 相比于其他硬件(如 CPU),具有更高的内存带宽和更大的内存容量,可以更有效地存储和处理数据,从而提高计算速度。具有专门的计算单元:具有专门的计算单元:相较于其他硬件,GPU 具有例如张量核心和矩阵乘法等计算单元,可以更快地执行常见的机器学习和深度学习操作:如卷积和矩阵乘法。这些计算单元与通用计算单元

21、相比,具有更高的效率和更快的速度。图表 4:GPU 具有更多处理单元 图表 5:GPU 在训练速度上具有绝对优势(注:CPU 选择英特尔至强 Gold 6240 处理器)资料来源:英伟达官网,国盛证券研究所 资料来源:英伟达官网,国盛证券研究所 GPGPU为计算而生。为计算而生。GPGPU 全称是“general-purpose computing on graphics processing units”,简称“通用图形处理单元”,其主要利用 GPU 的功能来执行 CPU 的 2023 年 04 月 08 日 P.6 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 任务,虽然在设计初期是为

22、了更好地图形处理,但是多内核多通道的设计使其非常适合科学计算,发展至今 GPGPU 也成为了专为计算而设计的硬件。图表 6:GPGPU 架构 资料来源:ResearchGate,国盛证券研究所 多领域驱动,多领域驱动,GPU 千亿美金市场拉开序幕。千亿美金市场拉开序幕。GPU 市场规模的大小取决于多种因素:其中游戏和娱乐市场一直是 GPU 市场的主要驱动力,因为这些领域需要高性能的 GPU 来支持更高质量的游戏画面和娱乐内容。同时人工智能和机器学习的发展对 GPU 市场也有着巨大的影响,因为这些技术需要大量的计算能力,而 GPU 可以提供比 CPU 更高的效率。此外,科学和研究领域的需求以及新

23、兴市场(如游戏机和数据中心)也对 GPU 市场的规模产生了影响。根据 Verified Market Research 数据,2021 年全球 GPU 市场规模为334.7 亿美金,预计到 2030 年将达到 4473.7 亿美金,期间 CAGR 33.3%。图表 7:CPU 全球市场规模及复合增速(亿美金,%)资料来源:Verified Market Research,国盛证券研究所 2023 年 04 月 08 日 P.7 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1.2 需求端需求端大模型算力需求激增大模型算力需求激增 LLM 模型带动算力需求模型带动算力需求:算力是指计算机系统

24、能够完成的计算任务量,通常用来描述计算机的处理能力。算力的单位通常采用 FLOPS(Floating Point Operations Per Second)表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成 10 亿次浮点运算,那么它的 FLOPS值就是 10 GFLOPS(10 Giga FLOPS)。目前我们以全球龙头英伟达在 2020 年发布的 A100产品为例,根据英伟达官方介绍,A100 的理论浮点运算性能可以达到 19.5 TFLOPS(19.5 Tera FLOPS),即每秒 195 万亿次浮点运算。图表 8:算力数量级前缀及说明 图表 9:世界范围内最快的超级

25、计算机算力演变过程(GFLOPS)资料来源:University Information Technology Services,国盛证券研究所 资料来源:Our World in Data,国盛证券研究所 站在“智能革命”起点。站在“智能革命”起点。我们回顾历史,人类社会目前经历了三次重大的产业变革:蒸汽时代、电气时代、信息时代,其分别对应了 18 世纪 60 年代末期英国人詹姆斯瓦特制造的第一代具有实用价值的蒸汽机、美国在 19 世界 60 年代实现电力的广泛应用,以及电灯被发明、1946 年美国制造出人类第一台二进制计算机。我们认为,每一次的产业革命都具有几个共通点,首先均有标志性的产品

26、面世,其次持续时间较长以及对于世界发展影响深远。2022 年年 11 月,月,ChatGPT 的发布让世界看到了无限的可能性,我们认的发布让世界看到了无限的可能性,我们认为这仅仅只是“智能革命”的起点,未来或将呈现出各行业各接纳人工智能,人工智能为这仅仅只是“智能革命”的起点,未来或将呈现出各行业各接纳人工智能,人工智能助推世界发展的景象。助推世界发展的景象。图表 10:历史上经历的重大产业革命 产业革命产业革命 时间时间 标志性产品标志性产品 生产力重大变化生产力重大变化 蒸汽革命 1760s 新型蒸汽机 机器代替手工 电气革命 1870s 电灯 石油作为主要能源 信息革命 1940s 计算

27、机 计算机极大程度提升生产力 资料来源:维基百科,国盛证券研究所 深度学习深度学习对算力要求大幅提升。对算力要求大幅提升。人工智能通过模拟和延展人类及自然智能的功能,拓展机器的能力边界,使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能(如自然语言理解),或获得建模和解决问题的能力(如机器学习等方法)。人工智能实现方法之一为机器学习,而深度学习是用来实现机器学习的技术,通常可分为“训练”和“推“训练”和“推理”理”两个阶段。训练阶段:需要基于大量的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期,核心在于算力核心在于算力;推理阶段:训练结束后,建立的人工智能模型 2023 年

28、 04 月 08 日 P.8 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),这个过程为推理阶段,对单个任务的计算能力不及训练,但总计算量也相当可观。图表 11:人工智能、机器学习与深度学习的关系 图表 12:深度学习的训练和推理阶段 资料来源:英伟达官网,国盛证券研究所 资料来源:英伟达官网,国盛证券研究所 大型语言模型(Large Language Model,简称 LLM)是一种使用深度学习算法处理、理解自然语言的基础学习模型。LLM 基于数亿到数千亿个参数的神经网络,通过训练数据学习自然语言的规律和模式

29、,并能够生成高质量的自然语言文本。这些模型的训练需要大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。目前,LLM 模型能够在例如语音识别、文本摘要、智能翻译等领域中实际应用,但是 LLM模型大规模应用目前仍然存在一些挑战和限制:需要大量的训练数据和计算资源,很难处理语言的多样性和不确定性。图表 13:全球范围内 LLM 模型爆炸增长 资料来源:Medium,国盛证券研究所 GPT-3 开启大模型时代。开启大模型时代。GPT-3 是由 OpenAI 研发的一种基于深度学习的自然语言处理模型,其使用了大量的语料库进行预训练,使其能够理解语言的规则和模式,并生成与输入文本

30、相关的自然语言文本,GPT-3 的主要特点是它具有大规模的预训练模型,而同时大规模的训练模型与之对应的便是庞大的算力需求,根据 OpenAI 团队成员 2020 年发表的论文Language Models are Few-Shot Learners,GPT-3 模型拥有约 1750 亿参考 2023 年 04 月 08 日 P.9 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 量,这使得 GPT-3 拥有其他较少参考量模型来说更高的准确性。同时基于 1750 亿参数的模型仅需少量的样本训练,就能够接近于 BETR 模型使用大量样本训练后的效果。我们认为,大模型无论在性能还是在学习能力上,相

31、较于其他模型都具备明显优势,未来或将成为行业趋势。图表 14:参数提升对于模型整体改善显著 图表 15:GPT-3 仅需 32 条样本即可达到其他模型相同训练效果 资料来源:QCon 全球软件开发大会,国盛证券研究所 资料来源:Language Models are Few-Shot Learners,国盛证券研究所 伴随大模型的明显优势,与之而来的则是对于算力要求的显著提升。以 GPT-3 为例,其1750 亿的参数,如果以英伟达旗舰级 GPU 产品 A100 对 GPT-3 进行训练,1024 块 A100卡需要耗费超过 1 个月(大于 30 天),则我们可以按比例计算出,如果需要单日完成

32、训练,需要的 A100 数量将超过 30000 块。图表 16:GPU 数量和总算力的关系(GPU 为英伟达 A100)资料来源:英伟达官网,国盛证券研究所 服务器:服务器:GPU 市场的重要增长动力市场的重要增长动力 目前 AI 服务器通常选用 CPU 和加速芯片组来满足其庞大算力需求,其中加速芯片包括GPU、FPGA、ASIC 等逻辑芯片,其中 GPU 由于其具有最强的计算能力同时具备深度学习等能力,目前成为服务器中加速芯片的首选。2023 年 04 月 08 日 P.10 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 17:浪潮 AI 服务器:NF5688M6 资料来源:浪潮官

33、网,国盛证券研究所 根据中商产业研究院数据,2021 年全球服务器出货量达 1315 万台,同比增长 7.8%,对应全球市场规模达 995 亿美元。根据 Counterpoint 预计,2022 年全球服务器市场规模有望达到 1117 亿美元,同比增长 17.0%。预计云服务提供商数据中心扩张增长驱动力主要来自于汽车、5G、云游戏和高性能计算。图表 18:全球服务器出货量(万台)及增速(%)图表 19:全球服务器市场规模预测(亿美元)同比(%)资料来源:Wind,中商产业研究院,国盛证券研究所 资料来源:Counterpoint,国盛证券研究所 AI 服务器渗透率依旧较低,增长空间巨大。服务器

34、渗透率依旧较低,增长空间巨大。根据 TrendForce 数据,截止 2022 年全球搭载 GPGPU 的 AI 服务器(推理)出货量占整体服务器比重约 1%,同时 TrendForce 预测2023 年伴随 AI 相关应用加持,年出货量增速达到 8%,20222026 年 CAGR 为 10.8%。根据 TrendForce 数据,2022 年全球 AI 服务器采购中,Microsoft、Google、Meta、AWS为前四大采购商,合计占比 66.2%。中国地区 ByteDance(字节跳动)采购比例最高,达到 6.2%。-4%0%4%8%12%16%20%0200400600800100

35、00200022E全球服务器出货量预测趋势图(万台)同比(%)-5%0%5%10%15%20%0200400600800820022F全球服务器市场规模(亿美元)同比(%)2023 年 04 月 08 日 P.11 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 20:AI 服务器(推理)出货量预测及复合增速(千台,%)图表 21:2022 年采购 AI 服务器占比(%)资料来源:TrendForce,国盛证券研究所 资料来源:TrendForce,国盛证券研究所 GPU 在在

36、 AI 服务器中服务器中价值量占比接近价值量占比接近 50%。我们以 Nvidia DGX A100 为例,其搭载了8 张 Nvidia A100 Tensor GPU,根据新浪科技数据,Nvidia DGX A100 售价约为 19.9w美金;Nvidia A100 Tensor 价格为 1.001.20w 美金。我们按照 1.20w 美金售价计算可得出 GPU 在 Nvidia DGX A100 价值量占比约为 48.24%。图表 22:GPU 在 AI 服务器中的价值量占比(%)资料来源:国盛电子测算,国盛证券研究所 我们从服务器的数量角度出发进行 GPU 数量推算:根据上文 Trend

37、Force 预计 2023 年预计全球 AI 服务器(推理)出货大约在 14.4 万台,到 2026 年预计实现出货量 20.0w 台。我们假设训练 AI 服务器和推理 AI 服务器的比例为 1:4,则我们可以得到 2023/2026 年训练服务器的数量大约为3.60/5.00 万台。由于两种AI 服务器对应的模型训练阶段不同,我们假设推理 AI 服务器和训练 AI 服务器使用的 GPU 数量分别为 4 张和 8 张,则可以计算出 2023 年和 2026 年全球 AI 服务器领域所需 GPU 数量约为 86.4 万张和 120 万张,我们以A100约1.20w美金的价格作为参考计算出2023

38、年和2026年AI服务器所需GPU的价值分别为 103.7 亿美元和 144.0 亿美元。Microsoft19%Google17%Meta16%AWS14%ByteDance6%Tencent2%Baidu2%Alibaba2%Others22%GPU48%Others52%2023 年 04 月 08 日 P.12 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 23:从 AI 服务器数量角度测算所需 GPU 数量和对应价值 服务器类型服务器类型 推理推理 训练训练 合计合计 2023E 服务器数量(万)14.4 3.6 18.0 2026E 服务器数量(万)20.0 5.0 25

39、.0 单服务器所需 GPU 数量(个)4.0 8.0 2023E 服务器所需 GPU 数量(万)57.6 28.8 86.4 2026E 服务器所需 GPU 数量(万)80.0 40.0 120.0 GPU 价格(万美元)1.2 1.2 2023E 服务器所需 GPU 价值(亿美元)69.1 34.6 103.7 2026E 服务器所需 GPU 价值(亿美元)96.0 48.0 144.0 资料来源:国盛电子测算,国盛证券研究所 汽车智能化带动汽车智能化带动 GPU 算力需求算力需求 辅助驾驶辅助驾驶成为汽车研发的重点方向成为汽车研发的重点方向,L1 至至 L5 级别越高自动化水平越高。级别越

40、高自动化水平越高。汽车自动化驾驶通常分为 5 个级别,L0 即人工驾驶;L2 半自动化驾驶较为普及,是大多数车型已经具备的功能;L3 几乎能完成全部自动驾驶,目前仅有奥迪 A8 为已上市 L3 级别车型;L4 只有在特定地段才需人工操纵其余时间告别驾驶员;L5 纯自动驾驶目前还只停留在概念阶段,无需人类操作驾驶以及辨别路况将彻底改变人们出行观念。图表 24:汽车 L0-L5 不同层次功能 等级等级 称呼称呼 转向、加减速控制转向、加减速控制 对环境的观察对环境的观察 激烈驾驶的应对激烈驾驶的应对 应对工况应对工况 L0 人工驾驶 驾驶员 驾驶员 驾驶员-L1 辅助驾驶 驾驶员+系统 驾驶员 驾

41、驶员 部分 L2 半自动驾驶 系统 驾驶员 驾驶员 部分 L3 高度自动驾驶 系统 系统 驾驶员 部分 L4 超高度自动驾驶 系统 系统 系统 部分 L5 全自动驾驶 系统 系统 系统 全部 资料来源:Functional Safety Expert,国盛证券研究所 我国将智能汽车自动驾驶分为 5 个阶段,分别为:辅助驾驶阶段(DA)、部分自动驾驶阶段(PA)、有条件自动驾驶阶段(CA)、高度自动驾驶阶段(HA)和完全自动驾驶阶段(FA)。2020 年发布的智能网联汽车技术路线图 2.0中指出:在2025年,我国PA与CA级智能网联汽车市场份额占比应超50%。(L2+L350%)。到2030年

42、PA与CA级份额超70%,HA级网联汽车份额达到20%。(L2+L370%,L420%)。到 2035 年,中国方案智能网联汽车产业体系更加完善,各类网联式高度自动驾驶车辆广泛运行于中国广大地区。(L3 以上网联汽车广泛使用)2023 年 04 月 08 日 P.13 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 25:智能网联汽车技术路线图 2.0中我国自动驾驶发展规划 资料来源:智能网联汽车技术路线图 2.0,国盛证券研究所 自动驾驶对于算力需求提升。为了实现 L2 或者更高等级的自动驾驶,往往需要部署如摄像头、激光雷达在内的多种传感器,例如 Tesla Model 3 车型中包

43、括了 8 个摄像头和 12个超声波雷达。多传感器带来的是庞大的数据处理需求,伴随携带自动驾驶功能的汽车销量持续提升,相关算力硬件需求也逐步扩大。目前英伟达自动驾驶平台 NVIDIA DRIVE Thor 能够提供 2000 TFLOPS 算力,为自动驾驶、车载 AI、停车辅助等多功能提供所需算力需求。图表 26:英伟达车载算力演变过程 资料来源:英伟达官网,国盛证券研究所 2022 年全球新能源汽车销量突破千万。年全球新能源汽车销量突破千万。根据 Clean Technica 数据,2022 年全球新能源汽车销量突破千万达 1009.12 万辆,占整体汽车市场 14%份额,其中比亚迪以 184

44、.77万辆的全年销售数据获得全球销量冠军。根据中国汽车工业协会数据,2023 年 1 月和 2月我国新能源汽车月度销量分别为 40.78 万辆和 52.50 万辆,由于 1-2 月为汽车销量传统淡季,2023 年 1 月与 2 月销量与 2022 年 12 月 81.38 万辆的月销量相比仍有差距。后续随着汽车电动化进程不断深化,我们认为全球范围内新能源汽车销量将会维持高速增长态势。2023 年 04 月 08 日 P.14 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 27:2022 年全球新能源汽车销量(分企业,万辆)图表 28:中国新能源汽车月销量(辆)资料来源:Clean T

45、echnica,国盛证券研究所 资料来源:中国汽车工业协会,Wind,国盛证券研究所 1.3 供给供给性能高速迭代,海外绝对垄断性能高速迭代,海外绝对垄断“黄氏定理”愈演愈烈“黄氏定理”愈演愈烈,GPU 性能高速迭代性能高速迭代。在集成电路中,Intel 创始人之一戈登摩尔曾今提出:集成电路上的可容纳晶体管数量大约在 24 个月就会增加一倍,后续这个时间被更新为 18 个月。目前在 GPU 领域,英伟达创始人之一黄仁勋也给出了自己的理解:GPU 性能提升一倍所需的时间约为 1 年,这相较于摩尔定理在集成电路中的速度提升了 1.5 倍左右。根据英伟达总裁 Bill Dally 表示,自 2012

46、 年开始直到 2021 年的 A100产品面世,GPU单芯片推理性能提升了约317倍,而其中工艺制程仅由28nm提升至7nm。图表 29:英伟达单芯片推理性能演变过程 资料来源:OFweek,国盛证券研究所 0204060800180200比亚迪特斯拉上汽通用五菱大众宝马奔驰广汽上汽长安奇瑞起亚吉利现代东风沃尔沃奥迪哪吒福特理想标致2022年全球新能源乘用车分企业销量情况(万辆)003000004000005000006000007000008000009000---042

47、-------102023-01中国新能源汽车月销量(辆)2023 年 04 月 08 日 P.15 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 边际成本边际成本或将或将下降。下降。我们用英伟达近三代旗舰 GPGPU 为例,通过对比我们发现,在 FP16 tensor 算力来看,性能实现逐代翻倍,虽然售价持续提升,但是我们通过计算发现最新一代 GPGPU 单位算力价格相较于上一代产品有所下降,我们认为如果 H100

48、 价格不出现较大幅度变动,那么英伟达新一代产品将在一定程度上降低推理、计算的边际成本。图表 30:英伟达近三代 GPGPU 对比(Nvidia H100 价格为沐曦预测)Nvidia V100 Nvidia A100 Nvidia H100 发布日期 2017.5 2020.6 2022.3 架构 Volta Ampere Hopper 工艺制程 TSMC 12nm TSMC 7nm TSMC 4nm 芯片面积(mm2)815 826 814 晶体管数量(Billion)21.1 54.2 80 首发售价(美元)9000 13000 36000 Boost Clock(MHz)1530 141

49、0 1620 FP16 tensor(TFLOPS)125 312 756.5 FP16 GFLOPS per USD 13.89 24.96 21.01 Total SRAM(MB)36 87.25 107 资料来源:沐曦 MetaX,国盛证券研究所 英伟达、英特尔、英伟达、英特尔、AMD 三巨头垄断三巨头垄断全球全球 GPU 市场。市场。全球全球 GPU 市场目前被海外企业垄市场目前被海外企业垄断:断:全球范围内,人工智能、云端计算和独立 GPU 主要为英伟达主导,旗下深度学习旗舰 GPU 产品 A100 和 H100 最高浮点算力分别实现 19.5 TFLOPS 和 67 TFLOPS;

50、PC GPU由于涵盖集成 GPU,英特尔由于为全球 CPU 龙头,使其在 PC GPU 中份额最高。根据 Jon Peddie Research 数据,2022 年四季度 PC GPU 中,英特尔、英伟达、AMD 份额分别为 71%、17%、12%;2022Q4 独立 GPU 中,英特尔、英伟达、AMD 份额分别为 6%、85%、9%。图表 31:全球 PC GPU 份额情况(按季度,%)图表 32:全球独立 GPU 份额情况(内圈为 2022Q3,外圈为 2022Q4,%)资料来源:Jon Peddie Research,国盛证券研究所 资料来源:Jon Peddie Research,国盛

51、证券研究所 高端型号高端型号 GPU 出口限制出口限制,国产化迫在眉睫。,国产化迫在眉睫。2022 年 8 月,美国政府通知英伟达,其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的 A100 GPU 或 DGX/HGX 等系统,同时该项规定也同时适用于最新发布的 H100 GPU 或者实现类似功能的产品。根据上文信息,我们发现目前全球范围内 GPU 市场几乎被美国垄断,尤其在人工智能领域中英伟达产品被广泛使用。0%10%20%30%40%50%60%70%80%90%100%2021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q4英特尔英伟达AM

52、D7%86%6%9%85%6%AMD英伟达英特尔 2023 年 04 月 08 日 P.16 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 33:SEC 对英伟达 A100、H100 等高端 GPU 出口限制文件 资料来源:SEC,国盛证券研究所 高端型号产品的出口限制将在很大程度上影响国内相关领域的发展,根据上文我们计算出GPT-3当日完成训练需要的A100数量将超过3万块,国内公司百度旗下大模型ERNIE 3.0 Titan,参数量达到 2600 亿,高于 GPT-3 的 1750 亿,其所需的同规格 GPU 数量将远大于 GPT-3(根据上文我们得知 1024 块 A100 训

53、练 GPT-3(1750 亿参数)所需时间约为 30 天,则我们可以根据比例计算出百度 ERNIE 3.0 Titan 模型(2600 亿参数)训练30 天所需 A100 数量约为 1522 块。)同时我们认为,未来 AI 倘若进入大模型时代,相关算力需求将快速增加,届时对于国产高算力 GPU 需求将进一步提升,所以说 GPU 国产化进程迫在眉睫。图表 34:模型参数不断演进 资料来源:QCon 全球软件开发大会,国盛证券研究所 2023 年 04 月 08 日 P.17 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 二、二、相关公司相关公司 2.1 英伟达:英伟达:复盘复盘全球全球 GP

54、U 龙头龙头 英伟达创立之初是一家为图形计算提供加速器的无晶圆厂半导体设计公司,1993 年黄仁勋、Chris Malachowsky 和 Curtis Priem 共同创立了英伟达,1999 年英伟达推出 GeForce 256 绘图处理芯片时在全球首次提出 GPU(图形处理器)概念,2006 年推出革命性的用于通用 GPU 计算的统一计算架构平台 CUDA,使得 GPU 可以被用于需要处理大量并行计算的领域。同时 1999 年英伟达在纳斯达克上市,当时公司的收入来源主要为 PC 业务,强大的产品力和与当时头部PC厂商的合作,英伟达用三年时间将营收从1995年的118.2万美金提升到 199

55、8 年的 1.6 亿美金。革命性革命性 CUDA 架构,打开架构,打开 GPU 通用通用计算大门。计算大门。2006 年底,英伟达推出 CUDA 通用并行计算架构,CUDA是用于GPU计算的开发环境,是一个全新得软硬件架构,它包含了CUDA指令集架构(ISA)以及 GPU 内部的并行计算引擎,可将 GPU 视作一个并行数据计算的设备,对运行的计算进行分配和管理。在 CUDA 的架构中,计算不再像过去那样必须将计算映射到图形 API(OpenGL 或 DirectX)中,开发者可以用 C 语言为 CUDA 架构编写程序,从而在支持 CUDA 的处理器上以超高性能运行密集数据计算解决方案,解决复杂

56、计算问题,CUDA 的广泛应用造就了计算专用 GPU 的崛起,使得英伟达得以进军高性能计算领域。推出推出新产品系列,平台型布局初现新产品系列,平台型布局初现。2008 年英伟达发布了支持 CUDA 1.1 的 GeForce 9系列 GPU,以及采用了第二代 CUDA 架构的 GeForce 200 系列 GPU,NVIDIA 在 GT 200中引入了大量重要改进,GT200 具有极高的处理能力和存储器带宽,用于通用计算时的可编程性和灵活性也更加突出,采用 Tesla 架构,这也是英伟达数据中心 GPU 系列产品的第一代架构。同年,NVIDIA 还发布了 Tegra 系列产品,进军移动处理器市

57、场。图表 35:英伟达 19992012 年复盘(美元)资料来源:彭博,国盛电子整理,国盛证券研究所 2023 年 04 月 08 日 P.18 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 从现在的角度出发,回顾历史我们认为,2012 年是英伟达业务布局的关键之年,2012年开始深度学习技术革命性的快速发展,彼时深度学习可以打败基于人工代码的软件,到 2015 年深度学习已经可以在 ImageNet 挑战赛战胜真人,GPU 在此过程中为深度学习计算提供强劲支撑,深度学习的高速发展使得 AI 技术下游应用领域打开,技术、应用、GPU 产品迭代形成良性循环。2015 年之后,英伟达发布旗下第

58、一代自动驾驶平台 Drive PX,同时自身游戏业务表现十分强劲,在全球芯片公司业绩相对疲软的阶段,英伟达业绩表现亮眼。随后以比特币为首的加密货币价格急速暴涨,对于其相关的炒作火热,这在一定程度上使得英伟达 GPU出货量在 20172018 年间出现增长,对应股价也出现明显涨幅,随后伴随加密货币价格大跌和加密货币热潮褪去,股价回落至正常态势。图表 36:英伟达 20132019 年复盘(美元)资料来源:彭博,国盛电子整理,国盛证券研究所 进入 2020 年,2020 年初由于不可预测事件导致全球供应链中断,产线被迫停止,导致英伟达受到较大影响:2020 一季度公司收入、利润同比出现负增长。在

59、2020 年 9 月,英伟达首次宣布 400 亿美元拟收购 Arm,如果收购顺利进行将成为英伟达历史上最大额度收购。2021 年全球半导体进入短缺状态,英伟达业绩表现强劲,同时发布了 Omniverse 平台拥抱元宇宙,公司股价出现较大的涨幅。随后到 2022 年,伴随加密货币价格暴跌,相关 GPU 需求几乎消失,同时公司主营游戏业务需求不及预期,伴随去库存带来的毛利率和业绩同时下滑,公司股价出现回落。2023 年初,由 OpenAI 发布的基于 GPT-3.5 架构的大型语言模型火爆,人工智能收到广泛关注,同时由于大模型的整体发展趋势,具有较强算力的 GPU 产品受到高度关注,公司或将在未来

60、深度受益于人工智能发展,公司股价出现明显涨幅。2023 年 04 月 08 日 P.19 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 37:英伟达 20202023 年复盘(美元)资料来源:Wind,国盛电子整理,国盛证券研究所 H100 算力再提升算力再提升,LLM 模型中较模型中较 A100 训练提升训练提升 9 倍。倍。2022 年英伟达发布新一代基于 Hopper 架构的 H100,主要用于下一代加速计算平台。H100 拥有 800 亿个晶体管,采用第四代 Tensor Core 和具有 FP8 精度的 Transformer 引擎,与 MoE 模型相比,训练速度提高了 9

61、 倍。H100 通过多项改进将推理加速高达 30 倍并提供最低的延迟。其搭载的第四代 Tensor Cores 加速了所有精度,包括 FP64、TF32、FP32、FP16、INT8 和 FP8,以减少内存使用并提高性能的同时仍保持 LLM 的精度。H100 将双精度 Tensor Core 的每秒浮点运算(FLOPS)提高了三倍,为 HPC 提供了 60 teraflops 的 FP64 计算。图表 38:NVIDIA H100 Tensor Core GPU 图表 39:H100 在 LLM 模型中进行 9 倍的训练(相较于 A100)资料来源:英伟达官网,国盛证券研究所 资料来源:英伟达

62、官网,国盛证券研究所 根据英伟达 2023 年 3 月法说会,英伟达加速源自于 DGX,这是 LLM 实现突破的关键部件之一。根据英伟达描述,截止目前 财富截止目前 财富 100 强的企业中已经有半数安装了强的企业中已经有半数安装了 DGX AI 2023 年 04 月 08 日 P.20 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 超级计算机,超级计算机,DGX 已经成为已经成为 AI 领域中的必备工具。领域中的必备工具。目前英伟达最新的 DGX 将搭载 8个 H100 模组,H100 搭载 Transformer 模型,旨在用于处理类似于 GPT-3 的 LLM 模型,8 个 H10

63、0 模组通过 NVSwitch 连接的方式组成一个无通信阻碍的大型 GPU。根据官网信息,NVIDIA DGX H100 具有 6 倍的性能、2 倍的网络速度和高速可扩展性,同时英伟达表示目前新款 DGX H100 已经全面投入生产。图表 40:NVIDIA DGX H100 资料来源:英伟达官网,国盛证券研究所 2022 年年受受需求及去库存影响,业绩短期承压。需求及去库存影响,业绩短期承压。2023 财年中(2022 年),英伟达实现营收 269.7 亿美金,略高于 2022 财年的 269.1 亿美金;净利润实现 43.68 亿美金,同比下滑 55.21%。2023 财年英伟达由于全球消

64、费相对低迷,同时叠加上公司的库存调整,公司游戏业务短期承压,总体利润情况也呈现下滑。未来我们认为,公司在 GPU 领域依旧具备全球龙头地位,下游人工智能、服务器等领域伴随人工智能大模型进程不断推进,相关 GPU 需求或将显著增加。图表 41:英伟达近年营收及增速(亿美元,%)图表 42:英伟达近年净利润及增速(亿美元,%)资料来源:Wind,国盛证券研究所 资料来源:Wind,国盛证券研究所 公司毛利率水平维持平稳,2023 财年由于公司收入结构的变化以及消化库存的影响,2023 财年综合毛利率 56.93%,同比下滑 8.00pct;同时公司 2023 财年净利率 16.19%,-20%-1

65、0%0%10%20%30%40%50%60%70%05003002013 2014 2015 2016 2017 2018 2019 2020 2021 2022营业收入(亿美元)同比(%)-100%-50%0%50%100%150%200%0204060801001202013 2014 2015 2016 2017 2018 2019 2020 2021 2022净利润(亿美元)同比(%)2023 年 04 月 08 日 P.21 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 同比下滑 20.04%。未来我们认为伴随大模型 AI 的逐渐普及,对于公司例如 A100

66、、H100等专业级 GPU 需求量将提升,改善自身产品结构,提升盈利能力;同时我们认为未来伴随全球消费复苏,公司游戏业务及对应消费级 GPU 需求将恢复至正常水平。图表 43:英伟达近年毛利率、净利率变化(%)资料来源:Wind,国盛证券研究所 2.2 国产国产 GPU 欣欣向荣欣欣向荣 近几年近几年,国产,国产 GPU 厂商不断涌向厂商不断涌向,其中:,其中:景嘉微:景嘉微:公司是国内首家成功研制国产 GPU 芯片并实现大规模工程应用的企业,掌握了包括芯片底层逻辑/物理设计、超大规模电路集成验证、模拟接口设计、GPU 驱动程序设计等关键技术,在 GPU 体系结构、图形绘制高效处理算法、高速浮

67、点运算器设计、可复用模块设计、快速大容量存储器接口设计、低功耗设计等方面有深厚的技术积累,先后研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主知识产权的高性能 GPU 芯片,为国内 GPU 的突破发展做出了突出的贡献。图表 44:景嘉微 JM9 系列 GPU 参数 型号型号 JM9-1 JM9-2 显存容量 8GB 8GB 显存带宽 128GB/s 25.6GB/s 总线接口 PCIe 4.0 X8 PCIe 4.0 X8 FP32 性能 1.5 TFLOPS 512 GFLOPS 像素填充率 32G Pixels/s 8G Pixels/s 资料来源:景嘉微公告,国盛证券研究所

68、沐曦集成电路:沐曦集成电路:公司于 2020 年 9 月成立,核心成员平均拥有近 20 年高性能 GPU 产品端到端研发经验。沐曦打造全栈 GPU 芯片产品,推出 MXN 系列 GPU(曦思)用于 AI推理,MXC 系列 GPU(曦云)用于 AI 训练及通用计算,以及 MXG 系列 GPU(曦彩)用于图形渲染,满足数据中心对“高能效”和“高通用性”的算力需求。沐曦产品均采用完全自主研发的 GPU IP,拥有完全自主知识产权的指令集和架构,配以兼容主流 GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案。0%10%20%30%40%

69、50%60%70%2000022综合毛利率(%)净利率(%)2023 年 04 月 08 日 P.22 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 45:沐曦集成电路产品:MXC(主要针对 AI 训练,AI 推理等场景)图表 46:沐曦集成电路产品:MXG(主要针对图形渲染)资料来源:沐曦集成电路官网,国盛证券研究所 资料来源:沐曦集成电路官网,国盛证券研究所 壁仞科技:壁仞科技:创立于 2019 年,致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技

70、将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。2022 年壁仞科技推出旗下首款旗舰 GPU芯片:BR100,其采用 7nm 制程,支持 PCIe 5.0 接口,根据壁仞科技发布会,BR100 16位浮点算力达到 1000T 以上,8 位定点算力达到 2000T 以上,单芯片峰值算力达 PFLOPS级别。图表 47:壁仞科技产品:壁砺100P 图表 48:壁仞科技产品:壁砺104P 资料来源:壁仞科技官网,国盛证券研究所 资料来源:壁仞科技官网,国盛证券研究所 摩尔线程:摩尔线程:成立于 2020 年 10 月,专注

71、于研发设计全功能 GPU 芯片及相关产品,支持3D 图形渲染、AI 训练与推理加速、超高清视频编解码、物理仿真与科学计算等多种组合工作负载,兼顾算力与算效,能够为中国科技生态合作伙伴提供强大的计算加速能力,广泛赋能数字经济多个领域。根据摩尔线程官网,旗下 MTT S80 产品 GPU 核心频率1.8GHz,具有 18GB 显存,FP32 算力达到 14.4 TFLOPS。2023 年 04 月 08 日 P.23 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 49:摩尔线程 MTT S80 产品 资料来源:摩尔线程官网,国盛证券研究所 芯动科技:芯动科技:一站式 IP 和芯片定制及

72、GPU 领军企业,聚焦计算、存储、连接等三大赛道,提供跨全球各大工艺厂(台积电/三星/格芯/中芯国际/联华电子/英特尔/华力)从 55 纳米到 5 纳米全套高速 IP 核以及高性能定制芯片解决方案。根据芯动科技官网,在公司成立后,先后推出了“风华 1 号”4K 级多路服务器 GPU、“风华 2 号”4K 级三屏桌面和嵌入式 GPU,采用全套自主高端 IP,性能强劲,跑分领先,功耗低,自带智能计算能力,全面支持国内外 CPU/OS 和生态,包括 Linux、Windows 和 Android。表 50:芯动科技“风华 1 号”服务器显卡 图表 51:芯动科技“风华 2 号”桌面显卡 资料来源:芯

73、动科技官网,国盛证券研究所 资料来源:芯动科技官网,国盛证券研究所 登临科技:登临科技:成立于 2017 年底,专注于高性能通用计算平台的芯片研发与技术创新,致力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产品和平台化基础系统软件。公司自主创新的 GPU+(基于 GPGPU 的软件定义的片内异构计算架构),在兼容CUDA/OpenCL 在内的编程模型和软件生态的基础上,通过架构创新,完美解决了通用性和高效率的双重难题。大量客户产品实测证明,针对 AI 计算,GPU+相比传统 GPU 在性能尤其是能效上有显著提升。2023 年 04 月 08 日 P.24 请仔细阅读本报告末页声明请仔细

74、阅读本报告末页声明 图表 52:登临科技产品:Goldwasser-UL 图表 53:登临科技产品:Goldwasser-XL 资料来源:登临科技官网,国盛证券研究所 资料来源:登临科技官网,国盛证券研究所 通过各公司官网,我们比较目前公开披露的国内外各厂家专业 GPU 算力情况,通过比较我们发现,目前在单精度浮点运算性能(FP32)算力中,国内外厂商均处于 TFLOPS 量级,海外龙头英伟达和 AMD 旗舰信号 H100 SXM 和 MI250 x 分别实现 FP32 算力 67 TFLOPS 和 47.9 TFLOPS。国内摩尔线程最高 FP32 算力产品 MTT S3000,算力为 15

75、.2 TFLOPS;壁仞科技壁砺100P 产品最高实现 240 TFLOPS 的 FP32 算力;芯动科技“风华 1 号”产品实现 FP32 算力 5 TFLOPS。通过对比我们发现,在绝大多数情况下,国产GPU 相较于海外龙头旗舰产品仍有较大差距。图表 54:国内专业 GPU 算力与海外龙头比较 厂商厂商 产品型号产品型号 发布年份发布年份 工艺制程工艺制程 显存容量显存容量(GB)FP32 算力算力(TFLOPS)Nvidia V100 SXM2 2017 12nm 32 15.7 Nvidia A100 SXM 2020 7nm 80 19.5 Nvidia H100 SXM 2023

76、4nm 80 67 AMD MI100 2020 7nm 32 23.1 AMD MI250 x 2021 6nm 128 47.9 AMD MI250 2021 6nm 128 45.3 AMD MI210 2022 6nm 64 22.6 摩尔线程 MTT S2000 2022 12nm 32 10.6 摩尔线程 MTT S3000 2022-32 15.2 壁仞科技 壁砺100P 2022 7nm 64 240 芯动科技 风华 1 号 2021-16 5 资料来源:各公司官网,国盛证券研究所 2023 年 04 月 08 日 P.25 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 三

77、、三、标的推荐标的推荐 3.1 景嘉微景嘉微:潜心研发,国产:潜心研发,国产 GPU 龙头静待花开龙头静待花开 2022 年年 10 月,景嘉微发布月,景嘉微发布 2022 年三季报:年三季报:公司 2022 年前三季度实现营收 7.29 亿元,yoy-10.35%;归母净利润 1.73 亿元,yoy-30.60%。公司 2022Q3 单季度实现营收1.85亿元,yoy-45.21%,qoq+1.79%;归母净利润0.48亿元,yoy-60.86%,qoq+2.01%。前三季度综合毛利率 64.82%,同比+1.58 pct。2022 年前三季度受到芯片业务相关需求的疲软,整体业绩短期承压。长

78、期来看:我们认为,得益于公司 GPU 芯片的竞争优势以及相关产业国产化加速的趋势愈发显著,公司有望重回快速成长车道。JM9 第二款芯片进展顺利。第二款芯片进展顺利。根据公司公告,截止 2022 年 5 月,JM9 系列第二款图形处理芯片已经完成流片、封装阶段工作。第二款 JM9 系列芯片采用 PCIE 4.0 接口,显存带宽达到 25.6GB/s,现存容量为 8G,能够支持 X86、ARM、Linux 等操作系统且功耗低于15W。我们认为 JM9 系列第二款芯片的成功研发进一步丰富了公司的产品线,提高了图形显示领域的核心竞争力,对于其后续相关测试工作的顺利进行以及未来对于业绩的贡献值得期待。国

79、产化加速迫在眉睫。国产化加速迫在眉睫。目前中美科技竞争愈发激烈:2022 年 8 月 9 日,美国总统签署了2022 芯片与科技法案,8 月 12 日美国商务部宣布限制 EDA 软件;8 月 31 日,英伟达和 AMD 宣布美国政府禁止其向中国销售高性能 GPU。当前我国的信创已经取得了较大的进步:软件方面,国产操作系统、数据库、EDA 等领域均实现快速发展;硬件方面国产 CPU、GPU、5G 芯片等均实现突破。我们认为随着国际形势的的日益复杂、国产化需求持续提升,同时在“十四五”国家信息化规划等国家强政策的驱动下,我国信创或将迎来高速发展。景嘉微为 A 股唯一 GPU 芯片设计公司,图形显示

80、卡产品研发顺利。研发方面,公司大力投入研发:公司小型雷达产品、图形处理芯片持续更新迭代,综上所述,维持“买入”评级。风险提示:风险提示:下游需求不及预期、新产品研制进展不及预期、市场竞争加剧。3.2 寒武纪寒武纪:国产:国产 AI 芯片领军企业芯片领军企业 公司成立于 2016 年,专注于 AI 芯片的研发和创新。云端产品线方面,公司已先后推出了思元 100、思元 270、思元 290 和思元 370 芯片及相应的云端智能加速卡系列产品、训练整机。与互联网行业、金融领域及多个行业客户展开了合作。边缘产品线方面,公司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业,自发

81、布以来累计销量突破百万片。IP 授权及软件方面,公司先后推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器,授权给客户在其产品中使用。公司发布 2022 年业绩快报,2022 年公司实现营收 7.29 亿,同比提升 1.11%;归母净利润-11.66 亿,同比下降 41.40%。根据公司公告,2022 年公司随着云端产品线思元 290、思元 370 系列产品在多家头部企业完成产品导入,成功与多家头部企业实现了合作,形成了有效拓展,带动 2022 年云端产品线业务收入的大幅增长。同时,2022 年公司智能计算集群系统业务收入与 2021 年基本持平,收入主要来自南京智能

82、计算中心项目(二、三)期智能计算设备(二期)。保持高研发投入。保持高研发投入。2017 年至 2021 年,公司研发费用均超过营业总收入,研发投入巨大。2023 年 04 月 08 日 P.26 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2022 年前三季度,公司累计收入 2.64 亿,研发投入 9.49 亿,研发费用率约为 359.01%。根据公司公告,2022 年为确保“云边端”芯片产品及基础系统软件平台的高质量迭代,在竞争激烈的市场中保持技术领先优势,持续加大研发投入,积极引进行业人才、保持公司研发团队稳定,研发人员薪酬、流片费用、研发设备及 IP 对应的折旧和摊销等费用较上年同

83、期显著增加。思元思元 370 性能提升显著。性能提升显著。思元 370 是公司第三代云端产品,于 2021 年推出。其采用台积电 7nm 先进制程工艺,同时也是公司首款采用 Chiplet 技术的人工智能芯片。思元 370智能芯片最大算力高达 256TOPS(INT8),为思元 270 算力的 2 倍。同时,思元 370 芯片支持 LPDDR5 内存,为思元 270 的 3 倍。由于思元 370 智能芯片采用了先进的 Chiplet芯粒技术,支持芯粒间的灵活组合,仅用单次流片就达成了多款智能加速卡产品的商用。截止 2021 年底公司已推出 3 款加速卡:MLU370-S4、MLU370-X4、

84、MLU370-X8,已与国内主流互联网厂商开展深入的应用适配。募资募资 16.72 亿投入芯片项目。亿投入芯片项目。根据公司 2023 年 2 月公告,公司 2022 年向特定对象发行股票拟募集资金约 16.72 亿,其中拟分别投入先进工艺平台芯片项目 7.18 亿、稳定工艺平台芯片项目 7.00 亿、面向新兴应用场景的通用智能处理器技术研发项目 2.19 亿和补充流动资金 0.36 亿。风险提示:风险提示:下游需求不及预期、新产品研制进展不及预期、市场竞争加剧。3.3 芯原股份芯原股份:国产:国产 IP 龙头,龙头,Chiplet 持续加速持续加速 芯原股份发布芯原股份发布 2022 年报年

85、报。公司 2022 年实现营收 26.79 亿,同比增长 25.23%;实现归母净利润 0.74 亿,同比增长 455.31%;综合毛利率 41.59%,同比提升 1.53pct。2022年公司研发投入 8.37 亿,研发费用率 29.60%。其中 2022 年四季度公司实现营收 7.95亿,同比增长 28.56%;归母净利润 0.41 亿,同比增长 16.90%;2022Q4 毛利率 43.95%,同比下降 3.89pct,环比提升 5.26pct。分业务结构来看:分业务结构来看:知识产权授权使用费收入知识产权授权使用费收入 7.85 亿元,同比增长亿元,同比增长 28.79%。其中半导体

86、IP 授权次数 190 次,较 2021 年下降 38 次,平均单次知识产权授权收入 413.37 万元,同比增长 54.55%。特许权使用费收入 1.08 亿元,同比增长 12.49%。在核心处理器 IP相关营业收入中,图形处理器 IP、神经网络处理器 IP 和视频处理器 IP 收入占比较高,这三类 IP 在 2022 年度半导体 IP 授权业务收入(包括知识产权授权使用费收入、特许权使用费收入)中占比合计约 65%。现芯片设计业务收入现芯片设计业务收入 5.73 亿元,同比增长亿元,同比增长 4.46%。其中 14nm 及以下工艺节点收入占比 64.23%,7nm 及以下工艺节点收入占比

87、55.43%。公司在执行芯片设计项目 82 个,其中 28nm 及以下工艺节点的项目数量占比为 47.56%,14nm 及以下工艺节点的项目数量占比为 24.39%,7nm 及以下工艺节点的项目数量占比为 8.54%。量产业务收入量产业务收入 12.07 亿元,同比增长亿元,同比增长 36.41%。报告期内,为公司贡献营业收入的量产出货芯片数量 118 款,均来自公司自身设计服务项目,另有 39 个现有芯片设计项目待量产。公司报告期内量产业务订单出货比约 1.15 倍。分下游应用领域来看:分下游应用领域来看:物联网领域物联网领域实现营业收入 9.06 亿元,占营业收入比重为 33.82%,占比

88、较 2021 年度增加 8.38 个百分点;消费电子领域消费电子领域实现营业收入 5.77 亿元,占营业收入比重为 21.52%,占比较 2021 年度下降 9.37 个百分点。汽车电子领域汽车电子领域收入保持较高增速,同比提升172.57%,工业、物联网工业、物联网等下游行业的收入分别增加 103.16%、66.50%。2023 年 04 月 08 日 P.27 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 推进推进 Chiplet 技术产业化。技术产业化。2022 年 4 月,公司正式加入 UCIe 产业联盟,近年来公司通过“IP 芯片化,IP as a Chiplet”、“芯片平台化

89、,Chiplet as a Platform”,以及进一步延伸的“平台生态化,Platform as an Ecosystem”,来促进 Chiplet 的产业化。多款多款 AI 芯片使用芯原芯片使用芯原 IP。截止 2022 年底,公司神经网络处理器 NPU IP 已被 60 家客户用于其 110 余款人工智能芯片中。公司率先将人工智能技术深度集成到特定领域的处理器中内置芯原 NPU 的芯片主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等 10 余个市场领域。风险提示:风险提示:下游需求不及预期。3.4 海光信息海光信息:国产:国产

90、 CPU、DCU 龙头龙头 公司发布 2022 年业绩快报。2022 年公司实现营收 51.25 亿,同比增长 121.83%;归母净利润 8.02 亿,同比增长 145.18%。2022 年公司始终专注于高端处理器的研发、设计,不断加大技术创新力度,实现产品升级。公司 2022 年围绕通用计算市场,通过技术创新、产品迭代、功能提升等举措,不断提升产品竞争优势,同时国产服务器市场需求大幅提升,使得公司业绩增长显著。性能卓越性能卓越+安全可信,根植本土加速生态建设。安全可信,根植本土加速生态建设。1)核心技术自主可控,性能卓越具备市场竞争力:率先完成高端通用处理器和协处理器产品的商业化应用,产品

91、性能对标海外一线厂商,在国内厂商中处于领先地位,产品获国内用户广泛认可,行业信创大单不断验证产品竞争力。2)安全可信,内置专用安全软硬件,满足关键信息基础设施的数据安全需求。3)兼容主流生态,成立“光合组织”,加速以海光为核心的自主化生态建设,根植本土市场拓展应用场景。国产化加速迫在眉睫。国产化加速迫在眉睫。目前中美科技竞争愈发激烈:2022 年 8 月 9 日,美国总统签署了2022 芯片与科技法案,8 月 12 日美国商务部宣布限制 EDA 软件;8 月 31 日,英伟达和 AMD 宣布美国政府禁止其向中国销售高性能 GPU。当前我国的信创已经取得了较大的进步:软件方面,国产操作系统、数据

92、库、EDA 等领域均实现快速发展;硬件方面国产 CPU、GPU、5G 芯片等均实现突破。我们认为随着国际形势的的日益复杂、国产化需求持续提升,同时在“十四五”国家信息化规划等国家强政策的驱动下,我国信创或将迎来高速发展。维持“增持”评级。风险提示:风险提示:下游需求不及预期、行业竞争加剧。2023 年 04 月 08 日 P.28 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 四、四、风险提示风险提示 下游需求不及预期:下游需求不及预期:文中观点很大程度上基于下游需求正常情况,倘若未来下游需求不及预期,则将对观点判断造成一定影响。国产化替代不及预期:国产化替代不及预期:目前全球 GPU 市

93、场被海外企业垄断,文中观点基于未来相关产品国产化率逐步提升的前提下判断,倘若未来国产化率提升速度不及预期则将会影响当下判断。测算误差风险:测算误差风险:文中部分数据为国盛电子测算,倘若与真实值有误差将在一定程度上影响当下判断。2023 年 04 月 08 日 P.29 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 免责声明免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司

94、认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成

95、客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本报告版权归“国盛证券有限责任公司”所有。未经事先本公司书面授权,任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用、刊发本报告,需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会

96、授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法,结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明 投资建议的评级标准投资建议的评级标准 评级评级 说明说明 评级标准为报告发布日后的 6 个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中 A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普

97、 500 指数或纳斯达克综合指数为基准。股票评级 买入 相对同期基准指数涨幅在 15%以上 增持 相对同期基准指数涨幅在 5%15%之间 持有 相对同期基准指数涨幅在-5%+5%之间 减持 相对同期基准指数跌幅在 5%以上 行业评级 增持 相对同期基准指数涨幅在 10%以上 中性 相对同期基准指数涨幅在-10%+10%之间 减持 相对同期基准指数跌幅在 10%以上 国盛证券研究所国盛证券研究所 北京北京 上海上海 地址:北京市西城区平安里西大街 26 号楼 3 层 邮编:100032 传真: 邮箱: 地址:上海市浦明路 868 号保利 One56 1 号楼 10 层 邮编:200120 电话: 邮箱: 南昌南昌 深圳深圳 地址:南昌市红谷滩新区凤凰中大道 1115 号北京银行大厦 邮编:330038 传真: 邮箱: 地址:深圳市福田区福华三路 100 号鼎和大厦 24 楼 邮编:518033 邮箱:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(电子行业:“AI革命”算力篇-230408(29页).pdf)为本站 (潘多拉魔盒) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部