《电子行业AI算力供应链系列报告:大模型时代AI服务器需求提升算力市场打开长线空间-230420(27页).pdf》由会员分享,可在线阅读,更多相关《电子行业AI算力供应链系列报告:大模型时代AI服务器需求提升算力市场打开长线空间-230420(27页).pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、 敬请阅读末页的重要说明 证券研究报告|行业深度报告 2023 年 04 月 20 日 推荐推荐(维持)(维持)AI 算力算力供应链供应链系列系列报告报告 TMT 及中小盘/电子 本篇报告本篇报告详细分析了详细分析了 AI 大模型发展背后对于算力需求的增长逻辑,给出了进行大模型发展背后对于算力需求的增长逻辑,给出了进行大模型训练和推理阶段算力芯片需求量的测算原理,从服务器拆分的角度针对大模型训练和推理阶段算力芯片需求量的测算原理,从服务器拆分的角度针对AI 服务器的发展趋势进行了解读,结合对英伟达商业布局的分析,建议关注服务器的发展趋势进行了解读,结合对英伟达商业布局的分析,建议关注 AI服务
2、器等算力硬件服务器等算力硬件产业链相关标的产业链相关标的。AI 大模型通常伴随着计算量和模型数量同步增长,全球算力需求大模型通常伴随着计算量和模型数量同步增长,全球算力需求数数倍倍增长增长。AI 模型的研究和应用主要分为训练和推理过程,从 GPT-1 的 1.17 亿参数量到 GPT-3 的 1750 亿参数量深刻展示了大模型发展过程中算力需求的快速增长。我们认为出于商业竞争和国家地区数据安全等角度考虑,未来全球各大互联网公司和各个国家地区都将逐步发展自己的 AI 大模型。GPT-3 训练阶段1 天内完成至少需要 3 万颗以上的 A100 芯片,未来 5 年 AI 大模型训练端和推理端 GPU
3、 芯片市场规模望超 1000 万元,AI 服务器市场规模超 2000 亿元。数据中心是未来智算基础数据中心是未来智算基础保障保障,AI 服务器作为核心设施成长空间可观服务器作为核心设施成长空间可观。服务器占数据中心购置成本的 70%,未来 AI 算力需求增多的背景下会对数据中心产生更多需求。当前全球服务器的年度出货量级约在 1300 万台左右,预计2022 年 AI 服务器占 1%,同时考虑到采用 GPU 服务器的数据中心购置成本将显著低于纯 CPU 方案的数据中心,预计未来 AI 服务器出货量增速将高于行业整体,占比亦将逐步提升。从通用服务器到 AI 服务器,一个最显著的变化就是 GPU 取
4、代了 CPU 成为整机最核心的运算单元以及价值量占比最大的部分,传统服务器通常至多配备 4 个 CPU+相应内存和硬盘,在 AI 服务器中,通常是2颗CPU+8颗GPU,部分高配4U服务器中甚至可以搭配16颗GPU,预计 AI 服务器中 GPU+CPU+存储的价值量占比有望达到 80%以上的水平。AI 研究与软硬件生态息息相关研究与软硬件生态息息相关,英伟达多层次全面英伟达多层次全面布局提供综合解决方案。布局提供综合解决方案。英伟达围绕数据中心业务提供 GPU/CPU/DPU/DGX 系统硬件支持,并提供多种加速库与云服务,最新一代大模型芯片为 H100 GPU,并提供擅长单线程和内存处理的G
5、race CPU与释放CPU资源的BlueField DPU加速计算单元,DGX 系统可用于构建 AI 超级计算机。软件方面推出多种加速库与 DGX Cloud、AI Foundations,可帮企业与科学研究实现加速计算,为全球云服务商提供 AI 技术及定制 LLM 和生成式 AI,CUDA 架构深度适配 PyTorch 等多种深度学习框架,协助英伟达打造全球用户对于英伟达产品体系的深度粘性。投资建议:投资建议:随着 AI 大模型的发展和应用推广,算力需求将与日俱增,数据中心或将成为未来核心竞争力保障之一,服务器作为数据中心的核心设备未来亦有望受益于算力需求的增长浪潮。考虑到未来 AI 服务
6、器整体出货量占比有望逐步提升,建议关注服务器硬件层面所涉及到的 GPU、CPU、存储、PCB/IC载板、连接器及线缆、散热、电源、模拟芯片、接口类芯片、RAID 卡、功率器件等零部件(详细产业链标的梳理参见正文投资建议),同时考虑到 GPU作为未来 AI 服务器的算力核心以及是价值量占比最大的部分,建议关注国际GPU 龙头英伟达及其产业链标的,同时关注寒武纪、海光信息和景嘉微等国内布局 GPU 等核心算力芯片产品的厂商。风险提示:风险提示:下游需求不及预期的风险、行业竞争加剧的风险、宏观政策下游需求不及预期的风险、行业竞争加剧的风险、宏观政策和国和国际形势变化际形势变化的风险、技术路径变化的风
7、险的风险、技术路径变化的风险、供应链受限供应链受限的风险的风险。行业规模行业规模 占比%股票家数(只)456 9.2 总市值(亿元)81406 9.4 流通市值(亿元)60808 8.3 行业指数行业指数%1m 6m 12m 绝对表现 9.3 16.1 26.9 相对表现 4.1 7.7 27.0 资料来源:公司数据、招商证券 相关相关报告报告 1、存储行业跟踪报告存储拐点曙光初现,自主可控持续加速2023-04-04 2、PCB 行业跟踪报告AI 高算力需求打开长线空间,行业景气有望企稳回升2023-03-23 3、英伟达 GTC 2023 跟踪报告AI 的 iPhone 时刻到来,英伟达全
8、力加速生成式 AI 发展2023-03-23 鄢凡鄢凡 S02 曹辉曹辉 S01 -20-Apr/22Aug/22Nov/22Mar/23(%)电子沪深300大模型时代大模型时代 AI 服务器服务器需求需求提升提升,算力市场算力市场打开长线空间打开长线空间 敬请阅读末页的重要说明 2 行业深度报告 正文正文目录目录 一、大语言模型通常计算量和模型数量同步增长,大幅提升全球算力需求一、大语言模型通常计算量和模型数量同步增长,大幅提升全球算力需求.4 1、AI 模型分为训练和推理两个过程,GPT 模型进步的一个显著特征是参数量大幅提
9、升.4 2、全球互联网等大厂和各个国家及地区均有望推出自研大模型巩固核心竞争力.5 3、模型参数量和数量两方面增长带来更多算力需求,远期推理算力需求望超训练需求.6 二、数据中心建设是智能时代核心竞争力的基础保障,二、数据中心建设是智能时代核心竞争力的基础保障,AI 服务器作为其核心设施未来占比望逐步增长服务器作为其核心设施未来占比望逐步增长.10 1、数据中心等产生更多服务器需求,AI 服务器出货量占比 1%增速超服务器行业整体.10 2、服务器演进从以 CPU 为主逐步到以 GPU 为核心,大芯片+存储将占据主要价值量.12 三、三、AI 研究与发展和软硬件生态息息相关,英伟达研究与发展和
10、软硬件生态息息相关,英伟达多层次全面布局为国内公司提供宝贵经验多层次全面布局为国内公司提供宝贵经验.16 1、英伟达利用 GPU 壮大发展,逐步布局 CPU、服务器和各种云服务等软硬件支持.16 2、CUDA 架构深度适配各类 AI 框架,配合硬件基础打造用户高度依赖的研发环境.20 四、投资建议四、投资建议.22 1、全球服务器产业链范围广泛提供众多机遇,国内公司在各个细分领域均有布局.22 2、未来价值量占比最大的是 GPU 等算力芯片,关注服务器配套的其它电子零部件产品.23 图表图表目录目录 图 1:AI 模型训练和推理应用原理.4 图 2:典型自然语言处理网络模型参数量变化.4 图
11、3:利用英伟达 A100 测算 GPT-3 模型训练阶段的 GPU 芯片用量.6 图 4:利用英伟达 A100 测算 GPT-3 模型训练阶段的 GPU 芯片用量.6 图 5:利用英伟达 A30 测算大模型推理阶段的 GPU 芯片用量.7 图 6:未来 AI 大模型训练和推理阶段 GPU 和 AI 服务器需求量测算.8 图 7:2020-2026 年中国人工智能工作负载预测.9 图 8:数据中心购置预算构成.10 图 9:服务器按照外形分类(以浪潮信息为例).11 图 10:服务器按应用场景分类.11 图 11:全球服务器分年度出货量及预测.11 图 12:全球 AI 服务器出货量(万台)及
12、CAGR 预估.11 图 13:全球服务器厂商市场份额(22Q4).12 图 14:全球 AI 服务器厂商市场份额(21H1).12 QViWkZPWlZgVpMmPoMaQaO7NsQrRsQmPiNqQmQfQoMmN6MrRzQuOnOrRwMsPnQ 敬请阅读末页的重要说明 3 行业深度报告 图 15:纯 CPU 和加入 GPU 的节点成本对比.12 图 16:纯 CPU 和加入 GPU 的数据中心购置成本对比.12 图 17:服务器主要构成部分示意图(以浪潮信息 K1 Power E950 服务器为例).13 图 18:通用服务器内部主要构成部分示意图(以华为 Taishan 200
13、 Pro 服务器为例).13 图 19:AI 服务器内部主要构成部分示意图(以浪潮 NF5468A5 GPU 服务器为例).14 图 20:AI 服务器内部各构件型号、用量、单价和功能信息(以浪潮 NF5468A5 GPU 服务器为例).15 图 21:AI 服务器内部各构件型号、用量、单价和功能信息(以浪潮 NF5468A5 GPU 服务器为例).15 图 22:英伟达 GPU 产品线.16 图 23:不同架构支持的计算精度.16 图 24:英伟达模型训练芯片参数对比.17 图 25:H100 在高性能计算与 AI 模型方面性能表现.17 图 26:单颗 Grace CPU 超级芯片.18
14、图 27:Grace CPU 超级芯片内部结构.18 图 28:Grace Hopper 超级芯片.18 图 29:Grace Hopper 内部结构.18 图 30:BlueField-3 DPU.19 图 31:H100 GPU 使用 NVLink 互连.19 图 32:NVSwitch 连接 DGX 系统中的 8 个 GPU.19 图 33:DGX 超级计算机组装全流程.20 图 34:AI Foundations 支持语言、视觉与生物学模型.20 图 35:英伟达数据中心业务布局.21 图 36:英伟达 FY20Q1-23Q4 各季度营收及 YOY.21 图 37:英伟达 FY20Q1
15、-23Q4 各季度毛利率及净利率.21 图 38:全球服务器产业链(加粗部分为 A 股上市公司).22 图 39:国内部分公司 GPU 产品布局.24 表 1:全球部分大模型信息汇总.5 敬请阅读末页的重要说明 4 行业深度报告 一、大语言模型通常计算量和模型数量同步增长,大幅提升全球算力需求一、大语言模型通常计算量和模型数量同步增长,大幅提升全球算力需求 1、AI 模型分为训练和推理两个过程,模型分为训练和推理两个过程,GPT 模型进步的一个显著特征是参数量大幅提升模型进步的一个显著特征是参数量大幅提升 AI 模型主要分为训练和推理过程,训练奠定模型的性能根基,推理是将已有模型应用到具体场景
16、对相应模型主要分为训练和推理过程,训练奠定模型的性能根基,推理是将已有模型应用到具体场景对相应需求做出反需求做出反馈的过程。馈的过程。根据英伟达官网给出的示意图,AI 大模型需要利用构建好的算法,在大量的数据库上进行训练,借助大量的算力生成一个对于特定性能指标具有优异表现的模型结果。模型训练好之后在应用端通常称为推理过程,终端用户通过多种方式(包括文字、语音、图片、视频等多模态形式)针对模型提出需求,模型根据自己的理解给出反馈,在推理过程中实现的结果,还可以反过来针对模型进行进一步辅助训练。图图 1:AI 模型训练和推理应用原理模型训练和推理应用原理 资料来源:英伟达官网,招商证券 AI 大模
17、型发展过程中,通常伴随着模型参数量增大、训练数据增多的趋势,对于芯片的算力需求持大模型发展过程中,通常伴随着模型参数量增大、训练数据增多的趋势,对于芯片的算力需求持续续增长增长。根据AI算力集群方案设计与优化总结的过去 4 年全球主要 NLP(自然语言处理)模型,模型的参数量从 ELMo 的 9400 万增长至 Megatron-Turing NLG 的 5300 亿,增长了近 5600 倍。以 GPT-1 到 GPT-3 的发展过程为例,2018 年 6 月GPT-1 发布,GPT-1 预训练过程是无监督的,采用了 BooksCorpus 数据集,微调过程是有监督的,主要针对语言模型,整个模
18、型参数量达到 1.17 亿,其中预训练数据量达到 5GB。GPT-2 于 2019 年 2 月发布,预训练过程同样是无监督的,采用多任务学习的方式,参数量提升至 15 亿,预训练数据量提升至 40GB。GPT-3 于 2020 年 5 月发布,通过更为海量的参数来进行训练和学习,参数量进一步提升至 1750 亿,预训练数据量提升数个数量级至 45TB。AI模型的发展在目前阶段来看,更好的性能获取通常意味着更多的参数量和更大的数据集,AI 模型的迅猛发展与芯片层面的算力进步密不可分,以 GPU 为代表的加速芯片快速迭代发展为大模型更替奠定了良好的硬件基础。图图 2:典型自然语言处理网络模型参数量
19、变化:典型自然语言处理网络模型参数量变化 资料来源:AI 算力集群方案设计与优化,浪潮信息,招商证券 敬请阅读末页的重要说明 5 行业深度报告 2、全球互联网等大厂和各个国家及地区均有望推出自研大模型巩固核心竞争力、全球互联网等大厂和各个国家及地区均有望推出自研大模型巩固核心竞争力 未来全球各大互联网厂商出于核心竞争力考虑,或各个国家和地区出于数据安全等因素考虑,预计全球的大语言模型未来全球各大互联网厂商出于核心竞争力考虑,或各个国家和地区出于数据安全等因素考虑,预计全球的大语言模型数量未来将会持续增长。数量未来将会持续增长。根据我们对各大公司官网和互联网信息的搜集,目前全球主要的互联网厂商和
20、科研机构均对AI 大语言模型展开了深度研究。OpenAI 在 GPT-3 之后,目前预计将会在适当节点推出 GPT-4,预计 GPT-4 的参数量将会比已有的 GPT-3 更大。阿里达摩院的通义 M6 模型参数量预计将达到 10000B 级别,谷歌的 GLaM 模型参数量有望超过 1000B。国内百度在 2023 年 3 月推出了自研的 AI 大语言模型“文心一言”,给国内互联网用户带来了体验 ChatGPT 技术的机会。全球的主要互联网和科研机构以及各行业领军公司均有望逐步展开 AI 大语言模型研究,考虑到大语言模型属于公司未来可能潜在的核心竞争力,预计未来各大公司均有意愿去构建自己专属的大
21、语言模型。近期意大利等国际陆续有消息指出可能会适当监管 ChatGPT 在本国的应用,我们认为全球各个国家出于自身数据安全等角度考虑,未来亦有望推出各个国家或地区专属的大语言模型,未来大语言模型的数量有望持续增长。表表 1:全球部分大模型信息汇总全球部分大模型信息汇总 发布主体发布主体 国家国家 参数量参数量 模型名称模型名称 发布日期发布日期 训练训练 时长时长 预训练预训练 数据规模数据规模 硬件硬件 Google 美国 137B LaMDA 2021 年 5 月 57.7d 2.81 T tokens 1024 TPU V3 百度和鹏城实验室 中国 260B ERNIE 3.0 Tita
22、n 2021 年 7 月 28 d 300B tokens 2048 V100 A21 Labs 以色列 137B Jurassic-I 2021 年 8 月-300B tokens 800 颗GPU 浪潮 中国 245B Yuan 1.0 2021 年 10 月-180B tokens 2128 颗GPU 微软以及英伟达 美国 530B MT-NLG 2021 年 10 月-270B tokens 4480 80G A100 Open AI 美国 175B WebGPT 2021 年 12 月-Open AI 美国 175B InstructGPT 2022 年 1 月-Salesforce
23、 美国 13B CodeGen 2022 年 3 月-577B tokens-Amazon 美国 20B AlexaTM 2022 年 8 月 120 d 1.3T tokens 128 A100 清华大学 中国 130B GLM 2022 年 8 月-DeepMind 美国 70B Sparrow 2022 年 9 月-64 TPUv3 Meta AI 以 及 Papers with Code 美国 120B Galactica 2022 年 11 月-106b tokens-Meta AI 美国 65B LLaMA 2023 年 2 月 21d 1.4T tokens 2048 80G A
24、100 360 中国 1B 未命名 2023 年 3 月-Open AI 美国-GPT-4 2023 年 3 月-商汤 中国-书生(INTERN)2.5 2023 年 3 月-A100 华为 中国 1085B 盘古 2023 年 3 月 100d 329B tokens 512 Ascend 910 京东 中国-K-PLUG-网易 中国 11B 玉言-Open AI 美国 175B GPT-3 2022 年 5 月-300B tokens-微软 美国 20B UniLM-2 2022 年 4 月-1T tokens 512 TPU V4 科大讯飞 中国-预计 2023 年-字节跳动 中国-DA
25、-Transformer 预计 2023 年-腾讯 中国-HunYuan 预计2023年4月-资料来源:各公司官网,各大新闻网站,arxiv 论文,招商证券整理 敬请阅读末页的重要说明 6 行业深度报告 3、模型参数量和数量两方面增长带来更多算力需求,远期推理算力需求望超训练需求、模型参数量和数量两方面增长带来更多算力需求,远期推理算力需求望超训练需求 通过以上对于 AI 大模型发展过程和全球各个公司对于大模型的布局,可以认为未来 AI 算力需求增长主要来自两个方面:1)模型发展过程中本身参数量变大,计算量增多;2)各个国家和地区以及各个公司开发的模型数量不断增多。以下利用英伟达 A100 芯
26、片和 A30 芯片为例进行大模型对于算力芯片数量的需求测算,考虑到未来大模型的发展以及终端应用的潜在爆发可能性,此处的测算更多是为读者提供未来算力芯片需求测算的原理分析,对于未来大模型对于算力芯片的具体需求我们认为可能实际发展会远超本处的保守计算。对于训练和推理阶段的算力需求和对于训练和推理阶段的算力需求和 GPU 用量,模型数量、参数量、训练集大小、应用场景、使用人数等因素增多均用量,模型数量、参数量、训练集大小、应用场景、使用人数等因素增多均会带来会带来 GPU 用量的增长,单颗用量的增长,单颗 GPU 算力提升算力提升和模型优化程度提升和模型优化程度提升均能够一定程度上减少总体均能够一定
27、程度上减少总体 GPU 用量。用量。图图 3:利用英伟达:利用英伟达 A100 测算测算 GPT-3 模型训练阶段的模型训练阶段的 GPU 芯片用量芯片用量 资料来源:招商证券整理 对于大模型的训练对于大模型的训练阶段阶段,影响因素主要是模型参数量、训练数据量和芯片算力,预计,影响因素主要是模型参数量、训练数据量和芯片算力,预计 GPT-3 模型训练一次需要几万模型训练一次需要几万颗量级的算力芯片。颗量级的算力芯片。根据 GPT-3 对应的论文 Language Models are Few-Shot Learners,文中讲到对于 GPT-3 175B模型,参数量为 1746 亿,以训练 3
28、000 亿 tokens(指自然语言处理中的字符序列)为基准进行计算,总训练计算量有望达到 3.14*1023 Flops(floating point operations,浮点运算数)。以目前主流的训练芯片英伟达 A100 为例进行测算,考虑到通常进行训练采用 FP16 精度即可,对应 312 TFLOPS 算力,以算力利用率为 100%进行计算,预计单日 GPU 的消耗量为 11667 张。若考虑到通常的算力利用率可能仅为 30%左右,预计实际单个 GPT-3 模型要在单日内完成训练所需的 GPU 张数有望达到 3 万张以上。图图 4:利用英伟达:利用英伟达 A100 测算测算 GPT-
29、3 模型训练阶段的模型训练阶段的 GPU 芯片用量芯片用量 资料来源:Language Models are Few-Shot Learners,英伟达官网,招商证券 敬请阅读末页的重要说明 7 行业深度报告 对于大模型的推理阶段,预计实际应用需求量变化弹性较大,对于大模型的推理阶段,预计实际应用需求量变化弹性较大,推理端预计远期算力芯片消耗数量数倍于训练阶段,主推理端预计远期算力芯片消耗数量数倍于训练阶段,主要系应用需求弹性较大、推理端单芯片算力通常较训练端要系应用需求弹性较大、推理端单芯片算力通常较训练端较小等因素影响所致。较小等因素影响所致。根据英伟达官网信息,英伟达 A30 Tenso
30、r Core GPU 适用于主流企业服务器的多用途计算加速技术,FP16 Tensor Core 算力达到 165 TFLOPS,预计未来某一大语言模型单日访问人数达 1 亿人,单人访问或者提问的次数为 10 次,因此每日访问量可达 10 亿人次,根据 token 的定义和通常测算,预计 1000 token 通常对应 750 个左右的单词,单 token Flops 量为 2,以 GPT-3 模型的 1746 亿参数量进行计算,预计总计算量为 3.49*1023,结合英伟达 A30 芯片的算力(考虑到通常 A100 等最先进的 GPU 主要用于训练,A100 虽然可以用于推理但不具备经济适用
31、性,英伟达等厂商均推出专门用于推理场景的芯片。),预计单日 GPU 芯片需求量为 24495 片,同时考虑到算力利用率以及实际情境下网站访问次数可能远超我们预测值,实际上的推理芯片有望大幅增长。图图 5:利用英伟达:利用英伟达 A30 测算大模型推理阶段的测算大模型推理阶段的 GPU 芯片用量芯片用量 资料来源:英伟达官网,招商证券测算 综合考虑训练和推理阶段算力需求,我们认为未来综合考虑训练和推理阶段算力需求,我们认为未来 5 年年 AI 服务器需求量有望呈现数倍增长服务器需求量有望呈现数倍增长,预计,预计 2027 年年 AI 服务器服务器GPU 市场规模超市场规模超 1000 亿元,对应
32、的亿元,对应的 AI 服务器市场规模超服务器市场规模超 2000 亿元亿元。根据我们的测算,我们认为训练阶段影响 GPU和服务器需求量的核心参数是模型数量、单模型参数量、训练数据集大小和训练加速卡的算力,此处我们认为模型数量、参数量、训练数据集大小都会逐步增长,为了计算简便,此处对于 GPU 算力采用 A100 算力的恒定值,预计 2027年的单日训练服务器需求量将达到超过 14 万台,10 倍于 2023 年的水平,考虑到未来 GPU 算力实际情况下亦将逐步提升,实际 GPU 和服务器需求会略低于我们此处的测算。对于推理阶段,此处以浏览器网页的浏览作为实例,核心参数包括使用 ChatGPT
33、等大模型的人数、单人访问次数、大模型参数量、推理加速卡的算力,我们认为未来 AI大模型或将不仅仅局限在网站浏览器里,以微软 Office 办公软件为例可知未来有更多应用望直接接入大模型,预计2027 年推理端服务器需求量超过 14 万台,相较于 2023 年有数十倍的增长,我们认为推理端算力需求弹性较大,实际需求有望高于我们此处的测算。综合训练和推理阶段的算力需求后,我们认为可以乐观估计未来 5 年全球 GPU 和服务器需求将数倍成长。敬请阅读末页的重要说明 8 行业深度报告 图图 6:未来:未来 AI 大模型训练和推理阶段大模型训练和推理阶段 GPU 和和 AI 服务器需求量测算服务器需求量
34、测算 资料来源:招商证券测算(注:此处假设 GPU 芯片的算力利用率是 100%,实际情况应该低于 100%,所以实际情况下 GPU 需求应该更多)AI 发展的早期阶段以训练能力为核心,在进入应用期后将逐步以推理为核心,未来对推理芯片的需求或将远超对训发展的早期阶段以训练能力为核心,在进入应用期后将逐步以推理为核心,未来对推理芯片的需求或将远超对训练芯片的需求。练芯片的需求。根据 IDC 预测,2022 年中国人工智能服务器工作负载中,用于推理和训练的占比分别为 58.5%和42.4%,未来企业将更多地使用人工智能服务器处理推理工作负载。伴随企业人工智能应用成熟度逐步递增,企业将把精力更多从人
35、工智能训练转移到人工智能推理工作负载上。人工智能发展的早期阶段是对人工智能价值的自我发现的过程,核心是寻找人工智能的典型应用场景并通过训练使得人工智能系统获得达到甚至超过人类的能力,在这一阶段更多的计算负载集中在离线的数据中心中的训练场景;经过三到五年的发展,人工智能将进入大规模应用阶段,应用阶段是将经过训练的应用场景与客户的实际应用相结合,将人工智能的能力赋能产品或行业解决方案,使得人工智能成为普惠的应用技术,在这一阶段计算负载将更多以推理的方式存在,呈现“云+端”部署、分散化、终端化、场景化的特点,对算力的需求也将迅速增长,更加多元化。202320232024202420252025202
36、6202620272027模型数量(个)1015202530单模型参数量(亿)030003500训练数据集大小(tokens,亿)30003500400045005000每个参数每token需要的Flops66666总训练计算量(Flops)3.14E+246.30E+241.20E+252.03E+253.15E+25总训练计算量(PF天)36375729375364583英伟达A100训练算力(FP16,TFLOPS)3312单日GPU需求(张)744568536单日服务器需求(台
37、,8路GPU)56459390002320242024202520252026202620272027网站单日访问人数(亿)136912单人平均访问次数1012151720峰值访问量(亿人次)0单人单次token量010001000单token Flops量22222模型参数量(亿)030003500推理计算量(Flops)3.49E+231.44E+244.50E+249.18E+241.68E+25英伟达A30推理算力(FP16,TFLOPS)5165单日GP
38、U需求(张)2449576439391178451单日服务器需求(台,4路GPU)6613总计总计GPU需求(张)GPU需求(张)895346988单日服务器需求(台,8路GPU)单日服务器需求(台,8路GPU)206972069754466544669254885254885440680440680GPU训练卡市场规模(亿元,A100:7万元/张)828GPU推理卡市场规模(
39、亿元,A30:3万元/张)73095193354AI服务器GPU市场规模(亿元)AI服务器GPU市场规模(亿元)89896772训练型AI服务器规模(8*A100型:100万元)91461推理型AI服务器规模(4*A30型:25万元)37AI服务器市场规模(亿元)AI服务器市场规模(亿元)575475472197训练阶段推理阶段市场规模测算 敬请阅读末页的重要说明 9 行业深度报告 图图 7:2020-2026 年中国人工智能工作负载预测年中国人工智能工作负载预测
40、 资料来源:中国人工智能计算力发展评估报告,IDC,招商证券 49%42%42%41%39%38%38%52%58%59%60%61%62%62%0%20%40%60%80%100%20202022420252026训练推理 敬请阅读末页的重要说明 10 行业深度报告 二、二、数据中心建设是智能时代核心竞争力的基础保障,数据中心建设是智能时代核心竞争力的基础保障,AI 服务器服务器作为其核心作为其核心设施未来设施未来占比望逐步增长占比望逐步增长 1、数据中心等产生更多服务器需求、数据中心等产生更多服务器需求,AI 服务器出货量占比服务器出货量占比 1%增速超服务器行业整体
41、增速超服务器行业整体 未来全球数据中心的建设将是数字经济时代的硬件基地,未来全球数据中心的建设将是数字经济时代的硬件基地,数据中心的购置花费中服务器占比最大,达到数据中心的购置花费中服务器占比最大,达到 70%,预计,预计未来服务器市场长期成长空间十分可观未来服务器市场长期成长空间十分可观。根据英伟达官网给出的数据,通常一个数据中心的购置预算花费由服务器、存储、软件和服务构成,其占比分别为 70%、20%、10%,服务器在购置预算中的占比最大,凸显数据中心中服务器的核心地位。图图 8:数据中心购置预算构成:数据中心购置预算构成 资料来源:英伟达官网,招商证券整理 随着计算能力需求的逐步提升和应
42、用场景的不断增多,当下服务器可以按照外形和应用场景进行分类。随着计算能力需求的逐步提升和应用场景的不断增多,当下服务器可以按照外形和应用场景进行分类。此处我们参考浪潮信息对于其服务器产品的分类,进行详细讲述:按外形:可以分为机架和塔式、刀片和多节点、整机柜服务器等类型。按外形:可以分为机架和塔式、刀片和多节点、整机柜服务器等类型。伴随着数据中心的大型化和专业化变革,以数据为核心的创新应用的不断涌现,在服务器设计过程中,需要考虑应用场景和部署环境的具象要求,对服务器产品的形态、密度、能效、性能等以更为细致的维度进行仔细考量。以浪潮 M5 新一代服务器为例,可以分为机架和塔式服务器、刀片和多节点服
43、务器、整机柜服务器,可以根据不同场景和空间、算力等多方面需求进行合理部署。按应用场景:可分为数据中心、存储、按应用场景:可分为数据中心、存储、AI 加速计算等类加速计算等类型。型。智慧时代下的业务场景与传统信息化应用相比,对计算能力的需求有显著不同。传统的信息化应用主要以基于数据库事务的业务为主,像 OA、ERP、邮件等,计算量随着业务量的增长呈线性增长,但是以云计算、大数据和深度学习为支撑的智慧计算则突破了认知、学习和预测的边界,对计算能力的要求呈指数级增长。浪潮信息将服务器分为大规模云数据中心、海量数据存储、AI 计算加速、企业关键应用和开放计算,可以分别满足数据中心等多种应用场景和不同企
44、业客户的需求。70%20%10%服务器存储软件与服务 敬请阅读末页的重要说明 11 行业深度报告 图图 9:服务器按照外形分类(以浪潮信息为例):服务器按照外形分类(以浪潮信息为例)图图 10:服务器按应用场景分类:服务器按应用场景分类 资料来源:浪潮信息 M5 产品手册,招商证券 资料来源:浪潮信息官网,招商证券 全球服务器年度出货量约超全球服务器年度出货量约超 1300 万台,其中万台,其中 AI 服务器服务器 2022 年占比年占比 1%,未来,未来 AI 服务器出货增速高于服务器整体。服务器出货增速高于服务器整体。根据 MIC,预计 2022 年全球服务器出货量达 1362 万台。根据
45、 TrendForce 信息,截至 2022 年,预估搭载 GPGPU(General Purpose GPU)的 AI 服务器年出货量占整体服务器比重近 1%,而 2023 年预估在 ChatGPT 相关应用加持下,可望再度刺激 AI 相关领域的应用,预估 2023 年出货量年同比+8%,20222026 年复合成长率将达 10.8%,结合我们上一章对于未来 AI 服务器需求的测算,我们预计行业实际增速有望高于 TrendForce 的预测值。图图 11:全球服务器分年度出货量及预测:全球服务器分年度出货量及预测 图图 12:全球:全球 AI 服务器服务器出货量出货量(万台)(万台)及及 C
46、AGR 预估预估 资料来源:MIC,招商证券 资料来源:TrendForce,招商证券 全球服务器市场中白牌厂商和主要品牌商份额占比较高,全球服务器市场中白牌厂商和主要品牌商份额占比较高,AI 服务器领域国内的浪潮信息占比较大。服务器领域国内的浪潮信息占比较大。根据 IDC 数据,22Q4 全球服务器市场份额构成中,ODM 厂商占比超过 28.2%,品牌厂商中占比超过 5%的有戴尔、惠普、联想、浪潮和 SuperMicro,国内服务器品牌商在全球市场和国际厂商占比差距相对较小。在 AI 服务器市场,21H1 全球 AI 服务器市场中,浪潮信息以 20%的占比拔得头筹,戴尔和惠普分别以 14%和
47、 10%的占比紧随其后,当前国内 AI 服务器的能力在全球市场处于前列位置。0%1%2%3%4%5%6%7%0200400600800016001800出货量(万台)yoy0522023E2024F2025F2026FCAGR=10.8%敬请阅读末页的重要说明 12 行业深度报告 图图 13:全球服务器厂商市场份额:全球服务器厂商市场份额(22Q4)图图 14:全球:全球 AI 服服务器务器厂商市场份额(厂商市场份额(21H1)资料来源:IDC,招商证券 资料来源:IDC,招商证券 单计算节点来看使用单计算节点来看使用 GPU 的成本高于纯的成本高于
48、纯 CPU 方案,但是对于数据中心整体来看,使用方案,但是对于数据中心整体来看,使用 GPU 方案实际有望将购置成方案实际有望将购置成本降低本降低 40%,因此未来数据中心有望采用更多搭载,因此未来数据中心有望采用更多搭载 GPU 的服务器。的服务器。根据英伟达的官方测算,对于纯 CPU 节点和使用 GPU 加速卡的节点,以英伟达 V100 为例,对于单服务器节点,假设 NIC、存储、网络连接都费用一样,纯 CPU服务器只需要采用 2 颗单价 2000 美金的 CPU 即可,相比之下,搭载 4 颗单价 8500 美金的 GPU 方案单节点成本会高出不少,相对于纯 CPU 方案的 9000 美金
49、提升至 44000 美金。但是如果从数据中心整体购置成本来看,假设纯 CPU方案有 1000 个节点,服务器成本会达到 900 万美金,如果采用 GPU 加速的方案,那么只需要 300 个 CPU 和 35 个Tesla V100 GPU 即可,同时服务器成本能够降至 420 万美金。从总体购置成本上来看,纯 CPU 方案需要 1350 万美金而采用 GPU 混合的方案只需要 810 万美金,相比于纯 CPU 方案成本降低将近 40%。图图 15:纯:纯 CPU 和和加入加入 GPU 的的节点成本对比节点成本对比 图图 16:纯纯 CPU 和加入和加入 GPU 的数据中心购置成本对比的数据中心
50、购置成本对比 资料来源:英伟达官网,招商证券 资料来源:英伟达官网,招商证券 2、服务器演进从、服务器演进从以以 CPU 为主逐步到以为主逐步到以 GPU 为核心,为核心,大大芯片芯片+存储存储将将占据主要价值量占据主要价值量 以机架和刀片服务器为例,从总体架构来看,通常前后端用于接口和硬盘插拔,内部通常可以分为以机架和刀片服务器为例,从总体架构来看,通常前后端用于接口和硬盘插拔,内部通常可以分为 4 个区域。个区域。以浪潮信息 K1 Power E950 服务器为例,在浪潮商用机器上称之为价值百万的机器,E950 最大支持 4 颗 scale-up POWER9处理器。服务器的前面板通常包括
51、风扇、硬盘和操作面板等,风扇主要是为服务器整体提供散热,硬盘可以通过前面板进行热插拔,前面板还包括显示屏、指示灯、开机键等基础使用支持。后面板以 IO 模组、FSP 卡和 PSU 等为主,IO 模组每个插槽采用模块化设计,支持 PCIe Gen4 规格和在线热插拔,FSP 卡进行系统管理和监控管理,PSU 电源支持模块为整系统供电。通常服务器内部可以分为 4 个区域:磁盘存储区、系统散热区、处理器+内存区、GPU+IO扩展区。磁盘存储区主要是用于存放硬盘,系统散热区是风扇所在区域,通常 CPU 和内存条所在距离相对较近,对于部分搭载加速卡的机型,还会包括 GPU 的区域。28.2%14.5%1
52、1.8%7.0%7.0%5.0%4.7%4.1%2.9%2.2%12.7%ODM戴尔HPE联想浪潮SuperMicroIBM新华三华为Cisco其他20%14%10%6%5%4%4%2%1%1%33%浪潮戴尔HPE联想华为IBM新华三思科Oracle富士通其他服务器成本服务器成本纯CPU纯CPU(美元)(美元)加速节点加速节点4 Tesla V100(美元)4 Tesla V100(美元)CPU2CPU220002000GPU4GPU4-8500NIC,存储与其他NIC,存储与其他40004000单个节点核心网络单个节点核心网络10001000总成本总成本900044000购置成本购置成本纯C
53、PU纯CPU(美元)(美元)加速数据中心(美元)加速数据中心(美元)CPU节点CPU节点90001000个节点9000300个节点Tesla V100节点Tesla V100节点-4400035个节点服务器服务器900万420万存储存储300万300万软件与服务软件与服务150万90万总体购置成本总体购置成本1350万810万 敬请阅读末页的重要说明 13 行业深度报告 图图 17:服务器主要构成部分示意图(以浪潮信息:服务器主要构成部分示意图(以浪潮信息 K1 Power E950 服务器服务器为例)为例)资料来源:浪潮商用机器,招商证券整理 通用服务器通常以通用服务器通常以 CPU 作为核
54、心,通过作为核心,通过 CPU 搭配多个内存条和存储硬盘的形式来完成大规模数据计算或存搭配多个内存条和存储硬盘的形式来完成大规模数据计算或存储,核储,核心价值量最大的部分在于心价值量最大的部分在于 CPU 和存储用量。和存储用量。根据华为官网信息,华为 Taishan 200 Pro 服务器是高性能型的 2U4 路机架服务器(通用服务器的路数指的是可搭载的 CPU 个数),该服务器面向互联网、分布式存储、云计算、大数据、企业服务等领域,Taishan 200 Pro 的核心为四路华为鲲鹏 920 处理器,每个处理器支持 8 个 DDR4 DIMM(可支持最多提供 4TB 内存容量),4 个 C
55、PU 间通过 Hydra 接口实现 Fullmesh 链接。图图 18:通用服务器内部主要构成部分示意图(以华为:通用服务器内部主要构成部分示意图(以华为 Taishan 200 Pro 服务器服务器为例)为例)资料来源:华为官网,招商证券整理 AI 服务器相较于通用服务器最大的差异在于加入了高算力加速卡(服务器相较于通用服务器最大的差异在于加入了高算力加速卡(GPU 等),可等),可满足满足 AI 训练和推理等多种高算力训练和推理等多种高算力领域需求。领域需求。以浪潮 NF5468A5 GPU 服务器为例,NF5468A5 是浪潮推出的一款面向 AI 训练和 AI 推理、视频编解码等多种应用
56、场景的全能型 GPU 服务器,在 4U 空间内搭载 2 颗 AMD EPYC 处理器,支持多达 8 张双宽加速卡。浪潮官网显示,这款产品已经支持 NVIDIA、AMD、Intel、寒武纪、燧原等多家业界主流 AI 加速卡。NF5468A5 的内部结构从前面板到后面板依次是磁盘存储区、系统散热区、CPU+内存区、GPU 区。相较于通用服务器内部结构,AI服务器中的 GPU 显卡占据了主要角色,整机的运算主要依靠 GPU 加速卡来完成,CPU 主要进行逻辑控制等功能。敬请阅读末页的重要说明 14 行业深度报告 图图 19:AI 服务器内部主要构成部分示意图(以服务器内部主要构成部分示意图(以浪潮浪
57、潮 NF5468A5 GPU 服务器服务器为例)为例)资料来源:浪潮服务器,浪潮信息官网,招商证券整理 AI 服务器价值量的构成核心在于昂贵的服务器价值量的构成核心在于昂贵的 GPU 加速卡、加速卡、CPU 和存储配置,同时对于和存储配置,同时对于 PCB、电源管理、信号传输等多、电源管理、信号传输等多方面均有更高需求,亦带来大幅的价值量提升。方面均有更高需求,亦带来大幅的价值量提升。根据浪潮服务器和浪潮信息官网信息,对于 NF5468A5 GPU 服务器,可以搭载至多 2 颗 CPU 和 8 颗 GPU 加速卡,以京东报价来看,AMD 7543 CPU 单价约 2.5 万元,英伟达 A100
58、 40GB GPU 单价约 6 万元,根据 ZOL 中关村在线报价,32GB DDR4 RDIMM 售价约为 2000 元以上,同时结合三星官网信息,1.92TB NVMe 硬盘售价预计超过 3000 元,考虑到通常会配备 2 颗 CPU 以及数颗 GPU,因此在 CPU 和 GPU层面就会占据极大价值量。根据爱采购官网信息,1 台配置 2 颗英伟达 40GB A100 GPU 和 2 颗 AMD 7502 CPU(单价约 2 万元)的服务器售价约为 30 万元,其中 GPU 和 CPU 的合计价值量约占据 53%(2*6 万元+2*2 万元=16 万元),若考虑内存和硬盘价值量占比较大,以及
59、实际情况下可能单机会尽量满配 GPU 数量,预计高性能 AI 服务器GPU+CPU+存储三大件占比有望超过 80%。敬请阅读末页的重要说明 15 行业深度报告 图图 20:AI 服务器内部各构件型号、用量、单价和功能信息(以服务器内部各构件型号、用量、单价和功能信息(以浪潮浪潮 NF5468A5 GPU 服务器服务器为例)为例)资料来源:京东,亚马逊,三星官网,爱采购,浪潮招商证券整理 当前当前 AI 加速计算卡除了加速计算卡除了 GPU 之外还有部分之外还有部分 FPGA 产品,产品,FPGA 具备低延迟、易烧录等优点,具备低延迟、易烧录等优点,FPGA 通常用于推理通常用于推理阶段,阶段,
60、关注未来关注未来 FPGA 在大模型领域潜在的渗透率提升空间。在大模型领域潜在的渗透率提升空间。目前,我们在 AI 计算平台使用最广泛的两种加速部件是 GPU 和 FPGA。GPU 可适用于具备计算密集、高并行、SIMD(Single Instruction Multiple Data,单指令多数据流)应用等特点的深度学习训练模型领域,并且 GPU 创建了包含 CNN、DNN、RNN、LSTM 以及强化学习网络等算法在内的应用加速平台和生态系统。GPU 在深度学习算法模型训练上非常高效,但在推理时对于小批量数据,并行计算的优势不能发挥出来。而 FPGA 同时拥有流水线并行和数据并行,因此处理任
61、务时候延迟更低,同时 FPGA是可编程芯片,算法烧录更加灵活,根据浪潮 AIHPC 公众号预测,未来至少 95%的机器学习计算都是用于推断,只有不到 5%是用于模型训练,而 FPGA 正是强在推断,大幅提升推断效率的同时,还能最小限度损失精确性,这正是FPGA 的强项。图图 21:AI 服务器内部各构件型号、用量、单价和功能信息(以服务器内部各构件型号、用量、单价和功能信息(以浪潮浪潮 NF5468A5 GPU 服务器服务器为例)为例)资料来源:浪潮服务器,浪潮信息官网,招商证券整理 敬请阅读末页的重要说明 16 行业深度报告 三三、AI 研究研究与发展和软硬件与发展和软硬件生态生态息息相关息
62、息相关,英伟达英伟达多层次多层次全面布局为国内公全面布局为国内公司提供宝贵经验司提供宝贵经验 1、英伟达英伟达利用利用 GPU 壮大发展,逐步布局壮大发展,逐步布局 CPU、服务器和各种云服务等软硬件支持、服务器和各种云服务等软硬件支持(1)GPU:实现高性能计算等多应用领域布局,全球当之无愧的实现高性能计算等多应用领域布局,全球当之无愧的 GPU 龙头企业龙头企业 公司针对服务器与高效运算、个人与游戏玩家、专业工作站推出公司针对服务器与高效运算、个人与游戏玩家、专业工作站推出 Tesla、GeForce、RTX(Quadro)三大三大产品线。产品线。定位于服务器与高效运算的 Tesla 产品
63、线定价高,在显存大小与性能、双精度浮点计算能力与 GPU 间通信能力方面显著优于其他产品系列。例如,根据英伟达官网与 Techpowerup 网站,定位于个人与游戏玩家的最新一代产品GeForce RTX 4090 显卡售价 13000-16000 元,使用 24GB GDDR6X 显存,带宽 1008GB/s,在 FP64 上提供1290GFLOPS 的算力;定位于服务器与高效运算的产品 H100 PCIe 显卡售价约 33000 美元,使用 80GB 显存,带宽 2TB/s,在在 FP64 上提供 26TFLOPS 的算力,并且可使用 NVLink 实现 600GB/s 的 GPU 间互连
64、。截至 2023 年3 月,三大产品线最新一代产品架构均为 Ada Lovelace,采用 TSMC 4nm 制程。图图 22:英伟达英伟达 GPU 产品线产品线 资料来源:英伟达官网,Techpowerup 网站,招商证券(注:粗体字表示该系列芯片为模型训练芯片)图图 23:不同架构支持的计算精度:不同架构支持的计算精度 资料来源:英伟达官网,招商证券 产品系列产品系列推出时间推出时间架构架构制程制程主要应用领域主要应用领域Tesla Hopper(H100)2022.3HopperTSMC 4nmTesla Ada(L4,L40)2022.10Ada LovelaceTSMC 4nmTes
65、la Ampere(A100,A800)2020.5-2022.11AmpereTSMC 7nm;Samsung8nm(A100与与A800产品均产品均采用采用TSMC 7nm)Tesla Turing(T4,T10等)2018.9-2020TuringTSMC 12nmTesla Volta(V100等)等)2017.6-2019.11VoltaTSMC 12nmTesla Pascal(P100等)等)2016.4-2017.3PascalTSMC 16nmGeForce RTX 402022.9-2023Ada LovelaceTSMC 4nmGeForce RTX 302020.9-2
66、022.12AmpereSamsung 8nmGeForce RTX 202018.9-2021.12TuringTSMC 12nmGeForce GTX 162019.2-2022.6TuringTSMC 12nmQuadro Ada(RTX 6000 Ada)2022.12Ada LovelaceTSMC 4nmQuadro Ampere2020.10-2022.3AmpereSamsung 8nmQuadro Turing2018.8-2021.5TuringTSMC 12nmQuadro Volta2018.3VoltaTSMC 12nmRTX TitanTITAN RTX2018.1
67、2TuringTSMC 12nm研究、开发、创作Data CenterGeForce游戏娱乐、创作等RTX/Quadro工业设计、高级特效、科学可视化等数据中心HopperAmpereTuringVolta支持的支持的Tensor Core精度精度FP64、TF32、bfloat16、FP16、FP8、INT8FP64、TF32、bfloat16、FP16、INT8、INT4、INT1FP16、INT8、INT4、INT1FP16支持的支持的CUDA Core精度精度FP64、TF32、FP16、bfloat16、INT8FP64、TF32、FP16、bfloat16、INT8FP64、FP3
68、2、FP16、INT8FP64、FP32、FP16、INT8 敬请阅读末页的重要说明 17 行业深度报告 公司分别于公司分别于 2016 年年/2018 年年/2021 年年/2022 年推出针对年推出针对 AI 与高性能计算的大芯片与高性能计算的大芯片 P100/V100/A100/H100。根据英伟官网,从 P100 到 H100 芯片显存大小由 16GB 逐步提升至 80GB,显存带宽由 732GB/s 提升至 2TB/s,FP64、FP32与 FP16 计算能力均获得显著提升。2022 年 11 月公司针对中国市场推出 A800 芯片,主要性能参数均与 A100 芯片保持一致,但 A8
69、00 芯片 GPU 之间的传输速度减少至 400GB/s(A100 芯片使用 NVLink 时 GPU 之间传输速度为600GB/s)。最新一代大模型芯片 H100 利用 Transformer 引擎改进第四代 Tensor Core,在大型语言模型 AI 训练方面比上一代芯片 A100 快 9 倍;使用 InfiniBand 互连后,H100 比 A100 在 AI 推理方面快 30 倍。图图 24:英伟达模型训练芯片参数对比:英伟达模型训练芯片参数对比 资料来源:英伟达官网,招商证券(注:*表示采用稀疏技术)图图 25:H100 在高性能计算与在高性能计算与 AI 模型方面性能表现模型方面
70、性能表现 资料来源:英伟达官网,招商证券 (2)CPU:推出推出 Grace CPU 用于构建用于构建 Grace CPU Superchip 和和 Grace Hopper Superchip 两颗两颗 Grace CPU 使用使用 NVLink-C2C 互联构成一颗互联构成一颗 Grace CPU 超级芯片。超级芯片。根据英伟达官网,单颗 Grace CPU 具有72 个 Arm Neoverse V2 核,Neoverse V2 核采取 Arm v9.0-A 架构,支持 LPDDR5X ECC 内存,LPDDR5X 提供的带宽比传统 DDR5 增加 50%,每 GB 的功耗仅为八分之一。
71、互连后的 Grace CPU 超级芯片具有 144 个 Arm Neoverse V2 核,配备 960GB 服务器级别的 LPDDR5X 内存,可在 500W 功率范围内实现 1TB/s 的存储带宽。在计算流体动H100 PCIeA100 80GB PCIeA800 80GB PCIeV100 PCIeP100 PCIe 16GB发布时间发布时间2022.32021.62022.112018.52016.6显存大小显存大小80GB HBM2e80GB HBM2e80GB HBM2e32GB HBM216GB HBM2显存带宽显存带宽2TB/s1935GB/s1935GB/s900GB/s73
72、2GB/sFP6426 TFLOPS9.7 TFLOPS9.7 TFLOPS7 TFLOPS4.7 TFLOPSFP64 Tensor Core51 TFLOPS19.5 TFLOPS19.5 TFLOPS-FP3251 TFLOPS19.5 TFLOPS19.5 TFLOPS14 TFLOPS9.3 TFLOPSTensor Float 32756 TFLOPS*156 TFLOPS|312 TFLOPS*156 TFLOPS|312 TFLOPS*-BFLOAT16 Tensor Core1513 TFLOPS*312 TFLOPS|624TFLOPS*312 TFLOPS|624TFLO
73、PS*-FP16 Tensor Core1513 TFLOPS*312 TFLOPS|624 TFLOPS*312 TFLOPS|624 TFLOPS*-FP8 Tensor Core3026 TFLOPS*-INT8 Tensor Core3026 TOPS*624 TOPS|1248 TOPS*624 TOPS|1248 TOPS*-功耗功耗300-350W300W300W250W250WCUDA Core1251203584Tensor Core456432432640-敬请阅读末页的重要说明 18 行业深度报告 力学、建立气候模型、进行天气预测、DNA 测序的案例
74、中 Grace CPU 可以实现比 AMD 2P Milan 7763 CPU 更快、更节能的表现。图图 26:单颗单颗 Grace CPU 超级芯片超级芯片 图图 27:Grace CPU 超级芯片内部结构超级芯片内部结构 资料来源:英伟达官网,招商证券 资料来源:英伟达官网,招商证券 一颗一颗 H100 GPU 与一颗与一颗 Grace CPU 使用使用 NVLink 互联构成一颗互联构成一颗 Grace Hopper 超级芯片超级芯片。根据英伟达官网,Grace Hopper 是第一个个真正的异构加速平台,利用 GPU 与 CPU 的优势加速应用程序,面向高性能计算与 AI 工作负载。G
75、race Hopper 利用超高速 NVLink-C2C 技术提供 900 GB/s 的总带宽,比 PCIe Gen5 快 7 倍,使得 GPU 可以高效访问大量内存。在 Grace-Hopper 超级芯片上可以运行所有英伟达软件栈与平台,包括 NVIDIA HPC SDK,NVIDIA AI和 NVIDIA Omniverse。图图 28:Grace Hopper 超级芯片超级芯片 图图 29:Grace Hopper 内部结构内部结构 资料来源:英伟达官网,招商证券 资料来源:英伟达官网,招商证券 (3)DGX AI 超级计算机:基于超级计算机:基于 GPU、DPU 与与 NVLink 互
76、连技术构建强大互连技术构建强大 AI 平台平台 公司提供公司提供 BlueField DPU,通过对高级网络、,通过对高级网络、存储和安全服务等进行卸载存储和安全服务等进行卸载、加速加速和隔离释放和隔离释放 CPU 资源资源。根据浪潮服务器,DPU 是一种新型计算加速单元,能够将多核 Arm CPU、存储和安全加速器等集合在一起。启用 BlueField DPU的硬件加速服务器可以将数据中心服务从 CPU 卸载到 DPU,释放 CPU 资源以运行应用程序,提供安全、可靠、强大的网络加速体验。根据英伟达官网,BlueField-3 是首款为 AI 和加速计算而设计的 DPU,提供数据中心级的软件
77、定义和硬件加速的网络、存储、安全和管理等服务,一个 BlueField-3 DPU 可以提供多达 300 个 CPU 核才能实现的数据中心服务,可以释放宝贵的 CPU 资源来运行关键业务应用。敬请阅读末页的重要说明 19 行业深度报告 图图 30:BlueField-3 DPU 资料来源:英伟达官网,招商证券 NVLInk 与与 NVSwitch 可以实现芯片快速互连可以实现芯片快速互连,为构建多为构建多 GPU 系统提供基础系统提供基础。根据英伟达官网,NVLink 是一种 GPU之间的直接互连技术,可以扩展服务器内多 GPU 的输入与输出,单个 H100 GPU 支持 18 个 NVLIn
78、k 连接,总带宽为 900GB/s,是 PCIe 5.0 带宽的 7 倍。DXG H100 服务器可以利用 NVLInk 来提高可扩展性。NVSwitch 是一种交换机芯片,可以连接多个 NVLink,在单节点内和节点之间实现高速多对多 GPU 通信。第三代 NVSwitch 使用 TSMC 4nm工艺制造,每个 NVSwitch 都有 64 个 NVLink 端口,并配备 NVIDIA SHARP 引擎,可以为计算密集型工作负载提供更高带宽和更低延迟。图图 31:H100 GPU 使用使用 NVLink 互连互连 图图 32:NVSwitch 连接连接 DGX 系统中的系统中的 8 个个 G
79、PU 资料来源:英伟达官网,招商证券 资料来源:英伟达官网,招商证券 公司推出搭载公司推出搭载 8 块块 H100 GPU 与与 2 块块 BlueField-3 DPU 的的 DGX H100 系统系统,可用于构建可用于构建 DGX 超级超级 AI 计算机计算机。根据英伟达官网,DGX H100 系统配备 8 块 H100 GPU,总 GPU 显存高达 640GB;使用第四代 NVLink 与 NVSwitches实现芯片互连,能够在每个 DGX H100 系统中的各个 GPU 之间实现 900GB/s 的连接速度;采用双路 x86 CPU 系统,适用于密集型 AI 作业;包含 2 块 Bl
80、ueField-3 DPU,用于卸载、加速和隔离高级网络、存储及安全服务;配备 8 个ConnectX-7 InfiniBand 网卡,具有 400GB/s 的吞吐量。多个 DGX H100 系统堆叠使用可以构成 DGX 超级 AI 计算机,以满足AI训练与推理的大算力需求。通过在服务器外部添加第二层NVSwitch,NVLink网络可以连接多达256个GPU,提供 57.6TB/s 的多对多带宽,从而快速完成大型 AI 作业。敬请阅读末页的重要说明 20 行业深度报告 图图 33:DGX 超级计算机超级计算机组装全流程组装全流程 资料来源:英伟达 GTC,招商证券 (4)软件层面软件层面:公
81、司提供多种加速库与:公司提供多种加速库与 DGX Cloud、AI Foundations 云服务云服务 围绕大算力应用围绕大算力应用场景,公司推出场景,公司推出多种加速库多种加速库与与 DGX Cloud、AI Foundations。根据英伟达 2023GTC,加速库是加速计算的核心,可以为应用实现百万倍性能提升。公司针对量子计算、运筹规划、视频处理、医学研究、芯片制造等应用场景分别推出了 cuQuantum 量子加速库、cuOpt 运筹规划加速库、CV-CUDA 视频处理加速库、Parabricks医疗加速库、cuLitho光刻计算加速库。DGX Cloud为全球主要云服务商提供AI技术
82、,可以通过一个浏览器将NVIDIA超级计算机即时接入公司,DGX Cloud 支持 NVIDIA Enterprise 加速库套件,可以用于 AI 端到端开发与部署。AI Foundations 是一项云服务,面向需要构建、优化和运营,定制 LLM(大型语言模型)和生成式 AI,使用其专有数据进行训练,用于处理特定领域的任务。NVIDIA AI Foundations 包括语言,视觉和生物学模型制作服务。图图 34:AI Foundations 支持语言支持语言、视觉与生物学模型视觉与生物学模型 资料来源:英伟达 GTC,招商证券 2、CUDA 架构深度适配各类架构深度适配各类 AI 框架,配
83、合硬件基础打造用户高度依赖的研发环境框架,配合硬件基础打造用户高度依赖的研发环境 英伟达英伟达围绕数据中心业务提供围绕数据中心业务提供 GPU/CPU/DPU/DGX 系统硬件支持系统硬件支持,并提供多种加速库与云服务并提供多种加速库与云服务。根据英伟达官网,硬件方面,公司开发适用于高性能计算与AI的Tesla系列GPU,截至2023年3月,最新一代大模型芯片为H100 GPU;提供擅长单线程执行和内存处理的 Grace CPU 与释放 CPU 资源的 BlueField DPU 新型加速计算单元。基于 H100 GPU、BlueField-3 DPU 与 NVLink 连接技术,公司推出 D
84、GX 系统,可用于构建 DGX AI 超级计算机,提供强大、完整的 AI 平台。软件方面,公司推出多种加速库与 DGX Cloud、AI Foundations,可以帮助企业应用与科学研究实现加速计算,为全球主要云服务商提供 AI 技术及面向需要定制 LLM(大型语言模型)和生成式 AI。英伟达的核心竞争力之一在于其英伟达的核心竞争力之一在于其 CUDA 架构,成为当架构,成为当前全球加速计算领域依赖度极高的架构之一,助力英伟达打造前全球加速计算领域依赖度极高的架构之一,助力英伟达打造 敬请阅读末页的重要说明 21 行业深度报告 客户粘性极高的生态环境。客户粘性极高的生态环境。英伟达除了为客户
85、提供基础的 GPU、CPU、DPU、超算平台等,更为主要的是英伟达成功抓住了人工智能浪潮,推广了其 CUDA 架构,目前 CUDA 架构支持 TensorFlow 和 PyTorch 等多种深度学习框架,当前全球大部分前沿研发工作均是基于 CUDA 架构展开,同时英伟达在其 GPU 中配置有专门的 CUDA 核加速计算,用户要是想迁移到其它平台会有极大的转换成本,并且会少很多研究支持和辅助,CUDA 已经帮助英伟达打造了一个较为稳固的生态,客户在非必要的情况下通常不会考虑迁移到另外一个框架进行从头开始的研究和发展。图图 35:英伟达数据中心业务布局:英伟达数据中心业务布局 资料来源:英伟达官网
86、,招商证券 数据中心有望成为短期拉动英伟达增长数据中心有望成为短期拉动英伟达增长的强大动力,游戏和专业可视化业务预计随着下游需求复苏亦将有所好转,汽的强大动力,游戏和专业可视化业务预计随着下游需求复苏亦将有所好转,汽车业务领域英伟达料将保持长期稳健成长。车业务领域英伟达料将保持长期稳健成长。对于英伟达自身来讲,业务主要分为数据中心、游戏、专业可视化、汽车四大部分。在 AIGC 浪潮下算力需求剧增,英伟达作为全球 GPU 龙头公司有望率先受益于全球算力需求激增浪潮,未来有望进一步加大投片量满足各领域客户的大算力芯片需求,公司展望数据中心增长主要系公司多款产品即将上市且 H100 顺利爬坡、生成式
87、 AI 将刺激 CSP 和初创企业的需求以及企业上云的进程将会恢复。游戏和专业可视化业务2022 年由于下游需求疲软受到的影响较大,预计 2023 年后期随着下游需求有望逐步转暖之后,这两部分的业务或将重回增长轨道。全球智能汽车发展脚步仍未停歇,英伟达和全球主要的汽车制造商以及 OEM 厂商均开展深度合作,公司在汽车核心大算力芯片亦保持相对领先地位,未来该部分业务成长预期将会相对稳健。图图 36:英伟达:英伟达 FY20Q1-23Q4 各季度营收及各季度营收及 YOY 图图 37:英伟达:英伟达 FY20Q1-23Q4 各季度毛各季度毛利率及净利率利率及净利率 资料来源:英伟达,招商证券 资料
88、来源:英伟达,招商证券 -40%-20%0%20%40%60%80%100%02040608010020Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q223Q323Q4营收(亿美元)YoY0%20%40%60%80%20Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q223Q323Q4毛利率净利率 敬请阅读末页的重要说明 22 行业深度报告 四四、投资建议、投资建议 1、全球服务器产业链、全球服务器产业链范围广泛提供众多机遇范围广泛提供众多机遇,国内公司,国内公司在各个细分领域
89、均有布局在各个细分领域均有布局 服务器产业链服务器产业链的上游主要是零部件供应商,中游是服务器品牌商和的上游主要是零部件供应商,中游是服务器品牌商和 OEM/ODM 厂商,服务器的下游客户是互联网和厂商,服务器的下游客户是互联网和云服务厂商、运营商等客户群体。云服务厂商、运营商等客户群体。服务器上游:主要包括芯片、服务器上游:主要包括芯片、PCB、连接器、线缆、电源和各类接口等。、连接器、线缆、电源和各类接口等。此处的服务器上游主要是从硬件层面对服务器进行拆解,得到的服务器内部核心零部件供应商领域,主要包括 GPU、CPU、存储、PCB/载板、连接器、线缆、散热、电源、模拟芯片、接口类芯片、B
90、MC 芯片、RAID 卡、各类接口、被动元件和功率器件等,建议关注全球核心GPU 供应商英伟达的业绩表现,以及英伟达产业链相关受益标的。服务器中游:主要包括服务器品牌上和服务器中游:主要包括服务器品牌上和 OEM/ODM 厂商,未来厂商,未来 OEM/ODM 或将逐步向或将逐步向 JDM 模式转变。模式转变。传统服务器行业的供应模式是 OEM/ODM 到品牌商再到客户,未来随着终端客户对于服务器的定制化需求逐步增强,OEM/ODM厂商或将逐步加强与终端客户的直接联系以满足终端客户的定制化需求,或将逐步向 JDM 转变。服务器下游:主要是采购服务器的各类客户群体。服务器下游:主要是采购服务器的各
91、类客户群体。此处列举的服务器下游终端客户群体主要是 B 端和 G 端客户,主要包括互联网厂商、云服务商、运营商、政府机构、金融机构等。图图 38:全球服务器产业链:全球服务器产业链(加粗部分为(加粗部分为 A 股上市公司)股上市公司)资料来源:招商证券整理 敬请阅读末页的重要说明 23 行业深度报告 2、未来未来价值量占比最大价值量占比最大的是的是 GPU 等等算力芯片算力芯片,关注服务器配套的其它电子零部件产品关注服务器配套的其它电子零部件产品 考虑到未来考虑到未来 AI 服务器的价值量构成中,服务器的价值量构成中,GPU 等大算力芯片将占据绝对大头,因此建议关注布局等大算力芯片将占据绝对大
92、头,因此建议关注布局 GPU 和和 CPU 等核等核心算力芯片的公司。心算力芯片的公司。当前国内二级市场中,布局 GPU 芯片的主要有寒武纪、海光信息、景嘉微等公司,同时国内一级市场同样涌现出众多推出优质 GPU 的创业公司,考虑到 GPU 市场竞争相对激烈,建议关注未来在算力需求大幅提升背景下有望提供满足实际需求的 GPU 产品以及创造业绩的厂商。寒武纪寒武纪(计算机计算机&电子电子组组联合联合):“云边端”三条产品线协同发力,与阿里、百度等头部互联网企业和国内头部运营:“云边端”三条产品线协同发力,与阿里、百度等头部互联网企业和国内头部运营商展开深入合作。商展开深入合作。公司产品包括智能加
93、速卡、智能加速系统、智能边缘计算模组、终端智能处理器 IP、软件开发平台,其中智能加速卡包括思元 370、290、270 系列,其中 370-X8 智能加速卡采用 7nm 工艺制造,FP16 精度算力可达96 TFLOPS,内存容量可达 48GB。玄思 1000 智能加速器整机在 2U 机箱里集成了 4 颗思元 290 芯片,INT16 算力达 1 PetaOPS,内存容量可达 128GB。目前公司云端产品主要应用于互联网、金融等领域,与阿里、百度等头部互联网企业的多个业务部门进行了密切交流并已实现产品导入,在视觉、语音等场景的适配性能表现超出客户预期,部分场景已经形成一定规模收入。此外,公司
94、联合服务器厂商入围头部运营商 2021 年至 2022 年人工智能通用计算设备集中采购项目,迈出了向运营商行业拓展的第一步。海光信息海光信息(电子电子&计算机计算机组组联合联合):CPU 和和 DCU 双轨并行助力长期发展,海光三号迭代焕新销售面貌,双轨并行助力长期发展,海光三号迭代焕新销售面貌,DCU 产品产品具备长期增长空间。具备长期增长空间。海光信息的芯片产品主要包括 CPU 和 DCU,CPU 产品包括 7000 系列、5000 系列和 3000 系列,其中 7000 系列是面向数据中心的旗舰级高性能处理器,主要应用于对计算能力、拓展能力、吞吐量有较高要求的领域,包括云计算、大数据、数
95、据库、分布式存储、人工智能等;5000 系列面是向行业客户的主流终端处理器,适用云计算、边缘计算、分布式存储等应用场景,能够满足互联网、金融、电信、交通、能源等多行业和企业的运算需求;3000 系列是面向多场景的高性价比处理器,主要应用于入门级服务器、工作站、工业控制等市场。据公司公告,海光三号目前已经实现销售,将是 2023 年公司销售的主力产品。海光深度计算处理器 DCU 为海光 8000 系列,兼容“类 CUDA”环境,可广泛应用于大数据处理、人工智能、商业计算等领域,主要部署在服务器集群和数据中心。景嘉微景嘉微(军工军工组组):国内老牌自主:国内老牌自主 GPU 厂商,在特种、消费类等
96、多领域实现完整布局。厂商,在特种、消费类等多领域实现完整布局。公司是国内首家成功研制国产 GPU 芯片并实现大规模工程应用的企业,先后研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主知识产权的高性能 GPU 芯片,应用领域涵盖地理信息系统、媒体处理、CAD 辅助设计、游戏、虚拟化等高性能显示和人工智能计算领域。公司22M6宣布JM9 系列第二款图形处理芯片经阶段性测试,支持 X86、ARM、MIPS 处理器和 Linux、中标麒麟、银河麒麟、统信软件、翼辉、天脉等操作系统。龙芯中科:国内老牌自主龙芯中科:国内老牌自主 CPU 厂商,在算力需求提升的背景下或将有望受益于核心主芯片的国
97、产化浪潮。厂商,在算力需求提升的背景下或将有望受益于核心主芯片的国产化浪潮。2001 年,中国科学院计算技术研究所开始研制龙芯处理器,得到了中科院知识创新工程、863、973、核高基等项目大力支持。2010 年,在中国科学院和北京市政府共同牵头出资支持下,龙芯开始市场化运作,对龙芯处理器研发成果进行产业化。龙芯中科研制的芯片包括龙芯 1 号、龙芯 2 号、龙芯 3 号三大系列处理器芯片及桥片等配套芯片。龙芯中科芯片产品依据应用领域的不同可分为工控类芯片和信息化类芯片。在信息化领域,国内数十家整机品牌推出了基于龙芯 CPU 的台式机、笔记本、一体机与服务器设备,已经广泛应用于电子政务办公信息化系
98、统,并在金融、教育等应用中展开批量应用试点。敬请阅读末页的重要说明 24 行业深度报告 图图 39:国内部分公司:国内部分公司 GPU 产品布局产品布局 资料来源:各公司官网和公告,招商证券整理 存储:存储:服务器存储主要搭配 CPU/GPU 等,随着数据量呈指数级增长,以及 AI/ML 训练等高级工作负载的快速增长,AI 服务器将持续催生存储需求提升。AI 服务器的 DRAM 容量大约是通用服务器的 8 倍,NAND 容量大约是通用服务器的 3 倍,AI 服务器的 DDR5 渗透率有望逐步提升,HBM 等新型存储芯片目前也已在主流 AI-GPU 上搭载。当前服务器存储份额主要集中于海外大厂,
99、但国内潜在空间巨大,建议关注国内存储模组厂商江波龙、佰维存储,DRAM/NAND/HBM 等存储封测厂商长电科技、通富微电、深科技,以及 HBM 材料等产业链公司雅克科技(化工组)、联瑞新材(化工组)、太极实业等。公司公司产品名称产品名称制程制程(nm)(nm)FP32FP32(TFLOPS)(TFLOPS)FP16FP16(TFLOPS)(TFLOPS)INT16INT16(TOPS)(TOPS)INT8INT8(TOPS(TOPS显存容量显存容量(GB)(GB)带宽带宽(GB/s)(GB/s)功耗功耗(W)(W)MLU370-S47307.275MLU370-X472
100、496.2150MLU370-X872496.4250MLU290-M57-2565MLU270-S70MLU270-F150海光信息海光信息深算一号(8100)7321TB/s260-350JM720028-10-40JM9-1.5-812830JM9第二款-512GFLOPS-825.615天垓7295321228.8250智铠10-壁仞100P50-550壁仞104P7102432819
101、300CAISA28-10.9-340-星空X3加速卡28-10.98-56星空X9加速卡28-43.632-230沐曦沐曦MXN7-80-16016-云燧T20(燧思2.0)1.6TB/s300云燧T21(燧思2.0)1.6TB/s300云燧T10(邃思)云燧T11(邃思)云燧i20(邃思)10云燧i10(邃思)1217.670.4-70.4165121502代AI芯片7--AI加速卡R200(2代)732128128256
102、16512150AI加速卡R200-8F(2代)732512160AI加速器组R480-X8(2代)732512-1代AI芯片14-64-256-512-K100(1代)14-128-512-K200(1代)14-256-512-MTT S80(春晓)714.4-16448255MTT S30-2.6-4-40MTT S10-2-2-MTT S5012-8-75MTT S3000(春晓)715.2-32448250MTT S2000(苏堤)1210.6-42.432-150寒武纪寒武纪景嘉微景嘉微天数智芯天数智芯支持双精度/单精度/半精度浮点数与各种
103、常见整型数摩尔线程摩尔线程壁仞科技壁仞科技峰值为256TFLOPS(TF32+)、512TFLOPS(BF16)鲲云鲲云燧原科技燧原科技昆仑芯昆仑芯 敬请阅读末页的重要说明 25 行业深度报告 模拟:模拟:服务器内部除了基础的 DC/DC、LDO、运放等常规模拟芯片之外,还会有多相控制器和 DrMOS 等专门用于CPU 和 GPU 供电用的模拟芯片,通常单个多相控制器会配备 5-6 个甚至 8-12 个 DrMOS,随着 CPU 和 GPU 颗数的增多,相应的模拟芯片用量也会持续增长,建议关注国内目前布局多相控制器和 DrMOS 的杰华特和晶丰明源、以及布局服务器模拟芯片的纳芯微等模拟芯片公司
104、。连接类芯片:连接类芯片:服务器内部的连接类芯片包括存储接口类相关的内存接口芯片、SPD 等,PCIe 传输相关的 PCIe Retimer和 Switch 芯片等,USB 等接口芯片,建议关注国内有相应产品布局的澜起科技、裕太微、龙迅股份等。PCB/载板载板:伴随 AI 大模型技术的快速发展,全球对于未来算力的需求有望高速增长,数据中心、服务器、交换机等基础算力设施亦有望迎来新一轮升级扩容。随着新一代服务器平台升级量产在即,PCIe5.0 接口协议的升级将推动高速高多层板、HDI 板及相应高速基材的需求,带动服务器 PCB 板量价齐升。此外,高算力进一步催生 CPU、GPU等芯片和存储芯片需
105、求的高速增长,目前 AI 服务器较普通服务器在运算芯片以及存储芯片配置数量上有了成倍的提升,亦为芯片所需的封装载板材料打开新的增长空间。建议关注国内在数通板领域有长期积累、且技术和客户有较佳卡位的 PCB 厂商,如深南电路、沪电股份、生益电子、胜宏科技、景旺电子、奥士康、崇达技术、鹏鼎控股、东山精密等;载板方面,建议关注即将开出相应高端载板产能的国内厂商,如深南电路、兴森科技等,以及以生益科技为代表的上游载板基材厂商。电电/光连接:光连接:电/光连接器及线缆作为服务器传输电流、数据及信号的关键器件,随着 AI 服务器的升级以及需求的提升,对其数据传输速率和稳定可靠性的要求进一步提升,尤其是高速
106、背板连接器、高速 I/O 连接器、400G/800G 光模块连接等领域。建议关注国内具备深厚的技术积累以及研发能力的厂商,如立讯精密、中航光电(电子&军工组联合)、意华股份、兆龙互联(通信组)、鼎通科技(通信&电子组联合)等。散热:散热:高算力需求提升的背景下,单台服务器功率将大幅提升,如英伟达 DGX A100 640GB 的系统功率将达 6.5kw,由此带来新的服务器热管理需求空间。目前传统风冷散热方面一般可支持数据中心单机柜密度在 10kw 以下,而未来AI 集群算力功率密度将达到 20-50kW/柜,风冷方案将不足以满足新的散热需求,液冷散热方案凭借更好的冷却效果其渗透率有望得到持续提
107、升。在国内数据中心持续扩张背景下热管理市场有望快速发展,关注国内在这方面有前瞻布局的厂商,如立讯精密、英维克(通信组)、高澜股份(通信组)、网宿科技(通信组)、申菱环境(家电组)、硕贝德、科华数据(电新组)等。电源电源:AI 服务器功率较普通服务器有数倍的提升,将带动电源模块需求的同步增长,且 AI 服务器中运算单元更多需要更加复杂的供电解决方案,如英伟达 A100 则需要 16 相电源解决方案(1 颗多项控制器+16 颗大电流 DrMOS 的配置),AI 服务器同时需要多张 A100,将带来 AI 服务器单机电源产品价值量的大幅提升。建议关注电源模组厂商如中国长城(计算机组)、欧陆通、奥海科
108、技等。风险提示:风险提示:1)下游需求不及预期的风险下游需求不及预期的风险:当前 AI 浪潮持续提升对于服务器和算力的需求,各个国家和地区以及全球各大互联网等公司都注重自身算力能力建设,但仍需考虑未来数据中心等行业需求不及当下乐观预期的潜在影响;2)行业竞争加剧的风险行业竞争加剧的风险:当前全球核心算力芯片主要由英伟达等公司提供,国内一二级市场均逐步涌现出具备技术实力的半导体等服务器供应链厂商,关注未来 AI 算力供应链各环节厂商可能会出现的竞争加剧情况;3)宏观政策宏观政策和国际形势变化和国际形势变化的风险的风险:算力基础设施属于未来各国和地区核心竞争力的重大影响因素之一,关注未来国际局势变
109、化或将对行业整体造成的影响。4)技术路径变化的风险技术路径变化的风险:目前处于通用服务器逐步向 AI 服务器过渡的阶段,建议未来持续关注算力产业链技术变化;5)供应链受限供应链受限的风险的风险:目前已 GPU 和 CPU 为代表的核心算力芯片仍主要由境外代工厂提供产能,国内半导体制造工艺水平仍有巨大提升空间,建议未来持续关注行业整体供应链或将受到的影响和改变。敬请阅读末页的重要说明 26 行业深度报告 参考报告:参考报告:1、存储行业跟踪报告存储拐点曙光初现,自主可控持续加速2023-04-04 2、英伟达 GTC 2023 跟踪报告AI 的 iPhone 时刻到来,英伟达全力加速生成式 AI
110、 发展2023-03-23 3、PCB 行业跟踪报告AI 高算力需求打开长线空间,行业景气有望企稳回升2023-03-23 4、生益电子(688183)业绩逆势增长,服务器与汽车业务占比持续提升2023-04-06 5、鹏鼎控股(002938)业绩符合市场预期,持续扩充高阶产能布局2023-03-29 6、龙迅股份(688486)深度报告深耕高速混合芯片市场,积蓄汽车等市场长期发展动力2023-03-07 7、杰华特(688141)2022 全年业绩符合预期,关注新品发布和上量节奏2023-02-27 8、英伟达 FY23Q4 跟踪报告本季业绩符合预期,数据中心和游戏业务增长展望乐观2023-
111、02-24 9、东山精密(002384)点评报告并购北美本土厂商,积极配套 T 客户加速全球化产能布局2023-02-01 10、立讯精密(002475)详解新一轮股权激励方案,逆周期推出彰显长线信心2022-11-17 11、胜宏科技(300476)H1 逆势增长源于结构优化,关注公司产品&客户升级趋势2022-08-22 12、海光信息(688041)新股分析深耕 x86 服务器 CPU,推出 DCU 塑造未来成长动力2022-08-09 13、景旺电子(603228)Q2 业绩符合预期,H2 望继续受益原料降价及稼动率提升2022-08-08 14、沪电股份(002463)今年有望迎增长
112、拐点,汽车+数通长线逻辑清晰2022-03-24 敬请阅读末页的重要说明 27 行业深度报告 分析师分析师承诺承诺 负责本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。鄢凡:鄢凡:北京大学信息管理、经济学双学士,光华管理学院硕士,14 年证券从业经验,08-11 年中信证券,11 年加入招商证券,现任研发中心董事总经理、电子行业首席分析师、TMT 及中小盘大组主管。11/12/14/15/16/17/19/20/21/22年新财富电子最佳分析师第 2/5/2/2/
113、4/3/3/4/3/5 名,11/12/14/15/16/17/18/19/20 年水晶球电子第2/4/1/2/3/3/2/3/3 名,10/14/15/16/17/18/19/20 年金牛奖TMT/电子第 1/2/3/3/3/3/2/2/1 名,2018/2019 年最具价值金牛分析师。曹辉:曹辉:上海交通大学工学硕士,2019/2020 年就职于西南证券/浙商证券,2021 年加入招商电子团队,任电子行业分析师,主要覆盖半导体领域。王恬:王恬:电子科技大学金融学、工学双学士,北京大学金融学硕士,2020 年在浙商证券,2021 年加入招商电子团队,任电子行业分析师。程鑫:程鑫:武汉大学工学
114、、金融学双学士,中国科学技术大学硕士,2021 年加入招商电子团队,任电子行业研究助理。谌薇:谌薇:华中科技大学工学学士,北京大学微电子硕士,2022 年加入招商证券,任电子行业研究助理。评级评级说明说明 报告中所涉及的投资评级采用相对评级体系,基于报告发布日后 6-12 个月内公司股价(或行业指数)相对同期当地市场基准指数的市场表现预期。其中,A 股市场以沪深 300 指数为基准;香港市场以恒生指数为基准;美国市场以标普 500 指数为基准。具体标准如下:股票股票评级评级 强烈推荐:预期公司股价涨幅超越基准指数 20%以上 增持:预期公司股价涨幅超越基准指数 5-20%之间 中性:预期公司股
115、价变动幅度相对基准指数介于 5%之间 减持:预期公司股价表现弱于基准指数 5%以上 行业评级行业评级 推荐:行业基本面向好,预期行业指数超越基准指数 中性:行业基本面稳定,预期行业指数跟随基准指数 回避:行业基本面转弱,预期行业指数弱于基准指数 重要重要声明声明 本报告由招商证券股份有限公司(以下简称“本公司”)编制。本公司具有中国证监会许可的证券投资咨询业务资格。本报告基于合法取得的信息,但本公司对这些信息的准确性和完整性不作任何保证。本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突。本报告版权归本公司所有。本公司保留所有权利。未经本公司事先书面许可,任何机构和个人均不得以任何形式翻版、复制、引用或转载,否则,本公司将保留随时追究其法律责任的权利。