上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业专题研究:ChatGPT服务器深度拆解-230225(23页).pdf

编号:116487 PDF 23页 1.87MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业专题研究:ChatGPT服务器深度拆解-230225(23页).pdf

1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 ChatGPT 服务器服务器:深度:深度拆解拆解 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 重点推荐重点推荐 股票名称股票名称 股票代码股票代码 目标价目标价 (当地币种当地币种)投资评级投资评级 浪潮信息 0

2、00977 CH 44.06 买入 景嘉微 300474 CH 96.74 买入 资料来源:华泰研究预测 2023 年 2 月 25 日中国内地 专题研究专题研究 GPT 模型热潮有望带动模型热潮有望带动 ChatGPT 服务器服务器产业投资机遇产业投资机遇 我们认为,随着国内互联网厂商陆续开展 ChatGPT 类似产品研发,GPT 大模型训练热潮或将带来底层算力需求快速释放。GPT 模型算力需求分为训练+推理两类,产生于预训练、Finetune、日常运营三大场景。据我们测算,ChatGPT 一次预训练需要 3640 PFlop/s-day、单月运营需要算力 7034.7 PFlop/s-da

3、y。复盘服务器产业发展历程来看,我们认为 AI 服务器更适合承接 GPT 大模型算力需求。拆解 AI 服务器来看,主要硬件成本来自算力芯片,且以 GPU 为主。我们认为,随着 GPT 热潮带动算力需求逐步释放,国内ChatGPT 服务器产业有望迎来发展机遇,建议关注:浪潮信息、景嘉微。ChatGPT:大模型:大模型+Transformer 架构,带动并行计算需求架构,带动并行计算需求 ChatGPT 发布之后,引发了全球范围的关注和讨论,百度、阿里、京东等国内各大厂商相继宣布 GPT 模型开发计划。从 AI 模型应用场景来看,主要包括推理和训练两类。从实践场景来看,算力需求场景包括预训练、Fi

4、netune及日常运营。以 GPT-3 模型为例,随着模型朝更大体量的方向演进,一次训练所需的计算量最高达 3640PFlop/s-day,单月运营算力 7034.7 PFlop/s-day,对应成本约 889 万美元。我们认为,在 Transformer 架构加持下,GPT 模型得以高效地完成大规模参数计算,随着模型持续迭代、参数体量不断提升,并行计算需求有望进一步释放。ChatGPT 需要的服务器:需要的服务器:AI 训练型服务器训练型服务器+AI 推理型服务器推理型服务器 我们认为,计算架构的变化是推动服务器技术演进的关键变量。从计算场景来看,随着计算架构从 PC 到云计算,到边缘计算,

5、再到 AI 训练,服务器需求也在发生相应变化。复盘主流服务器发展历程来看:1)通用服务器:以单机性能提升为迭代目标;2)云计算服务器:主要为承载大规模数据处理需求而生,以 IaaS 模式带来服务器商业模式的变革;3)边缘服务器:主要解决实时性、带宽成本、安全性等问题;4)AI 服务器:专为人工智能训练设计,包括训练型和推理型,多采用大规模并行计算以提升效率。ChatGPT 需要的芯片:需要的芯片:CPU+GPU、FPGA、ASIC 从产业需求来看,AI 大模型训练需要大算力支持,智能算力需求释放有望带动 AI 服务器放量。目前国产 AI 服务器厂商主要包括浪潮信息、华为、新华三等,21H1 国

6、产 AI 服务器厂商占全球市场份额超 35%。拆解 AI 服务器来看,主要硬件成本来自算力芯片,且以 GPU 为核心。目前海外主流 AI GPU芯片包括英伟达 H00、A100、V100 等,受美国出口限制政策影响,目前国内在先进算力方面主要采购英伟达 A800 或更低端版本作为替代方案。考虑到部分国产 AI GPU 如华为昇腾在 FP16 浮点计算性能上已经实现对英伟达A100 的加速追赶,未来随着国产生态打磨,AI GPU 国产替代有望加速。投资建议:关注投资建议:关注 ChatGPT 服务器产业链服务器产业链 我们认为,随着 GPT 热潮带动算力需求逐步释放,国内 AI 服务器产业有望迎

7、来发展机遇,建议关注核心环节龙头。目前国内 AI 服务器产业链公司主要包括:1)能够采购到海外高性能芯片的厂商:浪潮信息等;2)采用海光/寒武纪芯片的厂商:中科曙光;3)采用华为昇腾芯片的厂商:拓维信息等;4)底层芯片供应商:海光信息、寒武纪、景嘉微等。风险提示:宏观经济波动;下游需求不及预期;算力需求测算与实际不符。(31)(22)(13)(3)6Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 AI 服务器服务器:ChatGPT 训练热潮有望带动训练热潮有望带动 AI 服务服务器器需求需求

8、ChatGPT:大模型大模型+Transformer 架构,架构,带动并行计算需求带动并行计算需求 大厂布局大厂布局 ChatGPT 类似产品,类似产品,或将或将带来底层算力需求。带来底层算力需求。ChatGPT 发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布 GPT 模型开发计划。据各公司官网,2023 年 2月 7 日,百度宣布将推出 ChatGPT 类似产品“文心一言”,预计今年 3 月展开内测;2 月 8日阿里宣布阿里版 ChatGPT 正在研发中,目前处于内测阶段;2 月 9 日,字节跳动旗下AI Lab 宣布正在开展 ChatGPT 和 AIGC 相关研发,未来将为 P

9、ICO 提供技术支持;2 月 10日,京东旗下言犀人工智能平台推出产业版 ChatGPT“ChatJD”。我们认为,随着国内互联网厂商陆续开展 ChatGPT 类似产品研发,GPT 大模型训练热潮或将带来底层算力需求快速释放。AI 模型对算力的需求主要体现在模型对算力的需求主要体现在训练和推理两个层面训练和推理两个层面。当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。据 IDC 数据,2021 年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练。据 IDC 预计,到 2026 年 AI 推理的负载比例将进一步提升至 62.2%。具体来看:1)训练阶段)

10、训练阶段:基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。对于图像识别、语音识别与自然语言处理等领域的复杂问题,为了获得更准确的人工智能模型,训练阶段常常需要处理大量数据集、做反复的迭代计算,耗费巨大的运算量。2)推理阶段)推理阶段:训练阶段结束以后,人工智能模型已经建立完毕,已可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),此过程被称为推理阶段。推理阶段对单个任务的计算能力要求不如训练那么大,但是由于训练出来的模型会多次用于推理,因此推理运算的总计算量也相当可观。图表图表1:中国人工智能服务器工作负载及预测中国人工智能服务器工作负载及预

11、测 资料来源:IDC、华泰研究 ChatGPT 算力需求场景包括预训练、算力需求场景包括预训练、Finetune 及日常运营及日常运营。从 ChatGPT 实际应用情况来看,从训练+推理的框架出发,我们可以将 ChatGPT 的算力需求按场景进一步拆分为预训练、Finetune 及日常运营三个部分:1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似 GPT-1/2/3 这样的基础大模型;2)Finetune:在完成预训练的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实现对模型参数量的优化调整;3)日常运营:基于用户输入信息,加载模型参数进行推理计算,

12、并实现最终结果的反馈输出。51.5%57.6%58.5%59.5%60.7%61.8%62.2%48.5%42.4%41.5%40.5%39.3%38.2%37.8%0%10%20%30%40%50%60%70%80%90%100%202020212022E2023E2024E2025E2026E推理训练 YUkXrUgUuXdYzRwO6MdNaQtRqQnPpMlOoOtRfQsQsN6MoPmMMYsPoMwMoPqP 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 图表图表2:ChatGPT 算力需求算力需求研究研究框架框架 资料来源:OpenAI、华泰研

13、究 预训练阶段:预训练阶段:单次单次算力需求取决于模型参数量,最高可达算力需求取决于模型参数量,最高可达 3640 PFlop/s-day ChatGPT 基于基于 Transformer 架构,进行语言模型预训练架构,进行语言模型预训练。GPT 模型之所以能够高效地完成大规模参数计算,我们认为离不开Transformer架构的加持。拆解Transformer架构来看,核心是由编码模块和解码模块构成,而 GPT 模型只用到了解码模块。拆解模块来看,大致分为三层:前馈神经网络层、编码/解码自注意力机制层(Self-Attention)、自注意力机制掩码层,其中:1)注意力机制层主要作用在于计算某

14、个单词对于全部单词的权重(即 Attention),从而能够更好地去学习所有输入之间的关系,实现对文本内在关系的理解和更大规模的并行计算;2)前馈神经网络提供了对数据信息的高效存储及检索;3)掩码层在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词。因此,相较于前代深度学习架构 RNN,Transformer 架构可以实现更大规模的并行计算,大大提升了计算效率。图表图表3:Transformer 解码模块拆解解码模块拆解 资料来源:CSDN、华泰研究 单一大模型单一大模型路线下路线下,需要需要完成完成大大规模规模参数参数计算计算。以 GPT-3 模型为例,随着模型朝更大体量的方向演进,参数

15、量从 GPT-3 Small 的 1.25 亿个增长到 GPT-3 175B 的 1746 亿个,一次训练所需的计算量从 2.6PFlop/s-day 增至 3640PFlop/s-day。与此同时,在不同学习样本(包括小样本、单一样本、零样本)条件下的模型,随着参数量的提升均实现不同幅度的上下文学习能力改善,外在表现为语言准确率的提升。我们认为,随着大模型训练表现出越来越强大的实战能力,未来或将成为 NLP 训练的主流选择。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 图表图表4:不同不同 NLP 模型模型参数量及训练算力对比参数量及训练算力对比 模型模型 总

16、计算量(总计算量(PFlop/s-day)总计算量(总计算量(Flops)参数量(百万个)参数量(百万个)令牌数量(十亿)令牌数量(十亿)T5 模型模型 T5-Small 2.08E+00 1.80E+20 60 1000 T5-Base 7.64E+00 6.60E+20 220 1000 T5-Large 2.67E+01 2.31E+21 770 1000 T5-3B 1.04E+02 9.00E+21 3000 1000 T5-11B 3.82E+02 3.30E+22 11000 1000 BERT 模型模型 BERT-Base 1.89E+00 1.64E+20 109 250 B

17、ERT-Large 6.16E+00 5.33E+20 355 250 ROBERTa-Base 1.74E+00 1.50E+21 125 2000 ROBERTa-Large 4.93E+01 4.26E+21 355 2000 GPT 模型模型 GPT-3 Small 2.60E+00 2.25E+20 125 300 GPT-3 Medium 7.42E+00 6.41E+20 356 300 GPT-3 Large 1.58E+01 1.37E+21 760 300 GPT-3 XL 2.75E+01 2.38E+21 1320 300 GPT-3 2.7B 5.52E+01 4.7

18、7E+21 2650 300 GPT-3 6.7B 1.39E+02 1.20E+22 6660 300 GPT-3 13B 2.68E+02 2.31E+22 12850 300 GPT-3 175B 3.64E+03 3.14E+23 174600 300 资料来源:Language Models are Few-Shot Learners,OpenAI,2020、华泰研究 图表图表5:随着模型参数量增长,不同学习样本模型的准确度均有提升随着模型参数量增长,不同学习样本模型的准确度均有提升 资料来源:Language Models are Few-Shot Learners,OpenAI,

19、2020、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 推理阶段:预计单月运营算力需求约推理阶段:预计单月运营算力需求约 7034.7 PFlop/s-day ChatGPT 近一月访问量为近一月访问量为 8.89 亿次亿次。据 SimilarWeb 数据,2023 年 1 月以来 ChatGPT 官网日访问量持续攀升,从 1 月初的日均千万次级别,到 1 月底日均两千万次,再到 2 月中旬的三千万次级别,随着软件效果的广泛传播,用户访问次数愈发频繁。加总近一月(2023/1/17-2023/2/17)ChatGPT 官网访问量数据来看,可得 Chat

20、GPT 月访问量为 8.89亿次。图表图表6:ChatGPT 官网日访官网日访问量(百万次)问量(百万次)资料来源:SimilarWeb、华泰研究 预计日常运营单月所需算力约预计日常运营单月所需算力约 7034.7 PFlop/s-day。日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据前文,近一个月(2023/1/17-2023/2/17)ChatGPT 官网总访问量为 8.89 亿次。据 Fortune 杂志,每次用户与 ChatGPT 互动,产生的算力云服务成本约 0.01 美元。基于此,我们测算得 2023 年 1 月 OpenAI 为 ChatGPT 支付的运

21、营算力成本约 889 万美元。此外,据 Lambda,使用训练一次 1746 亿参数的 GPT-3模型所需花费的算力成本超过 460 万美元;据 OpenAI,训练一次 1746 亿参数的 GPT-3模型需要的算力约为 3640 PFlop/s-day。我们假设单位算力成本固定,测算得 ChatGPT 单月运营所需算力约 7034.7PFlop/s-day。图表图表7:ChatGPT 单月运营算力成本测算单月运营算力成本测算 资料来源:SimilarWeb、Fortune、华泰研究预测 05540451-11-41-71-101-131-161-191-221-251-2

22、81-312-32-62-92-122-15DesktopMobile Web 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 Finetune 阶段:阶段:预计预计 ChatGPT 单月单月 Finetune 的算力需求的算力需求至少为至少为 1350.4PFlop/s-day 模型模型迭代迭代带来带来 Finetune 算力需求算力需求。从模型迭代的角度来看,ChatGPT 模型并不是静态的,而是需要不断进行 Finetune 模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基

23、于用户反馈和 PPO 策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为 OpenAI 带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。预计预计 ChatGPT 单月单月 Finetune 算力需求算力需求至少为至少为 1350.4PFlop/s-day。据 IDC 预计,2022年中国人工智能服务器负载中,推理和训练的比例分别为 58.5%、41.5%。我们假设,ChatGPT 对推理和训练的算力需求分布与之保持一致,且已知单月运营需要算力 7034.7 PFlop/s-day、一次预训练需要算力 3640 PFlop/s-day。基于此,我们进一步假设:1)考虑到

24、AI 大模型预训练主要通过巨量数据喂养完成,模型底层架构变化频率不高,故我们假设每月最多进行一次预训练;2)人类反馈机制下,模型需要不断获得人类指导以实现参数调优,以月为单位可能多次进行。由此我们计算得 ChatGPT 单月 Finetune 算力成本至少为 1350.4PFlop/s-day。ChatGPT 需要的服务器:需要的服务器:AI 训练型服务器训练型服务器+AI 推理型服务器推理型服务器 随着计算场景扩展,随着计算场景扩展,算力硬件算力硬件也在发生变化也在发生变化。在传统软件架构下,主要的模式都是 CS 模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器

25、处理上亿个重负载请求。边缘计算机本质上是用 CES 模式取代 CS 模式,当前的互联网 IT 架构已经从 CS 模式,逐步向 CDN 服务为核心的 CES 模式转变。但当前的 CDN 模式比较大的局限性在于缺乏灵活性,不能解决边缘上非结构化数据存储和处理的需求,引入 Edge端(边缘端)就是为了解决 CS 模式下无法处理的业务。而在 AI 训练场景下,计算量及数据类型的变化导致 C-E-S 又无法满足集中大算力需求,计算架构回归 C-S,并向高效率并行计算演变。图表图表8:计算架构演变过程计算架构演变过程 资料来源:CSDN、华泰研究 服务器服务器作为作为算力算力硬件核心硬件核心,面向不同,面

26、向不同计算计算场景分化场景分化演进演进。我们认为,计算架构的变化是推动服务器技术演进的关键变量。从计算场景来看,随着计算架构从 PC 到云计算,到边缘计算,再到 AI 训练,服务器需求也在发生相应变化。从单一服务器更加强调服务个体性能,如稳定性、吞吐量、响应时间等。云数据中心服务器对单个服务器性能要求下降,但更强调数据中心整体性能,如成本、快速部署和交付。边缘计算场景下,开始出现异构计算等复杂环境计算,对数据交互实时性要求有所提升,需要在边缘端设立单独的服务器设施。而 AI 服务器主要专为人工智能训练设计,数据类型以向量/张量为主,多采用大规模并行计算以提升运算效率。免责声明和披露以及分析师声

27、明是报告的一部分,请务必一起阅读。7 计算机计算机 图表图表9:服务器类型演变过程服务器类型演变过程 资料来源:CSDN、华泰研究 同一技术路线下同一技术路线下,服务器,服务器面向数据处理需求面向数据处理需求持续迭代持续迭代。复盘主流服务器发展历程来看,随着数据量激增、数据场景复杂化,不同类型服务器发展驱动力也有所差异。具体来看:1)通用服务器通用服务器:传统通用服务器的发展与计算机架构发展同步,通过处理器的时钟频率、指令集并行度、核数等硬件指标的提升优化自身性能,发展较为缓慢。2)云计算服务器云计算服务器:云计算的概念于 20 世纪 80 年代提出,仅 20 年后就有较为成熟的产品推出,如

28、VMware 的 VMware Workstation 和亚马逊 AWS 等。2010 年随着 OpenStack 开源,阿里云、华为云等项目相继布局,云计算行业快速走向成熟。3)边缘计算服务器边缘计算服务器:边缘计算概念孵化于 2015 年,仅 2 年后就有诸如亚马逊 AWS Greengrass、谷歌 GMEC 等边缘计算平台产生,并在微软的带领下提前进入技术并购期。4)AI 服务器服务器:AI 服务器最早由思科在 2018 推出,专为人工智能、机器学习的工作服务而设计,硬件架构更加适合 AI 训练场景下的算力需求。图表图表10:四类主流四类主流服务器发展历程服务器发展历程复盘复盘 资料来

29、源:CSDN、浪潮信息官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 云计算服务器:大规模数据处理云计算服务器:大规模数据处理需求下的商业模式变革需求下的商业模式变革 数据量激增数据量激增带来大算力需求带来大算力需求,云计算服务器,云计算服务器应运而生应运而生。通用服务器通过提高硬件指标提升性能,而随着 CPU 的工艺和单个 CPU 的核心数量接近极限,通用服务器性能难以支持数据量激增带来的性能需求。云计算服务器则通过虚拟化技术,将计算和存储资源进行池化,把原来物理隔离的单台计算资源进行虚拟化和集中化。最终以集群化处理来达到单台服务器所难以实现的高

30、性能计算。同时,云计算服务器集群的计算能力可以通过不断增加虚拟化服务器的数量来进行扩展,突破单个服务器硬件限制,应对数据量激增带来的性能需求。云计算服务器云计算服务器节约部分硬件成本,降低算力采购门槛节约部分硬件成本,降低算力采购门槛。早期大规模数据处理成本极高,原因在于通用服务器的购置和运维成本居高不下。传统服务器中均包含处理器摸块、存储模块、网络模块、电源、风扇等全套设备,而云计算服务器体系架构精简,省去重复的模块,提高了利用率。同时云计算服务器针对节能需求,将存储模块进行虚拟化,并去除了主板上的非必要硬件,降低了整体计算成本,并通过流量计费模式,使得更多厂商可以负担算力开支,降低了算力采

31、购门槛。图表图表11:通用服务器通用服务器-云计算服务升级云计算服务升级 资料来源:华泰研究 边缘服务器:高数据密度和带宽限制下保证低时延边缘服务器:高数据密度和带宽限制下保证低时延 边缘计算在云计算的基础上引入边缘层。边缘计算在云计算的基础上引入边缘层。边缘计算是在靠近物或数据源头的网络边缘侧,为应用提供融合计算、存储和网络等资源。在体系架构上,边缘计算在终端层和云层之间引入边缘层,从而将云服务扩展到网络边缘。其中终端层由物联网设备构成,最靠近用户,负责收集原始数据并上传至上层进行计算;边缘层由路由器、网关、边缘服务器等组成,由于距离用户较近,可以运行延迟敏感应用,满足用户对低时延的要求;云

32、层由高性能服务器等组成,可以执行复杂计算任务。图表图表12:边缘计算架构边缘计算架构 资料来源:GSMA、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 边缘计算较云计算在实时性、低成本和安全性等方面有优势:边缘计算较云计算在实时性、低成本和安全性等方面有优势:1)实时性)实时性:边缘计算将原有云计算中心的计算任务部分或全部迁移到与用户距离更近的网络边缘进行处理,而不是在外部数据中心或云端进行,因此提高了数据传输性能,保证了处理的实时性。2)低)低带宽带宽成本:成本:终端产生的数据无需远距离传输至云端,避免带宽成本。同时,边缘计算机制中,边缘层可对终端产

33、生数据进行预处理,从而降低云计算中心的计算负载。3)安全性:)安全性:边缘计算在本地设备和边缘层设备中处理大部分数据而不是将其上传至云端,减少实际存在风险的数据量,避免数据泄露危险。图表图表13:边缘计算对比云计算边缘计算对比云计算 边缘计算边缘计算 云计算云计算 目标应用目标应用 物联网或移动应用 一般互联网应用 服务器节点的位置服务器节点的位置 边缘网络(网关、WiFi、接入点和蜂窝基站)数据中心 客户端与服务器的通信网络客户端与服务器的通信网络 无线局域网,4G/5G 等 广域网 可服务的设备数量可服务的设备数量 数十亿计 数百万计 提供的服务类型提供的服务类型 基于本地信息服务 基于全

34、局信息的服务 资料来源:CSDN、华泰研究 AI 服务器:服务器:更适合更适合深度学习等深度学习等 AI 训练训练场景场景 AI 服务器采取服务器采取 GPU 架构,相较架构,相较 CPU 更适合进行大规模并行计算更适合进行大规模并行计算。通用服务器采用 CPU作为计算能力来源,而 AI 服务器为异构服务器,可以根据应用范围采用不同的组合方式,如 CPUGPU、CPUTPU、CPU 其他加速卡等,主要以 GPU 提供计算能力。从 ChatGPT模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型 RNN 来看,Transformer 架构下,AI 模型可以为输入序列中的任何字符提

35、供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从 GPU的计算方式来看,由于 GPU 采用了数量众多的计算单元和超长的流水线,因此其架构设计较 CPU 而言,更适合进行大吞吐量的 AI 并行计算。图表图表14:GPU 内部结构更适合进行大规模并行计算内部结构更适合进行大规模并行计算 资料来源:CSDN、华泰研究 深度学习深度学习主要进行矩阵向量计算,主要进行矩阵向量计算,AI 服务器处理效率更高服务器处理效率更高。从 ChatGPT 模型结构来看,基于 Transformer 架构,ChatGPT 模型采用注意力机制进行文本单词权重赋值,并向

36、前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而 AI 服务器中往往集成多个 AI GPU,AI GPU 通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI 服务器往往较 GPU 服务器计算效率更高,具备一定应用优势。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 图表图表15:GPU 服务器与服务器与 AI 服务器的区别服务器的区别 GPU 服务器服务器 AI 服务器服务器 主要用途主要用途 主要用于图形处理,如游戏渲染、视频编辑等 主要用于人工智能和机器学习任务 计算特征计算特征 配备大量的浮

37、点运算单元和高度并行的架构 配备更多的矩阵运算单元,针对深度学习算法进行了优化 处理对象处理对象 能够高效地处理大量的图形数据 能够高效地处理大量的数学运算 应用场景应用场景 适用于大量图形处理的应用程序 适用于需要高效机器学习的应用程序 资料来源:ChatGPT、华泰研究 AI 服务器分类方式有两种:服务器分类方式有两种:1)按应用场景:)按应用场景:AI 服务器按照应用场景可以分为深度学习训练型和智能应用推理型。训练任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持,典型产品有中科曙光 X785-G30 和华为昇腾 Atlas 800(型号 9000、型号 9010)。推理任务则

38、是利用训练后的模型提供服务,对算力无较高要求,典型产品有中科曙光 X785-G40 和华为昇腾 Atlas 800(型号 3000、型号 3010)。2)按芯片类型:)按芯片类型:AI 服务器为异构服务器,可以根据应用范围调整计算模块结构,可采用CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC 或 CPU+多种加速卡等组合形式。目前,产品中最常见的是 CPU+多块 GPU 的方式。图表图表16:AI 服务器分类服务器分类 资料来源:昇腾计算官网、中科曙光官网、华泰研究 常见的常见的 AI 服务器分为四路、八路、十六路服务器分为四路、八路、十六路。一般来说,通用服务器主要采用以

39、 CPU 为主导的串行架构,更擅长逻辑运算;而 AI 服务器主要采用加速卡为主导的异构形式,更擅长做大吞吐量的并行计算。按 CPU 数量,通用服务器可分为双路、四路和八路等。虽然 AI服务器一般仅搭载 1-2 块 CPU,但 GPU 数量显著占优。按 GPU 数量,AI 服务器可以分为四路、八路和十六路服务器,其中搭载 8 块 GPU 的八路 AI 服务器最常见。图表图表17:AI 服务器与通用服务器路数服务器与通用服务器路数 注:AI 服务器路数指 GPU 数量、通用服务器路数指 CPU 数量 资料来源:浪潮信息官网、宁畅官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起

40、阅读。11 计算机计算机 AI 服务器采用多芯片组合,算力硬件成本更高服务器采用多芯片组合,算力硬件成本更高。我们以典型服务器产品为例拆解硬件构成,可以更清晰地理解两类服务器硬件架构区别:以浪潮通用服务器 NF5280M6 为例,该服务器采用 12 颗第三代 Intel Xeon 可扩展处理器,据英特尔官网,每颗 CPU 售价约 64000万元,故该服务器芯片成本约 64000128000;以浪潮 AI 服务器 NF5688M6 为例,该服务器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合,据英伟达官网,每颗 A800 售价 104000 元,故该服务器芯片成

41、本约 96 万元。图表图表18:通用服务器、通用服务器、AI 服务器内部结构对比服务器内部结构对比 资料来源:浪潮信息官网、英伟达官网、英特尔官网、华泰研究 ChatGPT 需要的芯片:需要的芯片:CPU+GPU、FPGA、ASIC ChatGPT 带动大模型训练热潮,带动大模型训练热潮,AI 服务器需求有望放量服务器需求有望放量 GPT 模型模型训练需要大算力支持训练需要大算力支持,或将带来,或将带来 AI 服务器建设需求服务器建设需求。我们认为,随着国内厂商陆续布局 ChatGPT 类似产品,GPT 大模型预训练、调优及日常运营或将带来大量算力需求,进而带动国内 AI 服务器市场放量。以

42、GPT-3 175B 模型预训练过程为例,据 OpenAI,进行一次 GPT-3 175B 模型的预训练需要的算力约 3640 PFlop/s-day。我们假设以浪潮信息目前算力最强的 AI 服务器 NF5688M6(PFlop/s)进行计算,在预训练期限分别为 3、5、10 天的假设下,单一厂商需采购的 AI 服务器数量分别为 243、146、73 台。图表图表19:预训练需要的预训练需要的 AI 服务器数量测算服务器数量测算 模型名称模型名称 参数量参数量(亿)(亿)预训练需要的算力预训练需要的算力(PFlop/s-day)浪潮浪潮 NF5688M6 服务器服务器计计算速度算速度(PFlo

43、p/s)预训练完成时间预训练完成时间(天)(天)服务器采购数量服务器采购数量(台)(台)GPT-3 175B 1746.0 3640.0 5 3 243 GPT-3 175B 1746.0 3640.0 5 5 146 GPT-3 175B 1746.0 3640.0 5 10 73 资料来源:OpenAI、浪潮信息官网、华泰研究预测 AI 大模型训练需求火热,智能算力规模增长有望带动大模型训练需求火热,智能算力规模增长有望带动 AI 服务器放量。服务器放量。据 IDC 数据,以半精度(FP16)运算能力换算,2021 年中国智能算力规模约 155.2EFLOPS。随着 AI 模型日益复杂、计

44、算数据量快速增长、人工智能应用场景不断深化,未来国内智能算力规模有望实现快速增长。IDC预计 2022年国内智能算力规模将同比增长 72.7%至 268.0 EFLOPS,预计2026年智能算力规模将达1271.4 EFLOPS,2022-2026年算力规模CAGR将达69.2%。我们认为,AI 服务器作为承载智能算力运算的主要基础设施,有望受益于下游需求放量。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 图表图表20:中国智能算力规模及预测中国智能算力规模及预测 资料来源:IDC、华泰研究 国产厂商国产厂商布局丰富产品矩阵,布局丰富产品矩阵,占据全球占据全球

45、 AI 服务器市场服务器市场领先地位领先地位 浪潮信息、联想、华为等国产厂商在全球浪潮信息、联想、华为等国产厂商在全球 AI 服务器市场占据领先地位服务器市场占据领先地位。全球市场来看,AI服务器市场份额 TOP10 厂商中,国产厂商占据 4 席,累计市场份额超 35%,其中浪潮信息以 20.2%的份额排名第一。国内市场来看,AI 服务器市场集中度较高,排名前三的供应商为浪潮信息、宁畅和华为,CR3 达 70.40%。我们认为,国产厂商凭借强大产品竞争力,已经在国际市场占据一定领先地位,未来随着 AI 算力需求释放,有望充分受益于产业成长机遇。图表图表21:2021H1 全球全球 AI 服务器

46、市场竞争格局服务器市场竞争格局 图表图表22:2021H1 中国中国 AI 服务器市场竞争格局服务器市场竞争格局 资料来源:IDC、华泰研究 资料来源:IDC、华泰研究 浪潮信息浪潮信息:AI 服务器产品矩阵丰富,产品力获国际认可服务器产品矩阵丰富,产品力获国际认可。目前公司 AI 服务器主要产品型号包括 NF5688M6、NF5488A5 等,据公司官网,2021 年上述两款 AI 服务器在国际权威 AI基准测试 MLPerf 榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7 项训练冠军,可满足包括自然语言理解等在内的多项 AI 训练需求。此外,公司在 AI 领域的积累还包

47、括 AI 资源平台、AI 算法平台等,具备大量算力解决方案实施经验。31.775155.2268427640.7922.81271.402004006008001,0001,2001,400200222023202420252026中国智能算力规模及预测(EFLOPS)浪潮信息,20.2%戴尔,13.8%HPE,9.8%联想,6.1%华为,4.8%IBM,3.9%新华三,3.9%思科,2.6%Oracle,1.2%富士通,1.0%其他,32.6%浪潮信息,48.5%宁畅,13.8%华为,8.1%新华三,7.8%安擎,5.2%其他,16.5%免责声明和披露以及分析师声明是报

48、告的一部分,请务必一起阅读。13 计算机计算机 图表图表23:浪潮信息主要浪潮信息主要 AI 服务器产品矩阵服务器产品矩阵 资料来源:浪潮信息官网、华泰研究 华为华为:AI 服务器融合自研服务器融合自研加速卡加速卡与英特尔与英特尔 CPU。公司 AI 服务器为 Atlas 800 推理服务器系列,旗下有型号 3000、型号 3010、型号 9000 和型号 9010。其中,型号 3000 基于昇腾310 芯片,型号 3010 基于 Intel 处理器,型号 9000 基于华为鲲鹏 920+昇腾 910 处理器,型号 9010 基于 Intel 处理器+华为昇腾 910 芯片。旗舰级芯片加持下,

49、产品最高拥有 2.24 PFLOPS FP16 的高密度算力,并在设计结构优化下,芯片间跨服务器互联时延可缩短1070%。图表图表24:华为主要华为主要 AI 服务器产品服务器产品 资料来源:华为官网、华泰研究 新华三新华三 AI 服务器覆盖各训练服务器覆盖各训练负载要求负载要求,结合软件平台构建,结合软件平台构建 AI 完整生态。完整生态。公司主要产品型号包括 R4900 G5、R5300 G5、R5500 G5 等,可分别针对不同训练负载要求,满足大小规模的推理/训练任务。软件层面,公司通过新华三傲飞 AI/HPC 融合管理平台,全面提升AI 作业效率约 32%。2022 年,新华三被国际

50、权威分析机构 Forrester 认定为大型人工智能系统成熟厂商,可以提供可靠的服务器解决方案。同时,新华三 AI 服务器在 MLPerf 测评中共斩获 86 项世界第一。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 图表图表25:新华三主要新华三主要 AI 服务器产品服务器产品 资料来源:新华三官网、华泰研究 龙头厂商有望充分受益于算力需求释放龙头厂商有望充分受益于算力需求释放。我们认为,随着 ChatGPT 待动大模型训练热潮,以人工智能训练为代表的智能算力需求逐步释放,有望带动 AI 服务器放量。拆解 AI 服务器成本来看,GPU 等算力芯片为核心组件,

51、先进算力产品受美国出口管制影响,但可通过采购 A800 实现基本替代。我们认为,浪潮信息等国产头部厂商凭借丰富产品矩阵和强大产品竞争力,占据全球 AI 服务器市场主要份额,未来有望充分受益于服务器需求释放。GPU 算力芯片为核心组件算力芯片为核心组件,国产替代未来可期,国产替代未来可期 拆解来看,拆解来看,AI 服务器主要成本服务器主要成本包括算力芯片、内存、存储等包括算力芯片、内存、存储等。据 IDC 的 2018 年服务器成本结构拆分数据,芯片成本在基础型服务器中约占总成本的 32%,在高性能或具有更强运算能力的服务器中,芯片相关成本占比可以高达 50%-83%。以机器学习型 AI 服务器

52、为例,其主要成本由 GPU、CPU、内存及其他部件组成,其中 GPU 成本占比最高,达到 72.8%。图表图表26:2018 年全球服务器成本结构拆分年全球服务器成本结构拆分 资料来源:IDC、华泰研究 AI 服务器服务器算力芯片算力芯片以以 GPU 为主为主。据 IDC,2022 年国内人工智能芯片市场中,GPU 芯片占据主要市场份额,达 89.0%,主因 GPU 芯片并行计算架构更加适合于复杂数学计算场景,可以较好支持高度并行的工作负载,因此常用于数据中心的模型训练,以及边缘侧及端侧的推理工作负载。此外,其他主要的人工智能芯片还包括 NPU、ASIC、FPGA 等。一般而言,AI 服务器中

53、算力芯片需求数量取决于服务器设计性能要求,需求种类取决于成本、功耗、算法等指标。常见的算力芯片组合,如 8x GPU+2x CPU、4x GPU+2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。32.0%23.3%25.0%9.8%27.3%25.0%72.8%26.8%25.6%15.0%8.7%18.0%2.9%10.0%23.30%20.90%25.00%8.70%0%10%20%30%40%50%60%70%80%90%100%基础型高性能型推理型训练型CPUGPUmemorystorage其他 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。

54、15 计算机计算机 图表图表27:2022 年中国人工智能芯片市场规模占比年中国人工智能芯片市场规模占比 资料来源:IDC、华泰研究 GPU 结构:计算单元结构:计算单元+显存显存。计算单元(Streaming Multiprocessor):计算单元的功能是执行计算。其中每一个 SM 都有独立的控制单元、寄存器、缓存、指令流水线。显存(Global Memory):显存是在 GPU 板卡上的 DRAM,容量大但速度慢。1.计算单元计算单元底层底层架构:架构:显卡核心构成多样,不同核心专注不同任务。显卡核心构成多样,不同核心专注不同任务。以英伟达为例,GPU 显卡构成包括 TENSOR COR

55、E、CUDA 和 RT 等部分。TENSOR CORE,即张量核心,是英伟达 GPU 上一块特殊区域,针对 AI 矩阵计算设计,可显著提高 AI 训练吞吐量和推理性能。CUDA 则是英伟达生态中的通用结构,一般包括多个数据类型,适用于视频制作,图像处理,三维渲染等常见图像处理和计算工作。图表图表28:英伟达英伟达 GPU 计算单元架构计算单元架构 资料来源:SEGMENT、华泰研究 GPU89.0%NPU9.6%ASIC1.0%FPGA0.4%GPUNPUASICFPGA 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计算机计算机 2、TOPS 和和 TFLOPS 是常见算

56、力衡量单位:是常见算力衡量单位:1)OPS:OPS(Operations Per Second)指每秒执行的操作次数,是整数运算的单位,常在 INT8、INT4 等计算精度下度量算力性能。其中 TOPS(Tera Operations Per Second)代表处理器每秒钟可进行一万亿次(1012)操作,类似的单位还有诸如 GOPS、MOPS,均代表每秒的操作次数。2)FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所执行的浮点运算次数,常在单精度(FP32)、半精度(FP16)等计算精度下度量算力性能。TFLOPS(Tera Float

57、ing-point Operations Per Second)代表处理器每秒钟可进行一万亿次(1012)浮点运算。虽然 TOPS 和 TFLOPS 数量级一样,但前者是衡量操作次数,后者是衡量浮点运算,TOPS 要结合数据类型精度(如 INT8,FP16 等)才能与 FLOPS 转换。3.显存显存位宽、位宽、带宽带宽与容量与容量:显存的主要指标包括位宽、带宽和容量。显存的主要指标包括位宽、带宽和容量。显存本身与 CPU 的内存类似,将数据在 GPU 核心与磁盘间传输。显存位宽是显存在一个时钟周期内所能传送数据的位数,决定了显存瞬时传输的数据量。显存带宽是指显示芯片与显存之间的数据传输速率,由

58、显存频率和显存位宽共同决定,体现了显卡的速度和性能。显存容量决定了显存临时存储数据的多少。目前主流目前主流 AI GPU 芯片包括芯片包括英伟达英伟达 H100、A100 以及以及 V100 等等。全球来看,目前用于人工智能训练的 AI GPU 市场以英伟达为主导,公司旗下先进算力产品主要包括 H100、A100以及 V100。对比双精度浮点计算性能(FP64 Tensor Core)来看,H100、A100、V100计算速度分别为 67 TFLOPS、19.5 TFLOPS、8.2 TFLOPS。从显存带宽来看,H100、A100、V100 传输速度分别为 3TB/s、2TB/s、900GB

59、/s。图表图表29:英伟达英伟达 H100、A100 以及以及 V100 显卡参数对比显卡参数对比 H100 A100 V100 晶体管数量晶体管数量 800 亿 542 亿 211 亿 CUDA 核心数量核心数量 16896 6912 5120 Tensor 核心数量核心数量 528 432 640 显存位宽(最高)显存位宽(最高)5120-bit 5120-bit 4096-bit 显存带宽(最高)显存带宽(最高)3TB/s 2TB/s 900GB/s 显存容量(最高)显存容量(最高)80GB 80GB 32GB FP64 Tensor Core 67 TFLOPS 19.5 TFLOPS

60、 8.2 TFLOPS TF32 Tensor Core 989 TFLOPS 156 TFLOPS 16.4 TFLOPS 首发售价(元)首发售价(元)239999 87599 21999 资料来源:英伟达官网、华泰研究 先进算力芯片进口受限或为国产先进算力芯片进口受限或为国产 AI 服务服务器器的瓶颈之一的瓶颈之一。2022 年 10 月 7 日,美国商务部工业与安全局(BIS)宣布了针对中国出口先进芯片的管制新规声明。声明规定,满足输入输出(I/O)双向传输速度高于 600GB/s,同时每次操作的比特长度乘以 TOPS 计算出的处理性能合计为 4800 或更多算力的产品,将无法出口至中国

61、。以英伟达 A100 为例,以 TF32性能测算,即 156*32=49924800,且传输速度为 600GB/s。基于此,我们可以推断,性能大于等于 A100 GPU 的先进算力芯片属于美国出口限制范围。采用英伟达采用英伟达 A800 服务器或为当前可行替代方案服务器或为当前可行替代方案。以浪潮 NF5688M6 为例,NF5688M6 是为超大规模数据中心研发的 NVLink AI 服务器,支持 2 颗 Intel 最新的 Ice Lake CPU 和 8颗 NVIDIA 最新的 NVSwitch 全互联 A800GPU,单机可提供 5PFlops 的 AI 计算性能。对比核心硬件来看,N

62、F5688M6 采用英伟达中国特供版芯片A800,在浮点计算能力、显存带宽、显存容量等性能指标上,与先进算力芯片A100 基本一致,主要差异在于芯片的数据传输速度,约为 A100 的三分之二。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 计算机计算机 图表图表30:浪潮浪潮 NF5688M6 服务器服务器 GPU 性能与性能与 A100 基本一致基本一致 A100 A800 数据传输速率数据传输速率 600GB/s 400GB/s 显存带宽(最高)显存带宽(最高)2TB/s 2TB/s 显存容量(最高)显存容量(最高)80GB 80GB FP64 9.7 TFLOPS 9.

63、7 TFLOPS FP32 19.5 TFLOPS 19.5 TFLOPS Tensor Float 32(TF32)156 TFLOPS|312 TFLOPS 156 TFLOPS|312 TFLOPS 资料来源:英伟达官网、华泰研究 图表图表31:英伟达英伟达 A100 性能参数性能参数 图表图表32:英伟达英伟达 A800 性能参数性能参数 资料来源:英伟达官网、华泰研究 资料来源:英伟达官网、华泰研究 英伟达其他英伟达其他 AI GPU 芯片均不受出口限制影响芯片均不受出口限制影响。考虑到目前美国 GPU 芯片限制主要集中在先进算力领域,倘若未来进一步加大限制力度,A800 等大算力芯

64、片可能出现进一步被限制的风险。而从英伟达产品线布局来看,除了前面讨论的 A100、A800、V100、H100 等先进算力芯片外,还有 A2、A10、A30、A40、T4 等。这些芯片中,浮点计算能力最强的型号为 A30,输出性能为 82*32=26244800,因此不受出口限制影响。图表图表33:英伟达其他英伟达其他 AI GPU 对比对比 A2 A10 A30 A40 T4 CUDA 核心数量核心数量 1280 9216 3584 10752 2560 Tensor 核心数量核心数量 40 288 224 336 320 TF32 Tensor Core 18 TFLOPS 125 TFL

65、OPS 165 TFLOPS 149.6 TFLOPS-FP16 Tensor Core 36 TFLOPS 250 TFLOPS 330 TFLOPS 299.4 TFLOPS 65 TFLOPS INT8 Tensor Core 72 TOPS 500 TOPS 661 TOPS 598.6 TOPS 130 TOPS INT4 Tensor Core 144 TOPS 1000 TOPS 1321 TOPS 1197.4 TOPS 260 TOPS 显存位宽显存位宽 128-bit 384-bit 3072-bit 384-bit 256-bit 显存带宽(最高)显存带宽(最高)200G

66、B/s 600GB/s 933GB/s 696GB/s 300GB/s 显存容量(最高)显存容量(最高)16GB 24GB 24GB 48GB 16GB 数据传输速率数据传输速率-64GB/s 200GB/s 112.5GB/s 32GB/s 资料来源:英伟达官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 计算机计算机 国产国产 AI GPU 性能持续升级,国产替代未来可期性能持续升级,国产替代未来可期。目前国产 AI GPU 厂商主要包括阿里、华为、寒武纪、天数智芯等。随着国内厂商持续加强 GPU 研发,产品力不断升级。以华为昇腾 910 为例,该款芯片采用

67、 7nm 制程,集成了超 496 亿个晶体管,可以提供 320TFLOPS的 FP16 计算速度或 640TOPS 的 INT8 算力,略高于英伟达 A100 的 FP16 计算速度(312TFLOPS,不采用英伟达稀疏技术)。我们认为,单纯从芯片算力性能来看,部分国产芯片已经能够追赶海外主流芯片。随着国产生态逐步打磨,GPU 性能提升有望推动国产化替代。图表图表34:国产主要国产主要 AI GPU 性能对比性能对比 阿里平头哥阿里平头哥 寒武纪寒武纪 华为昇腾华为昇腾 天数智芯天数智芯 型号型号 含光含光 800 思元思元 370 思元思元 290 思元思元 270 昇腾昇腾 310 昇腾昇

68、腾 910 天垓天垓 100 智铠智铠 100 架构架构 平头哥自研架构 MLUarch03 MLUv02 MLUv02 HUAWEI Da Vinci HUAWEI Da Vinci 通用 GPU 架构 第二代通用 GPU 架构 工艺工艺 12nm 7nm 7nm 16nm 12nm 7nm 7nm 7nm 晶体管数量晶体管数量 170 亿 390 亿 460 亿 未披露 未披露 496 亿 未披露 未披露 算力算力 INT16 205 TOPS 128 TOPS 256 TOPS 64 TOPS-INT8 825 TOPS 256 TOPS 512 TOPS 128 TOPS 16 TOP

69、S 640 TOPS-384 TOPS INT4-256 TOPS-FP32-24 TFLOPS-24 TFLOPS FP16-96 TFLOPS-8 TOPS 320 TFLOPS 147 TFLOPS 96 TFLOPS 功耗功耗 155w 150w 350w 70w 8w 310w-资料来源:各公司官网、华泰研究 总结总结:从:从 ChatGPT 到到 AI 服务器服务器 1、GPT 模型模型需要什么样的需要什么样的算力?算力?ChatGPT 采用单一大模型路线,对底层算力的需求主要体现在训练和推理两个层面,训练即使用大量数据集,对模型做反复迭代计算,推理即利用模型对输入信息进行处理并给

70、出结果。据 IDC 数据,2021 年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练。具体来看,算力需求场景包括预训练、Finetune 以及日常运营。根据我们的测算,GPT-3 175B 模型需要的预训练算力约 3640 PFlop/s-day、ChatGPT 单月运营需要的算力约 7034.7 PFlop/s-day、单月 Finetune 需要的算力至少为 1350.4 PFlop/s-day。2、GPT 模型模型需要什么样的服务器?需要什么样的服务器?我们认为,服务器类型不断演化的动力来自:计算架构的变化。从服务器产业发展历程来看,随着计算架构从单机到

71、C-S、C-E-S,陆续演化出 PC、云计算、边缘计算等服务器类型。而在 AI 训练时代,C-S 架构的回归以及大规模并行计算需求,又带来 AI 服务器的扩张。对比传统服务器来看,AI 服务器由于采用 GPU 等加速卡,更加擅长向量、张量计算,对于AI 训练及推理场景的处理能力更强,且采用多芯片组合架构,单台服务器芯片成本也较高。3、GPT 模型模型需要什么样的需要什么样的算力算力芯片?芯片?GPT 模型的训练和推理计算主要由 AI 服务器完成,底层算力芯片主要包括 CPU、GPU、FPGA、ASIC 等。常见的算力芯片组合,如 8x GPU+2x CPU、4x GPU+2x CPU、8x F

72、PGA+1x CPU、4x FPGA+1x CPU 等。据 IDC,2022 年国内人工智能芯片市场中,GPU芯片占据主要市场份额,达 89.0%。目前海外主流 AI GPU 芯片包括英伟达 H100、A100以及 V100 等。4、美国先进算力芯片出口限制对美国先进算力芯片出口限制对 GPT 产业的影响产业的影响?受美国先进算力芯片出口限制政策影响,目前国内只能采购性能低于 A100 的 AI GPU,如英伟达 A800 系列等。此外,英伟达 A 系列、T 系列性能更低的前代版本尚且不受影响。考虑到部分国产 AI GPU 如华为昇腾在 FP16 浮点计算性能上已经实现对英伟达 A100 的加

73、速追赶,未来随着国产生态打磨,AI GPU 国产替代有望加速。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。19 计算机计算机 5、AI 服务器服务器产业链相关公司产业链相关公司有哪些?有哪些?1)能够采购到海外高性能芯片的厂商:浪潮信息等;2)采用海光/寒武纪芯片的厂商:中科曙光;3)采用华为昇腾芯片的厂商:拓维信息等;4)底层芯片供应商:海光信息、寒武纪、景嘉微等。重点推荐公司重点推荐公司 浪潮信息浪潮信息(000977 CH,买入,目标价,买入,目标价 44.06 元)元)随着国内各大互联网厂商相继布局 ChatGPT 类似产品,对于大模型的训练需求或将带动底层算力需求快速

74、增长。我们认为,算力需求逐步释放或将带动 AI 服务器放量。公司作为国内 AI 服务器产业龙头,有望凭借强大产品力,实现 23 年营收高增长。预计公司 22-24 年EPS 为 1.71、2.16、2.89 元,可比公司平均 23E 20.4x PE(Wind),给予 23E 20.4x PE,对应目标价 44.06 元,“买入”。(最新报告日期:2023/2/15)风险提示:宏观经济波动风险;市场竞争加剧。景嘉微景嘉微(300474 CH,买入,目标价,买入,目标价 96.74 元)元)随着 ChatGPT 在全球范围引发广泛讨论、用户规模持续增长,或将引领全球 AI 产业范式革命。Chat

75、GPT 强大的底层语言能力,来自 AI 大模型的加持,而大模型训练又需要使用大量算力资源,随着国内厂商相继布局,或将带动国内 GPU 算力需求高增长。国产替代背景下,公司市场份额或将持续提升,23 年收入高增长可期。预计公司 22-24 年 EPS 分别为0.70、0.99、1.39 亿元。采用分部估值法,给予公司 23 年目标市值 439.7 亿元,对应目标价 96.74 元,“买入”。(最新报告日期:2023/2/10)风险提示:芯片原材料成本持续上涨,下游景气度不及预期。图表图表35:重点推荐公司表重点推荐公司表 收盘价收盘价 目标价目标价 EPS(元)(元)PE(倍)(倍)股票代码股票

76、代码 公司名称公司名称 评级评级(元)(元)(元)(元)2022E 2023E 2024E 2022E 2023E 2024E 000977 CH 浪潮信息 买入 38.25 44.06 1.71 2.16 2.89 22.4 17.7 13.2 300474 CH 景嘉微 买入 74.23 96.74 0.70 0.99 1.39 106.0 75.0 53.4 注:收盘价截至 2023/2/24,表中预测及前文内容均来自华泰计算机团队最新报告 资料来源:Wind、华泰研究预测 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。20 计算机计算机 图表图表36:提及公司表提及公司表

77、 代码代码 公司简称公司简称 代码代码 公司简称公司简称 GOOGL US 谷歌 300474 CH 景嘉微 BIDU US 百度 688256 CH 寒武纪 BABA US 阿里巴巴 002261 CH 拓维信息 JD US 京东 0092 HK 联想集团 MSFT US 微软 未上市 新华三 AMZN US 亚马逊 未上市 OpenAI INTC US 英特尔 未上市 华为 NVDA US 英伟达 未上市 天数智芯 688041 CH 海光信息 资料来源:Bloomberg,华泰研究 风险提示风险提示 宏观经济波动。宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观

78、经济波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。下游需求不及预期。下游需求不及预期。若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。算力需求测算与实际不符算力需求测算与实际不符。目前 ChatGPT 所用模型相关数据披露较少,基于模型体量进行的算力需求测算若低于实际需求,可能导致 AI 服务器产业规模增速不及预期。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。21 计算机计算机 免责免责声明声明 分析师声明分析师声明 本人,谢春生,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无

79、就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证

80、券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分

81、考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并

82、进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则

83、下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中

84、国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。22 计算机计算机 香港香港-重要监管披露重要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。

85、有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的

86、注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师谢春生本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FI

87、NRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。本报告所载的观点、结论和建议仅供参考,不

88、构成购买或出售所述证券的要约或招揽,亦不试图促进购买或销售该等证券。如任何投资者为美国公民、取得美国永久居留权的外国人、根据美国法律所设立的实体(包括外国实体在美国的分支机构)、任何位于美国的个人,该等投资者应当充分考虑自身特定状况,不以任何形式直接或间接地投资本报告涉及的投资者所在国相关适用的法律法规所限制的企业的公开交易的证券、其衍生证券及用于为该等证券提供投资机会的证券的任何交易。该等投资者对依据或者使用本报告内容所造成的一切后果,华泰证券股份有限公司、华泰金融控股(香港)有限公司、华泰证券(美国)有限公司及作者均不承担任何法律责任。评级说明评级说明 投资评级基于分析师对报告发布日后 6

89、 至 12 个月内行业或公司回报潜力(含此期间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股价超越基准 5%15%持有:持有:预计股价相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评

90、级:无评级:股票不在常规研究覆盖范围内。投资者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。23 计算机计算机 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:941011J 香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:29

91、8809/SEC#:8-70231 华泰证券股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路228号华泰证券广场1号楼/邮政编码:210019 北京市西城区太平桥大街丰盛胡同28号太平洋保险大厦A座18层/邮政编码:100032 电话:86 25 83389999/传真:86 25 83387521 电话:86 10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳深圳 上海上海 深圳市福田区益田路5999号基金大厦10楼/邮政编码:518017 上海市浦东新区东方路18号保利广场E栋23楼/邮政编码:200120 电话:

92、86 755 82493932/传真:86 755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 58 楼 5808-12 室 电话:+852-3658-6000/传真:+852-2169-0770 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 版权所有2023年华泰证券股份有公司

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业专题研究:ChatGPT服务器深度拆解-230225(23页).pdf)为本站 (微海科技) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部