上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业AIGC系列报告(二):算力AIGC时代的“卖铲人”-230402(28页).pdf

编号:120818 PDF 28页 2.19MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业AIGC系列报告(二):算力AIGC时代的“卖铲人”-230402(28页).pdf

1、-1-算算力力:AIGCAIGC时代的“卖铲人”时代的“卖铲人”AIGC系列报告(二)系列报告(二)2023.4.2证券研究报告证券研究报告|行业行业深度深度报告报告信息技术信息技术|计算机计算机刘玉萍刘玉萍S02周翔周翔宇宇S01-2-要点概览要点概览本篇报告系统地梳理了大模型训练及推理需要多少算力。本篇报告系统地梳理了大模型训练及推理需要多少算力。大大模型参数量快速提升,模型参数量快速提升,TransformerTransformer架构成为发展趋势。架构成为发展趋势。根据最新论文对“涌现”效应的研究,当模型训练量超过1022后,模型准确率有了很

2、大的提升,近年来,NLP模型的发展十分迅速,模型的参数量每年以5至10倍的速度在提升,背后的推动力即大模型可以带来更强大更精准的语言语义理解和推理能力。Transformer架构通过计算数据之间的关系提取信息,相较于卷积神经网络具有更强大的运算效率,更适合参数和数据集庞大的自然语言处理学习。基于基于GPT3GPT3大模型的训练大模型的训练/推理所需的算力及推理所需的算力及金额金额测算测算。训练端,以GPT3为例,完成一次大模型训练所需的算力需求量为3646PFDays,若用10000张英伟达V100/A100训练则分别需要14.59/3.34天,对应训练费用分别为4.72/1.89百万美元。推

3、理端,以GPT3为例,1000个token的推理算力需求约为350TFLOPS,对应推理成本约为0.15美分。英伟达英伟达GPUGPU是当前是当前最适合做训练的最适合做训练的AIAI芯片芯片。GPU提供多核并行计算的基础,且核心数众多,可以支撑大量数据的并行运算,英伟达Tensor Core技术能够通过降低精度,在性能方面实现数量级的提高。此外,针对大规模AI训练,英伟达推出DGX系统,包括A100、H100、BasePOD、SuperPOD四款产品,其中,DGX A100、DGX H100为英伟达当前服务于AI领域的服务器产品。投资投资建议建议:算力是:算力是AIGCAIGC时代的“卖铲人”

4、。时代的“卖铲人”。我们认为发展算力基础设施是AIGC产业发展中必不可少的环节,我国在算力领域仍有较大成长空间。其中,国产AI芯片领域重点推荐寒武纪(电子联合覆盖)、海光信息(电子联合覆盖);服务器领域重点推荐中科曙光、浪潮信息。风险风险提示:提示:AI服务器供应链风险;AI芯片研发不及预期风险;AI相关上市公司短期涨幅过大风险。FZdYjWkWbVlWsXsXuV6McMaQmOnNoMsRlOpPrNeRoOmP6MnMpMvPpMoONZqNtP-3-一一、大模型需要大算力、大模型需要大算力1.1 模型不断增大,模型不断增大,Transformer架构成为发展趋势架构成为发展趋势1.2

5、涌现理论:大模型是自然语言处理的核心涌现理论:大模型是自然语言处理的核心1.3 大模型模型参数量快速大模型模型参数量快速提升提升1.4 英伟达英伟达GPU是当前最适合做训练的是当前最适合做训练的AI芯片芯片二、大二、大模型算力需求模型算力需求测算测算三、英伟达三、英伟达DGX系统介绍系统介绍四、投资建议四、投资建议目录目录-4-标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.1 1.1 模型模型不断增大,不断增大,TransformerTransformer架构成为发展趋势架构成为发展趋势时间时间模型模型数据集数据集模型架构模型架构参数参数当时的算力当时的算力图像1998LeNet

6、MNIST,6万张28*28的手写数字黑白图片卷积神经网络6万CPU2015ResNetImageNet,1500万张224*224的彩色图片6000万NVIDIA V100NLP2018BERT33亿 token 的NLP数据集Transformer3亿NVIDIA A1002020GPT-33000亿 token 的NLP数据集1750亿NVIDIA H100AI模型的参数量及数据集不断增大,模型的参数量及数据集不断增大,Transformer架构成为最适合大模型的架构。架构成为最适合大模型的架构。1998年LeCun提出了第一个卷积神经网络,随即被用于美国邮政系统的手写邮编识别。但由于此

7、类方法需要较大的数据集和较强的算力,此类方法在之后的十几年里的发展缓慢。由于通信和计算领域基础设施的完善,卷积神经网络在2012年之后迎来了爆发式的发展,模型和数据集都扩大了几个数量级。2018年,研究发现当模型和数据集到达一定规模时,继续扩大模型和数据集给卷积神经网络带来的收益有限。Transformer架构通过计算数据之间的关系提取信息,更适合参数和数据集庞大的自然语言处理学习。图图:卷积神经网络:卷积神经网络卷积神经网络通过卷积核提取输入数据中的信息Transformer通过计算输入数据之间的关系来提取信息资料来源:LeCun、斯坦福大学、google官网、OpenAI官网、招商证券表:

8、深度学习发展过程中代表性的经典模型介绍表:深度学习发展过程中代表性的经典模型介绍图图:Transformer网络网络-5-标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.2 1.2 涌现理论:大模型是自然语言处理的核心涌现理论:大模型是自然语言处理的核心自然语言处理任务的准确率与训练量自然语言处理任务的准确率与训练量紧密相关,因此大模型在自然语言处紧密相关,因此大模型在自然语言处理领域不可或缺。理领域不可或缺。根据最新的论文研究,当模型训练量小于1022时,模型在几个自然语言处理任务上的准确率都在0附近,而当模型训练量超过1022后,模型的准确率有了很大的提升,该效应称之为“涌现”

9、。根据OpenAI的官网披露,GPT4大模型在参数量及数据集较GPT3有大幅提升,我们认为从GPT4在自然语言任务处理上所表现出的优异性能进一步表明,通过提高模型参数量、扩大数据集来提高模型性能的方法仍然没有碰到天花板。资料来源:“Wei J,Tay Y,Bommasani R,et al.Emergent abilities of large language modelsJ.arXiv preprint arXiv:2206.07682,2022.”、OpenAI官网、招商证券图图:各种模型:各种模型Emergent Ability出现时的训练量对比出现时的训练量对比-6-标题XXXXXX

10、XXXXXXXXXXXXXXXXXXXX1.3 1.3 大大模型参数模型参数量快速提升量快速提升目前目前,大模型参数量快速,大模型参数量快速增长,已经出现万亿级别的大模型。增长,已经出现万亿级别的大模型。近年来,NLP大模型的发展十分迅速,模型的参数量每年以5至10倍的速度在提升,背后的推动力即大模型可以带来更强大更精准的语言语义理解和推理能力。2020年末,OpenAI发布的GPT-3模型达到了1750亿参数的大小,相比2018年94M的ELMo模型,三年的时间整整增大了1800倍之多。按此趋势,预计两年后,会有100 Trillion参数的模型推出。资料来源:腾讯AIGC白皮书、招商证券图

11、图:大模型参数量快速增长:大模型参数量快速增长-7-标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.4 1.4 英伟达英伟达GPUGPU是当前最适合做训练的是当前最适合做训练的AIAI芯片芯片革命性的革命性的AIAI训练能,英伟达训练能,英伟达GPGPUGPGPU是目前最适合做是目前最适合做AIAI训练的芯片。训练的芯片。GPU提供多核并行计算的基础,且核心数众多,可以支撑大量数据的并行运算。AI场景训练和推理通常不涉及大量的分支运算与复杂的控制指令,更适合在GPU上进行。英伟达Tensor Core能够通过降低精度,例如Transformer引擎中的8位浮点(FP8)、Tenso

12、r Float32(TF32)和FP16,在性能方面实现数量级的提高。此外,通过 CUDA-X库直接支持原生框架,实施可自动完成,从而在保持准确性的同时,大幅缩短从训练到收敛的时间。目前,国内外主流云计算厂商均使用英伟达GPU芯片作为其超级计算能力的底座。资料来源:英伟达官网、招商证券图图:英伟达:英伟达GPGPU架构架构M60M60P4P4P40P40P100P100T4T4RTXRTXV100V100A10A10A40A40A100A100NGCNGC阿里云AWS百度云GoogleCloudIBMCloudMicrosoftAzureOracleCloud腾讯云NPNCSPs表:云计算厂商

13、均采用英伟达芯片表:云计算厂商均采用英伟达芯片-8-标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.4 1.4 英伟英伟达达GPUGPU是当前最适合做训练的是当前最适合做训练的AIAI芯片芯片英伟达英伟达TensorCoreTensorCore已经已经经历了四代,当经历了四代,当前前H100H100被誉为最被誉为最适合适合TransformerTransformer模型训模型训练练的的芯片。芯片。英伟达H100基于英伟达HopperTensor Core架构,综合技术创新可以将大型语言模型的速度提高30倍。Nvidia Tensor CoreNvidia Tensor Core效果

14、效果第一代VoltaNVIDIA Volta中的第一代Tensor Core专为深度学习而设计,通过FP16和FP32下的混合精度矩阵乘法提供了突破性的性能。与NVIDIA Pascal相比,用于训练的峰值TFLOPS性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍。这项关键功能使Volta提供了比Pascal高3倍的训练和推理性能。第二代TuringNVIDIA Turing Tensor Core技术能进行多精度计算,可实现高效的AI推理。Turing Tensor Core提供了一系列用于深度学习训练和推理的精度(从FP32到FP16再到INT8和INT4),性能大大超

15、过NVIDIA Pascal GPU。第三代AmpereNVIDIA Ampere Tensor Core基于先前的创新成果而构建,通过使用新的精度(TF32 和FP64)来加速和简化AI采用,并将Tensor Core的强大功能扩展至HPC。第三代Tensor Core支持BFloat16、INT8和INT4,可为AI训练和推理创建高度通用的加速器。第四代HopperNVIDIA Hopper架构利用Transformer引擎改进第四代Tensor Core,该引擎使用新的8位浮点精度,可为万亿参数模型训练提供比FP16高6倍的性能。Hopper Tensor Core使用TF32、FP64

16、、FP16和INT8精度,将性能提升3倍,能够加速处理各种工作负载。资料来源:英伟达官网、招商证券芯片芯片CUDA CoreCUDA CoreTensor CoreTensor CoreFP32(TFLOPS)FP16(TFLOPS)INT8(TOPS)TF32(TFLOPS)FP16(TFLOPS)INT8(TOPS)V10015.73162125A10019.53978156312624H4959901979表:英伟达表:英伟达V100/A100/H100算力对比算力对比表:英伟达四代表:英伟达四代Tensor Core架构梳理架构梳理-9-一一、大模型需要大算力、大

17、模型需要大算力二、大二、大模型算力需求模型算力需求测算测算2.1 大大模型训练算力总需求测算模型训练算力总需求测算2.2 大大模型训练费用测算模型训练费用测算2.3 推理推理所需要的算力需求及所需要的算力需求及成本测算成本测算2.4 模型模型API接口调用价格测算接口调用价格测算三、三、英伟英伟达达DGX系统介绍系统介绍四、投资建议四、投资建议目录目录-10-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.1 2.1 大大模型训练算力总需求测算模型训练算力总需求测算根据“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,

18、Child,R.,Gray,S.,Radford,A.,Wu,J.and Amodei,D.,2020.Scaling laws for neural language”的论文,基于transformer的自然语言处理(NLP)大模型可分为三类:Encoder-Only(E),Decoder-Only(D)和Encoder-Decoder(ED)。模型的训练算力需求可根据以下公式计算:训练算力需求=模型参数量数据集数系数其中,的取值取决于模型种类,如果模型种类为Encoder-Only或Decoder-Only,则=6;如果模型种类为Encoder-Decoder,则=3。以GPT3大模型为例

19、,总参数量(parameters)约等于175B(175*109);数据集token数约等于300B(300*109),GPT3大模型是Decoder-Only(D),因此我们测算GPT3大模型训练算力需求量为:(175*109)(300*109)6=3.15 1023=315 ZettaFLOPS资料来源:“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,Child,R.,Gray,S.,Radford,A.,Wu,J.and Amodei,D.,2020.Scaling laws for neural language”、Op

20、enAI官网、招商证券转换为单日算力需求:3.15 1023 24 365=3646 PFDays-11-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.1 2.1 大大模型训练算力总需求测算模型训练算力总需求测算modelParameters(亿)(亿)token in dataset(亿)(亿)domainkZflops(1021)pf*day(1015)GoogleBERT481033NLPencoder-only610110PaLM54007800NLPdecoder-only6252729250magen110多模态(文本+图像)lambda13701680NLPdeco

21、der-only61381598Parti200多模态(文本+图像)decoder-only6MicrosoftFlorence6.4多模态(文本+图像)Turing-NLG1702700NLPencoder-only628319FacebookOPT-175B17501800NLPdecoder-only61892188M2M-100150NLPencoder-decoder3Deep MindGopher28003000NLPencoder-only65045833AlphaCode4149670NLPencoder-decoder31201390OpenAIGPT317503000NLP

22、decoder-only63153646ChatGPT1751NLPdecoder-only6GPT41750-2800多模态(文本+图像)NvidiaMegatron-Turing NLG53002700NLPdecoder-only68599938百度ERNIE26003000NLPdecoder-only64685417资料来源:腾讯AIGC白皮书、招商证券表:目前已知大模型训练算力总需求表:目前已知大模型训练算力总需求-12-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2 2.2 大模型训练费用测算大模型训练费用测算根据单卡峰值算力,我们可以通过以下公式测算训练模型所需

23、时间:其中,算力利用率与芯片数量成反比,与芯片架构迭代成正比。以GPT3为例,若10000张英伟达V100芯片训练,算力利用率为20%,则训练GPT3所需训练时间为:我们认为得出训练GPT3模型一次的资金需求公式为:训练时间=训练总计算量 单卡峰值算力 算力利用率 芯片卡数芯片芯片单卡峰值算力单卡峰值算力算力利用率算力利用率训练训练GPT3GPT3所需时间(天)所需时间(天)V100125TFlops20%14.59A100312TFlops35%3.34训练价格=训练总时长 X(单卡价格($/小时)X 24)X 芯片数芯片芯片微软微软AzureAzure服务器服务器($/$/小时)小时)单卡

24、价单卡价格格($/$/小时)小时)芯片数芯片数训练时长(天)训练时长(天)训练训练GPTGPT模型模型价格价格(百万美元)百万美元)V10010.7961.3501000014.594.723A10018.8292.354100003.341.8863646 PFDays 125TFlops 20%10000=14.59 Days表:英伟达表:英伟达V100/A100训练训练GPT3模型分别需要天数模型分别需要天数根据目前微软Azure服务器租赁价格测算,我们测算用10000颗V100训练GPT3模型一次的资金需求公式为:14.59 X(1.350($/小时)X 24)X 10000=4.72

25、 Million USD表:英伟达表:英伟达V100/A100训练训练GPT3模型价格模型价格资料来源:微软Azure、英伟达官网、OpenAI官网、招商证券-13-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2 2.2 大大模型训练费用测算模型训练费用测算资料来源:微软Azure、英伟达官网、OpenAI官网、腾讯AIGC白皮书、招商证券公司公司模型模型算力需求算力需求(PF(PF*day)*day)一万张一万张V100V100总总时间时间(天)天)一万张一万张A100A100总总时间时间(天)天)V100V100价格价格(百万美元)百万美元)A100A100价格价格(百万美

26、元)百万美元)谷歌BERT1100.440.100.1430.057PaLM29250117.0026.7937.89415.130Lambda15986.391.462.0710.827微软Turing-NLG3191.280.290.4130.165FacebookOPT-175B21888.752.002.8341.132Deep MindGopher583323.335.347.5573.017AlphaCode13905.561.271.8010.719OpenAIGPT3364614.583.344.7231.886英伟达Megatron-Turing NLG993839.759.

27、1012.8745.140百度ERNIE541721.674.967.0172.802表:目前已知大模型通过英伟达表:目前已知大模型通过英伟达A100/V100训练所需金额训练所需金额自建一个类自建一个类GPT3GPT3大模型算力基础设施成本超过大模型算力基础设施成本超过2.52.5亿美元。亿美元。以10000张英伟达A100芯片为例,英伟达DGX A100服务器内涵8张英伟达A100芯片,服务器定价约20万美元,10000张A100对应1250台服务器,总价约为2.5亿美元,约17.17亿元人民币。-14-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.3 2.3 推理推理所需要

28、的算力需求及成本测算所需要的算力需求及成本测算大模型除训练需求外,在日常问答应用中将产生大量推理需求。根据“Scaling laws for neural language”的论文,模型的推理算力需求可根据以下公式计算:推理算力需求=模型参数量(“输入输出”数)系数其中,的取值取决于模型种类,如果模型种类为Encoder-Only或Decoder-Only,则=2;如果模型种类为Encoder-Decoder,则=1。以GPT3大模型为例,总参数量(parameters)约等于175B(175*109);1000个token的推理算力需求为:(175*109)(1000)2=3.5 1014=

29、350 TFLOPS资料来源:“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,Child,R.,Gray,S.,Radford,A.,Wu,J.and Amodei,D.,2020.Scaling laws for neural language”、英伟达官网、招商证券假设使用一颗A100芯片推理,使用TF32峰值算力156TFLOPS,则消耗时间约为:350 TFLOPS 156 TFLOPS=2.24 second已知A100单卡价格为$2.354/小时,则在GPT3模型中,1000token的推理成本为:$2.354/h

30、3600 2.24=$0.0015/1k token-15-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.4 2.4 模型模型APIAPI接口调用价格测算接口调用价格测算目前,ChatGPT及GPT4都已上线API接口,其中ChatGPT API价格为0.2美分/1k token,而GPT4 API价格较ChatGPT大幅提升。此外,百度API接口调用价格初定为0.012元/1k token。资料来源:ChatGPT、OpenAI官网、百度文心一言、招商证券模型模型输入端输入端输出端输出端ChatGPT$0.002/1k token$0.002/1k tokenGPT4-8K$0

31、.03/1k token$0.06/1k tokenGPT4-32K$0.06/1k token$0.12/1k token百度文心一言¥0.012/1k token¥0.012/1k token表:目前已知模型表:目前已知模型API接口调用费用测算接口调用费用测算以左图为例,我们通过询问ChatGPT一个问题并得到答案测算以上模型调用API的费用,其中问题“2014年巴西世界杯冠军是谁?”共计15个token;回答“2014年巴西世界杯冠军是德国”共计16个token(包含标点符号)。模型模型输入端输入端tokentoken数数输入端价格输入端价格输入输入端金端金额额 输出端输出端token

32、token数数输出端价格输出端价格输出输出端金端金额额总总金额金额ChatGPT15$0.002/1k token$0.00003 16$0.002/1k token$0.000032$0.000062 GPT4-8K15$0.03/1k token$0.00045 16$0.06/1k token$0.00096$0.00141 GPT4-32K15$0.06/1k token$0.0009 16$0.12/1k token$0.001920$0.00282 百度文心一言15¥0.012/1k token0.00018 16¥0.012/1k token0.000192 0.000372 表

33、:目前已知模型表:目前已知模型API接口调用价格接口调用价格-16-一一、大模型需要大算力、大模型需要大算力二二、大模型算力需求测算、大模型算力需求测算三、三、英伟英伟达达DGX系统介绍系统介绍3.1 针对针对大规模大规模AI训练,英伟达推出训练,英伟达推出DGX系统系统3.2 英伟英伟达达DGX A100:目前最主流的:目前最主流的AI服务器服务器3.3 英伟达英伟达DGX H100:DGX系统的最新迭代系统的最新迭代四、投资建议四、投资建议目录目录-17-标题XXXXXXXXXXXXXXXXXXXXXXXXXX3.1 3.1 针对大规模针对大规模AIAI训练,英伟达推出训练,英伟达推出DG

34、XDGX系统系统英伟达英伟达DGXDGX系统针对企业大规模系统针对企业大规模AIAI基础架构提供出色的解决方案,专门打造的先进基础架构提供出色的解决方案,专门打造的先进AIAI系统产品系列系统产品系列。每个NVIDIA DGX系统均配备可提供企业支持的DGX硬件和NVIDIA Base Command软件,其中包含强化的系统软件、优化的 AI 库、出色的集群管理、稳健的工作调度和工作负载编排。NVIDIA DGX系统包括A100、H100、BasePOD、SuperPOD四款产品。其中,A100、H100为DGX系统主要服务器产品。资料来源:英伟达官网、招商证券图图:英伟达:英伟达DGX系统组

35、成系统组成-18-标题XXXXXXXXXXXXXXXXXXXXXXXXXX3.2 3.2 英伟达英伟达DGX A100DGX A100:目前:目前最最主流的主流的AIAI服务器服务器NVIDIA DGX A100NVIDIA DGX A100是是适用于适用于各种各种AIAI工作工作负载的通用系统,能够为率先推出负载的通用系统,能够为率先推出的的5 5 petaFLOPSpetaFLOPS AIAI系统系统提供之前难以实现的计算密度、性能和灵活性提供之前难以实现的计算密度、性能和灵活性。DGX A100采用NVIDIA A100 Tensor Core GPU,使企业能够将训练、推理和分析整合到

36、一个易于部署的统一AI基础架构中。NVIDIA DGX A100不仅仅是一台服务器,更是一个完整的软硬件平台。它基于全球最大的DGX集群NVIDIA DGX SATURNV积累的知识经验而建立,背后有NVIDIA数千名AI专家支持。资料来源:英伟达官网、招商证券图图:英伟达:英伟达DGX A100服务器架构服务器架构表:英伟达表:英伟达DGX A100服务器参数服务器参数-19-标题XXXXXXXXXXXXXXXXXXXXXXXXXX3.3 3.3 英伟达英伟达DGX H100DGX H100:DGXDGX系统的最新迭代系统的最新迭代DGX H100DGX H100是是NVIDIA DGXNV

37、IDIA DGX系统系统的最新迭代,也的最新迭代,也是是NVIDIA NVIDIA DGX DGX SuperPODSuperPOD的基础。的基础。DGX H100包含8个NVIDIA H100 GPU,总显存高达640GB,峰值性能高达32petaFLOPS。作为全球首款搭载NVIDIA H100 Tensor Core GPU的系统,NVIDIA DGX H100可带来突破性的AI规模和性能。它搭载NVIDIA ConnectX-7智能网卡和NVIDIA BlueField-3数据处理器(DPU),为NVIDIA DGX SuperPOD带来6倍性能提升,2倍更快的网络,和高速可扩展性。新

38、一代架构可用于自然语言处理和深度学习推荐模型等复杂的大型AI任务。资料来源:英伟达官网、招商证券图图:英伟达:英伟达DGX H100服务器架构服务器架构表:英伟达表:英伟达DGX H100服务器参数服务器参数-20-一一、大模型需要大算力、大模型需要大算力二、大模型算力需求测算二、大模型算力需求测算三、三、英伟英伟达达DGX系统介绍系统介绍四、投资建议四、投资建议4.1 AI芯片稀缺标的寒武纪、海光信息芯片稀缺标的寒武纪、海光信息4.2 服务服务器重点推荐中科曙光、浪潮器重点推荐中科曙光、浪潮信息信息目录目录-21-标题XXXXXXXXXXXXXXXXXXXXXXXXXX4.1 AI4.1 A

39、I芯片稀缺标的寒武纪、海光信息芯片稀缺标的寒武纪、海光信息国产国产AIAI芯片标的稀缺,重点推荐寒武纪、海光信息。芯片标的稀缺,重点推荐寒武纪、海光信息。寒武纪寒武纪:公司专注于人工智能芯片产品的研发与技术创新。目前,公司在AI训练/推理领域拥有智能加速卡思源系列产品。在2022年WAIC上,董事长陈天石透露了公司在研全新一代云端智能训练芯片思元590,据介绍,思元590采用MLUarch05全新架构,实测训练性能较在售旗舰产品有大幅提升,将提供更大的内存容量和更高的内存带宽,其IO片间互联接口也较上代实现大幅升级。海光海光信息:信息:公司深度计算处理器基于主流通用并行计算架构,可搭配海光CP

40、U使用,广泛应用于科学计算、人工智能模型训练和推理。产品参数产品参数寒武纪思元寒武纪思元MLU370MLU370-X8X8海光深算海光深算Z100Z100英伟达英伟达A100A100峰值算力INT8256TOPS49.1TOPS624TOPSINT16128TOPS-FP1696TFLOPS24.5TFLOPS312TFLOPSBF1696TFLOPS-312TFLOPSFP3224TFLOPS12.2TFLOPS156TFLOPS显存容量32GM32GB80GB内存带宽1228GB/s1024GB/s1935GB/s最大热功耗250W280W300W资料来源:英伟达官网、寒武纪官网、海光信息

41、招股说明书、招商证券表:寒武纪表:寒武纪MLU370&海光信息海光信息Z100&英伟达英伟达A100产品参数对比产品参数对比-22-标题XXXXXXXXXXXXXXXXXXXXXXXXXX4.2 4.2 服务器重点推荐中科曙光、浪潮信息服务器重点推荐中科曙光、浪潮信息服务器领域重点推荐中科曙光、浪潮信息。服务器领域重点推荐中科曙光、浪潮信息。据TrendForce数据,预估2022年搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,即约14万台。预计2023年出货量年成长8%,2022至2026年年复合增长率达10.8%。0522023202420252026图:

42、全球搭载图:全球搭载GPGPU的的AI服务器出货量预测(万台)服务器出货量预测(万台)CAGR=10.8%图:浪潮信息图:浪潮信息AI服务器服务器图:中科曙光图:中科曙光AI服务器服务器标的标的AIAI服务器相关业务服务器相关业务中科曙光公司多年布局人工智能生态,以丰富的产品覆盖、创新的架构设计,打造高效易维护的人工智能加速平台。公司联营企业海光信息是国内AI芯片龙头,拥有深算一号AI芯片,与曙光AI服务器有较大协同效应。浪潮信息浪潮AI服务器的中国市场份额连续四年保持在50%以上,并与人工智能领先科技公司保持在系统与应用方面的深入紧密合作2021 年,人工智能服务器全球市场份额 20.9%,

43、保持全球第一,中国市场份额超过50%。表表:中科曙光:中科曙光&浪潮信息浪潮信息AI服务器相关业务梳理服务器相关业务梳理资料来源:TrendForce、中科曙光官网、浪潮信息官网、招商证券-23-标题XXXXXXXXXXXXXXXXXXXXXXXXXX风险提示风险提示AIAI服务器供应链风险:服务器供应链风险:北美时间3月2日,美国商务部发布公告,将28个中国实体列入实体清单,其中包括浪潮集团。如果未来我国AI服务器相关企业无法向美国购买核心零部件产品则对公司未来业务发展有较大不利影响。AIAI芯片研发不及预期风险:芯片研发不及预期风险:目前我国AI芯片与英伟达仍存在较大差距,若我国AI芯片研

44、发进度不及预期,则对我国AIGC产业发展有较大不利影响。AIAI相关上市公司短期涨幅过大风险:相关上市公司短期涨幅过大风险:目前AI相关上市公司短期涨幅较快,股价波动较大。资料来源:招商证券-24-标题XXXXXXXXXXXXXXXXXXXXXXXXXX参考报告参考报告1 1、微软微软引领引领AI+AI+办公应用史诗级革命办公应用史诗级革命AI+AI+系列报告系列报告三三20232023-0303-18182 2、ChatGPTChatGPT快速流行,重构快速流行,重构AIAI商业模式商业模式AIGCAIGC投资机会梳理投资机会梳理20232023-0202-0808资料来源:招商证券-25-

45、负责本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。团队团队介绍:介绍:刘刘玉萍:玉萍:计算机行业首席分析师,北京大学汇丰商学院金融学硕士。2022年水晶球最佳分析师第一名。周翔宇:周翔宇:计算机行业分析师,三年中小盘研究经历,获得2016/17年新财富中小市值团队第五、第二名。孟林:孟林:计算机行业分析师,中科院信息工程研究所硕士,两年四大行技术部工作经验,两年一级市场投资经验,2020年加入招商证券。分析师承诺分析师承诺-26-投资评级定义投资评级定义报告中所

46、涉及的投资评级采用相对评级体系,基于报告发布日后6-12个月内公司股价(或行业指数)相对同期当地市场基准指数的市场表现预期。其中,A股市场以沪深300指数为基准;香港市场以恒生指数为基准;美国市场以标普500指数为基准。具体标准如下:股票股票评级评级强烈推荐:预期公司股价涨幅超越基准指数20%以上增持:预期公司股价涨幅超越基准指数5-20%之间中性:预期公司股价变动幅度相对基准指数介于5%之间减持:预期公司股价表现弱于基准指数5%以上行业评级行业评级推荐:行业基本面向好,预期行业指数超越基准指数中性:行业基本面稳定,预期行业指数跟随基准指数回避:行业基本面转弱,预期行业指数弱于基准指数-27-

47、本报告由招商证券股份有限公司(以下简称“本公司”)编制。本公司具有中国证监会许可的证券投资咨询业务资格。本报告基于合法取得的信息,但本公司对这些信息的准确性和完整性不作任何保证。本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突。本报告版权归本公司所有。本公司保留所有权利。未经本公司事先书面许可,任何机构和个人均不得以任何形式翻版、复制、引用或转载,否则,本公司将保留随时追究其法律责任的权利。重要声明重要声明-28-感谢您宝贵的时间Thank You

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业AIGC系列报告(二):算力AIGC时代的“卖铲人”-230402(28页).pdf)为本站 (面朝大海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部