上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

电子行业:从ChatGPT看芯片产业机遇ChatGPT引发算力革命AI芯片产业链有望率先受益-230319(58页).pdf

编号:119332 PDF 58页 3.42MB 下载积分:VIP专享
下载报告请您先登录!

电子行业:从ChatGPT看芯片产业机遇ChatGPT引发算力革命AI芯片产业链有望率先受益-230319(58页).pdf

1、中泰电子王芳团队中泰电子王芳团队分析师:王芳分析师:王芳执业证书编号:执业证书编号:S0740521120002分析师:李雪峰分析师:李雪峰执业证书编号:执业证书编号:S0740522080004证券研究报告证券研究报告20232023年年0303月月1919日日1ChatGPT引发算力革命,引发算力革命,AI芯片产业链有望率先受益芯片产业链有望率先受益从从 ChatGPT看芯片产业机遇看芯片产业机遇分析师:杨旭分析师:杨旭执业证书编号:执业证书编号:S0740521120001分析师:游凡分析师:游凡执业证书编号:执业证书编号:S0740522120002目目 录录一、一、ChatGPT激起

2、激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔1.1 AI创新浪潮兴起,多模态赋能下游行业创新浪潮兴起,多模态赋能下游行业1.2 算力芯片迎来产业机遇算力芯片迎来产业机遇二、芯片是二、芯片是ChatGPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示2mMoP2YfWcWeUqUeXMB6M8QaQmOrRmOnOeRoOsRkPmOnM6MnNuMwMtPpPuOnOwPChatGPT快速渗透,快速渗透,AI产业迎发展新机产业迎发展新机3来源:OpenAI官网,World of Engineeri

3、ng,中泰证券研究所ChatGPT是由是由OpenAI公司开发的人工智能聊天机器人程序公司开发的人工智能聊天机器人程序,于于2022年年11月发布月发布,推出不久便在全球范围内爆火推出不久便在全球范围内爆火。根据World of Engineering数据显示,ChatGPT达到1亿用户量用时仅2个月,成为史上用户增长速度最快的消费级应用程序。与之相比,TikTok达到1亿用户用了9个月,Instagram则花了2年半的时间。从用户体验来看,ChatGPT不仅能实现流畅的文字聊天,还可以胜任翻译、作诗、写新闻、做报表、编代码等相对复杂的语言工作。ChatGPT爆火的背后是人工智能算法的迭代升级

4、爆火的背后是人工智能算法的迭代升级。ChatGPT是基于GPT-3.5微调得到的新版本模型,能够借助人类反馈的强化学习(RLHF)技术来指导模型训练,实现模型输出与人类预期的需求,使对话内容更加人性化和富有逻辑性。从2008年第一代生成式预训练模型GPT-1诞生以来,GPT系列模型几乎按照每年一代的速度进行迭代升级,未来随着大语言模型(LLM)技术的不断突破,AI相关应用有望加速落地,AI产业或将迎来新一轮发展机遇。图表:应用程序达到图表:应用程序达到1亿用户量所需时间(月数)亿用户量所需时间(月数)图表:图表:GPT模型迭代过程模型迭代过程ChatGPT激起激起AI浪潮,大算力芯片迎来产业机

5、遇浪潮,大算力芯片迎来产业机遇4来源:甲子光年,中泰证券研究所ChatGPT是生成式人工智能技术是生成式人工智能技术(AIGC)的一种的一种,与传统的决策与传统的决策/分析式分析式AI相比相比,生成式生成式AI并非通过简单分析已有数据来进并非通过简单分析已有数据来进行分析与决策行分析与决策,而是在学习归纳已有数据后进行演技创造而是在学习归纳已有数据后进行演技创造,基于历史进行模仿式基于历史进行模仿式、缝合式创作缝合式创作,生成全新的内容生成全新的内容。AIGC的应用非常广泛,包括自然语言生成、图像生成、视频生成、音乐生成、艺术创作等领域。AIGC产业链主要分为上游算力硬件层产业链主要分为上游算

6、力硬件层、中游数据中游数据/算法软件层和下游行业应用层算法软件层和下游行业应用层。硬件层依靠高性能AI芯片、服务器和数据中心为AIGC模型的训练提供算力支持,是承载行业发展的基础设施;数据/算法层软件层主要负责AI数据的采集、清洗、标注及模型的开发与训练,多方厂商入局自然语言处理、计算机视觉、多模态模型等领域;行业应用层目前主要涉及搜索、对话、推荐等场景,未来有望在多个行业呈现井喷式革新。图表:图表:AIGC产业链全景图产业链全景图5来源:腾讯AIGC发展报告2023,中泰证券研究所多模态大模型有望成为多模态大模型有望成为AI主流主流,赋能下游行业智能升级赋能下游行业智能升级。生成式AI主要依

7、赖于人工智能大模型,如Transformer、BERT、GPT系列等。这些模型通常包含数十亿至数万亿个参数,需要庞大的数据集进行训练,致使AI算力的需求也呈现出指数级的增长。多模态是一种全新的交互、生成模式,集合了图像、语音、文本等方式,因其可以结合多种数据类型和模态的学习,将有望彻底改变我们与机器互动的方式,快速占据人工智能主导地位。我们认为多模态大模型长期来看不仅可以从成本端降本增效,需求端也将通过快速渗透推广为下游行业带来持续增长需求,从而快速推动下游行业智慧化应用升级。图表:国外部分图表:国外部分AIGC预训练模型一览预训练模型一览厂商厂商预训练模型预训练模型应用应用参数量参数量领域领

8、域谷歌BERT语言理解与生成4810亿NLPPaLM语言理解与生成、推理、代码生成5400亿NLPImagen语言理解与图像生成110亿多模态Parti语言理解与图像生成200亿多模态微软Florence视觉识别6.4亿CVTuring-NLG语言理解、生成170亿NLPDeep MindGato多面手的智能体12亿多模态Gopher语言理解与生成2800亿NLPAlphaCode代码生成414亿NLPOpen AlGPT3语言理解与生成、推理等1750亿NLPCLIP&DALL-E图像生成、跨模态检索120亿多模态Codex代码生成120亿NLPChatGPT语言理解与生成、推理等13-17

9、50亿NLP多模态赋能下游行业智慧化升级多模态赋能下游行业智慧化升级6来源:OpenAI官网,中泰证券研究所从从GPT-1到到ChatGPT,模型参数与训练数据量不断增加模型参数与训练数据量不断增加,所需算力资源不断提升:所需算力资源不断提升:GPT-1:最早的GPT模型之一,包含了1.17亿个参数,预训练数据量约为5GB。GPT-2:参数数量达到了1.5亿个,预训练数据量达40GB。GPT-3:是目前为止最大的语言模型之一,包含了1750亿个参数,预训练数据量为45TB。ChatGPT:基于GPT-3模型的变种之一,参数量预计与GPT-3相近。模型模型发布时间发布时间参数量参数量预训练数据量

10、预训练数据量预估成本预估成本消耗资源消耗资源GPT-12018年6月1.17亿约5GB在8个GPU上训练一个月GPT-22019年2月15亿40GB在256个Google Cloud TPU v3上训练一周GPT-32020年5月1750亿45TB训练一次460万美元,总成本1200万美元在355个GPU上训练一年ChatGPT2022年11月未公布未公布训练一次成本超过1200万美元根据参数量而定图表:四代图表:四代GPT模型参数与预训练数据量对比模型参数与预训练数据量对比模型更新升级带动下游行业不断发展模型更新升级带动下游行业不断发展GPT-4性能提升显著,性能提升显著,AIGC应用市场空

11、间广阔应用市场空间广阔7来源:SEQUOIA,OpenAI,前瞻产业研究院,中泰证券研究所多模态模型是实现人工智能应用的关键多模态模型是实现人工智能应用的关键。3月月14日日OpenAI发布发布GPT-4多模态大模型多模态大模型,拥有拥有1)强大的识图能力;强大的识图能力;2)文字输文字输入限制提升至入限制提升至2.5万字;万字;3)回答准确性显著提高;回答准确性显著提高;4)能够生成歌词能够生成歌词、创意文本创意文本、实现风格变化实现风格变化。在各种专业和学术基准上,GPT-4已具备与人类水平相当表现。如在模拟律师考试中,其分数在应试者前10%,相比下GPT-3.5在倒数10%左右。多模态大

12、模型在整体复杂度及交互性上已有较大提升,模型升级有望加速细分垂直应用成熟,赋能下游智慧化升级,带动需求快速增长。AIGC下游市场渗透率低下游市场渗透率低,增长空间广阔增长空间广阔。根据 Gartner数据,目前由人工智能生成的数据占所有数据的 1%以下,预计2023年将有 20%的内容被生成式AI 所创建,2025 年人工智能生成数据占比将达到 10%。根据前瞻产业研究院数据,2025年中国生成式商业AI应用规模将达2070亿元,CAGR(2020-2025)为84.06%。图表:图表:AIGC下游应用落地时间预测下游应用落地时间预测983436630250%93%62%

13、49%29%0%50%100%150%200%250%300%05000250020202021E2022E2023E2024E2025E应用规模(亿元)规模增速图表:中国生成式商业图表:中国生成式商业AI应用规模应用规模目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔1.1 AI创新浪潮兴起,多模态赋能下游行业创新浪潮兴起,多模态赋能下游行业1.2 算力芯片迎来产业机遇算力芯片迎来产业机遇二、芯片是二、芯片是ChatGPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险

14、提示四、投资建议及风险提示8AI芯片是人工智能的底层基石芯片是人工智能的底层基石9来源:AI芯片:前沿技术与创新未来,中泰证券研究所AI人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路其次是半导体集成电路AI芯片芯片。AI的发展一直伴随着半导体芯片的演进过程,20世纪90年代,贝尔实验室的杨立昆(Yann LeCun)等人一起开发了可以通过训练来识别手写邮政编码的神经网络,但在那个时期,训练一个深度学习卷积神经网络(Convolutional NeuralNet

15、work,CNN)需要3天的时间,因此无法实际使用,而硬件计算能力的不足,也导致了当时AI科技泡沫的破灭。AI芯片是芯片是AI发展的底层基石发展的底层基石。英伟达早在1999年就发明出GPU,但直到2009年才由斯坦福大学发表论文介绍了如何利用现代GPU远超过多核CPU的计算能力(超过70倍),把AI训练时间从几周缩短到了几小时。算力算力、模型模型、数据一直是数据一直是AI发展发展的三大要素的三大要素,而而AI芯片所代表的算力则是人工智能的底层基石芯片所代表的算力则是人工智能的底层基石。图表:图表:AI人工智能与半导体计算芯片发展历程人工智能与半导体计算芯片发展历程020

16、002020突破模型突破模型“学习”的心理学习”的心理研究研究视觉皮层视觉皮层海马位置细胞海马位置细胞的时间编码的时间编码第一个晶体管感知器第一块芯片第一块CPU(MCU)Hopfield网络第一块FPGA神经网络芯片第一块GPU新的DNN算法基于深度学习的AI芯片类脑芯片ChatGPT激起激起AI浪潮,大算力芯片迎来产业机遇浪潮,大算力芯片迎来产业机遇10来源:智通财经,Counterpoint,IDC,中泰证券研究所算力硬件层是构成算力硬件层是构成AIGC产业的核心底座产业的核心底座,主要包括主要包括AI芯片芯片、AI服务器和数据中心服务器和数据中心。AI芯片是算力硬件层的基石。AI芯片主

17、要分为CPU、GPU、FPGA和ASIC四类,CPU是AI计算的基础,GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。目前AI芯片主要被国际厂商垄断,根据Counterpoint、IDC数据,Intel和AMD共计占2022年全球数据中心 CPU 市场收入的92.45%,Nvidia占2021年中国加速卡市场份额的80%以上。AI 服务器是AI芯片的系统集成。AI服务器采用CPU+加速芯片的架构形式,在进行模型的训练和推断时会更具有效率优势。与国外AI芯片厂商的垄断局面不同,中国AI服务器水平位于世界前列。据IDC数据,在2021H1全球 AI 服务器市场竞争格局中,浪潮信息以

18、20.2%的份额排名第一,联想和华为分别以6.1%和4.8%的份额位列第四、五名。数据中心的计算服务是承接AI算力需求的直接形式。AIGC的模型训练是通常是通过云计算服务完成的,其本质是AIGC模型厂商借助IDC的算力资源,在云端实现模型的训练。目前国内的数据中心厂商主要包括三大运营商、华为、联想、中科曙光等,提供云计算的厂商主要有阿里、腾讯等互联网企业。71%20%3%2%5%IntelAMDAWSAmpere ComputingOthers图表:图表:2022年全球数据中心年全球数据中心CPU市场份额市场份额图表:图表:2021H1全球全球AI服务器市场份额服务器市场份额ChatGPT激起

19、激起AI浪潮,大算力芯片迎来产业机遇浪潮,大算力芯片迎来产业机遇11来源:Language Models are Few-Shot Learners,中泰证券研究所ChatGPT单次训练所需算力约单次训练所需算力约27.5PFlop/s-day,单颗单颗NVIDIAV100需计算需计算220天天。根据OpenAI数据,GPT-3 XL参数规模为13.2亿,训练所需算力为27.5PFlop/s-day。由于ChatGPT是在13亿参数的InstructGPT基础上微调而来,参数量与GPT-3 XL接近,因此预计ChatGPT训练所需算力约为27.5PFlop/s-day。以NVIDIA V100

20、芯片为例,一颗NVLink版本V100芯片的深度学习算力为125TFlops,则ChatGPT模型的训练至少需要1颗V100芯片计算220天才能完成。随着模型参数的不断增加随着模型参数的不断增加,模型训练所需算力将进一步提升模型训练所需算力将进一步提升,将进一步拉动对算力芯片的需求将进一步拉动对算力芯片的需求。根据OpenAI数据,随着GPT-3系列模型参数规模由1.25亿增加至1746亿,训练所需算力从2.6PFlop/s-day上升至3640PFlop/s-day,规模参数(1396.8倍)与算力需求(1400倍)呈同比例增长。模型模型总计算量(总计算量(PFlop/s-day)总计算量(

21、总计算量(Flops)参数量(百万个)参数量(百万个)T5T5-Small2.08E+001.80E+2060T5-Base7.64E+006.60E+20220T5-Large2.67E+012.31E+21770T5-3B1.04E+029.00E+213,000T5-11B3.82E+023.30E+2211,000BERTBERT-Base1.89E+001.64E+20109BERT-Large6.16E+005.33E+20355RoBERTa-Base1.74E+011.50E+21125RoBERTa-Large4.93E+014.26E+21355GPT-3GPT-3 Sma

22、ll2.60E+002.25E+20125GPT-3 Medium7.42E+006.41E+20356GPT-3 Large1.58E+011.37E+21760GPT-3 XL2.75E+012.38E+211,320GPT-3 2.7B5.52E+014.77E+212,650GPT-3 6.7B1.39E+021.20E+226,660GPT-3 13B2.68E+022.31E+2212,850GPT-3 175B3.64E+033.14E+23174,600图表:不同图表:不同 NLP 模型模型 参数量及训练算力对比参数量及训练算力对比ChatGPT激起激起AI浪潮,大算力芯片迎来

23、产业机遇浪潮,大算力芯片迎来产业机遇12来源:OpenAI 官网,Similarweb,中泰证券研究所ChatGPT单月单月运营所需算力成本约运营所需算力成本约667万美元万美元。根据Fortune数据,每次用户与ChatGPT互动产生的算力云服务成本约0.01美元。Similarweb数据显示,2023年1月ChatGPT访问量达6.67亿次,因此我们粗略推算2023年1月ChatGPT运营算力成本约为667万美元。此外,2023年年1月月ChatGPT访问量环比增长访问量环比增长119.4%,用户访问量的激增导致用户访问量的激增导致ChatGPT发生了因云算力不足发生了因云算力不足而宕机的

24、情况而宕机的情况。据OpenAI数据,1月ChatGPT重大停机(Major outage)时长为5小时30分钟,部分停机(Partial outage)16小时21分钟,运营算力不足已经开始影响ChatGPT的稳定性和响应速度。我们预测随着我们预测随着ChatGPT等新兴等新兴AI应用的落地应用的落地,将会不断打开下游市场需求将会不断打开下游市场需求,而伴随算力的增长而伴随算力的增长,也将带来对上游半导体也将带来对上游半导体芯片的需求量快速提升芯片的需求量快速提升。图表:图表:ChatGPT月访问量(亿次)月访问量(亿次)图表:图表:ChatGPT 2023年年1月停机情况月停机情况时间时间

25、状态状态时长时长2023.1.5部分停机2小时46分钟2023.1.7部分停机1小时7分钟2023.1.8部分停机1小时27分钟2023.1.10部分停机1小时47分钟2023.1.11部分停机2小时8分钟部分停机1小时6分钟2023.1.25重大停机4小时20分钟2023.1.30重大停机13分钟2023.1.31重大停机57分钟ChatGPT激起激起AI浪潮,大算力芯片迎来产业机遇浪潮,大算力芯片迎来产业机遇13来源:OpenAI 官网,中泰证券研究所算力需求的快速增长与芯片计算能力的增长形成剪刀差算力需求的快速增长与芯片计算能力的增长形成剪刀差。根据OpenAI数据,2012-2018年

26、期间,人工智能训练任务中使用的算力正呈指数级增长,速度为每3.5个月翻一倍,人们对于算力的需求增长了超过300,000倍。相比之下,摩尔定律是每18个月翻倍,如果是以摩尔定律的速度,这期间只会有12倍的增长。因此,当前模型计算量的增长远超人工智能硬件算力的增长,模型算力需求增长与芯片计算性能增长之间的不匹配,剪刀差的扩大将带来对算力基础设施供给需求的不断增长。图表:图表:2012至至2019年算力需求增长情况年算力需求增长情况图表:后摩尔时代对芯片算力要求图表:后摩尔时代对芯片算力要求目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔二、芯

27、片是二、芯片是ChatGPT底层土壤底层土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流2.2 国产芯片厂商加速布局国产芯片厂商加速布局2.3 AI算力需求,存储芯片受益算力需求,存储芯片受益三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示14AI芯片根据下游应用可分为训练、推断两类芯片根据下游应用可分为训练、推断两类15来源:甲子光年智库,中泰证券研究所机器学习主要包括训练机器学习主要包括训练(training)和推断和推断(inference)两个步骤两个步骤,通常需要不同类型的通常需

28、要不同类型的AI芯片来执行芯片来执行。训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能;推理是指利用训练好的模型,使用新数据推理出各种结论。训练芯片训练芯片:通过大量的数据输入:通过大量的数据输入,构建复杂的深度神经网络模型的一种构建复杂的深度神经网络模型的一种AI芯片芯片。需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务,注重绝对的计算能力。推断芯片推断芯片:推断芯片主要是指利用训练出来的模型加载数据:推断芯片主要是指利用训练出来的模型加载数据,计算计算“推理推理”出各种结论的一种出各种结论的一种

29、AI芯片芯片,注重综合指标,侧重考虑单位能耗算力、时延、成本等性能。图表:图表:AI芯片代表企业芯片代表企业训练AI芯片代表企业推理AI芯片代表企业全球全球AI芯片有望达到芯片有望达到726亿美元规模亿美元规模16来源:IDC,中泰证券研究所AI芯片是芯片是AI算力的核心算力的核心,需求有望率先扩张需求有望率先扩张。AI芯片是用于加速人工智能训练和推理任务的专用硬件,主要包括GPU、FPGA、ASIC等,具有高度并行性和能够实现低功耗高效计算的特点。随着AI应用的普及和算力需求的不断扩大,AI芯片需求有望率先扩张。根据IDC预测,中国AI算力规模将保持高速增长,预计到2026年将达1271.4

30、EFLOPS,CAGRA(2022-2026年)达52.3%。在此背景下,IDC预测异构计算将成为主流趋势,未来18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升,2025年人工智能芯片市场规模将达726亿美元。0%20%40%60%80%100%120%140%160%02004006008000200222023202420252026EFLOPS规模增速图表:中国图表:中国AI算力规模及预测算力规模及预测图表:全球图表:全球AI芯片市场规模及预测芯片市场规模及预测17来源:赛迪顾问,Wind,AI芯片前沿技术与创新未来,中泰证

31、券研究所深度学习的应用开发可分成云端与边缘侧两大部分深度学习的应用开发可分成云端与边缘侧两大部分。云端指的是数据中心或超级计算机,具有强大的计算能力,利用海量数据进行模型训练,也可以进行推理。边缘侧指的是数据中心外的设备,如自动驾驶汽车、机器人、智能手机、无人机或IoT设备,用训练好的模型进行推理。根据场景不同,形成了两种不同要求的AI芯片:云端芯片:云端芯片:具有最大的计算能力和最高的性能,主要对深度学习算法模型进行训练,有时也进行推断。目前云端主要以CPU+GPU异构计算为主,根据wind数据,在机器学习服务器和高性能服务器中,CPU+GPU的成本占比分别为83%与51%。边缘端芯片:边缘

32、端芯片:计算性能有限,主要使用从云端传来的训练好的模型和数据进行推断。在边缘侧或手机等端侧设备中,很少有独立的芯片,AI加速通常由 SoC上的一个IP实现。例如,苹果智能手机里最大的应用处理器(Application Processor,AP)芯片就是一块带有AI核的SoC,这类SoC的性能一般可以达到510 TOPS。云端云端/边缘端芯片同步发展边缘端芯片同步发展图表:云端与边缘端图表:云端与边缘端AIAI芯片规模芯片规模0500300350201920202021云端训练芯片(亿元)云端推断芯片(亿元)边缘端推断芯片(亿元)0%10%20%30%40%50%60%70

33、%80%90%100%机器学习服务器推理服务器高性能服务器基础服务器CPU、GPU成本内存、存储器成本其他图表:各类型服务器成本构成图表:各类型服务器成本构成18来源:亿欧智库,中泰证券研究所云端训练和推断计算主要由云端训练和推断计算主要由Al 服务器完成服务器完成,底层算力芯片包括底层算力芯片包括 CPU、GPU、FPGA、ASIC 等等。CPU是AI计算的基础,负责控制和协调所有的计算操作。在AI计算过程中,CPU用于读取和准备数据,并将数据来传输到GPU等协处理器进行计算,最后输出计算结果,是整个计算过程的控制核心。根据IDC数据,CPU在基础型、高性能型、推理型、训练型服务器中成本占比

34、分别为32%、23.3%、25%、9.8%,是各类服务器处理计算任务的基础硬件。GPU、FPGA、ASIC是AI计算的核心,作为加速芯片处理大规模并行计算。具体来看,GPU通用性较强,适合大规模并行计算,且设计及制造工艺较成熟,目前占据AI芯片市场的主要份额;FPGA具有开发周期短、上市速度快、可配置性等特点,目前被大量应用于线上数据处理中心和军工单位;ASIC根据特定需求进行设计,在性能、能效、成本均极大的超越了标准芯片,非常适合AI 计算场景,是当前大部分AI初创公司开发的目标产品。图表:图表:AIAI加速芯片特点及应用场景对比加速芯片特点及应用场景对比技术架构种类技术架构种类定制化程度定

35、制化程度可编程性可编程性算力算力价格价格优点优点缺点缺点应用场景应用场景GPU通用型不可编辑中高通用性较强且适合大规模并行运算;设计和制造工艺成熟并行运算能力在推理端无法完全发挥高级复杂算法和通用性人工智能平台FPGA半定制化容易编辑高中可通过编程灵活配置芯片架构适应算法迭代,平均性能较高;功耗较低;开发时间较短(6个月)量产单价高;峰值计算能力较低;硬件编程困难适用于各种具体的行业ASIC全定制化难以编辑高低通过算法固化实现极致的性能和能效、平均性很强:功耗很低;体积小;量产后成本最低前期投人成本高;研发时间长(1年);技术风险大当客户处在某个特殊场景,可以为其独立设计一套专业智能算法软件A

36、I芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流19来源:个人图书馆,中泰证券研究所目前目前CPU+XPU异构形式成为异构形式成为AI服务器主流架构服务器主流架构。传统的CPU单元对于AI计算任务的处理能力有限,而XPU(包括GPU、FPGA、ASIC等)则可以提供更强大的计算能力,因此将CPU和XPU结合起来使用可以实现计算任务的高效处理和资源的最优利用。一般来说,CPU负责整个系统的管理和控制,而加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。服务器计算架构从单核的串行走向多核的并行服务器计算架构从单核的串行走向多核的并行,又进一

37、步从同构并行走向异构并行又进一步从同构并行走向异构并行,未来或将从异构并行走向超异构并行未来或将从异构并行走向超异构并行。目前在AI服务器中,常见的异构组合有8x GPU+2x CPU、4x GPU+2x CPU、8xFPGA+1xCPU、4xFPGA+1xCPU。在异构计算的趋势下,AI加速芯片搭载率将持续增高。根据IDC全球范围调研显示,2022年每台AI服务器上普遍多配置2个GPU,未来18个月GPU、ASIC、FPGA的搭载率均会上升。根据IDC数据,2021H1全球AI服务器市场规模达66.6亿美元,同比增长率超过全球AI整体市场增长率22.4%。预计在2025年全球AI服务器市场规

38、模将达到277亿美元,CAGR(2020-2025)为20.3%。AI芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流图表:图表:AI服务器异构形式演进趋势服务器异构形式演进趋势20来源:中泰证券研究所算力时代,算力时代,AI芯片有望率先受益芯片有望率先受益图表:图表:AI芯片特点及具体参数对比芯片特点及具体参数对比特点特点CPUGPUFPGAASIC基本架构60%逻辑单元40%计算单元60%-70%计算单元30%逻辑控制单元门电路资源固化的门电路资源架构图定制化程度通用型通用型半定制化定制化延迟高较高低(约为GPU的1/10)低(约为GPU的1/10)优势复

39、杂逻辑运算能力强,擅长逻辑控制擅长并行计算,浮点数据计算能力强,软硬件体系一致可进行数据并行和流水线并行,可编程,灵活度高AI运算效率高,功耗低,体积小劣势核数少,不擅长处理并行任务面积大,功耗高,由于通用性要求难以专一面对某一模型深度优化开发周期长,复杂算法开发难度大灵活性差,算法支持有限,算法迭代后需重新开发AI训练效果效果较差唯一量产可用于训练的硬件效率不高可能是用于训练的最佳芯片,但目前没有量产产品应用场景主要用于推断场景在云端和边缘端均占据主导地位,云端训练份额最高主要用于推断场景主要应用于推断场景具体芯片对比具体芯片对比E5-2699 V3Tesla K80Virtex7-690T

40、Google TPU计算单元个数(个)18(256bit)7804(32bit)3600(32bit)65536(8bit)峰值运算能力(TOPS)1.33(单精度浮点)8.74(单精度浮点)1.8(单精度浮点)92(8bit整点)功耗(W)1453003040能耗比(GFLOPS/W)92960230021来源:计算机组成原理,SEMI,中泰证券研究所CPU(Central Processing Unit)中央处理器:中央处理器:是计算机的运算和控制核心(Control Unit),是信息处理、程序运行的最终执行单元,主要功能是完成计算机的数据运算以及系统控制功能。CPU擅长逻辑控制,在深度

41、学习中可用于推理/预测。在深度学习中,模型的训练和推理是两个不同的过程:在训练过程中,模型需要进行大量的矩阵运算,因此通常使用GPU等擅长并行计算的芯片进行处理;在推理过程中,需要对大量的已经训练好的模型进行实时的推理/预测操作,而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度,这正是CPU所擅长的。图表:图表:CPU内部架构内部架构图表:图表:CPU工作原理概况工作原理概况CPU:底层核心算力芯片:底层核心算力芯片22来源:IDC,观研报告网,中泰证券研究所AI服务器中服务器中CPU成本占比及市场规模测算:成本占比及市场规模测算:根据IDC数据,CPU在推断型服务器中的成本占比为25%

42、,在训练型服务器中的成本占比为9.8%。此外据IDC对于人工智能服务器推理和训练工作负载的预测,2021用于推断和训练的占比分别为40.9%和59.1%,2025年推断和训练的占比调整为60.8%和39.2%,我们测算出2021年和2025年CPU在AI服务器中的成本占比分别为16.02%和19.04%。根据观研报告网数据,2021年全球AI服务器市场规模为156亿美元,预计于2025年增长至318亿美元。2021年中国AI服务器市场规模为350.3亿元,预计2025年将增长至701.8亿元。因此我们合理推算因此我们合理推算2021年年,全球全球AI服务器服务器CPU市场规模约为市场规模约为2

43、5亿美亿美元元,中国市场约为中国市场约为56亿元亿元,到到2025年全球年全球AI服务器服务器CPU市场规模市场规模约为约为61亿美元亿美元,中国市场规模为中国市场规模为134亿元亿元。2025中国服务器中国服务器CPU市场规模将达到市场规模将达到134亿元亿元图表:全球服务器成本结构拆分图表:全球服务器成本结构拆分图表:图表:AI服务器中服务器中CPU市场规模测算市场规模测算32%23%25%10%0%27%25%73%27%26%15%9%18%3%10%0%23%21%25%9%0%10%20%30%40%50%60%70%80%90%100%基础型高性能型推理型训练型CPUGPUMem

44、oryStorage其他中国中国AI服务器服务器市场规模(亿元)市场规模(亿元)全球全球AI服务器服务器市场规模(亿美元)市场规模(亿美元)中国中国AI服务器中服务器中CPU市场规模(亿元)市场规模(亿元)全球全球AI服务器中服务器中CPU市场规模(亿美元)市场规模(亿美元)2021年350.315656.1124.992025年701.8318133.6360.55复合增长率(2021-2025)19%19%24%25%GPU:AI高性能计算王者高性能计算王者23来源:CSDN,中泰证券研究所GPU(Graphics Processing Unit)图形处理器:)图形处理器:GPU最初是为了

45、满足计算机游戏等图形处理需求而被开发出来的,但凭借高并行计算和大规模数据处理能力,逐渐开始用于通用计算。根据应用场景和处理任务的不同,GPU形成两条分支:传统传统GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D加速引擎、图像渲染等。GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU减弱了GPU图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用。图表:图表:GPU 技术演变历程技术演变历程时间时间类型类

46、型相关标准相关标准代表产品代表产品基本特征基本特征意义意义20世纪80年代图形显示(传统GPU)CGA,VGAIBM 5150光栅生成器最早图形显示控制器20世纪80年代末2D加速GDI,DirectFBS386C9112D图元加速开启2D图形硬件加速时20世纪90年代初部分3D加速OpenGL(1.14.1),DirectX(6.011)3DLabsGlint300SX硬件T&L第一颗用于PC的3D图形加速芯片20世纪90年代后期固定管线NVIDIAGeForce256shader功能固定首次提出GPU概念20042010统一渲染NVIDIA G80多功能shaderCUDA与G80一同发布

47、2011至今通用计算(GPGPU)CUDA,OpenCL1.22.0NVIDIATESLA完成与图形处理无关的科学计算NVIDIA正式将用于计算的GPU产品线独立出采24来源:NVIDIA官网,Verified Market Research,中泰证券研究所GPU在在AI模型构建中具有较高的适配性模型构建中具有较高的适配性。GPU的高并行性可以更好地支持AI模型训练和推理过程中大量的矩阵或向量计算,以NVIDIA GPU系列旗舰产品A100为例:根据NVIDIA公布的规格参数,A100的深度学习运算性能可达312Tflops。在AI训练过程中,2048个A100 GPU可在一分钟内成规模地处理

48、BERT的训练工作负载;在AI推理过程中,A100可将推理吞吐量提升到高达CPU的249倍。AI模型与应用的加速发展推动模型与应用的加速发展推动GPU芯片放量增长芯片放量增长。根据Verified Market Research数据,2021年全球GPU市场规模为334.7亿美元,预计2030年将达到4773.7亿美元,CAGR(2021-2030)为34.35%。从国内市场来看,2020年中国大陆的独立GPU市场规模为47.39亿元,预计2027年市场规模将达345.57亿美元,CAGR(2021-2027)为32.8%。GPU:AI高性能计算王者高性能计算王者图表:图表:NVIDIA A1

49、00 GPU 在在 AI 训练和推理工作中的加速能力训练和推理工作中的加速能力图表:全球图表:全球GPU市场规模及增速市场规模及增速25来源:NVIDIA官网,百度官网,OpenAI官网,Similarweb,中泰证券研究所预测预测“文心一言文心一言”等等LLM模型的推出模型的推出将给国内将给国内GPU市场带来市场带来28.51亿美元的增量亿美元的增量。据百度官方数据,“文心一言”基于文心大模型,参数规模为100亿,计划3月份面向公众开放,并将与搜索引擎业务整合。我们假设短期国内将出现5家与百度“文心一言”相似的企业,模型参数量与训练算力需求成比例。根据OpenAI公布的GPT-3系列参数量及

50、训练算力需求数据,可推算出文心大模型的单次训练算力需求为208.48PFlop/s-day。据Similarweb数据,2023年1月百度搜索引擎的访问量为4.9亿次,假设“文心一言”将整合到百度搜索引擎中,单日运营算力需求为125.08PFlop/s-day。根据NVIDIA数据,A100的FP64 Tensor Core算力为19.5 TFlops,单价为1万美元。根据经验假设日常算力利用率为30%,则短期LLM模型将给国内GPU市场带来28.51亿美元的增量。长长期期LLM模型有望与搜索引擎结合模型有望与搜索引擎结合,为为GPU带来带来447.51亿美元的亿美元的增量空间增量空间。假设未

51、来ChatGPT将与搜索引擎结合,日活跃用户数量参考Google。根据根据Similarweb数据数据,2023年年1月月Google访访问量为问量为883亿亿。假设其他数据与测算方式不变假设其他数据与测算方式不变,则则ChatGPT与搜索引擎结合能够给与搜索引擎结合能够给GPU市场带来市场带来447.51亿美元的增量空间亿美元的增量空间。增量动因增量动因测算模型依据测算模型依据参数量(亿)参数量(亿)单月访问量单月访问量(亿次)(亿次)企业数企业数国内LLM模型的推出ERNIE-ViLG100以百度浏览量代替:4.95训练算力训练算力(PFlop/s-day)单日运营算力单日运营算力(PFl

52、op/s-day)单日运营单日运营+训练训练总算力总算力所需所需A100芯片芯片(颗)(颗)GPU增量增量(亿美元(亿美元)208.48125.08333.5528508828.51增量动因增量动因测算模型依据测算模型依据参数量(亿)参数量(亿)单月访问量单月访问量(亿次)(亿次)企业数企业数LLM有望与搜索引擎结合ChatGPT1746以谷歌浏览量代替:883假设谷歌仅采用1家企业的LLM训练算力训练算力(PFlop/s-day)单日运营算力单日运营算力(PFlop/s-day)单日运营单日运营+训训练总算力练总算力所需所需A100芯片芯片(颗)(颗)GPU增量增量(亿美元(亿美元)3640

53、.0022539.3426179.344475102447.51图表:短期国内图表:短期国内GPU增量测算增量测算图表:长期全球图表:长期全球GPU增量测算增量测算AI芯片价值量测算:以芯片价值量测算:以GPU为例为例26来源:与非网,IDC,中泰证券研究所FPGA(Field Programmable Gate Array)现场可编程门阵列:现场可编程门阵列:FPGA最大的特点在于其现场可编程的特性,无论是CPU、GPU还是ASIC,在芯片制造完成后功能会被固定,用户无法对硬件功能做出更改,而FPGA在制造完成后仍可使用配套软件对芯片进行功能配置,将芯片上空白的模块转化为自身所需的具备特定功

54、能的模块。可编程性可编程性、高并行性高并行性、低延迟低延迟、低功耗等特点低功耗等特点,使得使得FPGA在在AI推断领域潜力巨大推断领域潜力巨大。FPGA可以在运行时根据需要进行动态配置和优化功耗,同时拥有流水线并行和数据并行能力,既可以使用数据并行来处理大量数据,也能够凭借流水线并行来提高计算的吞吐量和降低延迟。根据与非网数据,FPGA(Stratix 10)在计算密集型任务的吞吐量约为CPU的10倍,延迟与功耗均为GPU的1/10。云端推断:在面对推断环节的小批量数据处理时,GPU的并行计算优势不明显,FPGA可以凭借流水线并行,达到高并行+低延迟的效果。根据IDC数据,2020年中国云端推

55、理芯片占比已超过50%,预计2025年将达到60.8%,云端推断市场广阔。边缘推断:受延迟、隐私和带宽限制的驱动,FPGA逐渐被布署于IoT设备当中,以满足低功耗+灵活推理+快速响应的需求。FPGA:可编程芯片加速替代:可编程芯片加速替代体系结构体系结构吞吐量吞吐量延迟延迟功耗功耗灵活性灵活性CPU1TN/A100W很高GPU10T1ms300W高FPGA(Stratix V)1T1us30W高FPGA(Stratix10)10T1us30W高ASIC10T1us30W低图表:密集计算任务场景下各芯片表现参数对比图表:密集计算任务场景下各芯片表现参数对比0%10%20%30%40%50%60%

56、70%80%90%100%20022202320242025训练推理图表:密集计算任务场景下各芯片表现参数对比图表:密集计算任务场景下各芯片表现参数对比27来源:Dark silicon and the end of multicore scaling,Power Limitations and Dark Silicon Challenge the Future of Multicore,知乎,中泰证券研究所FPGA是是AI时代下解决暗硅效应的有效途径时代下解决暗硅效应的有效途径。暗硅效应(Dark Silicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部分区域可以同

57、时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。在AI计算领域,由于摩尔定律的限制和散热问题,先进高效的硬件设计会更容易导致暗硅效应,限制了芯片的计算能力和应用范围。据相关论文,在22nm制程下,暗硅面积将达21%。在8nm制程下,暗硅面积将提升至50%以上。由于暗硅效应,预计到2024年平均只能实现7.9倍的加速比,与每代性能翻倍的目标相比差距将近24倍。FPGA的可编程性和可重构性使其能够灵活地部署和优化计算任务的可编程性和可重构性使其能够灵活地部署和优化计算任务,从而在一定程度上缓解了暗硅效应的影响从而在一定程度上缓解了暗硅效应的影响。简单来说,FPGA减少暗硅效应的

58、方法有两个方向,一是通过优化电路结构,尽可能减少不活跃区域的数量;二是通过动态重构电路,使得不活跃区域可以被重用。FPGA:可编程芯片加速替代:可编程芯片加速替代图表:暗硅效应的产生原因图表:暗硅效应的产生原因图表:暗硅面积的增长趋势及对芯片性能的影响图表:暗硅面积的增长趋势及对芯片性能的影响28来源:头豹研究院,Bob Broderson,中泰证券研究所ASIC(Application Specific Integrated Circuit)专用集成电路:专用集成电路:是一种为专门应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC具有较高的能效比和算力水平,但通用性和灵活性较

59、差。能效方面:由于ASIC是为特定应用程序设计的,其电路可以被高度优化,以最大程度地减少功耗。根据Bob Broderson数据,FPGA的能效比集中在1-10 MOPS/mW之间。ASIC的能效比处于专用硬件水平,超过100MOPS/mW,是FPGA的10倍以上。算力方面:由于ASIC芯片的设计目标非常明确,专门为特定的应用场景进行优化,因此其性能通常比通用芯片更高。根据头豹研究院数据,按照CPU、GPU、FPGA、ASIC顺序,芯片算力水平逐渐增加,其中ASIC算力水平最高,在1万-1000万Mhash/s之间。随着技术随着技术、算法的普及算法的普及,ASIC将更具备竞争优势将更具备竞争优

60、势。ASIC在研发制作方面一次性成本较高,但量产后平均成本低,具有批量生产的成本优势。目前人工智能属于大爆发时期,大量的算法不断涌出,远没有到算法平稳期,ASIC专用芯片如何做到适应各种算法是当前最大的问题。但随着技术、算法的普及,ASIC 将更加具备竞争优势。ASIC:云计算专用高端芯片:云计算专用高端芯片图表:芯片方案性能比较图表:芯片方案性能比较图表:图表:FPGA方案及方案及ASIC方案成本比较方案成本比较29来源:赛迪顾问,中泰证券研究所ASIC主要应用在推断场景主要应用在推断场景,在终端推断市场份额最大在终端推断市场份额最大,在云端推断市场增速较快在云端推断市场增速较快。训练:AI

61、模型在训练过程中需要对模型参数进行不断调整,ASIC由于专用性强、灵活性低,因此不适用于云端训练。根据赛迪顾问数据,2019年GPU、FPGA、ASIC在云端训练市场占比分别为63.9%、22.6%、13.5%,云端训练仍以GPU为主。推断:与训练场景不同,推断场景模型参数较为固化,ASIC在推断市场场景中的应用前景较为广阔。在早期,ASIC的下游应用场景主要为各领域智慧终端设备,因此在终端推断市场规模较大。目前,随着云端算力需求的不断增加,ASIC凭借出色的算力水平开始在云端推断领域快速渗透。根据赛迪顾问数据,2019年ASIC在终端推断的市场份额为41%,远超GPU与FPGA。2019-2

62、021年在云端推断的市场年均增速均保持在60%以上,高于CPU与FPGA。ASIC:云端推断市场规模快速增长:云端推断市场规模快速增长图表:中国云端训练芯片市场(左)图表:中国云端训练芯片市场(左)/云端推断市场(中)云端推断市场(中)/终端推断市场(右)产品规模及增速终端推断市场(右)产品规模及增速0%10%20%30%40%50%60%70%80%90%020406080020192020E2021EGPU规模(亿元)FPGA规模(亿元)ASIC规模(亿元)GPU增速FPGA增速ASIC增速0%10%20%30%40%50%60%70%80%00

63、70809020192020E2021EGPU规模(亿元)FPGA规模(亿元)ASIC规模(亿元)GPU增速FPGA增速ASIC增速0%10%20%30%40%50%60%70%80%0070809020192020E2021EGPU规模(亿元)FPGA规模(亿元)ASIC规模(亿元)GPU增速FPGA增速ASIC增速目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔二、芯片是二、芯片是ChatGPT底层土壤底层土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流2.2 国

64、产芯片厂商加速布局国产芯片厂商加速布局2.3 AI算力需求,存储芯片受益算力需求,存储芯片受益三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示3031来源:各公司官网,中泰证券研究所全球服务器全球服务器CPU市场目前被市场目前被Intel和和AMD所垄断所垄断,国产国产 CPU 在性能方面与国际领先水平仍有差距在性能方面与国际领先水平仍有差距。根据Counterpoint数据,在2022年全球数据中心CPU市场中,Intel以70.77%的市场份额排名第一,AMD以19.84%的份额紧随其后,剩余厂商仅占据9.39%的市场份额,整体上处于

65、垄断局面;目前国内CPU厂商主有海光、海思、飞腾、龙芯、申威等。通过产品对比发现,目前国产服务器CPU性能已接近Intel中端产品水平,但整体上国内CPU厂商仍在工艺制程、运算速度(主频)、多任务处理(核心与线程数)方面落后于国际先进水平。国产国产CPU多点开花加速追赶多点开花加速追赶图表:国内外图表:国内外AI芯片产品对比(芯片产品对比(3)服务器服务器CPU厂商厂商产品型号产品型号发布时间发布时间核心数核心数主频主频工艺制程工艺制程内存类型内存类型内存通道数内存通道数最高内存频率最高内存频率超线程超线程产品定位产品定位AMDEPYC 75422019Q3322.9GHz7nmDDR4832

66、00MHz64服务器Intel至强Gold 63542021Q2183.0GHz10nmDDR483200 MHz36服务器海光海光72852020Q1322.0GHz14nmDDR482666MHz不支持服务器海思鲲鹏Q1642.6GHz7nmDDR482933MHz不支持服务器飞腾S25002020Q3642.2GHz16nmDDR483200MHz不支持服务器龙芯3C50002022Q2162.2GHz12nmDDR443200MHz不支持服务器申威申威 .0GHz28nmDDR382133MHz不支持服务器32来源:各公司官网,中泰证券研究

67、所全球全球GPU芯片市场主要由海外厂商占据垄断地位芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局国产厂商加速布局。全球GPU市场被英伟达、英特尔和AMD三强垄断,英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位;国内市场中,景嘉微在图形渲染GPU领域持续深耕,另外天数智芯、壁仞科技、登临科技等一批主打AI及高性能计算的GPGPU初创企业正加速涌入。图形渲染图形渲染GPU:目前国内厂商在图形渲染:目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小方面与国外龙头厂商差距不断缩小。芯动科技的“风华2号”GPU采用5nm工艺制程,与Nvidia最新一代产品RTX40系列持平

68、,实现国产图形渲染GPU破局。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于Nvidia同代产品,但差距正逐渐缩小。生态体系逐步完善,国产生态体系逐步完善,国产GPU多领域追赶多领域追赶图表:国内外图表:国内外AI芯片产品对比(芯片产品对比(1)图形渲染图形渲染GPU产品类型产品类型厂商厂商产品型号产品型号发布年份发布年份制作工艺制作工艺显存类型显存类型显存位宽显存位宽显存容量显存容量显存带宽显存带宽核心频率核心频率像素填充速率像素填充速率 浮点性能(浮点性能(FP32)总线接口总线接口图形渲染GPUNvidiaRTX409020225nmGDDR6X384bit24GB2230MHzPC

69、Ie 4.0 x 16GTX1050201614nmGDDR5128bit2GB112GB/s1354MHz43.3G Pixel/s1.8TFLopsPCIe 3.0 x 16芯动科技风华1号202112nmGDDR6X128bit16GB304GB/s160G Pixels/s5TFLopsPCIe 4.0 x 8风华2号20225nmLPDDR5X8GB102.4GB/s48G Pixels/s1.5TFLopsPCle 3.0 x 8景嘉微JM7200201828nmDDR364bit4GB17GB/s1300MHz5.2G Pixels/s0.5TFLopsPCIe2.0 x16JM

70、9231202114nm8GB256GB/s1500MHz32G Pixels/s2TFLopsPCIe 3.0 x 1633来源:各公司官网,中泰证券研究所在在GPGPU方面方面,目前国内厂商与目前国内厂商与Nvidia在在GPGPU上仍存在较大差距上仍存在较大差距。制程方面,目前Nvidia已率先到达4nm,国内厂商多集中在7nm;算力方面,国内厂商大多不支持双精度(FP64)计算,在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平,天数智芯、壁仞科技的AI芯片产品在单精度性能上超过NVIDIA A100;接口方面,壁仞科技与Nvidia率先使用PCle5.0,其余厂商多集中

71、在PCle4.0;生态方面,国内企业多采用OpenCL进行自主生态建设,与Nvidia CUDA的成熟生态相比,差距较为明显。图表:国内外图表:国内外AI芯片产品对比(芯片产品对比(2)GPGPU产品类型产品类型厂商厂商产品型号产品型号发布时间发布时间工艺制程工艺制程浮点算力浮点算力-TflopsINT8定点算力定点算力(TOPS)互联带宽互联带宽显存显存接口接口功耗功耗生态生态FP64 FP32 BF16GPGPUNVIDIAH100 SXM520224nm Hopper30500GB/s80GBSXM5700WCUDAH100 PCle20224nm Hopper24

72、488001600900GB/s80GBPCle5.0350WCUDAA100 PCle20207nm Ampere9.719.5312624600GB/s80GBPCle4.0400WCUDATesla V100201712nm Volta7.815.712562150GB/s32GBPCle4.0300WCUDAAMDInstinct MI250X20216nm CNDA 247.947.9383383128GBPCle 4.0560WAMD ROCmInstinct MI25020216nm CNDA 247.945.3362362128GBPCle 4.0560WAMD ROCmIns

73、tinct MI10020207nm CNDA 111.523.192.3184.632GBPCle 4.0350WAMD ROCm天数智芯天垓10020217nm3714729564GB/s32GBPCIe 4.0250WSIMT壁仞科技壁砺 100P20227nm2409601920448 GB/s64GBPCIe 5.0550WBIRENSUPA壁砺104P20227nm2GB/s32GBPCIe5.0300WBIRENSUPA登临科技Goldwasser-L202012nm51264GBPCle 3.0120W生态体系逐步完善,国产生态体系逐步完善,国产GPU多领

74、域追赶多领域追赶34来源:各公司官网,中泰证券研究所FPGA全球市场呈现全球市场呈现“两大两小两大两小”格局格局,Altera与与Xilinx市占率共计超市占率共计超80%,Lattice和和Microsemi市占率共计超市占率共计超10%;整体来;整体来看看,安路科技安路科技、紫光同创等厂商处于国际中端水平紫光同创等厂商处于国际中端水平,仍需进一步突破仍需进一步突破。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。ASIC不同于不同于CPU、GPU、FPGA,目前全球目前全球

75、ASIC市场并未形成明显的头部厂商市场并未形成明显的头部厂商,国产厂商快速发展;国产厂商快速发展;通过产品对比发现,目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4,遂原科技和寒武纪的产品在整体性能上也与Googel比肩。未来国产厂商有望在ASIC领域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。FPGA/ASIC国产替代正当时国产替代正当时图表:国内外图表:国内外AI芯片产品对比(芯片产品对比(4)FPGA/ASIC产品类型产品类型厂商名称厂商名称产品型号产品型号工艺制程

76、工艺制程系统逻辑单元系统逻辑单元等效等效LUT数量数量分布式分布式RAMDSP数量数量User IOFPGAXILINXArtix UltraScale+AU25P16nm308K141K4.7Mb1200304Kintex UltraScale+XCKU19P16nm1843K842K11.6Mb1080540紫光同创PG2L200H28nm239.7K2.528Mb500PG2T160H160K2.188Mb400安路科技PH1A180SFG67628nm210.24K3.277MB600396EF3LA0CG64255nm11.776K94K475产品类型产品类型厂商厂商产品型号产品型号

77、发布时间发布时间工艺制程工艺制程浮点算力(浮点算力(Tflops)INT8定点算力定点算力(TOPS)互联带宽互联带宽显存显存接口接口功耗功耗生态生态FP64FP32BF16ASICGoogelTPUv4i20207nm138138400GB/s8GBTensorFlow XLATPUv420217nm2752751000GB/s32GBTensorFlow XLA海思昇腾91020187nm320640PCle 4.0350WMindSpore燧原科技T20(32GB)202112nm32128256300 GB/s32GBPCIe 4.0300W寒武纪MLU370-X420217nm249

78、6256200GB/s24GBPCIe 4.0150WCambricon NeuwareMLU370-S420217nm1872192200GB/s24GBPCIe 4.075WCambricon Neuware35来源:龙芯中科股说明书,中泰证券研究所公司主要从事处理器公司主要从事处理器(CPU)及配套芯片的研制及配套芯片的研制、销售及服务销售及服务。主要产品包括龙芯 1 号、龙芯 2 号、龙芯 3 号三大系列处理器芯片及桥片等配套芯片,系列产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛运用。坚持自主研发指令系统坚持自主研发指令系统、IP 核等核心技术核等核心技术。龙芯中科

79、掌握指令系统、处理器核微结构、GPU 以及各种接口 IP 等芯片核心技术,在关键技术上进行自主研发,拥有大量的自主知识产权,已取得专利 400 余项。GPU产品进展顺利产品进展顺利,正研制新一代图形及计算加速正研制新一代图形及计算加速GPGPU核核。公司在2022年上半年完成了第一代龙芯图形处理器架构LG100系列,目前正在启动第二代龙芯图形处理器架构LG200系列图形处理器核的研制。根据公司在2022年半年度业绩交流会信息,第一代GPU核(LG100)已经集成在7A2000中,新一代GPGPU核(LG200)的研制也取得了积极进展。龙芯中科:国产龙芯中科:国产 CPU 设计标杆,自主研发设计

80、标杆,自主研发GPGPU图表:高性能通用图形处理器芯片及系统研发项目情况及进程安排图表:高性能通用图形处理器芯片及系统研发项目情况及进程安排项目项目建设内容建设内容2022年年2023年年2024年年Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4场地装修改造通过对现有场地进行装修,为项目研发提供场地支持,优化现有研发环境软硬件设备购置购置研发软硬件设备,以进一步优化现有研发环境,为公司技术的创新提供支持研发人员招募招募掌握行业最新技术的研发人员,完善研发队伍建设,提升研发软实力。芯片研发重点进行高性能通用图形处理器芯片的研发,并研究其在 AI 领域的应用,与公司的CPU 产品形成协同效应,共

81、同构建更有竞争力的信息化基础设施核心平台36来源:海光招股说明书,中泰证券研究所公司公司主营产品包括海光通用处理器主营产品包括海光通用处理器(CPU)和海光协处理器和海光协处理器(DCU)。海光 CPU 主要面向复杂逻辑计算、多任务调度等通用处理器应用场景需求,兼容国际主流 x86 处理器架构和技术路线。从应用场景看,海光CPU分为7000、5000、3000三个系列,分别定位于高端服务器、中低端服务器和边缘计算服务器。海光 DCU 是公司基于GPGPU架构设计的一款协处理器,目前以8000系列为主,面向服务器集群或数据中心。海光DCU全面兼容ROCm GPU计算生态,能够较好地适配国际主流商

82、业计算软件,解决了产品推广过程中的软件生态兼容性问题。CPU与与DPU持续迭代持续迭代,性能比肩国际主流厂商性能比肩国际主流厂商。CPU方面,目前海光一号和海光二号已经实现量产,海光三号已经正式发布,海光四号目前进入研发阶段。海光CPU的性能在国内处于领先地位,但与国际厂商在高端产品性能上有所差距,接近Intel中端产品水平;DCU方面,深算一号已实现商业化应用,深算二号已于2020年1月启动研发。在典型应用场景下,公司深算一号指标达到国际上同类型高端产品的水平。海光信息:国产高端处理器龙头,海光信息:国产高端处理器龙头,CPU+DCU双轮驱动双轮驱动项目项目海光海光NVIDIA AMD产品深

83、算一号Ampere 100MI100生产工艺7nm FinFET7nm FinFET7nm FinFET 核心数量4096(64 CUs)2560 CUDA processors640 Tensor processors 120CUs 内核频率Up to 1.5GHz(FP64)Up to 1.7Ghz(FP32)Up to 1.53GhzUp to 1.5GHz(FP64)Up to 1.7Ghz(FP32)显存容量32GB HBM280GB HBM2e32GB HBM2显存频率2.0 GHz3.2 GHz2.4 GHzTDP350W400W300WCPU to GPU 互联PCIe Gen

84、4 x 16PCIe Gen4 x 16PCIe GEN4 x 16 GPU to GPU 互联xGMI x 2,Up to 184 GB/sNVLinkup to 600 GB/s Infinity Fabric x 3,up to276 GB/s产品名称产品名称Intel8380HLIntel8380HIntel8376HL海光海光7285Intel8360HLIntel8360H4路测试结果SpeccpuINT784SpeccpuFP657双路测试结果SpeccpuINT392392383348345344SpeccpuFP329327

85、321308300299性能差异(Intel数据/海光数据-1)SpeccpuINT12.64%12.64%9.91%-0.86%-1.15%SpeccpuFP6.66%6.01%4.06%-2.76%-3.08%图表:深算一号与国际同类型产品性能对比图表:深算一号与国际同类型产品性能对比图表:海光图表:海光CPUCPU与与IntelIntel产品性能对比产品性能对比37来源:各公司官网,中泰证券研究所公司主要从事高可靠电子产品的研发公司主要从事高可靠电子产品的研发、生产和销售生产和销售,产品主要涉及图形显控领域产品主要涉及图形显控领域、小型专用化雷达领域小型专用化雷达领域、芯片领域等芯片领域

86、等。图形显控是公司现有核心业务,也是传统优势业务,小型专用化雷达和芯片是公司未来大力发展的业务方向。GPU研发进程平稳推进研发进程平稳推进,新产品可满足新产品可满足AI计算需求计算需求。公司以 JM5400 研发成功为起点,不断研发更为先进且适用更为广泛的 GPU 芯片。2014年公司推出JM5400,核心频率550MHz;2018年推出JM7200系列,核心频率1300MHz;2021年推出JM9系列,核心频率1.5GHz。根据公司2022年中期报告,公司 JM9 系列第二款图形处理芯片于2022年5月成功研发,可以满足地理信息系统、媒体处理、CAD 辅助设计、游戏、虚拟化等高性能显示需求和

87、人工智能计算需求,可广泛应用于用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。景嘉微:国产景嘉微:国产GPU领军企业,领军企业,JM9 系列芯片性能优异系列芯片性能优异图表:景嘉微与图表:景嘉微与Nvidia GPUNvidia GPU性能对比性能对比厂商厂商型号型号发布年份发布年份制作工艺制作工艺显存类型显存类型显存位宽显存位宽显存容量显存容量显存带宽显存带宽核心频率核心频率像素填充速率像素填充速率浮点性能浮点性能总线接口总线接口景嘉微JM5400201565nmDDR3128bit1GB9.6GB/s-PCIJM7200201828nmDDR364bit4GB17GB/s130

88、0MHz5.2G Pixels/s0.5TFLopsPCIE2.0 x16JM9231202114nm-8GB256GB/s1500MHz32G Pixels/s2TFLopsPCIE 3.0X16NvidiaGT640201228nmDDR3128bit2GB80GB/s950MHz7.22G Pixels/s0.69TFLopsPCIE 3.0GTX1050201614nmGDDR5128bit2GB112GB/s1354MHz43.3G Pixel/s1.8TFLopsPCIE 3.0GTX1080201616nmGDDR5256bit 8/8GB320GB/s1607MHz102.8P

89、ixels/s8.9TFLopsPCIE 3.0X1638来源:公司招股说明书,中泰证券研究所寒武纪是寒武纪是 AI 芯片领域的独角兽芯片领域的独角兽。公司成立于 2016 年 3 月 15 日,专注于人工智能芯片产品的研发与技术创新,产品广泛应用于消费电子、数据中心、云计算等诸多场景。公司是 AI 芯片领域的独角兽:采用公司终端智能处理器 IP 的终端设备已出货过亿台;云端智能芯片及加速卡也已应用到国内主流服务器厂商的产品中,并已实现量产出货;边缘智能芯片及加速卡的发布标志着公司已形成全面覆盖云端、边缘端和终端场景的系列化智能芯片产品布局。人工智能的各类应用场景人工智能的各类应用场景,从云端

90、溢出到边缘端从云端溢出到边缘端,或下沉到终端或下沉到终端,都离不开智能芯片的高效支撑都离不开智能芯片的高效支撑。公司面向云端、边缘端、终端推出了三个系列不同品类的通用型智能芯片与处理器产品,分别为终端智能处理器 IP、云端智能芯片及加速卡、边缘智能芯片及加速卡。寒武纪:国产寒武纪:国产AI芯片领先者芯片领先者图表:公司主要产品情况图表:公司主要产品情况应用场景应用场景芯片需求芯片需求典型计算能力典型计算能力典型功耗典型功耗典型应用领域典型应用领域终端低功耗、高能效、推理任务为主、成本敏感、硬件产品形态众多8TOPS30TOPS50瓦云计算数据中心、企业私有云等边缘端对功耗、性能、尺寸的要求常介

91、于终端与云端之间、推理任务为主、多用于插电设备、硬件产品形态相对较少5TOPS 至 30TOPS4瓦至15瓦智能制造、智能家居、智能零售、智慧交通、智慧金融、智慧医疗、智能驾驶等众多应用领域39来源:中泰证券研究所图表:图表:AI芯片市场竞争格局情况芯片市场竞争格局情况国产国产AI芯片有望长期受益芯片有望长期受益目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔二、芯片是二、芯片是ChatGPT底层土壤底层土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流2.2 国产芯片厂商加速布局国产芯片厂

92、商加速布局2.3 AI算力需求,存储芯片受益算力需求,存储芯片受益三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示40来源:IDC、Dramexchange,SIA,中泰证券研究所ChatGPT带动带动AI服务器需求,存储芯片受益。服务器需求,存储芯片受益。ChatGPT的数据获取、数据整理、训练、推理除大算力芯片外,还需存储芯片支持。服务器成本构成:服务器成本包括算力芯片、存储器等,根据IDC 2018年服务器成本构成,在高性能服务器/推理型服务器/机器学习型服务器中存储占比29%/25%/16%。AI服务器,除了内存需要128GB或更

93、大容量的高性能HBM和高容量服务器DRAM,还需硬盘去存储大量数据。存储下游市场:智能手机+服务器+PC是主要下游。智能手机端出货量增速有限,单机容量提升是主要推动力;服务器端,受益人工智能、物联网和云计算等应用兴起,服务器出货量及单机容量提升推动增长。图表:服务器成本构成图表:服务器成本构成41AI算力需求,存储芯片受益算力需求,存储芯片受益0%10%20%30%40%50%60%70%80%90%100%ServerMobilePC其他20%21%25%8%15%3%10%8%15%26%15%8%23%27%25%67%27%23%25%9%0%10%20%30%40%50%60%70%

94、80%90%100%基础型高性能型推理型机器学习型其他storagememoryGPUCPU40%37%35%34%28%28%29%27%17%18%20%22%0%10%20%30%40%50%60%70%80%90%100%201920202021e2022eHandsetsPC SSDGame ConsoleEnterprise SSDUFD+Memory CardOthers图表:图表:DRAM下游应用构成(按需求量)下游应用构成(按需求量)图表:图表:NAND下游应用构成(按需求量)下游应用构成(按需求量)来源:中泰证券研究所42AI高算力对高带宽内存的需求高算力对高带宽内存的需求

95、AI大算力需要的内存:大容量服务大算力需要的内存:大容量服务器器DRAM和高带宽内存和高带宽内存HBM。按照应用场景,DRAM分成标准DDR、LPDDR、GDDR三类。JEDEC定义并开发了以下三类SDRAM 标准,以帮助设计人员满足其目标应用的功率、性能和尺寸要求。1)标准型DDR:针对服务器、云计算、网络、笔记本电脑、台式机和消费类应用程序,与CPU配套使用2)LPDDR:Low Power DDR,针对尺寸和功率非常敏感的移动和汽车领域,有低功耗的特点。3)GDDR:Graphics DDR,针对高带宽(例如显卡和AI)的两种不同的存储器架构是 GDDR 和 HBM。SDRAM利基型利基

96、型DRAMDIMMDRAM on PCBDRAM on PCBDDR1PC、服务器、服务器、数据中心、家电数据中心、家电R/LRDIMM:服务器、云计:服务器、云计算、数据中心、算、数据中心、网络网络显卡、游戏机、显卡、游戏机、高性能计算领域高性能计算领域DDR2DDR3DDR4GDDR3GDDR1GDDR2DDR5GDDR4GDDR5主流主流DRAM应用领域应用领域注:根据注:根据DRAMexchange数据,目前数据,目前DDR4 4GB DDR4 8Gb 512M*16 属于利基型属于利基型DRAMHBM数据密集系统数据密集系统(图形卡、(图形卡、AI、高性能计算等)高性能计算等)HBM

97、2EHBM1HBM2HBM3LPDDR手机、汽车、手机、汽车、平板等平板等LPDDR1LPDDR2LPDDR3LPDDR4LPDDR5标准标准DDR移动移动DDR图形图形DDRU/SODIMM:台式机、笔记:台式机、笔记本本AI高算力对高带宽内存的需求高算力对高带宽内存的需求43来源:AMD,中泰证券研究所GDDR DRAM 是专为是专为GPU 和加速器设计的,和加速器设计的,HBM是是GDDR的替代品,也适用于的替代品,也适用于GPU与加速器,与主芯片配套,可以提高与加速器,与主芯片配套,可以提高机器学习和计算性能,如英伟达“机器学习和计算性能,如英伟达“A100”就最高配备了就最高配备了8

98、0GB HBM2内存。内存。HBM(High Bandwidth Memory)是将多个)是将多个DDR芯片芯片3D堆叠在一起后和堆叠在一起后和主芯片主芯片封装在一起,有高带宽、低功耗等特点。封装在一起,有高带宽、低功耗等特点。1)HBM与主芯片合封在一起:DRAM颗粒和和GPU/CPU合封,缩短了DRAM和主芯片之间的通信距离,同时跨越封装对芯片引脚数目的限制,几十倍提高传输线数量,降低传输损耗,提高传输带宽。2)HBM采用3D堆叠技术,中间层连接内存与主芯片:不同于DRAM颗粒与算力芯片平铺,HBM将DRAM颗粒堆叠在一起,一方面增加了DRAM容量,另一方面直接增加带宽,DRAM颗粒通过“

99、硅透”(TSV)的微型导线相互连接,主芯片和DRAM通过中间层连通,HBM 具备的特性几乎和芯片集成的 RAM一样,具有更高速、更高带宽的特点图表:图表:HBM的立体结构的立体结构图表:图表:HBM与与GDDR5的比较的比较AI高算力对高带宽内存的需求高算力对高带宽内存的需求44来源:Trendforce,半导体行业观察,中泰证券研究所DRAM全球三大家垄断,全球三大家垄断,HBM市场由三星、海力士主导,目前市场由三星、海力士主导,目前已迭代至已迭代至HBM32021年全球DRAM市场三星、海力士、美光三巨头合计市占率高达94%。HBM市场,以SK海力士、三星为主,SK海力士HBM技术起步早,

100、占据较大市场。SK 海力士:AMD意识到DDR的局限性并产生开发堆叠内存的想法,与SK海力士联手研发HBM;2013年,SK海力士将TSV技术应用于DRAM,在业界首次成功研发出HBM;2015年,AMD在Fury系列显卡上首次商用第一代HBM技术。2018年发布HBM2,2021年发布全球首款HBM3,目前在研HBM4三星:三星从HBM2开始布局,2016年量产HBM2,2021年2月,三星电子推出了HBM-PIM(存算一体),将内存半导体和AI处理器合二为一,2022年HBM3已量产。图表:图表:HBM产品演进产品演进品牌品牌代号代号标准标准速率速率带宽带宽堆叠堆叠三星FlareboltH

101、BM22.0Gbps256GB/s三星AquaboltHBM22.4Gbps307.2GB/s三星FlashboltHBM2E3.6Gbps460GB/s8层*16Gb三星IceboltHBM36.4Gbps819GB/s12层*16GbSK HynixHBM2E3.2-3.6Gbps410-460GB/s4/8*16GbSK HynixHBM36.4Gbps819GB/s8/12*16Gb43%28%23%3%1%2%三星海力士美光南亚科技华邦其他图表:全球图表:全球DRAM竞争格局(竞争格局(2021年)年)AI助力企业级助力企业级SSD市场扩容市场扩容45来源:IDC,中泰证券研究所AI

102、助力企业级助力企业级SSD市场扩容市场扩容SSD为固态硬盘,由NAND颗粒、主控芯片等构成,其中NAND颗粒占成本的70%。SSD按照用途分为消费级、企业级及其他行业级产品。近年来随着云计算、大数据发展,互联网服务加速普及,企业加快数字化转型,数据呈现井喷状态,企业级SSD市场需求与规模不断攀升。IDC 数据显示,企业级 SSD 全球出货量将从 2020 年的约 4750万块增长到 2021 年的 5264 万块左右,年均增长率为10.7%,预计到 2025 年,将增加到 7436 万块左右。图表:全球企业级图表:全球企业级SDD出货量(出货量,千块)出货量(出货量,千块)企业级企业级SSD消

103、费级消费级SSD使用对象及功能多用于IT、动画设计等行业,在满足使用要求的同时能够保障数据安全性、速度稳定性和长期耐用性个人电脑使用,能够实现高速流畅操作关注点注重随机性能、延迟、IOQoS的保证以及稳定性,要求可靠性、长时间运作、高MTBF注重顺序性能、功耗、价格等因素性能颗粒材质稳定系数较高的颗粒材质对材质要求相对较低性能稳定性读写低延迟,要求SSD读写速度以及快速响应等初始读写性能较高,随着使用时间的增加而逐步降速延迟以最少的延迟量访问存储设备,要求极低延迟对于用户而言,可接受的延迟相对较长可靠性数据完整性在各种恶劣环境都不能出现数据丢失只保护FTL数据,但不需要保护DRAM缓存中其他用

104、户数据断电保护配置配备专用电容,突然断电时,SSD控制器将从专用电容中获取电能只能做到基础断电保护耐久性负载周期24小时不间断访问,24x7负载周期约8小时充分利用,80%左右的时间处于空闲状态额定MTBF大约200万-250万小时大约150万小时0%2%4%6%8%10%12%14%16%18%0000040000500006000070000800002020202242025SASSATAPCIe其他全球增长率图表:企业级图表:企业级SSD与消费级与消费级SSD对比对比AI助力企业级助力企业级SSD市场扩容市场扩容46来源:Trendforce

105、,中泰证券研究所企业级企业级SSD海外垄断,大陆厂商主要布局模组和主控芯片海外垄断,大陆厂商主要布局模组和主控芯片全球竞争格局:22Q1,全球前五大企业级SSD品牌厂商分别是三星电子、SK海力士(含Solidigm)、美光科技、铠侠与西部数据,合计全部份额。大陆厂商布局:长江存储是大陆少有的NAND Flash原厂,除了向企业级SSD厂商供货闪存颗粒,近期也推出了企业级PCIe 4.0 SSD产品,其余厂商则主要集中在主控芯片软硬件设计(包含主控芯片、固件)以及成品模组领域。图表:图表:22Q1全球企业级全球企业级SSD竞争格局竞争格局50%24%11%8%7%三星SK集团(海力士+Solid

106、igm)美光科技铠侠西部数据类型类型闪存闪存主控芯主控芯片片SSDSSD成品成品代表企业代表企业组合:原厂组合:原厂+成品成品长江存储组合:主控组合:主控+成品成品大普威、得瑞领新、亿联、华澜微、江苏华存电子等专业领域:主控芯专业领域:主控芯片片联芸科技、得一微、国科微、忆芯科技、英韧科技等专业领域:成品专业领域:成品忆恒创源、宝存科技等图表:大陆布局图表:大陆布局目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔二、芯片是二、芯片是ChatGPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会3.1 封测:封测

107、:Chiplet是是AI芯片大势所趋芯片大势所趋3.2 PCB:AI服务器基石服务器基石四、投资建议及风险提示四、投资建议及风险提示4748来源:各家官网,中泰证券研究所当前当前AI芯片呈现几大趋势:芯片呈现几大趋势:1)制程越来越先进。从2017年英伟达发布Tesla V100 AI芯片的12nm制程开始,业界一直在推进先进制程在AI芯片上的应用。英伟达、英特尔、AMD一路将AI芯片制程从16nm推进至4/5nm。2)Chiplet封装初露头角。2022年英伟达发布H100 AI芯片,其芯片主体为单芯片架构,但其GPU与HBM3存储芯片的连接,采用Chiplet封装。在此之前,英伟达凭借NV

108、link-C2C实现内部芯片之间的高速连接,且Nvlink芯片的连接标准可与Chiplet业界的统一标准Ucle共通。而AMD2023年发布的Instinct MI300是业界首次在AI芯片上采用更底层的Chiplet架构,实现CPU和GPU这类核心之间的连接。3)2020年以来头部厂商加速在AI芯片的布局。AI芯片先行者是英伟达,其在2017年即发布Tesla V100芯片,此后2020以来英特尔、AMD纷纷跟进发布AI芯片,并在2022、2023年接连发布新款AI芯片,发布节奏明显加快。AI产业机会产业机会-封测:封测:Chiplet是是AI芯片大势所趋芯片大势所趋年份年份厂商厂商芯片芯片

109、制程制程Chiplet相关技术相关技术2017英伟达Tesla V10012nmSoC2020英伟达A1007nmSoC2020英特尔Habana Gaudi16nmSoC2020AMDInstinct MI1007nmSoC2022英特尔Habana Gaudi27nmSoC2022英伟达H1004nmGPU与HBM3的封装采用Chiplet2023AMDInstinct MI3005nm用Chiplet连接CPU和GPU图表:当前主要图表:当前主要AIAI运算芯片运算芯片49来源:Chiplet Actuary:A Quantitative Cost Model and Multi-Chi

110、plet Architecture Exploration,中泰证券研究所据相关论文据相关论文,芯片成本变化有以下规律:芯片成本变化有以下规律:封装形式越复杂,封装成本、封装缺陷成本占芯片成本比重越大:具体来说,SoCMCMInFO小于2.5D。芯片面积越大,芯片缺陷成本、封装缺陷成本占比越大;制程越先进,芯片缺陷成本占比越高,而Chiplet封装能有效降低芯片缺陷率,最终达到总成本低于SoC成本的效果。AI产业机会产业机会-封测:封测:Chiplet是是AI芯片大势所趋芯片大势所趋图表:不同制程图表:不同制程/芯片面积下芯片面积下SoCSoC(单芯片)与(单芯片)与ChipletChiple

111、t(MCM/MCM/InFOInFO/2.5D/2.5D)封装之间的成本比较)封装之间的成本比较50来源:Chiplet Actuary:A Quantitative Cost Model and Multi-Chiplet Architecture Exploration,中泰证券研究所制程越先进制程越先进、芯片组面积越大芯片组面积越大、小芯片小芯片(Chips)数量越多数量越多,Chiplet封装较封装较SoC单芯片封装单芯片封装,成本上越有优势:成本上越有优势:Chiplet主要封装形式有MCM/InFO/2.5D这三种。14nm制程下,当芯片面积超过700mm 时,Chiplet封装中

112、的MCM成本开始较SoC低,当面积达900mm 时,MCM较SoC成本低近10%(2颗chips)、或低20%(3颗chips)、或低25%(5颗chips);7nm制程下,芯片面积超过400mm 时,MCM成本开始低于SoC,面积超过600mm 时,InFO成本开始低于SoC,当面积达900mm 时,5颗chips情况下,MCM较SoC成本低40%、InFO较SoC成本低20%;5nm制程下,芯片面积超过300mm 时,MCM成本开始低于SoC,成本超过500mm 时,InFO成本开始低于SoC,当面积达900mm 时,5颗chips情况下,MCM较SoC成本低50%、InFO较SoC成本低

113、40%、2.5D较SoC成本低28%。鉴于当前鉴于当前AI芯片朝高算力芯片朝高算力、高集成方向演进高集成方向演进,制程越来越先进制程越来越先进,Chiplet在更先进制程在更先进制程、更复杂集成中降本优势愈发明显更复杂集成中降本优势愈发明显,未来有望成为未来有望成为AI芯片封装的主要形式芯片封装的主要形式。AI产业机会产业机会-封测:封测:Chiplet是是AI芯片大势所趋芯片大势所趋图表:不同制程图表:不同制程/面积下面积下SoCSoC与与ChipletChiplet封装之间的成本平衡点封装之间的成本平衡点制程制程/面积面积2颗颗Chips3颗颗Chips5颗颗Chips14nm面积700m

114、m,单芯片SoC成本最低;面积700mm,MCMSoCInFO/2.5D面积600mm,单芯片SoC成本最低;面积600mm,MCMSoCInFO/2.5D面积500mm,单芯片SoC成本最低;面积500mm,MCMSoCInFO/2.5D7nm小于400mm,单芯片SoC成本最低;400-700mm,MCMSoCInFO/2.5D;800mm,MCMInFOSoC2.5D小于400mm,单芯片SoC成本最低;400-500mm,MCMSoCInFO/2.5D;600mm,MCMInFOSoC2.5D小于300mm,单芯片SoC成本最低;300-500mm,MCMSoCInFO/2.5D;60

115、0mm,MCMInFOSoC2.5D5nm小于300mm,单芯片SoC成本最低;300-400mm,MCMSoCInFO/2.5D;500mm-600mm,MCMInFOSoC2.5D;700mm,MCMInFO2.5DSoC100mm,单芯片SoC成本最低;200-300mm,MCMSoCInFO/2.5D;400mm-500mm,MCMInFOSoC2.5D;600mm,MCMInFO2.5DSoC100mm,单芯片SoC成本最低;200-300mm,MCMSoCInFO/2.5D;400mm-500mm,MCMInFOSoC2.5D;600mm,MCMInFO2.5DSoC51来源:各家

116、官网,互动易平台,中泰证券研究所国产封测龙头国产封测龙头,在在Chiplet领域已实现技术布局:领域已实现技术布局:通富微电已为AMD大规模量产Chiplet产品;长电科技早在2018年即布局Chiplet相关技术,如今已实现量产,2022年公司加入Chiplet国际标准联盟Ucle,为公司未来承接海外Chiplet奠定了资质基础;华天科技Chiplet技术已实现量产,其他中小封测厂商已有在TSV等Chiplet前期技术上的积累。AI产业机会产业机会-封测:国产封测厂封测:国产封测厂Chiplet布局布局图表:国产封测厂商在图表:国产封测厂商在ChipletChiplet方面的布局方面的布局公

117、司公司Chiplet技术积累技术积累具体商业进展具体商业进展通富微电在多芯片组件、集成扇出封装、2.5D/3D等先进封装技术方面的提前布局,可为客户提供多样化的Chiplet封装解决方案已为AMD大规模量产Chiplet产品长电科技1)2018年启动研发以RDL First为基础的高密度扇出型多芯片Fan-out FCBGA,具备大尺寸、2m现款、高密度倒装键合、2-3粒7nm芯片集成等特点2)2020年将扇出型封装技术、关键人员、设备转移到长电绍兴分公司,后续实现量产;3)2021年突破FO-Interposer MCM的chiplet封装技术,并进入量产;4)2022年突破2.5D Si

118、Interposer MEM的大尺寸FCBGA技术,并进入小批量量产,同年加入Ucle产业联盟;5)2022年对2.5D Si Interposer(Si-TSI-MCM)的MEOL晶圆级技术进行投资已量产华天科技已具备chiplet封装技术平台,并已量产已量产晶方科技晶圆级TSV技术是chiplet技术重要组成部分,晶方科技在研究该技术方向技术积累阶段大港股份控股孙公司苏州科阳主要从事TSV晶圆级封装业务,截至22年11月未涉及Chiplet相关业务技术积累阶段目目 录录一、一、ChatGPT激起激起AI浪潮,多场景创新产业链空间广阔浪潮,多场景创新产业链空间广阔二、芯片是二、芯片是Chat

119、GPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会3.1 封测:封测:Chiplet是是AI芯片大势所趋芯片大势所趋3.2 PCB:AI服务器基石服务器基石四、投资建议及风险提示四、投资建议及风险提示5253来源:百新谷软件,半导体产业纵横,中泰证券研究所ChatGPT数据运算量增长快速数据运算量增长快速,带动服务器带动服务器/交换机交换机/显卡等用量提升显卡等用量提升,布局相应领域布局相应领域PCB公司显著受益公司显著受益。ChatGPT带来了算力需求的激增,与之对应亦带来相应服务器/交换机等作为算力核心载体和传输的硬件,带来PCB需求大幅增长,同时随着对算力

120、的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。以23年发布的新服务器平台为例,Pcie 5.0服务器用PCB层数、材料、设计工艺均有升级,PCB价格提升显著,其层数从4.0的12-16层升级至16-20层,根据 Prismark 的数据,2021 年 8-16 层板的价格为 456 美元/平米,而18 层以上板的价格为 1538美元/平米,PCB 价值量增幅明显;另外配套新服务器,交换机、传输网产品都需要同步升级,预计400G、800G交换机对PCB板子拉动巨大,进一步带动数通板景气度提升。AI

121、产业机会产业机会-PCB:AI服务器基石服务器基石图表:服务器平台标准图表:服务器平台标准平台名称平台名称WhiteleyEagle StreamIntelCPU代号Ice LakeSapphire RapidsSapphire Rapids工艺制程10nmIntel 7Intel 7总线标准PCIe4.0PCIe5.0PCIe5.0发布时间2021Q12023年2023年PCB层数12-1616-2016-20AMDCPU代号MilanGenoa工艺制程7nm5nm总线标准PCIe4.0PCIe5.0发布时间2020Q42023年PCB层数12-1616-2054来源:Prismark,广合

122、科技招股书,中泰证券研究所ChatGPT带动服务器用量增长及平台升级带动服务器用量增长及平台升级,预计预计2025年服务器年服务器PCB市场超市场超160亿美元亿美元,2021-2025CAGR达达21%。随着ChatGPT对服务器用量增长及平台升级,对应PCB的板材、层数、工艺复杂的均显著提升,预计2025年全球服务器PCB市场规模超160亿美元,2021-2025年CAGR达21%,成为PCB增长最快的下游之一。AI产业机会产业机会-PCB:AI服务器基石服务器基石图表:服务器图表:服务器PCB市场空间广阔市场空间广阔202020212022E2023E2024E2025E服务器出货量(万

123、台)00YOY3.92%10.98%3.40%3.57%3.45%6.67%PCIe5.0渗透率0%1%5%20%40%50%PCIe4.0及以下服务器PCB价值量(美元)560567 570575570570PCIe5.0服务器PCB价值量(美元)-015501530服务器PCB市场空间(亿美元)687886112144168YOY6%14%11%29%29%16%图表:图表:PCB在服务器领域的应用在服务器领域的应用目目 录录一、一、ChatGPT激起激起AI浪潮,大算力芯片迎来产业机遇浪潮,大算力芯片迎来产业机遇二、芯片是

124、二、芯片是ChatGPT底层土壤底层土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU异构形式成为主流异构形式成为主流2.2 AI算力需求,存储芯片受益算力需求,存储芯片受益三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会3.1 PCB:AI服务器基石服务器基石3.2 封测:封测:Chiplet是是AI芯片大势所趋芯片大势所趋四、投资建议及风险提示四、投资建议及风险提示5556来源:中泰证券研究所算力算力是是AI发展的底层土壤。发展的底层土壤。在ChatGPT等概念影响下,AIGC关注度火热。芯片作为人工智能行业的基础层,为其提供算力支持,未来越来越多AI应用的落地

125、离不开庞大算力的支撑,因此也将推动算力产业链快速增长。据IDC指出,2021年中国AI投资规模超100亿美元,2026年将有望达到267亿美元,全球占比约8.9%,排名第二,其中AI底层硬件市场占比将超过AI总投资规模的半数。AI发展的海量数据对数据处理提出极高要求,AI芯片需求快速增长,看好国产AI芯片供应商在产业创新趋势向上以及国产替代背景下进入快速增长通道;Chiplet有望成为国产高端芯片的破局之路。有望成为国产高端芯片的破局之路。据Gartner,受益于AI产业需求激增,2024年全球Chiplet芯片产值有望达505亿美元,2020-24年CAGR接近100%按Chiplet封装+

126、测试占芯片产值20%计算,2024年全球Chiplet封测市场空间有望达100亿美元。国产Chiplet有望实现较全球平均水平更快成长:1)中国大陆封测产业居全球领先,具备良好的产业基础承接来自全球的Chiplet封测需求AMD等关键AI芯片厂商,已将其Chiplet工艺委外给国产封测厂生产;2)美国制裁局面下,Chiplet有助于国产芯片同制程下性能的提升,被看作是国产芯片突破先进制程的“赶超利器”,且国产设计厂商采用Chiplet的需求较海外同行更为迫切;3)国产AI公司有望加速在AI领域软硬件的投入,进一步扩大市场需求。多模态大模型推动下游应用侧智慧升级。多模态大模型推动下游应用侧智慧升

127、级。多模态是一种全新的交互、生成模式,背后是大模型深度学习能力的提升。多模态的发展有利于带动下游行业厂商AI能力提升,长期来看不仅从成本端降本增效,需求端也有望快速渗透带动供应链厂商业绩快速增长。建议关注:建议关注:多模态应用多模态应用:大华股份、海康威视;封测:封测:通富微电;AI芯片芯片:龙芯中科、海光信息、景嘉微、寒武纪、瑞芯微、乐鑫科技;AI服务器:服务器:工业富联、沪电股份、胜宏科技、深南电路、景旺电子。投资建议投资建议行业需求不及预期的风险:若包括手机、PC、可穿戴等终端产品需求回暖不及预期,则产业链相关公司的业绩增长可能不及预期。下游技术迭代不及预期:存在行业技术迭代速度不及预期

128、从而对需求造成影响的风险。产能瓶颈的束缚:2021年缺芯潮带来产业链公司业绩快速增长,产能成关键限制因素,若包括代工厂、封测厂等产能扩张进度不及预期,则可能影响公司业务的增速速度。去库存不及预期、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时的风险、报告中各行业相关业绩增速测算未剔除负值影响,计算结果存在与实际情况偏差的风险、行业数据或因存在主观筛选导致与行业实际情况存在偏差风险。57风险提示风险提示重要声明重要声明中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其

129、为客户。本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。58

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(电子行业:从ChatGPT看芯片产业机遇ChatGPT引发算力革命AI芯片产业链有望率先受益-230319(58页).pdf)为本站 (active) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部