您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

电子行业算力芯片系列：Chatgpt带来算力芯片投资机会展望-230325（43页）.pdf

编号：120024

PDF 43页 4.02MB 下载积分：VIP专享

下载报告请您先登录！

电子行业算力芯片系列：Chatgpt带来算力芯片投资机会展望-230325（43页）.pdf

1、ChatgptChatgpt带来算力芯片投资机会展望带来算力芯片投资机会展望证券研究报告证券研究报告电子行业报告电子行业报告算力芯片系列算力芯片系列分析师：刘双锋分析师：刘双锋SAC编号：S02SFC中央编号：BNU539发布日期：2023年3月25日本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请参阅最后一页的重要声明。研究助理：郑寅铭研究助理：郑寅铭 1核心观点核心观点AIGC引发内容生成范式革命引发内容生成范式革命，ChatGP

2、T引领人工智能应用照进现实引领人工智能应用照进现实，GPT架构快速迭代架构快速迭代，云端大模型多模态云端大模型多模态成为发展趋势成为发展趋势，带来算力资源消耗快速上升带来算力资源消耗快速上升。硬件基础设施成为发展基石硬件基础设施成为发展基石，要求算力要求算力、运力运力、存力存力、散热等领散热等领域配套升级域配套升级，算力芯片等环节核心受益算力芯片等环节核心受益。加之海外对华供应高端加之海外对华供应高端GPU芯片受限芯片受限，国内相关厂商迎来替代窗口国内相关厂商迎来替代窗口期期，各环节龙头有望进入高速发展阶段各环节龙头有望进入高速发展阶段。bUbUbZaYeZbUdXcW9PdNaQsQmMsQ

3、mPiNnNnOkPsQsN8OoOnNuOrQwPwMrNuM2摘要摘要 AIGC引发内容生成范式革命引发内容生成范式革命，云端算法向大模型多模态演进云端算法向大模型多模态演进。云端部署算力中推理占比逐步提升，说明AI落地应用数量在不断增加，ChatGPT发布引发多家科技巨头开展AI军备竞赛，或成为人工智能成熟度的分水岭。GPT架构快速迭代，参数越来越多带动训练精度越来越高，云端大模型多模态成为发展趋势，带来算力资源消耗快速上升。硬件基础设施成为发展基石硬件基础设施成为发展基石，算力芯片等环节核心受益算力芯片等环节核心受益。算力需求算力需求，模型训练需要规模化的算力芯片部署于智能服务器，CP

4、U不可或缺，但性能提升遭遇瓶颈，CPU+xPU异构方案成为大算力场景标配。其中GPU并行计算优势明显，CPU+GPU成为目前最流行的异构计算系统，而NPU在特定场景下的性能、效率优势明显，推理端应用潜力巨大，随着大模型多模态发展，硬件需求有望从GPU扩展至周边编解码硬件。此外，后摩尔时代Chiplet封装为先进制程的高性价比替代方案，成为半导体行业发展趋势。存力需求存力需求，庞大训练通用数据集要求相应存储硬件设施，如温冷存储，数据访问加速，数据湖以及大容量存储，还需要专门面向AI定制的存储协议、访问协议，支持服务器与SSD通信的NVMe-oF 协议也有望受益搭载使用。运力需求运力需求，外部访问

5、、内部数据翻译需要高速的网络连接线路或交换机系统，带动光通信技术升级。散热需求散热需求，AI服务器功耗相对更高，当前主流散热方案正朝芯片级不断演进，芯片液冷市场发展潜力巨大。国产厂商迎来发展窗口期国产厂商迎来发展窗口期，建议关注各环节龙头厂商建议关注各环节龙头厂商。英伟达、AMD对华供应高端GPU芯片受限。国产算力芯片迎来国产替代窗口期；突破4800TOPS、降低部署成本是国内算力芯片主要发力点。当前已经涌现出一大批国产算力芯片厂商：1）寒武纪：国内人工智能芯片领军者，持续强化核心竞争力；2）海光信息：深算系列GPGPU提供高性能算力，升级迭代稳步推进；3）龙芯中科：自主架构CPU行业先行者，

6、新品频发加速驱动成长；4）芯原股份：国内半导体IP龙头，技术储备丰富驱动成长；5）Chiplet产业链布局正当时，重点关注各环节龙头厂商；6）PCIe、CXL等高速接口，电源芯片厂商间接受益。附：附：1、值得关注的值得关注的AIGC落地应用：落地应用：ChatGPT可替代智能音箱现有语音交互模型；2、其他其他AI发展方向：发展方向：Nvidia DLSS、TinyML、存内计算、基于先进封装的方案整合。3目录目录一、一、AIGC引发内容生成范式革命，云端算法向大模型多模态演进引发内容生成范式革命，云端算法向大模型多模态演进二、硬件基础设施为发展基石，算力芯片等环节核心受益二、硬件基础设施为发展

7、基石，算力芯片等环节核心受益三、国产厂商迎来发展窗口期，建议关注各环节龙头厂商三、国产厂商迎来发展窗口期，建议关注各环节龙头厂商四、附录四、附录 4人工智能落地应用不断增加，人工智能落地应用不断增加，AIGC引发范式革命引发范式革命云端推理占比逐步提升云端推理占比逐步提升，AI落地应用数量增加落地应用数量增加。随着数字经济、元宇宙等概念逐渐兴起，各行业对人工智能开发的需求日益提升，人工智能进入大规模落地应用的关键时期。2022年在云端部署的算力里，推理占算力已经达到了58.5%，训练占算力只有41.5%，预计到2026年，推理占到62.2%，训练占37.8%。一般来讲，应用完成推理之后就可以

8、进行部署，而云端推理占比逐步提升说明而云端推理占比逐步提升说明，AI落落地应用数量正在不断增加地应用数量正在不断增加，人工智能模型将逐步进入广泛投产模式人工智能模型将逐步进入广泛投产模式。AIGC是人工智能成熟度的分水岭是人工智能成熟度的分水岭，引发范式革命引发范式革命。AI模型可大致分为决策式AI和生成式AI两类，决策式AI根据已有数据进行分析、判断、预测，已经被广泛应用；生成式AI学习归纳已有数据后进行演绎，基于历史进行模仿式、缝合式创作，生成了全新的内容，也能解决判别问题。从决策到生成，AI技术与应用迎来跨越发展。内容生产模式从专业生成内容（PGC）和用户生成内容（UGC）逐渐过渡向AI

9、GC阶段，标志着人类第二次脑力效率的飞跃。资料来源：腾讯研究院，中信建投图表：图表：AIGC引发内容生成范式革命引发内容生成范式革命图表：云端推理占比逐步提升图表：云端推理占比逐步提升0%10%20%30%40%50%60%70%80%90%100%20202022420252026训练推理资料来源：IDC，中信建投 5ChatGPT是是AIGC的开山之作，成为人工智能里程碑式产品的开山之作，成为人工智能里程碑式产品 ChatGPT是是OpenAI推出的自然语言处理类推出的自然语言处理类（NLP）AIGC应用应用。Chatgpt横空出世，成为AIGC的开山之作。ChatG

10、PT是美国OpenAI研发的聊天机器人程序，于2022年11月30日发布，是一款人工智能技术驱动的自然语言处理工具，能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。ChatGPT成为人工智能技术在快速发展过程中的里程碑式产品成为人工智能技术在快速发展过程中的里程碑式产品。ChatGPT一经推出便快速获得了全球用户前所未有的广泛参与与认可，推出两个月后月活跃用户规模达到 1 亿人，远超过 Facebook、抖音等成为了过去以来增长速度最快的消费者应用程序。ChatGPT 被视为标志性人工智能生产力工具，甚至被视为

11、第四次工业革命开始的标志。图表：图表：ChatGPT 原理概览原理概览图表：平台突破图表：平台突破1亿月度用户所用时间（月）亿月度用户所用时间（月）资料来源：UBS，HTI，中信建投资料来源：OpenAI，中信建投2930402030405060708090ChatGPTTikTok Instagram PinterestSpotifyTelegramUberGoogleTranslate 6GPT架构快速迭代，参数量与训练数据量提升带来性能飞跃架构快速迭代，参数量与训练数据量提升带来性能飞跃 ChatGPT是基于是基于GPT架构开发的对话架构开发的对话AI模型模型，参数

12、量与训练数据量的提升带来性能飞跃参数量与训练数据量的提升带来性能飞跃。OpenAI早在2018年就已经推出第一代生成式预训练语言模型GPT（Generative Pre-trained Transformer），可用于生成文章、代码、机器翻译、问答等各类内容，此后GPT模型快速迭代，并且伴随着参数量的爆炸式增长，从GPT到GPT-3，参数量达到了1750亿，增长了近1500倍，预训练数据量更是从5GB提升到了45TB，2023年3月推出的多模态大模型GPT-4参数量甚至预测达到100万亿。而随着而随着参数量和预训练数据量的提升参数量和预训练数据量的提升，模型的性能实现模型的性能实现了飞跃式提升

13、了飞跃式提升。图表：预训练模型参数规模与所需算力快速增加图表：预训练模型参数规模与所需算力快速增加资料来源：做AI做的事儿，中信建投图表：图表：GPT家族的演进家族的演进资料来源：架构师技术联盟，中信建投模型发布时间参数量预训练数据量GPT2018.61.17亿约5GBGPT-22019.215亿40GBGPT-32020.51750亿45TBGPT-42023.3未公布未公布GPT-5？十万亿级？7GPT-3.5采用海量参数预训练，大模型成为采用海量参数预训练，大模型成为AI发展新范式发展新范式 ChatGPT是基于是基于GPT-3.5微调得到的大型语言模型微调得到的大型语言模型。GPT-3

14、.5采用深度学习transformer模型，对大规模数据进行预训练，相比于一般的语言模型，参数量大幅提升至1750亿，所需要的算力呈指数级增长。根据OpenAI，GPT-3.5在AzureAI超算基础设施（由V100GPU组成的高宽带集群）上进行训练，总算力消耗约3640PF-days(即每秒一千万亿次计算，运行3640个整日)。大模型训练性能突出大模型训练性能突出，各大科技厂商积极布局各大科技厂商积极布局。预训练大模型基于“预训练+精调”等新开发范式具有良好的通用性和泛化性，可通过零样本、小样本学习获得领先效果，大幅加速人工智能大规模产业化进程。自2020年起，中国的大模型数量骤增，仅202

15、0年到2021年，中国大模型数量就从2个增至21个，和美国量级同等，大幅领先于其他国家。可以预见，以谷歌的BERT、OpenAI的GPT和百度的文心一言为代表的大模型，未来将成为智能化升级中可大规模复用的重要基础设施。图表：国内公司积极布局大模型图表：国内公司积极布局大模型图表：中国大模型生态图表：中国大模型生态资料来源：IDC，中信建投资料来源：各公司公告，中信建投图表：深度语言模型的参数数量呈指数级增长图表：深度语言模型的参数数量呈指数级增长资料来源：HEITS.DIGITAL，中信建投公司公司大模型大模型模型底座模型底座 NLP大模型大模型 CV大模型大模型多模态大模型多模态大模型特

16、色特色百度文心大模型飞架PaddlePaddle深度学习平台文心NLP大模型(ERNIE3.0)文心CV大模型(VIMER系列)文心跨模态大模型(ERNIE变体）构建了文心大模型层、工具平台层、产品与社区三层体系腾讯混元大模型太极机器学习平台HunYuan-NLPHunYuan-vcrHunYuan tvr、太极文生图广告类应用表现出色阿里通义大模型M6-OFA通义-AliceMind通义-视觉通义-M6钩建了AI 统一底座华为盘古大模型ModelArts盘古NLP大模型盘古CV大模型暂未上线发挥Model-as-a-service 8GPT-4性能升级，多模态加速迈向通用人工智能性能升级，多

17、模态加速迈向通用人工智能多模态大模型多模态大模型GPT-4震撼发布震撼发布，性能实现大幅提升性能实现大幅提升。3月15日，GPT-4正式发布，多模态大模型进化更进一步，其不仅在语言处理能力上提高，如文字输入限制提升至2.5万字，并能够生成歌词、创意文本、实现风格变化，还具备对图像的理解和分析能力，能基于图片进行总结和回答问题。在各种专业和学术基准测试中已做到人类水平的表现，如SAT拿下700分，GRE几乎满分，模拟律师考试GPT4分数占前10%，GPT-3仅为倒数10%。GPT-4的出现标志着当前已经从语言模型突破走向多模态模型，应用前景广阔。多模态大模型大势所趋多模态大模型大势所趋，应用场

18、景极大丰富应用场景极大丰富。多模态大模型可整合图像、语音、文本等输入输出方式，实现对多种类型和模态数据的学习、分析及生成，有望极大丰富人机交互场景。可以看到，多模态大模型将充分发挥人工智能创造价值的潜力，赋能各行各业实现降本增效，甚至加速迈向通用人工智能的步伐。图表：图表：GPT-4的图文输入输出相为结合的图文输入输出相为结合资料来源：OPEN AI，中信建投图表：多模态大模型应用框架图表：多模态大模型应用框架资料来源：AIGC时代的多模态知识工程思考与展望，中信建投 9算法向多模态大模型演变带来算力资源消耗快速上升算法向多模态大模型演变带来算力资源消耗快速上升 ChatGPT采用大模型算法要

19、求大规模算力等采用大模型算法要求大规模算力等AI基础设施支持基础设施支持。ChatGPT基于transformer模型，并改进训练算法，一方面采用大量数据信息分析训练，模型参数高达1750亿，另一方面要求海量数据下并行计算的能力，需要消耗巨大的算力才能支持这种大模型的训练和内容生产。具体举例，OpenAI训练使用了10000张英伟达训练卡，而训练1750亿参数的GPT-3，需要一个英伟达V100 GPU计算约355年，且需要增加并行度；此外175B模型需要显存按全精度预估在700GB左右，需要10张左右80GB A100卡。生成式AI主要依赖于人工智能大模型，参数达数十亿至数万亿个，需要庞大的

20、数据集进行训练，致使AI算力的需求也呈现出指数级的增长。图表：图表：ChatGPT等等AIGC应用采用大模型算法，需要对应的应用采用大模型算法，需要对应的AI基础设施支持基础设施支持时间时间机构机构模型名称模型名称模型规模模型规模数据规模数据规模单块单块V100计计算时间算时间2018.6OpenAlGPT110M4GB3天2018.10谷歌BERT330M16GB50天2019.2OpenAlGPT-21.5B40GB200天2019.7脸书RoBERTa330M160GB3年2019.10谷歌T511B800GB66年2020.6OpenAlGPT-3175B2TB355年图表：预训练模型

21、参数规模与所需算力快速增加图表：预训练模型参数规模与所需算力快速增加资料来源：做AI做的事儿，中信建投资料来源：甲子光年，中信建投算力算力硬件硬件数据中心数据中心AI服务器服务器CPUGPUASICFPGA基础芯片基础芯片NPU加速芯片加速芯片互联网互联网金融金融城市城市制造制造教育教育应用应用数据数据算法算法数数据据软软件件医疗医疗人工智能产业链人工智能产业链四、附录四、附录一、一、AIGC引发内容生成范式革命，云端算法向大模型多模态演进引发内容生成范式革命，云端算法向大模型多模态演进11目录目录二、受益环节二、受益环节三、国产厂商迎来发展窗口期，建议关注各环节龙头厂商三、国产厂商迎来发

22、展窗口期，建议关注各环节龙头厂商二、硬件基础设施为发展基石，算力芯片等环节核心受益二、硬件基础设施为发展基石，算力芯片等环节核心受益 12AI要求大规模智能算力，硬件基础设施成为发展基石要求大规模智能算力，硬件基础设施成为发展基石以算力芯片为核心的硬件基础设施是以算力芯片为核心的硬件基础设施是AI发展的基石发展的基石。算力芯片等硬件基础设施是处理数据“燃料”的“发动机”，只有达到一定水平的算力性能才能实现人工智能的训练和推断以及存储、传输等相关配套功能。人工智能的云端训练和推断计算主要基于AI服务器，对算力/存力/运力/散热性能要求更高，带动算力芯片、配套硬件、机箱等设施不断升级。中国智能算

23、力规模正在高速增长中国智能算力规模正在高速增长，算力芯片等硬件基础设施需求旺盛算力芯片等硬件基础设施需求旺盛。根据IDC数据，2021年中国智能算力规模达155.2 每秒百亿亿次浮点运算（EFLOPS），2022年智能算力规模将达到268.0 EFLOPS，预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算（ZFLOPS）级别，达到1,271.4EFLOPS，2021-2026年复合增长率达52.3%。预计中国人工智能支出中硬件占比将保持最大，未来5年将一直保持65%左右的份额。看好AI大模型训练及推理需求创造的算力芯片等硬件基础设施的增量市场空间。图表：中国人工智能支出中硬件、软件、服

24、务占比及趋势图表：中国人工智能支出中硬件、软件、服务占比及趋势图表：中国智能算力规模及预测，图表：中国智能算力规模及预测，2019-2026资料来源：IDC，中信建投资料来源：IDC，中信建投31.775155.2268427640.7922.81271.402004006008000200222023202420252026百亿亿次浮点运算/秒（EFLOPS)13算力：算力：CPU不可或缺，不可或缺，CPU+xPU异构方案成为大算力场景标配异构方案成为大算力场景标配 CPU的性能提升已遭遇瓶颈。的性能提升已遭遇瓶颈。过去40年间，在指令集简化、核心

25、数增加、制程微缩、架构改进等技术变革的推动下，CPU的性能已经提升接近5万倍，但不可避免的边际效应递减。在上世纪90年代，CPU性能每年提升52%，性能翻倍只需要1.5年。而从2015年之后，CPU性能每年提升只有3%，需要20年才能性能翻倍。CPU在现代计算系统中仍不可或缺，在现代计算系统中仍不可或缺，CPU+xPU的异构方案成为大算力场景标配。的异构方案成为大算力场景标配。CPU受制成本功耗难以匹配AI对算力需求的高速增长，CPU+AI芯片的异构方案应运而生，AI芯片类型包括GPU、FPGA和NPU等。其中，CPU是图灵完备的，可以自主运行，而GPU、FPGA等芯片都是非图灵完备的，都是作

26、为CPU的加速器而存在，因此其他处理芯片的并行计算系统均为CPU+xPU的异构并行。图表：图表：CPU性能提升速度放缓性能提升速度放缓图表：图表：CPU+AI芯片的异构计算方案芯片的异构计算方案资料来源：A New Golden Age for Computer Architecture，中信建投资料来源：华为，中信建投 14算力：算力：GPU并行计算优势明显，充分受益于并行计算优势明显，充分受益于AI算力需求增长算力需求增长 GPU削弱控制能力削弱控制能力，布局更多计算单元以加强算力布局更多计算单元以加强算力。从计算资源占比角度看，CPU包含大量的控制单元和缓存单元，实际运算单元占比较小。G

27、PU则使用大量的运算单元，少量的控制单元和缓存单元。GPU的架构使其能够进行规模化并行计算，尤其适合逻辑简单，运算量大的任务。CPU+GPU是目前最流行的异构计算系统是目前最流行的异构计算系统，在HPC、图形图像处理以及AI训练/推理等场景得到广泛应用。根据IDC数据，2021年中国AI芯片市场中，GPU市占率近90%。图表：图表：2021年中国年中国AI芯片市场规模占比芯片市场规模占比资料来源：IDC，中信建投资料来源：NVIDIA，中信建投89.0%9.6%1.0%0.4%GPUNPUASICFPGA图表：图表：CPU+GPU异构计算服务器拓扑异构计算服务器拓扑图表：图表：CPU与与GPU

28、架构对比架构对比算力：算力：NPU在特定场景下的性能、效率优势明显，推理端应用潜力巨大在特定场景下的性能、效率优势明显，推理端应用潜力巨大 NPU在人工智能算法上具有较高的运行效率在人工智能算法上具有较高的运行效率。在CPU与GPU合作时，CPU负责神经网络模型的构建和数据流的传递，GPU只是单纯的并行矩阵乘法和加法运算。在CPU与NPU合作时，CPU将编译好的神经网络模型文件和权重文件交由NPU加载，完成硬件编程，NPU为每层神经元计算结果不用输出到主内存，而是按照神经网络的连接传递到下层神经元继续计算，因此其在运算性能和功耗上都有很大的提升。NPU为特定要求而定制为特定要求而定制，在功耗

29、在功耗、体积方面具有优势体积方面具有优势，在推理端应用潜力巨大在推理端应用潜力巨大。NPU作为专用定制芯片ASIC的一种，是为实现特定要求而定制的芯片，芯片设计逻辑更为简单。除了不能扩展以外，在功耗、可靠性、体积方面都有优势，尤其在高性能、低功耗的移动端。未来随着人工智能推理端的发展，NPU应用潜力巨大。图表：图表：CPU与与GPU合作工作流程合作工作流程资料来源：焉知智能汽车，中信建投资料来源：焉知智能汽车，中信建投图表：图表：CPU与与NPU合作工作流程合作工作流程 954872005050002500Samsung S8(CPU)iphone 7 Plus(CPU+

30、GPU)Huawei Kirin 970(CPU+GPU+NPU)Images Recognized Per Minute16算力：大模型多模态发展，硬件需求从算力：大模型多模态发展，硬件需求从GPU扩展至周边编解码硬件扩展至周边编解码硬件 GPT-4升级指引多模态发展方向升级指引多模态发展方向，音视频编解码模块作为算力补充有望获得重视音视频编解码模块作为算力补充有望获得重视。GPT-4相比上代版本在语言处理能力上进一步提升的同时，还能支持识别和理解图像，并输出文本内容。展望未来，多模态应当具备三个基本组成部分，第一部分是图像，视频为多帧的图像；第二部分为音频；第三部分为文字。因此，随着多模态

31、的发展，在硬件算力层面，需要面向图像、音频再增加编解码能力的支持，相关的模块包括VPU（Video Process Unit）、NPU等。从难度上讲，视频对于算力和IP复杂度的要求最高，其次为音频。资料来源：谷歌，中信建投图表：谷歌图表：谷歌VPU内含多颗视频编解码核心内含多颗视频编解码核心图表：麒麟图表：麒麟970搭配搭配NPU，在图像识别速度上优于同代竞品，在图像识别速度上优于同代竞品资料来源：THE TECH REVOLUTIONIST，中信建投 17算力：算力：Chiplet为后摩尔定律时代的创新，为先进制程的高性价比替代方案为后摩尔定律时代的创新，为先进制程的高性价比替代方案后摩尔

32、时代后摩尔时代Chiplet封装为芯片制造提供了性能与成本平衡的最佳方案封装为芯片制造提供了性能与成本平衡的最佳方案，并可大幅提升制造良率并可大幅提升制造良率。在AIGC对芯片算力持续提出更高需求的同时，芯片厂商在升级迭代产品时也需要考虑技术、成本的综合限制。Chiplet（芯粒）是一种可平衡计算性能与成本，提高设计灵活度，且提升IP模块经济性和复用性的新技术之一。将大芯片拆解成多颗芯粒分别制造，其中异构芯片可以使用针对已实现功能进行成本和性能优化的工艺技术，再辅以2.5D/3D等先进封装技术，有利于提升制造良率与单位体积内晶体管密度。因此近几年全球晶圆制造厂商积极发展先进封装工艺，并且增加2

33、.5D和3D封装的资本开支，在后摩尔定律时代布局Chiplet成为半导体行业发展的必然趋势。资料来源：IPnest，中信建投图表：基于图表：基于Chiplet的异构应用处理器的异构应用处理器图表：图表：Chiplet进行进行2.5D/3D封装封装资料来源：芯原股份，中信建投图表：芯片尺寸对良率的影响图表：芯片尺寸对良率的影响资料来源：Synopsys，中信建投 18算力：评判算力芯片三大核心指标算力：评判算力芯片三大核心指标计算能力、显存、互联带宽计算能力、显存、互联带宽计算能力决定运算时间计算能力决定运算时间，算力越大完成大模型训练或者推理的时间越短算力越大完成大模型训练或者推理的时间越短

34、INT8与与FP16算力是算力是AI计算中较为重要的评价指标计算中较为重要的评价指标。依照精度差异，算力可从INT8（整数类型）、FP16（半精度）、FP32（单精度）、FP64（双精度）等不同维度对比。与科学计算需求不同，AI应用处理的对象主要是语言、图片或视频，运行低精度甚至整形计算即可完成推理和训练。在AI推理端，8bit已经成熟，以谷歌TPU为代表的商用硬件开始大规模使用；在AI训练端，16bit混合精度逐渐成熟，商用硬件已出现Intel的NNP，NVIDIA的Tensor core。资料来源：Intel，中信建投资料来源：Efficient Method and Hardware f

35、or Deep Learning，中信建投图表：低精度为图表：低精度为AI计算带来的好处计算带来的好处图表：不同精度计算消耗的能量和硅片面积图表：不同精度计算消耗的能量和硅片面积计算精度及操作计算精度及操作能量消耗相对值能量消耗相对值面积消耗相对值面积消耗相对值8b Add1116b Add2232b Add3416b FP Add133832b FP Add301168b Mult7832b Mult1039716b FP Mult374632b FP Mult12321432b SRAM Read(8KB)167-32b DRAM Read21333-低精度带来低精度带来更少内存更少内存减

36、少内存访问减少内存访问更好匹配缓存更好匹配缓存数据快速搬移数据快速搬移更小硅片面积更小硅片面积减少晶体管数量减少晶体管数量减少能耗减少能耗更高的每秒操作数更高的每秒操作数更更快快的计算的计算 19算力：评判算力芯片三大核心指标算力：评判算力芯片三大核心指标计算能力、显存、互联带宽计算能力、显存、互联带宽显存用于存储显卡芯片处理或者即将提取的数据显存用于存储显卡芯片处理或者即将提取的数据显存容量显存容量决定卡的需求数量，以ChatGPT为例，假设模型以半精度350GB的模型大小推理的话，需要5张以上80GB NVIDIA A100算力卡并行计算以保证时效性；显存带宽显存带宽决定了卡将数据从显存

37、移动到计算核心的速度。显存的种类对带宽有着明显的影响。常规的GDDR焊接在GPU芯片周边的PCB板上，HBM裸片通过TSV进行堆叠，然后HBM整体与GPU通过中介层互联，因此HBM获得了极高的带宽，并节省了PCB面积。目前，GDDR显存仍是消费级GPU的行业标准，HBM则成为AI GPU的主流选择。资料来源：AMD，中信建投图表：图表：GDDR与与HBM差异差异图表：图表：HBM与与GDDR性能差异案例性能差异案例资料来源：NVIDIA，中信建投GPU型号型号NVIDIA A30NVIDIA A10发布时间20212021显存种类HBM2GDDR6容量24GB24GB位宽3072-bit384

38、-bit带宽933 GB/s600 GB/s 20算力：评判算力芯片三大核心指标算力：评判算力芯片三大核心指标计算能力、显存、互联带宽计算能力、显存、互联带宽互联带宽决定多卡互联虚拟化时系统运行效率互联带宽决定多卡互联虚拟化时系统运行效率目前计算卡普遍采用PCIe进行互联，而PCIe互联速度由其代际与结构决定，例如x16 PCIe 4.0单向带宽为32GB/s。NVIDIA为突破限制，自研推出NVLINK技术，4代NVLINK互联带宽已达到900GB/s。A100对华禁售后，NVIDIA推出了A800，主要修改点就是将互联速度由600GB/s下调至400GB/s，单卡性能没有损失，但大规模扩

39、展互联性能将大幅受限。资料来源：NVDIA，中信建投资料来源：trentonsystems，中信建投注：单向带宽数据图表：不同图表：不同PCIe结构及代际差异结构及代际差异图表：图表：NVDIA NVLINK互联技术互联技术图表：图表：A800与与A100主要差异体现在互联带宽主要差异体现在互联带宽80GB PCIe80GB SXM40GB PCIe40GB SXM40GB PCIe80GB PCIe80GB SXMINT8 TensorFP16 Tensor种类种类HBM2容量容量(GB）40位宽(位宽(bit)带宽带宽(TB/s)1.942.041.561.561.561.942.04内存

40、内存80互联互联NVLink:600GB/sx16 PCIe 4.0:64GB/sNVLink:400GB/sx16 PCIe 4.0:64GB/s804051205120312|624 TFLOPSHBM2eHBM2e算力算力624|1248 TOPS624|1248 TOPS312|624 TFLOPS制程制程7nm 7nm型号型号A100（80GB）A100（40GB）A800代际代际发布时间发布时间传输速率传输速率*带宽带宽 x1带宽带宽 x161.020032.5 GT/s250MB/s4GB/s2.020075.0 GT/s500MB/s8GB/s3.020108.0 GT/s1G

41、B/s16GB/s4.0201716 GT/s2GB/s32GB/s5.0201932 GT/s4GB/s64GB/s6.0202164 GT/s8GB/s128GB/s 21存力：要求更高的数据读存性能，拉动存储芯片需求存力：要求更高的数据读存性能，拉动存储芯片需求 2）从存力需求来看，大参数调用及海量数据读存要求更强的存储能力。）从存力需求来看，大参数调用及海量数据读存要求更强的存储能力。ChatGPT需要很庞大的通用数据集，作为训练数据的输入，此外训练与推理还需要大参数调用及海量数据读存，数据存储、访问及传输速度对模型的训练及推理效率存在显著影响，因此对应需要相应的存储服务器硬件设施，如

42、温冷存储，数据访问加速，数据湖等；以及对大容量存储的需求，如AI服务器，除了内存需要128GB或更大容量的高性能HBM和高容量服务器DRAM，还需硬盘去存储大量数据；另外还需要专门面向AI定制的一些存储协议、访问协议。根据IDC数据，存储在高性能/推理型/机器学习型服务器中的占比分别达29%/25%/16%。总体来看，AI服务器有望提高对高带宽内存、企业级SSD的需求，支持服务器与SSD通信的NVMe-oF 协议也有望受益搭载使用。图表：服务器成本构成图表：服务器成本构成图表：图表：NMVe-oF助力存储与服务器的连接通信助力存储与服务器的连接通信资料来源：IDC，DRAMexchage，SI

43、A，中信建投资料来源：SSDFans，中信建投20%19%25%8%15%3%10%8%15%28%15%8%23%27%25%67%27%23%25%9%0%10%20%30%40%50%60%70%80%90%100%基础型高性能型推理型机器学习型其他storagememoryGPUCPU 22运力：需要更强的数据传输速率，推动光模块技术升级运力：需要更强的数据传输速率，推动光模块技术升级 3）从运力需求来看，）从运力需求来看，AI需要更强的数据传输速率，带动光通信技术升级。需要更强的数据传输速率，带动光通信技术升级。无论是部署之后的外部访问，还是内部的数据翻译，都要有非常高速的网络连接线

44、路或者交换机系统。数据中心场景下，光模块主要用于服务器和交换机，以及各交换机之间的连接等，AI对网络速率的需求是目前的10倍以上，将加速高速率光模块产品出货及CPO、硅光等新技术的应用。一方面，高速率光模块将加速上量，根据LightCounting，800G光模块将在23-24年开始规模化部署；另一方面，传统可插拔光模块功耗制约凸显，CPO可以减少约50%的功耗，将有效解决AI对于高速高密度互连传输要求，据LightCounting，到2027年CPO技术在AI集群与HPC渗透率将提升至30%。图表：可插拔和图表：可插拔和CPO光模块方案对比光模块方案对比图表：光模块的发展趋势和技术路线图表：

45、光模块的发展趋势和技术路线资料来源：芯东西，中信建投资料来源：51CTO，中信建投 23其他：功耗提升散热需求升级，芯片液冷市场发展潜力巨大其他：功耗提升散热需求升级，芯片液冷市场发展潜力巨大 4）从功耗与散热来看，）从功耗与散热来看，AI服务器需要高性能散热系统。服务器需要高性能散热系统。AI服务器功耗相对更高，根据冷板式液冷服务器可靠性白皮书，2022年英伟达单GPU芯片功耗突破700瓦，8颗A100 服务器可达6000瓦左右，AI集群算力密度普遍达到50kW/柜。而采用风冷的数据中心通常仅可以解决12kW以内的机柜制冷，因此AI服务器的高能耗对数据中心的散热系统提出了更高的要求。当前主流

46、散热方案正朝芯片级不断演进，芯片级散热方案主要有芯片级液冷技术、相变储热散热技术、蒸发冷却技术等。未来在国内AIGC产业快速发展带动下，AI服务器市场规模有望持续扩大，而芯片级液冷作为极具发展潜力的散热方案之一，其需求有望随之持续增加、规模不断扩大。预计到2025年，国内AI服务器芯片级液冷市场规模有望达到百亿元，行业发展潜力巨大。图表：数据中心冷却方式效果评估表图表：数据中心冷却方式效果评估表图表：单机柜功率密度与冷却方式图表：单机柜功率密度与冷却方式资料来源：赛迪顾问，中信建投资料来源：绿色高能效数据中心散热冷却技术研究现状及发展趋势，中信建投三、国产厂商迎来发展窗口期，建议关注各环节龙

47、头厂商三、国产厂商迎来发展窗口期，建议关注各环节龙头厂商四、附录四、附录一、一、AIGC引发内容生成范式革命，云端算法向大模型多模态演进引发内容生成范式革命，云端算法向大模型多模态演进24目录目录二、硬件基础设施为发展基石，算力芯片等环节核心受益二、硬件基础设施为发展基石，算力芯片等环节核心受益 25英伟达、英伟达、AMD供应受限，国产算力芯片厂商迎来窗口期供应受限，国产算力芯片厂商迎来窗口期英伟达英伟达、AMD对华供应高端对华供应高端GPU芯片受限芯片受限。美国对华半导体管制已经从最初针对某些公司扩大到对半导体整个行业的全面限制。2022年8月，英伟达被美国政府要求其停止向中国出口两款用于

48、人工智能的顶级计算芯片，其峰值性能和芯片到芯片的 I/O 性能等于或大于大致相当于 A100 的阈值，即A100和H100两款芯片都将受到影响。AMD也同样被要求禁止将其MI100、MI200系列人工智能芯片出口到中国。当前2023年3月1日的延缓期已过，后续将无法向大陆市场出货。国产算力芯片迎来国产替代窗口期国产算力芯片迎来国产替代窗口期。美国对中国半导体产业发展持续打压背景下，英伟达、AMD断供进一步激发算力芯片国产化需求。当前已经涌现出一大批国产算力芯片厂商，寒武纪、龙芯中科相继推出自研GPU，海光信息的DCU（GPGPU）也逐渐打出知名度，其他配套环节的国产化进程也正在加速推进。资料来

49、源：NVIDIA，AMD，中信建投图表：图表：NVIDIA与与AMD被限制算力芯片性能情况被限制算力芯片性能情况NVIDIAAMD禁售产品A100H100MI100MI210MI250M250X发布时间2020年11月2022年3月2020年11月2022年3月2021年11月2021年11月架构设计AmpereHopperCDNA2CDNA2CDNA2CDNA2计算单元6912个CUDA内核18432个CUDA内核120个104个208个220个FP3219.5 TFLOPS51/67 TFLOPS23.1 TFLOPS22.6 TFLOPS45.3 TFLOPS47.9 TFLOPSFP1

50、6312 TFLOPS1513/1979 TFLOPS184.6 TFLOPS181 TFLOPS362 TFTOPS383 TFLOPSINT8624 TOPS3026/3958 TOPS184.6 TOPS181 TOPS362 TOPS383 TOPS工艺制程7nm4nm7nm6nm6nm 6nm显存容量80GB80GB32GB64GB128GB128GB显存带宽2093GB/s3TB/s1.2TB/s1.6 TB/s3.2TB/s3.2TB/s互联NVLink 600GB/sx16 PCIe 4.0:64 GB/sNVLink 600/900GB/sX16 PCIe 5.0:128GB

51、/sPCIe 3.0&4.0PCIe 3.0&4.0PCIe 4.0PCIe 4.0功耗400W700W300W300W500&560 W500&560W 26寒武纪：国内人工智能芯片领军者寒武纪：国内人工智能芯片领军者寒武纪专注寒武纪专注AI领域核心处理器领域核心处理器，思元系列智能加速卡持续迭代思元系列智能加速卡持续迭代。寒武纪成立于2016年，致力于打造人工智能领域的核心处理器芯片。寒武纪目前已推出了思元系列智能加速卡，第三代产品思元370基于7nm制程工艺，是寒武纪首款采用chiplet技术的AI芯片，最高算力达到256TOPS（INT8）。思元370还搭载了MLU-Link多芯互联

52、技术，互联带宽相比PCIe 4.0提升明显。思元思元590采用全新架构采用全新架构，性能相比在售旗舰有大幅提升性能相比在售旗舰有大幅提升。在2022年9月1日举办的WAIC上，寒武纪陈天石博士介绍了全新一代云端智能训练芯片思元590，思元590采用MLUarch05全新架构，实测训练性能较在售旗舰产品有了大幅提升，能提供更大的内存容量和更高的内存带宽，其IO和片间互联接口也较上代实现大幅升级。图表：思元图表：思元370系列板卡与业内主流系列板卡与业内主流GPU性能和能效对比性能和能效对比图表：寒武纪思元系列智能加速卡参数图表：寒武纪思元系列智能加速卡参数资料来源：寒武纪，中信建投资料来源：寒武

53、纪，中信建投型号型号思元370系列思元290系列思元270系列MLU370-X8MLU370-X4MLU370-S4MLU290-M5MLU270-S4MLU270-F4架构架构MLUarch03MLUv02 ExtendedMLUv02制程制程7nm7nm算力算力INT8256 TOPS 256 TOPS192 TOPS512 TOPS 128 TOPS128 TOPSFP1696 TFLOPS 96 TFLOPS72 TFLOPS显存显存种类种类LPDDR5HBM2DDR4容量容量48GB24GB24GB32GB16GB位宽位宽4096 bit256 bit带宽带宽614.4 GB/s30

54、7.2 GB/s307.2 GB/s1.23 TB/s102 GB/s互联互联MLU-Link聚合带宽:200 GB/s；x16 PCIe Gen4:64GB/sx16 PCIe Gen4:64 GB/sx16 PCIe Gen4:64 GB/sMLU-Link聚合带宽:600 GB/sx16 PCIe Gen4:64 GB/s16 PCIe Gen.3:32 GB/s功耗功耗250W150W75W350W70w150w 27寒武纪：持续完善软件生态，强化核心竞争力寒武纪：持续完善软件生态，强化核心竞争力寒武纪重视自身软硬件生态建设寒武纪重视自身软硬件生态建设，为云边端全系列智能芯片与处理器

55、产品提供统一的平台级基础系统软件为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件。寒武纪的基础系统软件平台主要包括训练软件平台和推理软件平台。训练软件平台支持丰富的图形图像、语音、推荐以及训练任务，同时提供模型快速迁移方法，帮助用户快速完成现有业务模型的迁移。对于推理软件平台，寒武纪新增推理加速引擎MagicMind，在 MLU、GPU、CPU 训练好的算法模型上，借助MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上。图表：寒武纪基础软件平台图表：寒武纪基础软件平台图表：训练软件平台图表：训练软件平台资料来源：寒武纪，中信建投图表：推理加速引

56、擎图表：推理加速引擎MagicMind资料来源：寒武纪，中信建投资料来源：寒武纪，中信建投 28寒武纪：与产业端强强联合，促进生态融合应用寒武纪：与产业端强强联合，促进生态融合应用百度飞桨深度学习平台正加强与主流人工智能芯片厂商联合建设生态百度飞桨深度学习平台正加强与主流人工智能芯片厂商联合建设生态。百度飞桨集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体，包含完整的开发、训练、推理的端到端深度学习AI模型开发工具链。其中，Paddle Lite是一个可以在边缘端、移动端和部分服务器端等场景下用于AI模型部署的高性能轻量化推理引擎。典型应用场景包括：智能闸机、智能家居

57、、自动驾驶、AR/VR手机应用等。随着在稳定性、兼容性和成熟度等方面不断升级，百度飞桨越来越重视与硬件厂商，尤其是与主流人工智能芯片厂商联合进行生态建设。寒武纪与百度飞浆完成适配寒武纪与百度飞浆完成适配，加速加速AI多场景落地多场景落地。2020年4月，思元270与Paddle Lite正式完成兼容性适配。2022年12月，思元370系列在与百度飞浆完成II级兼容性测试，兼容性表现良好，整体运行稳定，训练性能可以满足用户的应用需求。寒武纪旗下人工智能芯片与百度飞浆的成功适配标志着寒武纪端云一体的人工智能芯片生态，与百度飞桨代表的深度学习框架生态的成功融合。资料来源：寒武纪，中信建投图表：寒武纪

58、与百度飞桨完成兼容性测试图表：寒武纪与百度飞桨完成兼容性测试海光信息：深算系列海光信息：深算系列GPGPU提供高性能算力，升级迭代稳步推进提供高性能算力，升级迭代稳步推进数据来源：海光信息招股说明书，中信建投海光海光DCU提供高性能算力提供高性能算力。海光DCU也属于GPGPU的一种，其构成与CPU类似，结构逻辑相对CPU简单，但计算单元数量较多。海光DCU的主要功能模块包括计算单元、片上网络、高速缓存、各类接口控制器等。海光DCU可为应用程序提供高性能、高能效比的算力，支撑高复杂度和高吞吐量的数据处理任务。一代一代DCU已实现规模化销售已实现规模化销售，二代升级规划稳步推进二代升级规划稳

59、步推进。深算一号DCU产品目前已实现商业化应用。2020年1月，公司启动了第二代DCU深算二号的产品研发工作，研发工作进展正常。图表：海光信息图表：海光信息DCU产品形态产品形态海光8100芯片DCU加速卡深算一号图表：海光信息图表：海光信息8100主要规格主要规格图表：海光信息图表：海光信息DCU基本组成架构基本组成架构数据来源：海光信息招股说明书，中信建投数据来源：海光信息招股说明书，中信建投海光海光 8100典型功耗典型功耗260-350W典型运算类型典型运算类型双精度、单精度、半精度浮点数据和各种常见整型数据计算计算60-64 个计算单元（最多 4096 个计算核心）支持 FP64、

60、FP32、FP16、INT8、INT4内存内存4 个 HBM2 内存通道最高内存带宽为 1TB/s最大内存容量为 32GBI/O 16 Lane PCIe Gen4 DCU芯片之间高速互连海光信息：类“海光信息：类“CUDA”环境降低迁移成本，软硬件生态丰富”环境降低迁移成本，软硬件生态丰富数据来源：海光信息官网，中信建投海光海光DCU兼容类兼容类“CUDA”环境环境，方便方便CUDA用户以较低代价快速迁移用户以较低代价快速迁移。海光DCU协处理器全面兼容ROCm GPU计算生态，由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性，理论上讲，市场上规模最大的GPGPU开发群体CU

61、DA用户可用较低代价快速迁移至ROCm平台，有利于海光DCU的市场推广。同时，由于ROCm生态由AMD提出，AMD对ROCm生态的建设与推广也将有助于开发者熟悉海光DCU。海光海光DCU适配性好适配性好，软硬件生态丰富软硬件生态丰富。海光DCU协处理器能够较好地适配国际主流商业计算软件和人工智能软件，软硬件生态丰富，可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域，主要部署在服务器集群或数据中心。图表：海光信息提供完善软件栈支持图表：海光信息提供完善软件栈支持图表：图表：ROCm与与CUDA的模块具有高度相似性的模块具有高度相似性数据来源：CSDN，中信建投NVIDIA CUDA

62、AMD ROCmCUDAAPIHIP（CUDA API子集）NVCCHCCCUDA函数库ROC库、HC库ThrustParallel STLProfilerROCm profilerCUDA-GDBROCm-GDBNvidia-smirocm-smiDirectGPU RDMAROCn RDMATensorRTTensileCUDA-DockerROCm-Docker 31龙芯中科：自主架构龙芯中科：自主架构CPU行业先行者，新品频发加速驱动成长行业先行者，新品频发加速驱动成长公司系国内稀缺的自主架构公司系国内稀缺的自主架构CPU引领者引领者，持续构建产业生态持续构建产业生态。龙芯中科是国内

63、唯一坚持基于自主指令系统构建独立于Wintel体系和AA体系的开放性信息技术体系和产业生态的CPU企业。公司自2020年推出自主研发的全新指令系统LoongArch后，新研的产品均是基于LoongArch指令系统，与下游应用领域加速适配。龙芯中科龙芯中科CPU持续升级持续升级，在服务器在服务器CPU领域已达到国内领先行列领域已达到国内领先行列。龙芯中科研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片，依据应用领域的不同可分为工控类芯片和信息化类芯片，其中龙芯3号属于信息化类，面向个人计算机与服务器应用。公司2022年12月宣布32核服务器芯片3D5000初样验证成功

64、，该芯片主频为2.02.2GHz，采用Chiplet技术。该芯片面向存储、虚拟化等常用场景，通用性较强。龙芯3D5000的推出，标志着龙芯中科在服务器CPU芯片领域进入国内领先行列。龙芯中科正在进行龙芯3D5000芯片产品化工作，预计将在2023年上半年向产业链伙伴提供样片、样机。图表：龙芯图表：龙芯3号系列产品参数号系列产品参数资料来源：龙芯中科官网，中信建投型号推出时间主频（GHz）峰值运算速度处理器核内存接口典型功耗主要应用场景龙芯 3A30002017年1.35-1.524GFLOPS1.5GHz64 位四核处理器，采用全新的 LoongArch 指令系统双通道DDR3-160030W

65、1.5GHz桌面与终端类龙芯 3A40002019年1.8-2.0128GFLOPS2.2GHz64 位四核处理器，MIPS64兼容；双通道 DDR4-240030W1.5GHz40W1.8GHz50W2.0GHz桌面与终端类龙芯 3A50002021年2.3-2.5160GFLOPS64 位四核处理器，采用全新的 LoongArch 指令系统双通道 DDR4-320035W2.5GHz桌面与终端类龙芯 3C5000L2021年2.0-2.2560GFLOPS64 位十六核处理器，采用全新的 LoongArch 指令系统，集成4个3A5000四通道 DDR4-3200130W2.2GHz服务器

66、类龙芯 3C5000 2022年2.0-2.2560GFLOPS2.2GHz64 位十六核处理器，采用全新的 LoongArch 指令系统，集成16个高性能LA464核四通道 DDR4-3200150W2.2GHz服务器类龙芯3D50002023年2.0-2.264位三十二核处理器，集成32个高性能LA464核八通道DDR4-32001kW1kW 一、一、AIGC引发内容生成范式革命，云端算法向大模型多模态演进引发内容生成范式革命，云端算法向大模型多模态演进四、附录四、附录36目录目录二、硬件基础设施为发展基石，算力芯片等环节核心受益二、硬件基础设施为发展基石，算力芯片等环节核心受益三、三、国

67、产厂商迎来发展窗口期，建议关注各环节龙头厂商国产厂商迎来发展窗口期，建议关注各环节龙头厂商 1、ChatGPT可替代智能音箱现有语音交互模型可替代智能音箱现有语音交互模型智能音箱是智能音箱是AI语音识别落地的主要场景之一语音识别落地的主要场景之一，ChaptGPT有望带来革新有望带来革新。智能音箱的语音交互功能可快速识别用户语音需求，同时智能音箱可作为智能家居的控制中心，控制智能家居设备，智能音箱的智能化功能、内容服务与互联网服务也为消费者的生活带来便利性。自2014年亚马逊发布首款智能音箱Amazon Echo1代后，智能市场进入快速增长期，2021年至今百度、腾讯、阿里、小米、苹果、华为

68、、亚马逊等科技巨头仍在加大布局智能音箱。ChaptGPT技术可替换智能音箱原云端语音识别与反馈，提供更好的语音交互体验。相关厂商包括：全志科技、恒玄科技、矩芯科技。资料来源：头豹研究院，中信建投资料来源：头豹研究院，中信建投图表：智能音箱作用图表：智能音箱作用图表：中国智能音箱行业销量及预测图表：中国智能音箱行业销量及预测3676365438323725375638273893050002500300035004000450050002002020212022E 2023E 2024E 2025E 2026E销量（万台）智能音箱

69、内容服务互联网服务智能家居控制语音交互包括语音识别、语义理解等技术，保证音箱快速识别用户需求，提供更为自然的人机交互模式提供丰富的音乐、有声读物、儿童教育内容等流媒体内容，保证用户的音频内容享受通过智能音箱实现对照明、安防产品等的控制，并能够场景化的定义操控指令，使智能音箱成为智能家居的控制中心涵盖外卖、信息查询、出行、上午等多种服务，接入家居中多样生活场景，为消费者带来便捷 382、除、除AIGC外近几年外近几年AI有潜力的方向推荐有潜力的方向推荐 Nvidia DLSS（Deep learning Super Sampling）NVIDIA DLSS使用AI技术对多个较低分辨率的图像进行采

70、样，并根据运动关系和来自先前帧的反馈来获得更高质量的图像。DLSS已经升级到DLSS3，插帧效果在可接受范围内。相关厂商包括：带有NPU的SoC公司，晶晨、瑞芯微 TinyML 在资源受限的微控制器上实现低资源消耗、低功耗的机器学习算法，被称为“下一代人工智能革命下一代人工智能革命”相关厂商包括：乐鑫科技图表：图表：DLSS开启呈现更高的视频帧率开启呈现更高的视频帧率资料来源：NVIDIA，中信建投图表：图表：TinyML运用在硬件资源受限的场景运用在硬件资源受限的场景资料来源：电子技术设计，中信建投 392、除、除AIGC外近几年外近几年AI有潜力的方向推荐有潜力的方向推荐存内计算存内计算

71、把计算单元嵌入到内存当中，以减少内存传输速度不足对系统运算速度和功耗的影响。现有的许多技术都已经可以实现存内计算的基本原理根据应用场景不同的需要，可以分为三个层次：1）第一层级的SRAM，读写速度快，计算延时短，但是存储量级小；2）第二层级的非嵌入存储器，如RRAM和MRAM，读写速度稍慢，但存储量级变大，计算延时较短；3）第三层级，如PCM，Flash，读写更慢，计算延时也更长，但相应的存储量级也是最大的。国内智存科技基于Nor Flash存储，开发存内计算。相关厂商包括：恒烁股份图表：存内计算的层次图表：存内计算的层次资料来源：北京大学，中信建投基于先进封装的方案整合基于先进封装的方案

72、整合 CIS贴合带神经网络加速的MCU用途1：智能化的传感器，优化系统级功耗用途2：AI安防图表：索尼搭载图表：索尼搭载AI处理功能的处理功能的CIS资料来源：索尼，中信建投风险提示风险提示中美贸易中美贸易/科技摩擦升级风险：科技摩擦升级风险：美国限制含涉美技术的晶圆代工厂为限制名单上的中国芯片厂商代工，若未来美国加大对中国半导体行业的遏制，可能影响国内厂商需求海外代工以及先进制程产品的研发。技术研发进展不及预期：技术研发进展不及预期：算力芯片、IP等产品市场技术壁垒高，行业龙头不断研发创新，未来若国内公司研发进展不及预期，致新一代产品开发进度、性能等指标不及预期，则会影响其市场竞争力。下

73、游市场需求不达预期：下游市场需求不达预期：宏观环境的不利因素将可能使得全球经济增速放缓，导致主要下游行业需求不及预期，或其他领域拓展进度放缓。市场竞争加剧导致毛利率下降：市场竞争加剧导致毛利率下降：国内厂商正积极推进国产替代，国内厂商之间亦存在竞争，若未来市场竞争加剧，可能导致价格战致使毛利率下降。感谢庞佳军、何昱灵对本报告的贡献。分析师介绍分析师介绍刘双锋：刘双锋：中信建投证券电子首席分析师。3年深南电路，5年华为工作经验，从事市场洞察、战略规划工作，涉及通信服务、云计算及终端领域，专注于通信服务领域，2018年加入中信建投通信团队。2018年IAMAC最受欢迎卖方分析师通信行业第一名团队成

74、员，2018水晶球最佳分析师通信行业第一名团队成员。研究助理研究助理郑寅铭郑寅铭 41评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现，也即报告发布日后的6个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准；美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌

75、幅10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）制作，由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已

76、披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断，该等观点、评估和预测可能在不发出通知的情况下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告

77、所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估本报告所含信息，基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不对该等投资

78、决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点，分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式转发、翻版

79、、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际）中信建投（国际）北京东城区朝内大街2号凯恒中心B座12层电话：(8610)8513-0588联系人：李祉瑶邮箱：上海浦东新区浦东南路528号南塔2106室电话：(8621)6882-1612联系人：翁起帆邮箱：深圳福田区益田路6003号荣超商务中心B座22层电话：（86755）8252-1369联系人：曹莹邮箱：香港中环交易广场2期18楼电话：（852）3465-5600联系人：刘泓麟邮箱：charleneliucsci.hk42

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（电子行业算力芯片系列：Chatgpt带来算力芯片投资机会展望-230325（43页）.pdf）为本站（可乐要加（贾）冰）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。