《半导体行业AI算力产业链梳理~技术迭代推动瓶颈突破AIGC场景增多驱动算力需求提升-230321(36页).pdf》由会员分享,可在线阅读,更多相关《半导体行业AI算力产业链梳理~技术迭代推动瓶颈突破AIGC场景增多驱动算力需求提升-230321(36页).pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、安信证券ESSENCE SECURITIES四行业分析2023年03月21日ESSENCEAa门半导体证券研究报备AI算力产业链梳理技术选代推动投资评级领先大市-A瓶颈突破,AIGC场景增多驱动算力需首次评级求提升首选股票目标价(元)评级目AI大模型引领应用层百花齐放,算力层长期受益:ChatGPT、GPT4.0、Microsoft365Copilot、文心一言等相继发布,以ChatGPT为代表的AI大模型及其初步应用“一石激起千层浪”,其行业表现相关技术变革预计将对个体的工作、生活及社会组织方式带来的广泛半导体8m兴务影响。以海内外IT龙头为代表的企业界也开始深入挖据此次技术变28*革对公司
2、经营方式、商业模式的潜在颠覆性变化,并重新评估未来的发展战略。我们认为,AI大模型在参数规模、计算量简化、安全性及8多模态融合等方向虽然仍有选代进步空间,但其运今展示出的“思维-12%22%能力”可作为先进生产力工具已是不争事实。随着多模态大模型GPT4的发布,基于文字、图片等垂直场景的应用步伐有望“从1到10”--03加速,类似于移动互联网时代各类型APP的百花齐放,其竞争格局也资料来源:Wind资讯会逐步加剧。而类比19世纪末的美国西部“淘金热”对铲子、牛仔12M升幅%1M3M裤的大量需求,我们认为以GPGPU为代表的算力基础设施作为AI大相
3、对收益5.94.2-10.2模型底座将长期稳定受益。绝对收益4.04.3-16.8马良分析师目ChatGPT算力需求加速增长,基于大算力、先进制程领域的技术创新企业有望受益:分析师程宇婷我们根据GPT-4对使用次数的限制推论,目前AI大模型的算力水平SAC执业证书编号:S02显著供不应求。以OpenAI的算力基础设施为例,芯片层面GPGPU的需求最为直接受益,其次是CPU、AI推理芯片、FPGA等。AI服务器相关报告市场的扩容,同步带动高速网卡、HBM、DRAM、NAND、PCB等需求提2022-09-23设备国产化关键环节,半导升。同时,围绕解决大算力场景下GPU“功耗
4、墙、内存墙”问题的相体零部件蓝海起航关技术不断升级,如存算一体、硅光/CPO产业化进程有望提速;先进2022-08-30中芯国际拟再建新厂,持续制程芯片演进中已有的Chiplet等技术路径也将受益:Risk-V由于推荐上游设备及材料开源免费、开发者自由度高、自主可控度高、更适应AIOT处理器架国产替代渗资率提计+国产2022-08-26构需求等优势,带动围绕AI场景的参与企业数量提升。芯片开发需求增多,抢膜版行业进入高速增长通道目本报告的创新点:晶圆平担化的关键工艺,CMP2022-06-101)以GPT-3模型为例的GPGPU市场测算:预计用于高端GPGPU显卡设备材料国产替代快速推进的训练
5、及推理部分市场空间合计约145亿元,其中训练市场规模市场空间广阔,电池管理2022-05-19约28亿元,推理市场规模约117亿元。分别对应约3200张和(BMS/BMIC)芯片国产替代135031张英伟达A100GPU芯片。进程加速2)对GPT-4算力需求及未来超势的推论:GPT-4由于复杂度提升、图片识别功能加入,我们推测算力需求增至十倍以上。长期看来,本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券行业分析/半导体ESSENCE SECURITIES伴随编译器等软件端技术选代,新产品推出有望提速。AI大模型有望向小型化、高效化方向发展,对算力需求超势从单模
6、型所需高性能芯片价值转变为应用端规模增长带来的用量提升。3)重点技术梳理:存算一体技术、HBM技术、Chiplet技术、CPO技术等技术。4)系统梳理潜在受益的产业链环节及标的。目投资建议:我们建议关注国产大算力芯片、英伟达/AMD产业链、上游硬件供应商、下游多模态应用落地等。1)GPU/AI芯片:寒武纪、海光信息、景嘉微、澜起科技;2)英伟达产业链配套:胜宏科技、和林微纳;3)CPU:海光信息、龙芯中科、澜起科技:4)FPGA:紫光国微、复旦微电、安路科技;5)芯片IP:芯原股份、华大九天;6)服务器:浪潮信息、工业富联、中科曙光;7)Chiplet等先进封装相关:通富微电、长电科技、兴森科
7、技、深南电路、生益科技、华正新材:8)光模块:天孚通信、新易盛、中际旭创:9)AIOT:乐鑫科技、恒玄股份、炬芯科技;10)SoC:晶晨股份、瑞芯微、全志科技、恒玄科技、富瀚微;11)Risk-V:兆易创新、芯原股份、国芯科技、北京君正;12)存算一体:兆易创新、恒烁股份;13)存储芯片/模组:兆易创新、佰维存储、江波龙、北京君正、聚辰股份;14)CPU/GPU等供电芯片:杰华特、晶丰明源;15)多模态下游应用:海康威视、大华股份、莹石网络、漫步者等目风险提示:技术研发不及预期的风险;应用落地不及预期的风险;中美贸易摩擦的风险。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#pa
8、ge#安信证券ESSENCE SECURITIE行业分析/半导体目内容目录1.ChatGPT浪潮带动算力需求提升,以GPU为核心的硬件市场扩容,1.1.ChatGPT:基于生成式AI技术的大型语言模型,商业化迅速开启。51.2.采用GPT-3.5预训练模型,参数量随模型换代呈指数型增长。1.3.海量参数产生大算力需求,GPGPU等高壁全AI芯片受益.1.4.类ChatGPT成本高昂产品涌现,国产大模型方兴未艾.91.5.以GPT-3为例测算:大算力需求驱动AI硬件市场空间提升.121.6.GPT-4模型算力需求扩增,架构升级降本增效未来可期。151.7.英伟达引领硬件端产品升级,国产GPU静待
9、花开.162.大算力场景通到的问题及解决途径.2.1.“内存墙”、“功耗墙”等掌时AI的算力发展。232.2.“内存墙”、“功耗墙”等问题解决路径.2.2.1.存算一体技术:以SRAM、RRAM为主的新架构,大算力领域优势大.252.2.2.HBM技术:高香吐高带宽,AI带动需求激增.302.2.3.Chiplet技术:全产业链升级降本增效,国内外大厂前略布局.2.2.4.CPO技术:提升数据中心及云计算效率,应用领域广泛.32333.投资建议,4.风险提示.344.1.技术研发不及预期的风险.344.2.应用落地不及预期的风险,:344.3.中美贸易摩擦的风险,34目图表目录图1.不同程序实
10、现1亿月活跃用户所花费的时间图2.使用ChatGPT摆写博客内容.5图3.ChatGPT预训练和推理过程.图4.Transformer架构示意图.图5.RLHF原理示意图.图6.GPT-4对图片输入的理解.88图7.GPT-4考试表现相较GPT-3.5的提升。9图8.近年主流生成型AI对算力的需求。9图9.GPU与CPU并行运算能力对比.9图10.近年英伟达GPU的FLOPS与带宽速率增长图11.Musk和Altman关于ChatGPT对话成本聊天截图。1010图12.2018-2022年科技厂商资本支出(亿美元)12图13.百度AI大底座示意图.12图14,GPT-3模型大小、架构及参数.1
11、2图15.不同参数量模型的上下文学习曲线,图16.用于训练语言模型所需要的算力情况.图17.下游企业拥有英伟达A100GPU数量(截止至2022):1415图18.VisionTransformer模型对图片进行切割输入图19.AI大模型的参数规模持续加速琴升.图20.小参数模型逐渐有出色表现.16:17图21,CPU和GPU架构对比.本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体:18图22.GPU架构演变历程.图23.GraceHopper超级芯片示意图,18图24.ROCm5.0生态技术。19图25,英伟
12、达发展历程.20.:20图26.2017-2020年英伟达技术在TOP500超算的占比。图27.英伟达产品规划图.21图28.存储计算“剪刀差”.24图29,冯诺依受架构下的数据传输.24图30.AI模型大小增长与GPU内存增长.25图31.AI模型计算量增长速度.25图32.冯诺依爱架构Vs存算一体架构.26图33.四种存算一体架构对比.2629图34.HBM设计结构.图35.GDDR5VSHBM.29图36.Chiplet设计结构.30图37.UCle标准.31图38.共封装光学技术33表1:ChatGPT预训练相关概念,.:7表2:各代GPT系列所需要参数量。7表3:各AI芯片性能对比.
13、表4:ChatGPT对话成本测算.10表5:各科技公司关于类ChatGPT的技术布局概览(统计截止日期:2023.03.19)表6:ChatGPT对应A100GPU市场规模。14表7:GPU发展历程.17表8:AMDGPGPU相关产品一览,.:19表9:英伟达AI相关产品一览,21表10:NvidiaA100GPU和H100GPU规格对比.22表11:wvidia计算卡进化历程.22表12:国产GPU厂商情况.表13:国产GPU与国际GPU参数对比。23.27表14:不同存储器介质对比.28表15:云和边缘大算力企业对比。28表16:端和边缘小算力企业对比.表17:Chiplet相关公司产品,
14、.32本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体1.ChatGPT浪潮带动算力需求提升,以GPU为核心的硬件市场扩容1.1.ChatGPT:基于生成式AI技术的大型语言模型,商业化迅速开启ChatGPT(ChatGenerativePre-trainedTransformer)是由OpenAI开发的聊天机器人程序,于2022年11月推出。ChatGPT是目前为止最先进的语言生成模型之一,使用基于GPT-3.5架构的大型语言模型(LLM),并通过强化学习进行训练,拥有语言理解和文本生成能力,适用于问答、对话、
15、生成文本等多种场景。ChatGPT用户规模扩增迅速,根据SimilarWeb数据,2023年1月期间,ChatGPT平均每天大约有1300万独立访客,数量是2022年12月的两倍多(Similarweb数据);根据瑞银公开报告数据,2023年1月(即上线两个月后)实现全球1亿月活跃用户,是历史上增长最快的消费者应用程序。ChatGPT是生成式AI在文字生成领域的应用,创造能力是其核心优势。传统AI依靠逻辑进行分类和判断,而生成式AI的壁全在于能够创造新内容,可以是多模态的、模仿人类情感的、具有互动和审美性质的。传统的聊天机器人(Chatbot),例如客服机器人,只能根据用户输入的内容在数据库中
16、查询到对应答案,再机械地以模板的形式反馈给客户:而ChatGPT采取生成式AI技术,并且有工作人员每日优化模型,在应对用户提问时会根据上下文内容调整回答内容,增强互动式、对话式的情感体验,更加智能。OpenAI开放API,降本90%扩大覆盖用户面。2023年3月1日,OpenAI官网宣布ChatGPT和Whisper(OpenAI去年发行的语音识别生成模型)的API开放使用,开发者可将模型集成到APP和其他产品中。ChatGPTAPI接入的模型为GPT-3.5-turbo,与GPT-3.5相比更加快捷、准确,成本也更低,定价为每1000个tokens(约750个单词)0.002美元,用户则需要
17、按照输入和输出的tokens总数来付费。OpenAI官方表示自2022年12月以来ChatGPT降低了90%的成本,开放API旨在使更多人受益于生成式AI技术。图1.不同程序实现1亿月活跃用户所花费的时间图2.使用ChatGPT换写博客内容2Time to Reach 100M Users近日,51000420体安信证养研究中心1.2.采用GPT-3.5预训练模型,参数量随模型换代呈指数型增长GPT3.5是一种大型语言模型(LLM),参数量大,精准度高。GPT-3.5采用深度学习中的Transformer架构,并通过大规模预训练(pre-training)的方式来学习自然语言处理任务可以进行文
18、本生成、对话生成、文本分类、命名实体识别、关链词提取等自然语言处理任务。语言模型(LM)是指对语句概率分布的建模。具体是判断语句的语序是否正常,是否可以被人类理解。它根据句子中先前出现的单词,利用正确的语序预测句子中下一个单词,以达到正确的语义。例如,模型比较“我是人类”和“是人类我”出现的概率,前者是本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。5#page#安信证券ESSENCE SECURITIE行业分析/半导体正确语序,后者是错误语序,因此前者出现的概率比后者高,则生成的语句为“我是人类”。大型语言模型(LLM)是基于海量数据集进行内容识别、总结、翻译、预测或生成文本等的
19、语言模型。相比于一般的语言模型,LLM识别和生成的精准度会随参数量的提升大幅提高。ChatGPT需要通过预训练来形成GPT3.5的模型,从而可以在用户端的网页或APP进行推理。预训练指先通过一部分数据进行初步训练,再在这个初步训练好的模型基础上进行重复训练,或者说是“微调”推理指将预训练学习到的内容作为参考,对新的内容进行生成或判断。预训练是模型运作的主要部分,所需要的精度较高,算力需求也较高;推理则相反。ChatGPT通过Transformer和RLHF两种语言模型进行预训练,可并行训练并大量优化反馈。采用深度学习中的Transformer架构,并通过大规模预训练(pre-training)
20、的方式来学习自然语言处理任务,可以进行文本生成、对话生成、文本分类、命名实体识别、关键词提取等自然语言处理任务。长短期记忆网络算法(LSTM)是一种时间循环神经网络。传统的循环神经网络(RNN)拥有链式形式,就像人脑会忘记很久以前发生的事件,RNN也会忘记它在较长序列中学习的内容,因此具有短时记忆。LSTM是一种特殊的RNN,它解决了传统RNN的短时记忆问题,在Transformer问世前曾主导NLP领域,但也拥有无法并行训练、建模长度有限的缺点。香转出9年其+*一deuosuel所以与LSTM的顺序处理不同,它可以并行同时处理所有的输入数据,模仿人类联系上下文的习惯,从而更好地为LLM注入意
21、义并支持处理更大的数据集。人类反馈信号强化学习(RLHF)指使用强化学习的方式直接优化带有人类反馈的语言模型,使得语言模型能够与复杂的人类价值观“对齐”。它负责ChatGPT预训练中微调的部分,首先在人类的帮助下训练一个奖赏网络(RM),RM对多个聊天回复的质量进行排序,从而增加ChatGPT对话信息量,使其回答具有人类偏好。ChatGPT的预训练需要处理海量参数,从而实现超高文本识别率。OpenAI目前没有公布ChatGPT所使用的GPT-3.5的相关数据,由表2可知,随着新模型推出,新的参数量需求呈翻倍式增长。OpenAI首席执行官SamAltman接受公开采访表示,GTP-4参数量为GT
22、P-3的20倍,需要的计算量为GTP-3的10倍;GTP-5在2024年底至2025年发布,它的参数量为GTP-3的100倍,需要的计算量为GTP-3的200-400倍。图3.ChatGPT预训练和推理过程结供数提供算法GPT-3.5模型海量参数RLH提供模型预训练过程ChatGPT交互用户推理过程资料来源:O0emAI富同,安信证券研究中心本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体表1:ChatGPT预训练相关概念ChatePT是否使用中文名称英文缩写/名称特性/作用LM是语言模型根据语句概率进行文字预测
23、LLM是大型语言模型需要海量数据集的LM循环神经网络RNN顺序处理;短时记忆香否长短期记忆网络算法LSTM顺序处理;建模长度有限是Transforme并行处理;注意力机制RLHF是人类反馈信号强化学习使模型与人类价值观对齐RM是奖赏网络RLHF的重要步骤资料来源:CSDN,电子发烧友,海淋新闻,安信证养研究中心图5.RLHF原理示意图图4.Transformer架构示意图电分中资料来源表2:各代GPT系列所需要参数量模型发布时间参效量GPT-11.17亿2018年6月GPT-22019年2月15亿GPT-32020年5月1750亿GPT-4暂木公布2023年3月GPT-5(预期)2021年底至
24、2025年175000亿资料来:00eDAI官同,安信证券研光中心GPT-4功能升级,多模态拓展应用场景。2023年3月14日,OpenAI正式发布GPT-4模型,早于此前23年下半年发布的时间规划。根据OpenAI官方,GPT-4模型于2022年8月完成训练,之后通过6个月时间对模型进行了安全性研究、风险评估和选代。GPT-4作为大型多模态模型,在多方面提升显著:1)多模态大模型-一新增接受图片和文本输入并产生文本输出能力,能分析图片的符号意义,如理解图片中的“笑梗”;文字方面,GPT-4的输入限制由3000字提升至2.5万字,对于英语以外的语种支持有更多优化。2)提升各种专业和学术水准并有
25、较好表现。能处理更长更复杂的文本,在没有针对考试内容进行特别训练的基础上,GPT-4在各项测试中均取得较高成绩,如GPT-4在GRE考试中取得332+4分,GPT-4(novision)取得322+4分,而GPT-3.5分数为301+4分。3)在安全、一致性上有较为明显的提升。根据OpenAl的对抗性测试和红队测试结果,相比GPT-3.5,GPT-4产生客观事实回答的可能性提升40%,响应违禁内容请求的可能性降低82%。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体根据公开新闻整理,目前接入GPT-4支持的应用
26、端已有微软的必应浏览器newBing、嵌入于办公软件的Microsoft365Copilot人工智能服务,外语培训教育机构多邻国的付费产品DuolingoMax、摩根士丹利等。我们认为,随着GPT-4等模型复杂度升级,并逐步支持图片视频识别等多模态,对应的算力及基础设施需求有望持续增长;下游则有望拓展更多图片视频内容端的商业化应用场景。图6.GPT-4对图片输入的理解图7.GPT-4考试表现相较GPT-3.5的提升超1.3.海量参数产生大算力需求,GPGPU等高壁全AI芯片受益GhatGPT算力需求与参数量呈正相关,对硬件的内存容量和带宽提出高要求。算力即计算能力,具体指硬件对数据收集、传输、
27、计算和存储的能力,算力的大小表明了对数字化信息处理能力的强弱,常用计量单位是FLOPS(Floatingpointoperationspersecond),表示每秒浮点的运算次数。硬件方面,运算量取决于GPU运算执行时间的长短,而参数量取决于占用显存的量。运算量(FLOPS)的数值通常与参数量(parametercount)成比例,不同模型架构的换算关系不同。模型越复杂、参数量越大,所需计算量越大。GPGPU拥有硬件技术的核心壁全:大显存带宽,进行超高能效比的并行运算,可同时用于GPT模型的训练和推理过程。GPGPU(通用图像处理器)是一种由GPU去除图形处理和输出,仅保留科学计算、AI训练和
28、推理功能的GPU(图形处理器)。GPU芯片最初用于计算机系统图像显示的运算,但因其相比于擅长横向计算的CPU更擅长于并行计算,在涉及到大量的矩阵或向量计算的AI计算中很有优势,GPGPU应运而生。目前,GPGPU的制造工艺在英伟达等企业的领导下已超向成熟,成本在AI芯片中也较低,成为市场主流选择,ChatGPT引起的AI浪潮有望提升其应用规模。FPGA具有可编程的灵活性,ASIC性能佳、具有定制化特点,但成本方面与GPU相比稍显劣势,在GPT等AI模型的运用占比较GPU低。FPGA指现场可编程逻辑门阵列,具有静态可重复编程和动态在系统重构的特性,但其开发难度大、只适合定点运算,同时价格也比较昂
29、贵,性能方面也不及GPU与ASIC,只在精度较低的推理过程有所应用。ASIC指专用集成电路,是一种应不同用户需求和不同系统需要而设计、制造的集成电路。ASIC芯片的性能较GPU佳能耗也较低,但因其定制性价格昂贵,在人工智能平台和推理过程中有部分应用。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCESECURITIES行业分析/半导体图9.GPU与CPU并行运算能力对比图8.近年主流生成型AI对算力的需求CPUGPUMULTIPLECORESTHOUSANDSOFCORE安信证参研究中心资料来源:安信证券研究中维基百科,图10.近年英伟达GPU的FL
30、OPS与带宽速率增长表3:各AI芯片性能对比GPU类别FPGAASIC定制化设计性能商可编程性优点性能稳定通用性好灵活功耗拉制优秀灵活性不足开发难度大禁点功托高价格吊贵价格吊黄寒武纪英伟达AItera(Intel收购)代表公司地平线AKDXilinx(AMD收购)谷歌(TPU)资料来源:CSDN,安信证券研究中心1.4.类ChatGPT成本高昂产品涌现,国产大模型方兴未艾大模型运行成本高昂,准入壁全较高。大模型对于训练时间和参数量都有高要求,以OpenAlCEOAltman在推特上回复马斯克的留言可知,ChatGPT平均一次聊天成本为几美分。根据SimilarWeb数据,2023年1月27日至
31、2月3日ChatGPT日活跃用户达2500万人。中性假设下,以平均单人单日对话7次,每次3美分成本进行测算,对应一年支出对话成本约为19.2亿美元。根据英伟达官网,A100作为DGXA100系统的一部分进行销售,该系统搭载8本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体个A100GPU,一个由5台DGXA100系统组成的机架可桥代一个包括AI训练和推理基础设施的数据中心,且功耗仅为其1/20,成本为其1/10,系统售价19.9万美元。因此,在中性假设条件下,考虑到服务器约占数据中心心成本的70%(中商产业研究院
32、),则ChatGPT运营一年将需要6741个DGXA100系统用于支撑访问量。因此我们推断,在高昂成本及大数据量需求的限制下,仅有限数量的科技巨头具备参与AI竞赛的实力。图11.Musk和Altman关于ChatGPT对话成本聊天截图图12.2018-2022年科技厂商资本支出(亿美元)5oogleicrosoft一百度AmazonAppleReplying toscostperchat腾讯京寿8217Ot31887SamAltmanaverageis probably single-digits cents perchat tryingoptimize it246AMDec5.2022201
33、820220资料来源:mwittor,实有证表4:ChatGPT对话成本测算对语成本乐观保守中性日活跃用户(万)250025002500对话次数(次)1057每次对话成本(美元)0.028000.059.119.245.6每年总成本(亿美元)70%70%服务器成本占比70%6.413.431.9服务器总成本(亿美元)199000DGXA100系统价格(关元)32DGXA100系统常求量(个)ChatGPT带动大模型竞品发布,海内外科技巨头先后加码AI布局。1)谷歌向AI公司Anthropic投资近4亿美元,后者正在测试生成式AI
34、工具claude,且谷歌也推出对标ChatGPT的聊天机器人Bard。2)微软以100亿美元投资ChatGPT的开发商OpenAl,并获得其49%股权。2023年2月,微软发布基于ChatGPT的newBing。3)亚马逊云服务AWS宣布与AI公司HuggingFace开展合作,HuggingFace将在AWS上开发针对ChatGPT的开源竞品,构建开源语言模型的下个版本Bloom。4)阿里达摩院正研发类ChatGPT的对话机器人,目前已处于内测阶段。ae禁发长(9(+ommN=gm)-;ldoeo长到证(S本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESS
35、ENCE SECURITIE行业分析/半导体表5:各科技公司关于类ChatGPT的技术布局概览(统计截止日期:2023.03.19)公司AI模型参数规模领线应用场票BERT4810亿NLP语言理解与生成LaMDA1370亿NLP对话系统PaLM5620亿多模态Googlo语言理解与图像生成110亿多模态lmagen语言理解与图像生成Parti200亿多模态语言理解与图像生成Florence6.4亿CV视觉识别Microsoft170亿NLPTuring-NLG语言理解、生成NLPOPT-175B1750亿语言模型MotaNLPOOL-WZN154亿100种语言互译12亿多模态Gato通才智能体
36、Gopher2800亿NLP语言理解与生成414亿NLPAIphaCode代码生成120亿NLPCLIP&DALL-E图像生成、跨模态检索120亿多模态OpenAxepoo代码生成ChatGPTNLP语言理解与生成、推理等千化NLPNLP大模型语言理解、生成240亿多模态跨模态大模型语言理解与图像生成百度170亿多模态CV大模型语言理解与图像生成CV生物计算大模型化合物表征学习、分子结构预测阿里巴巴十万亿多模态语言理解与图像生成腾讯混元大模型万亿NLP语言理解与生成10亿京东K-PLUGNLP语言理解与生成、推理、代码生成盐古大模型2000亿MLP、CV、多槟态内容生成与理解、分类分割检测、玲
37、模态检索华为NLP复旦大学H0SS175亿语言理解与生成360NLP智能搜索字节跳动ANLP语言理解资料来源,1资机、虎唤网、华为云常同、腾讯云常同、百及云常同、量子位、妇大规候多候态预训练候型肠的关键技术及产业应用,公开信息丝理,安信证参研究中心基于昆仑芯+飞浆+文心大模型AI底座,百度推出“文心一言”拉开国产生成式AI序幕。2023年3月16日,百度正式推出国内首款生成式AI产品“文心一言”,可支持文学创作、文案创作、数理推算、多模态生成等功能,目前已有多家厂商宣布接入。“文心一言”基于全栈自研的AI基础设施进行学习和训练:昆仑芯2代AI芯片:“文心一言”的芯片层核心能力,采用自研XPU-
38、R架构,通用性和性能显著提升:256TOPSINT8和128TFLOPSFP16的算力水平,较一代提升2-3倍,保障“文心一言”算力需求;采用7nm先进工艺,GDDR6高速显存,支持虚拟化,芯片间互联和视频编解码等功能。飞浆深度学习平台:“文心一言”的框架层核心能力,系业内首个动静统一的框架、首个通用异构参数服务器架构,支持端边云多硬件和多操作系统,为文心大模型提供有效、快捷、完整的训练框架。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体文心知识增强大模型:“文心一言”的模型层核心能力,该产品主要采用ERNIE
39、系列文心NLP模型,拥有千亿参数级别的ERNIE3.0Zeus为该系列最新模型,进一步提升了模型对于不同下游任务的建模能力,大大拓宽了“文心一言”的应用场景。我们认为,随着国产AI大模型应用的不断拓展,算力基础设施加速升级,伴随产业链自主研发需求及地缘政治不确定性,关于进口高端AI芯片及服务器中美博奔升级,国产高算力GPU芯片、服务器及数据中心等厂商有望加速选代,长期充分受益。图13.百度AI大底座示意图安信证券研究中心1.5.以GPT-3为例测算:大算力需求驱动AI硬件市场空间提升GPT-3(GenerativePre-trainedTransformer是GPT-3.5的上一代语言模型,目
40、前一般所说的GPT-3即为拥有1750亿参数的最大GPT-3模型,OpenAI在公开发表的论文LanguageModelsareFew-ShotLearners中对GPT-3模型进行了详细分析。对于以ChatGPT为例的大模型算力需求,根据测算,我们预计用于高端GPGPU显卡的训练及推理部分市场空间合计约145.32亿元,其中训练市场规模为27.84亿元,推理市场规模为117.48亿元。图14.GPT-3模型大小、架构及参数图15.不同参数量模型的上下文学习曲线Modl NamGPT3Small125M防阳丽机机路调到新道3M防EEKWA公理GPT3XLGPT32.7BPT367B2N本报告版
41、权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体图16.用于训练语言模型所需要的算力情况资料来源安信证养研究中心Models具体分为训练及推理两部分进行分别测算:训练部分:以NvidiaA100GPU为例,其理论峰值算力为312TFLOPS,Nvidia联合发表的论文 Efficient Large Scale Language Model Training on GPU Clusters UsingMegatron-LM中,通过使用流水线并行(pipelineparallelism)、张量并行(tensorparall
42、elism)和数据并行(dataparallelism)等并行技术将GPU的算力利用率提升到52%。我们参考OpenAI论文公开数据,标准GPT-3模型的175B模型参数(parameter),完整训练需要3.14E+23FLOPs。单个模型训练时间越短,所需GPU越多,反之亦然。我们假设GPT-3模型训练时长为一周,以此作为参考,则该训练过程所需A100GPU数量约为3200张。根据中关村在线数据,单张A10080G售价约87000元,我们假设将有10家科技厂商采购A100卡参与AI大模型训练,则A100GPU对应市场规模预计为27.84亿元。计算过程如下:1.单张A100GPU实际使用过程
43、中的算力=312TFLOPS*52%=162*1012FLOPS训练一周所需时间=7days*24h/day*60min/h*60s/min三604800s3.A100GPU所需数量三总算力需求/(单张GPU实际算力*训练一周时间)=3.14*1023/(162*1012*604800)=3200张4.A100GPU市场规模二A100数量水单价*厂商数=3200*87000*10=27.84亿元推理互动部分:推理端需求较训练端占比逐渐提升。根据SimilarWeb数据,每人每天平均1000词左右问题回答,目前ChatGPT日活跃用户为2500万人,即合计每日产生250亿单词,相当于333亿to
44、kens(根据OpenAl官网,token是一种非结构化文本单位,英文语境下1个token相当于4个字母,0.75个词,中文语境下1个中文字被视为1个token)。根据马里兰大学副教授TomGoldstein推文表示,30亿参数模型使用单张A100GPU(使用半精度、TensorRT和激活缓存)生成1个token需要6ms,扩大至1750亿参数模型则需要350ms(=1750/30*6)。以单日时长计算,推理过程需要135031张A100GPU,对应市场规模117.48亿元。计算过程如下:1.用户每目产生总token数三日活跃人数*平均问题字数/0.75本报告版权属于安信证券股份有限公司,各项
45、声明请参见报告尾页。13#page#安信证券ESSENCE SECURITIE行业分析/半导体=2500*104*1000/0.75=333.33亿个2.模型生成总token数所需时间三总token数*单A100GPU输出单token所需时间=333.33*108*350ms=116.67*108s3.A100GPU所需数量二模型所需总时间/一天时间=116.67*108/(24*60*60)=135031张4.A100GPU市场规模=A100数量*单价=135031*87000=117.48亿元表6:ChatGPT对应A100GPU市场规模算力总需求量3.14E+23FLOPsA100GPU
46、算力312 TFLOPS算力利用率52%A100GPU实际算力162 TFLOPS训练部分训练时长(s)7days*24h*3600sA100GPU所需数量320087000A100GPU单价(元)参与厂商数量(个)10A100GPU市场空间(亿元)27.842500日活跃用户(万)1000每人问题单词数(words)0.75单token对应单词数(个)888C24h生成总token数(亿个)推理互动部分350ms单GPU输出单token所需时间116.67*108单日token输出所需总时间(s)135031A100GPU所需数量A100GPU市场空间(亿元)117.48资料来源:英伟达宫同
47、,EfficienTwitter,SimilarWeb,中关村在线,安信证参研究中心图17.下游企业拥有英伟达A100GPU数量(诚止至2022)Ina gold rush for compute,companies build biggerthan national supercomputers“Wethinkthemost beneftswillgotowhoeverhasthebiggestcomputer”-GregBrockman,OpenAICTVIDIAH100GPUCO本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURIT
48、IE行业分析/半导体1.6.GPT-4模型算力需求扩增,架构升级降本增效未来可期根据OpenAI官网显示,目前GPT-4每4小时只能处理100条消息,且并没有开放图片识别功能。大模型升级带来的运算需求逐渐加码,且可推测目前算力已处于供不应求状态。多模态拓展,图片识别算力需求升级十倍以上。关于从图片到token的转换方式,OpenAI未公布GPT-4的模型参数,假设GPT-4处理图片视觉任务使用VisionTransformer模型(ViT),则输入图片尺寸必须为224x224(ViT-B/16版本)。根据2021年ICLR论文,模型原理大致为把一张图片分成nxn个Patch,每一个Patch作
49、为一个Token。即把一张224x224x3的图片,切分为1616大小的Patch,每个Patch是三通道小图片,得到16x163=768个token并作为向量输入。相较之下,根据前文GPT-3部分假设,假设每个文字问题50-100词,即67-133token。我们可以粗略推论,图像识别的所需算力是文字推理部分所需算力的十倍以上级别。图18.VisionTransformer模型对图片进行切割输入Transformer Encoder8888888888W可街配行修理编译器性能升级,带动大模型产品加速选代。随着2023年3月15日Pytorch2.0正式版的发布,编译器的性能有大幅提升。Pyt
50、orch作为主流深度学习框架,用于构建及训练深度学习模型。Pytorch2.0正式版包含的新高性能TransformAPI能使GPT-3等使用的先进transformer模型的训练和部署更加容易、快速。根据PyTorch基金会数据,在NvidiaA100GPU上使用PyTorch2.0对163个开源模型进行的基准测试,其中包括图像分类、目标检测、图像生成,以及各种MLP任务,2.0版本的编译时间比1.0提高43%。我们认为,编译器性能的提升带动AI大模型编译时间缩短,新产品推出进展或将超预期同时我们认为,目前模型的计算成本高,参数量大,长期看模型架构的升级将缩小训练成本,并拓宽边缘设备等部署场
51、景,对算力的需求有望从单模型所需芯片价值量高的推演转变为应用场景快速拓展的量的增长。(1)根据Nature2023年3月8日文章,有观点认为,更大参数量的模型只是在回答训练数据相关范围的查询上表现更好,并不具备获得回答新问题的更优能力。过往几年,AI大模型的训练使用更高的算力和参数量,但一些小型性能好的模型涌现,在训练中用了更高数据。具体而言,2023年2月Meta发布LLaMA小参数模型130亿参数但训练量多达1.4万亿个,表现优于GPT-3。而同年3月14日,斯坦福发布基于LLaMA的Alpaca7B微调模型,其52000个指令的OpenAIAPI总成本不到500美元;微调过程在云计算平台
52、使用8个A10080GBGPU,用时3小时,成本约100美元。测试结果表明Alpaca7B性能和其指令资料来源的GPT-3模型相近。长期来看,大模型有望向规模更小、更智能高效的方向演进。(2)多模态方面,举例说明,根据清华大学2021年论文,ViT的最终预测仅基于信息最丰富本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。5#page#安信证券ESSENCE SECURITIE行业分析/半导体的token的一个子集,该子集足以进行图像准确识别,论文提出的动态token稀疏化框架可以理解为轻量化预测模块,估计每个token的重要性,从而动态删除元余token,其框架的结论减少了31-3
53、7%FLOPS,提升40%以上春吐量,同时精度下降小于5%。图19.AI大模型的参数规模持续加速等升THEDRIVETOBIGGERAIMODELS2020Cnature资料来源:Nature,图20.小参数模型逐渐有出色表现DIFFERENTROUTESTOSCALE资料来源:安信证券研究中心1.7.英伟达引领硬件端产品升级,国产GPU静待花开大GPU优势在于通过并行计算实现大量重复性计算。GPGPU(GeneralPurposeGPU)即通用GPU,能够帮助CPU进行非图形相关程序的运算。在类似的价格和功率范围内,GPU能提供比CPU高得多的指令吞吐量和内存带宽。GPGPU架构设计时去掉了
54、GPU为了图形处理而设计的加速硬件单元,保留了GPU的SIMT(SingleInstructionMultipleThreads)架构和通用计算单元,通过GPU多条流水线的并行计算来实现大量计算。所以基于GPU的图形任务无法直接运行在GPGPU上,但对于科学计算,AI训练、推理任务(主要是矩阵运算)等通用计算类型的任务仍然保留了GPU的优势,即高效的搬运和运算有海量数据的重复性任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。16#page#安信证券ESSENCE SECURITIE行业分析/半导体图21.
55、CPU和GPU架构对比L1 CacheL1 CachetroLi CacheLi CacheL2CacheL2CacheL3CacheL2 CacheDRAMDRAMGPU240表7:GPU发展历程时间基本特征类型相关标准代表产品意义80年代图形显示CGAVGAIBM 5150光概生成器最早图形显示控制器80年代末2D加速GDI,DirectFBS386C91120图元加速开启2D图形硬件加速时第一题用于PC的3D图形加90年代初部分3D加速3DLabs Glint300sx段件T&L速芯片OpenGL(1.14.1),90年代后期固定管线NVIDIA GeForce256首次提出GPU概念s
56、hader功能固定Directx (6.0-11)20042010多功能shadar统一染NVIDIA G8OCUDA与G80一同发布完成与图形处理无关NVIDIA正式将用于计算的2011至今通用计算CUDA,Open CL1.22.0NVIDIA TESLA的科学计算GPU产品线独立出来资料来源:英伟达CUDA架构引领GPGPU开发市场,算力底座筑造核心护城河。随着超算等高并发性计算的需求不断提升,英伟达以推动GPU从专用计算芯片走向通用计算处理器为目标推出了GPGPU,并于2006年前瞻性发布并行编程模型CUDA,以及对应工业标准的OpenCL。CUDA是英伟达的一种通用并行计算平台和编程
57、模型,它通过利用图形处理器(GPU)的处理能力,可大福提升计算性能。CUDA使英伟达的GPU能够执行使用C、C+、Fortran、OpenCL、DirectCompute和其他语言编写的程序。在CUDA问世之前,对GPU编程必须要编写大量的底层语言代码:CUDA可以让普通程序员可以利用C语言、C+等为CUDA架构编写程序在GPU平台上进行大规模并行计算,在全球GPGPU开发市场占比已超过80%。GPGPU与CUDA组成的软硬件底座,构成了英伟达引领AI计算及数据中心领域的根基。通过与云计算平台的集成,CUDA可在未购买GPU硬件的基础上提供强大计算能力。例如,设客户需要训练一个深度学习模型需要
58、大量的计算资源和时间,通过在AWS上租用一个带有NVIDIAGPU的实例,并在该实例上安装CUDA,客户可以使用CUDAAPI和库来利用GPU的计算能力运行计算密集型工作负载,从而可以无需购买GPU硬件并快速完成训练任务。除了AWS,其他云计算提供商如MicrosoftAzure、GoogleCloudPlatform等也提供了与CUDA集成的服务。这些服务可以为客户提供强大的GPU计算能力,从而加速计算密集型工作负载的处理速度。GPU架构升级过程计算能力不断强化,Hopper架构适用于高性能计算(HPC)和AI工作负载。英伟达在架构设计上,不断加强GPU的计算能力和能源效率。在英伟达GPU架
59、构的演变中,从最先Tesla架构,分别经过Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至发展为今天的Hopper架构。以Pascal架构为分界点,自2016年后英伟达逐步开始向深度学习方向演进。根据英伟达官网,Pascal架构,与上一代Maxwell相比,神经网络训练速本报告版权属于实信证券股份有限公司,各项声明请参见报告尾页。7#page#安信证券ESSENCE SECURITIE行业分析/半导体度提高12倍多,并将深度学习推理吞吐量提升了7倍。Volta架构,配备640个Tensor内核增强性能,可提供每秒超过100万亿次(TFLOPS)的
60、深度学习性能,是上一代Pascal架构的5倍以上。Turing架构,配备全新TensorCore,每秒可提供高达500万亿次的张量运算。Ampere架构,采用全新精度标准TensorFloat32(TF32),无需更改任何程序代码即可将AI训练速度提升至20倍。最新Hopper架构是第一个真正异构加速平台,采用台积电4nm工艺,拥有超800亿晶体管,主要由HopperGPU、GraceCPU、NVLINKC2C互联和NVSwitch交换芯片组成,根据英伟达官网介绍,其性能相较于上一代Megatron530B拥有30倍AI推理速度的提升。图22.GPU架构演变历程Per/w能效比yLink2.0
61、VoltaPascaMaxwe16nm支持FP163M220202017时间2008200162018安信证券研究中心图23.GraceHopper超级芯片示意图NVIDIA Grace Hopper SuperchipcHOPPERCPUGPU资料来源:英伟达官网,安信证券研究中心AMD数据中心领域布局全面,形成CPU+GPU+FPGA+DPU产品矩阵。与英伟达相比,AMD在服务器端CPU业务表现较好,根据Passmark数据显示,2021年Q4AMDEPYC需龙系列在英特尔基断下有所增长,占全球服务器CPU市场的6%。依据CPU业务的优势,AMD在研发GPGPU产品时
62、推出InfinityFabric技术,将EPYC背龙系列CPU与InstinctMI系列GPU直接相连,实现一致的高速缓存,形成协同效应。此外,AMD分别于2022年2月、4月收购Xilinx和Pensando,补齐FPGA与DPU短板,全面进军数据中心领域。软件方面,AMD推出ROCm平台打造CDNA架构,但无法替代英伟达CUDA生态。AMD最新的面向GPGPU架构为CDNA系列架构,CDNA架构使用ROCm自主生态进行编写。AMD的ROCm生态采取HIP编程模型,但HIP与CUDA的编程语法极为相似,开发者可以模仿CUDA的编程方式18#page#安信证券ESSENCE SECURITIE
63、行业分析/半导体为AMD的GPU产品编程,从而在源代码层面上兼容CUDA。所以从本质上来看,ROCm生态只是借用了CUDA的技术,无法真正替代GUDA产生壁垒。表8:AMDGPGPU相关产品一览系列产品主要参数7nmVega20架构,3840个流处理器,32GB显存,1024CB/sMISO7nmVega20架构,4096个流处理器,32GB显存,1024GB/s带宽,M160精度14.75T7nmCDNA架构,7680个流处理器,32GB显存,1228.8GB/s碰宽,单MI100精度23.1TInstinctMI系列GPU6nmCDNA2架构,6656个流处理器,64GB显存,1638.4
64、GB/s常宽,单M1210精度22.6T6nmCDNA2架构,13312个流处理器,128GB显存,3276.8GB/s带宽,1250单精度45.3TB显存,3276.8GB/s带宽,MI250X单精度47.9T资料来源:AMD信网,安信证券财究中心图24.ROCm5.0生态技术Deploymnt ToolsROCmValidat0CmSMCompilersToolsOpenMpAPIm ModesDrivers/RuntimRedHat.SLES6资料来源:AMO官同,安信证参研究中心前晒性布局AI和云计算领域,英伟达独占整头。回顾英伟达发展历程,在传统游戏业务外,公司始终关注数据中心业务布
65、局:英伟达早在2006年便推出GUDA架构,提高GPU解决复杂计算的能力;2007年推出专为高性能计算设计的Tesla系列GPU产品,此后开始快速选代,性能不断提升,至今已发展出8个架构;2016年推出世上首款台式超级计算机DGX-1,主要应用于AI领域:2019年收购Mellanox,降低云数据中心的运营成本。与AMD、英特尔相比,英伟达在AI计算领域独占整头:在2020年全球TOP500超级计算机榜单中,有333台超级计算机采用了英伟达的技术,占总数的66.6%,英伟达的统治地位可见一斑。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SEC
66、URITIE行业分析/半导体图25.英伟达发展历程1997年2012年2019年1993年2006年成为神经网络发布WV3显卡计算引攀Van开禁收购Mellanox英伟达成立推出NVIDIADGX-1m发布全球首款GPU世界上第一款台式深度GeForce256显卡首款开发产品NV1学习超级计算机推出专为高性能设多媒体加连器计的TeslaGPU1999年2016年1995年2007年资料来源:英伟达宫网,安信证养研究中心图26.2017-2020年英伟达技术在TOP500超算的占比NVIDIAAccelerates 67% of the TOP500 Systems333350326300250
67、230203吃100ISC17ISC18ISC19ISC20资抖来源:英伟达官网,安信证宽中心软硬件共同布局形成生态系统,造就英伟达核心技术壁全。硬件端:基于GPU、DPU和CPU构建英伟达加速计算平台生态:(1)主要产品TeslaGPU系列选代速度快,从2008年至2022年,先后推出8种GPU架构,平均两年多推出新架构,半年推出新产品。超快的选代速度使英伟达的GPU性能走在AI芯片行业前沿,引领人工智能计算领域发生变革(2)DPU方面,英伟达于2019年战略性收购以色列超算以太网公司Mellanox,利用其InfiniBand(无限带宽)技术设计出Bluefield系列DPU芯片,弥补其生
68、态在数据交互方面的不足。InfiniBand与以太网相同,是一种计算机网络通信标准,但它具有极高的春吐量和极低的延退,通常用于超级计算机的互联。英伟达的BluefieldDPU芯片可用于分担CPU的网络连接算力需求,从而提高云数据中心的效率,降低运营成本。(3)CPU方面,自主设计GraceCPU并推出GraceHopper超级芯片,解决内存带宽瓶颈问题。采用86CPU的传统数据中心会受到PCle总线规格的限制,CPU到GPU的带宽较小,计算效率受到影响;而GraceHopper超级芯片提供自研GraceCPU+GPU相结合的一致内存模型,从而可以使用英伟达NVLink-C2C技术快速传输,其
69、带宽是第5代PCle带宽的7倍,极大提高了数据中心的运行性能。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。20#page#安信证券ESSENCE SECURITIE行业分析/半导体表10:NvidiaA100GPU和H100GPU规格对比规格A100SXMA100 PCleH100SXMH100 PCle34TFLOPS26 TFLOPSFP649.7TFLOPSFP64 Tensor Core19.5 TFLOPS67 TFLOPS51 TFLOPS67 TFLOPSFP3219.5 TFLOPS51 TFLOPSTF32989TFLOPS*156 TFLOPS312 TFL
70、OPS*756 TFLOPS*Sdol 66LBFLOAT16 Tensor Core312TFLOPS624TFLOPS*1513 TFLOPS*312TFLOPS|624TFLOPS*1979TFLOPS*1513TFLOPS*FP16 Tensor Core3958TFLOPS*3026TFLOPSFP8 Tensor Core624TOPS1248TOPS3958TOPS*3026TOPS*INT8 Tensor Core30GBGPU显存8OGBHBM2e8OGBHBMBOGB2039GB/s1935GB/s3.35TB/S2TB/sGPU显存带宽7WVDEC7NVDEC解码器7 J
71、PEG7JPEG最大热设计功率(TDP)400W300W700W(可配置)300135ON(可取丝)最大为7MIG10GB最大为7MIG85G8多实例GPU最多7个MIG8每个10GBNVIDIANVLink桥接器WVLink:900GB/SNLink:600 GB/sNVLink:600GB/S互连2块GPU:600GB/sPCle5.0:128GB/SPCIe4.0:64GB/sPCle5.0:128GB/SPCIe4.0:64GB/资料来源:英伟达宫同,安信证券研究中心采用稀疏技术显示。表11:Nvidia计算卡进化历程训练K40M40P100V100A100发布时间2013.11201
72、5.112016.42017.052020.05深构KeplerWaxwellVoltaPascaAmpere制程28rm28mm16rm12nm7nm71亿80亿153亿211亿510亿品体管数量551m6m610m815mmDie Size26m235250W300W300W最大功耗400WStreamingMultiprocessNAAA640432Tensor Coros9609606FP64 CUDA Cores28803072358451206912FP32 CUDA CoresFP32峰值算力5.04TFLOPS6.08TFLOPS10
73、.6 TFLOPS15.7TFLOPS19.5 TFLOPS稀疏TensorCoreNANANANA312TFLOPSFP32峰值算力资料来源:英伟达常同,实信证券研究中心OCOZE61ZOZndb国“nddb报告,人类将于2030年进入YB数据时代,通用算力相较2020年增长10倍、人工智能算力22本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体增长500倍。在算力需求快速增长的进程中,国产GPU正面临机遇与挑战并存的局面。目前,国产GPU厂商的核心架构多为自研,难度极高,需投入海量资金以及高昂的人力和时间成本
74、。由于我国GPU行业起步较晚,缺乏相应生态,目前同国际一流厂商仍存在较大差距。在中美摩擦加剧、经济全球化逆行的背景下,以海光信息、天数智芯、壁例科技和摩尔线程等为代表的国内GPU厂商进展迅速,国产GPU自主可控未来可期。表12:国产GPU厂商情况成立时间公司名称核心产品海光信息2014年DCU8000系列天数智芯2015年天域100、智铭1002019年壁彻科技壁弱”100P、壁104P摩尔线程2020年MTT S8O、MTT S50、MTT S3000景嘉微2006年JM5、JM7、JM9系列2020年沐暖集成电路MXN、MXC、MXG2019年芯瞳半导体GenBu012010年龙芯7A10
75、00、7A2000龙芯中科2007年芯动科技风华系列GPU资科来源:各公司官同,安信证券研究中心表13:国产GPU与国际GPU参数对比海光NVIDIAAMD厂商品牌深算一号A100OoLIW7nm生产工艺7nm7nm4096(64CUs)120CUs核心数量Upto1.5GHz(FP64)Upto1.5GHz(FP64)内核频车Upto1.53GhzUpto1.7Ghz(FP32)Upto1.7GHz(FP32)显存容量32GBHBM280GBHBM2e32GB HBM2显存位宽4096bit5120bit4096bit显存频率2.0GHz3.2GHz2.4GHz显存带宽1024GB/s203
76、9GB/s1228GB/sTDP350W400W300WCPUtoGPU互联PCle Gen4 x16PCle Gen4 x16PCle GEN4 x16Infinity Fabric x3XGMIX2GPUtoGPU互联NVLink up to 600 GB/sUpto184GB/s资料来源:中国计业科学研究院,海光信总拍股书,安信证参研究中心2.大算力场景遇到的问题及解决途径2.1.“内存墙”、“功耗墙”等掌时AI的算力发展“存”“算”性能失配,内存墙导致访存时延高,效率低。内存墙,指内存的容量或传输带宽有限而严重限制CPU性能发挥的现象。内存的性能指标主要有“带宽”(Bandwidth)
77、和“等待时间”(Latency)。近20年间,运算设备的算力提高了90000倍,提升非常快。虽然存储器从DDR发展到GDDR6x,能够用于显卡、游戏终端和高性能运算,接口标准也从PCle1.0a升级到NLink3.0,但是通讯带宽的增长只有30倍,和算力相比提高幅度非常缓慢。23本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体图28.存储计算“剪刀差”01000100e1.020020142020资料来源:OneFlow公司公
78、众号,安信证券研究中心冯诺依夏架构下,数据传输导致严重的功耗损失。冯诺依受架构要求数据在存储器单元和处理单元之间不断地“读写”,这样数据在两者之间来回传输就会消耗很多的传输功耗。根据英特尔的研究表明,当半导体工艺达到7nm时,数据搬运功耗高达35pJ/bit,占总功耗的63.7%。数据传输造成的功耗损失越来越严重,限制了芯片发展的速度和效率,形成了“功耗墙”问题。图29.冯诺依夏架构下的数据传输数据运算器搬运输入存储器中央处理器控制器输出中国科学信总科学安信证券研究中心AI模型参数量极速扩大,GPU内存增长速度提见肘。在GPT-2之前的模型时代,GPU内存还能满足AI大模型的需求。近年来,随着
79、Transformer模型的大规模发展和应用,模型大小每两年平均增长了240倍。GPT-3等大模型的参数增长已经超过了GPU内存的增长。传统的设计趋势已经不能适应当前的需求,芯片内部、芯片之间或AI加速器之间的通信成为了Al训练的瓶颈。AI训练不可避免地遇到了“内存墙”问题。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体图30.AI模型大小增长与GPU内存增长20172016201资料来源:OneFlow公司公众号,安信证券研究中心AI模型运算量增长速度不断加快,推动硬件算力增长。预训练技术的进步导致了各领域模
80、型计算量的快速增长,大约每两年就要增加15倍。而Transformer类模型的运算量更是每两年就要增加750倍。这种近乎指数的增长趋势促使AI硬件的研发方向发生变化,需要更高的峰值算力。当前的研究为了实现更高的算力,甚至不惜简化或者优化其他部分组件,例如内存的分层架构,将DRAM容量用于需要高性能访问的热数据,将容量层用于处理需要大容量但性能要求不那么高的任务,以适应不同的数据类型、用例、技术需求和预算限制,适用于AI、ML和HPC等众多应用场景,能帮助企业以经济高效的方式满足内存需求。图31.AI模型计算量增长速度SOTACV.NL20015201802资料来源;One
81、F/OW公司公众号,安信证券研究中心2.2.“内存墙”、“功耗墙”等问题解决路径2.2.1.存算一体技术:以SRAM、RRAM为主的新架构,大算力领域优势大存算一体在存储器中嵌入计算能力,以新的运算架构进行乘加运算。存算一体是一种以数据为中心的非冯诺依曼架构,它将存储功能和计算功能有机结合起来,直接在存储单元中处理数据。存算一体通过改造“读”电路的存内计算架构,可以直接从“读”电路中得到运算结果,并将结果“写”回存储器的目标地址,避免了在存储单元和计算单元之间频繁地转移数据。存算一体减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗(降至1/101/100),还可以利用存储单元进行逻辑计算提
82、高算力,显著提升计算效率。它不仅适用于AI计算,也适用于感存算一体芯片和类脑芯片,是未来大数据计算芯片架构的主流方向。25本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCESECURITIES行业分析/半导体图32.冯诺依曼架构VS存算一体架构妈诺依曼架料QQ功耗丝X建皮视X功耗高资料来源:九章书驾,安信证券研究中心存算一体技术可分为查存计算、近存计算、存内计算和存内逻辑,提供多种方式解决内存墙问题。查存计算:早期技术,在存储芯片内部查表来完成计算操作。近存计算:早巴成熟,计算操作由位于存储区域外部的独立计算芯片/模块完成。典型代表是AMD的Zen系
83、列CPU,以及封装HBM内存(包括三星的HBM-PIM)与计算模组(裸Die)的芯片。存内计算:计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟或数字的。典型代表是Mythic、千芯科技、闪亿、知存、九天容芯等。存内逻辑:通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算。典型代表包括TSMC(在2021ISSCC发表论文)和千芯科技。图33.四种存算一体架构对比(D)Log设计难度高算子国定,适合端资料来源:清华大学微电子所,安信证养研究中心SRAM、RRAM是存算一体介质的主流研究方向。存算一体的成熟存储器有几种,比如NORFLASH、SRAM、DRAM、RR
84、AM、MRAM等NVRAM。FLASH是非易失性存储,成本低,可靠性高,但制程有瓶颈。26#page#安信证券ESSENCE SECURITIE行业分析/半导体SRAM速度快,能效比高,在存内逻辑技术发展后有高能效和高精度的特点。DRAM容量大,成本低,但速度慢,需要不断刷新电力。新型存储器PCAM、MRAM、RRAM和FRAM也适用于存算一体。其中RRAM在神经网络计算中有优势,是下一代存算一体介质的主流方向之一。除了SRAM之外,RRAM也是未来发展最快的新型存储器之一,它结构简单,速度高,但材料不稳定,工艺还需2-5年才能成熟。表14:不同存储器介质对比优势不足存储器类型适合场景能效比高
85、,高速高精度,对噪声存储密度略低大算力、云计算、边缘计算SRAM(数字模式)不敏感,工艺成热先进,适合IP化对PVT变化敏感,对信味比小算力、端例、不要求待机功SRAM(模拟模式)能效比高,工艺成熟先进敏感,存储密度略低对PVT变化敏感,有限写次各类NVRAM(包括能效比高,高密度,非易失,低数,相对低速,工艺良率尚RRAM/MRAM等)福电在爬坡中录力对PVT变化敏态,精度不小算力、侧、低成本、待机Flash商密度低成本,非易失,低漏电高,工艺选代时间长时间长的场景适合现有鸿民架构向存算过只能做近存计算,速度略DRAN商存储密度,整合方案成热低,工艺送代慢资料来源,陈批慎芯,安信证家研究中心
86、存算一体有着广泛的应用场景,在不同大小设备上均有需求。从技术领域来看,存算一体可以应用于:(1)AI和大数据计算:将AI计算中大量乘加计算的权重部分存在存储单元中,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。(2)感存算一体:集传感、储存和运算为一体构建感存算一体架构,在传感器自身包含的AI存算一体芯片上运算,来实现零延时和超低功耗的智能视觉处理能力。(3)类脑计算:使计算机像人脑一样将存储和计算合二为一,从而高速处理信息。存算一体天然是将存储和计算结合在一起的技术,是未来类脑计算的首选和产品快速落地的关键。从应用场景来分,存算一体可以适用于各类人工智能场景和元宇宙计算,
87、如可穿戴设备、移动终端、智能驾驶、数据中心等。(1)针对端侧的可穿戴等小设备,对成本、功耗、时延难度很敏感。端例竞品众多,应用场景碎片化,面临成本与功效的难题。存算一体技术在端侧的竞争力影响约占30%。(例如arm占30%,降噪或ISP占40%,AI加速能力只占30%)(2)针对云计算和边练计算的大算力设备,是存算一体芯片的优势领域。存算一体在大算力领域的竞争力影响约占90%。传统存储大厂纷纷入局,新兴公司不断涌现。(1)国外方面,三星电子在多个技术路线进行尝试,发布新型HBM-PIM(存内计算)芯片、全球首个基于MRAM(磁性随机存储器)的存内计算研究等。台积电在ISSCC2021上提出基于
88、数字改良的SRAM设计存内计算方案。英特尔也早早提出近内存计算战略,将数据在存储层级向上移动,使其更接近处理单元进行计算。(2)国内方面,阿里达摩院成功研发全球首款基于DRAM的3D键合维叠存算一体芯片,可突破冯诺依曼架构的性能瓶颈。千芯科技是可重构存算一体AI芯片的领导者和先驱,核心产品包括高算力低功耗的存算一体AI芯片/IP核(支持多领域多模态人工智能算法)。后摩智能致力于突破智能计算芯片性能及功耗瓶颈,其提供的大算力、低功耗的高能效比芯片及解决方案,可应用于无人车、泛机器人等边练端,以及云端推荐、图像分析等云端推理场景。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。27#p
89、age#安信证券ESSENCE SECURITIE行业分析/半导体表15:云和边缘大算力企业对比企业名称标识格会架构类型算力(TOPS)其他存储器类型主力产品边缘为主大算力全数字存算RRAM亿铸科技木公布木公布上海亿锈科技(ADAS)一体云计算卡G40710E、北京,最早支持多存内计算/Yoool千起提技千芯科技RRAM/SRAM云和边缘大算力1210E、F11610E实例(虚拟化)计存内逻辑40008INTF12010的存算一体架构边缘为主大算力模拟存内计SRAM/MRAM后摩智能从品基发智能驾肢芯片上海20TOPS(ADAS)算RRAMsSRAM云为主大年力近存计算矿机北京中科声龙Tran
90、sformerdMatrix近存or存内SRAM计算卡未公布结合Chiplet速资料来源;陈规谈芯,安信证券研究中心表16:瑞和边缘小算力企业对比存储器类企业名称标识场茶架构类型主力产品算力(TOPS)共他内存/自未公布能效闪易半导体/陈大同投资产品量瑞侧小算力模拟存内计算主核心工语音/图停HEXA01比明显优于闪亿城某家闪存100Mythic边缘小算力模拟存内计算MP103042017年设计3端侧小算力模拟存内计算闪存/SF未公布SST/CypressmemBrainlP核0.05INT8(5使用了SST工艺单知存科技端侧小算力闪存/SF语音WTM2101模拟存内计算OGOPS元,产品量产每
91、刻深思端侧小算力SRAM感存算一体模拟存内计算未公布0.31九天春芯RR端倒小算力模拟存内计算SRAM图像ADA20感存算一体2008INT8闪存未公布已IPO上市恒烁半导体8端侧小算力换拟存内计算CiNOR/ETOX新忆科技端侧小算力RRAM夫公有模拟存内计算智芯科端侧小算力模拟存内计算SRAM语音AT660X未公布图像PIMCHIP-S200、苹芯科技端侧小算力存内计算SRAM技未公布音PIMCHIP-S100资料来源:陈谈芯,安信证券研究中心2.2.2.HBM技术:高香吐高带宽,AI带动需求激增核心组件。HBM具有高吞吐高带宽的特性,受到工业界和学术界的关注。它单颗粒的带宽可以达到256
92、GB/s,远超过DDR4和GDDR6。DDR4是CPU和硬件处理单元的常用外挂存储设备,但是它的春吐能力不足以满足当今计算需求,特别是在Al计算、区块链和数字货币挖矿等大数据处理访存需求极高的领域。GDDR6也比不上HBM,它单颗粒的带宽只有64GB/s,是HBM的1/4。而DDR43200需要至少8颗粒才能提供25.6GB/s的带宽,是HBM的1/10HBM使用多根数据线实现高带宽,完美解决传统存储效率低的问题。HBM的核心原理和普通的DDR、GDDR完全一样,但是HBM使用多根数据线实现了高带宽。HBM/HBM2使用1024根数据线传输数据,作为对比,GDDR是32根,DDR是64根。HB
93、M需要使用额外的硅联通层,通过品片谁登技术与处理器连接。这么多的连接线保持高传输频率会带来高功耗。因此HBM的数据传输频率相对很低,HBM2也只有2Gbps,作为对比,GDDR6是16Gbps,DDR43200是3.2Gbps。这些特点导致了HBM技术高成本,容量不可扩,高延退等缺点。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体图34.HBM设计结构HBM DRAM DieHBM DRAM DieHBM DRAMDieHBM DRAM DieLogicDieCPU/CPUSOE DiePHYnterpos资料
94、来源:AMO宫网,安信证券研究中心图35.GDDR5VSHBMStacked MemoPUCPPackagHBMCDDR5资料来源HBM可以被广泛的应用到汽车高带宽存储器,GPU显存芯片,部分CPU的内存芯片,边缘A加速卡,Chiplets等硬件中。在高端GPU芯片产品中,比如NVDIA面向数据中心的A100等加速卡中就使用了HBM:部分CPU的内存芯片,如目前富岳中的A64FX等HPC芯片中也有应用到。车辆在快速移动时,摄像头、传感器会捕获大量的数据,为了更快速的处理数据,HBM是最合适的选择。Chiplets在设计过程中没有降低对内存的需求,随着异构计算(尤其是小芯片)的发展,芯片会加速对
95、高带宽内存的需求,无论是HBM、GDDR6还是LPDDR6。HBM缓解带宽瓶颈,是AI时代不可或缺的关键技术。AI处理器架构的探讨从学术界开始,当时的模型简单,算力低,后来模型加深,算力需求增加,带宽瓶颈出现,也就是10问题。这个问题可以通过增大片内缓存、优化调度模型等方法解决。但是随着AI大模型和云端AI处理的发展,计算单元剧增,10问题更严重了。要解决这个问题需要付出很高的代价(比如增加DDR接口通道数量、片内缓存容量、多芯片互联),这便是HBM出现的意义。HBM用晶片推叠技术和硅联通层把处理器和存储器连接起来,把AI/深度学习完全放到片上,提高集成度,降低功耗,不受芯片引脚数量的限制。H
96、BM在一定程度上解决了10瓶颈。未来人工智能的数据量、计算量会越来越大,超过现有的DDR/GDDR带宽瓶颈,HBM可能会是唯一的解决方案。巨头领跑,各大存储公司都已在HBM领域参与角逐。SK海力士、三星、美光等存储巨头在HBM领域展开了升级竞赛,国内佰维存储等公司持续关注HBM领域。SK海力士早在2021年10月就开发出全球首款HBM3,2022年6月量产了HBM3DRAM芯片,并将供货英伟达,持续本报告版权属于实信证券股份有限公司,各项声明请参见报告尾页。29#page#安信证券ESSENCE SECURITIE行业分析/半导体巩固其市场领先地位。三星也在积极跟进,在2022年技术发布会上发
97、布的内存技术发展路线图中,HBM3技术已经量产。伴随着ChatGPT的火热,整个市场对于高性能计算卡等硬件产品的需求水涨船高,上游大厂如三星和海力士目前的DRAM业务相关订单激增。GPU公司英伟达一直在要求SK海力士提供最新的HBM3内存颗粒。服务器CPU公司英特尔在全新的第四代至强可扩展处理器当中也推出了配备SK海力士HBM的产品。2.2.3.Ghiplet技术:全产业链升级降本增效,国内外大厂前晒布局Ghiplet即根据计算单元或功能单元将SOG进行分解,分别选择合适制程工艺制造。随着处理器的核越来越多,芯片复杂度增加、设计周期越来越长,SoC芯片验证的时间、成本也念剧增加,特别是高端处理
98、芯片、大芯片。当前集成电路工艺在物理、化学很多方面都达到了极限,大芯片快要接近制造瓶颈,传统的SoC已经很难继续被采纳。Chiplet,俗称小芯片、芯粒,是将一块原本复杂的SoC芯片,从设计的时候就按照不同的计算单元或功能单元进行分解,然后每个单元分别选择最合适的半导体制程工艺进行制造,再通过先进封装技术将各自单元彼此互联。Chiplet是一种类似搭乐高积木的方法,能将采用不同制造商、不同制程工艺的各种功能芯片进行组装,从而实现更高良率、更低成本。图36.Chiplet设计结构资料来源安信证券研究中心Ghiplet可以从多个维度降低成本,延续摩尔定律的“经济效益”。随着半导体工艺制程推进,晶体
99、管尺寸越来越通近物理极限,所耗费的时间及成本越来越高,同时所能够带来的“经济效益”的也越来越有限。Chiplet技术可从三个不同的维度来降低成本:(1)可大幅度提高大型芯片的良率:芯片的良率与芯片面积有关,Chiplet设计将大芯片分成小模块可以有效改善良率,降低因不良率导致的成本增加。(2)可降低设计的复杂度和设计成本:Chiplet通过在芯片设计阶段就将Soc按照不同功能模块分解成可重复云涌的小芯粒,是一种新形式的IP复用,可大福度降低设计复杂度和成本累次增加。(3)可降低芯片制造的成本:在Soc中的一些主要逻辑计算单元是依赖于先进工艺制程来提升性能,但其他部分对制程的要求并不高,一些成熟
100、制程即可满足需求。将Soc进行Chiplet化后对于不同的芯粒可选择对应合适的工艺制程进行分开制造,极大降低芯片的制造成本。Chiplet为全产业链提供了升级机会。在后摩尔时代,Chiplet可以开启一个新的芯片生态。2022年3月,Chiplet的高速互联标准一UCle (UniversalChiplet Interconnect Express通用芯粒互联技术)正式推出,旨在芯片封装层面确立互联互通的统一标准,打造一个开放性的Chiplet生态系统。巨头们合力搭建起了统一的Chiplet互联标准,将加速推动开放的Chiplet平台发展,并横跨86、Arm、RISC-V等架构和指令集。Chi
101、plet的影响力也从设计端走到芯片制造与封装环节。在芯片小型化的设计过程中,需要添加更多1/0与其他芯片芯30本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页#page#安信证券ESSENCE SECURITIE行业分析/半导体片接口,裸片尺寸必须要保持较大的空白空间。而且,要想保证Chiplet的信号传输质量就需要发展高密度、大宽带布线的先进封装技术。另外,Chiplet也影响到从EDA厂商、晶圆制造和封装公司、芯粒IP供应商、Chiplet品及系统设计公司到Fabless设计厂商的产业链各个环节的参与者。图37.UCle标准Protocollayero(FDID20iPhysic
102、allaye资料来源:Ucle,安信证系研究中心乾坤未定,Chiplet是国内芯片相关公司的重要发展机遇。(1)最先受到影响的是芯片IP设计企业,Chiplet本质就是不同的IP芯片化,国内类似IP商均有望参与其中,比如华为海思有IP甚至指令集开发实力的公司,推出基于RISC-V内核的处理器(玄铁910)阿里平头哥半导体公司,独立的第三方IP厂商,如芯动科技、芯原股份、芯耀辉、锐成芯微、芯来等众多IP公司等。(2)Chiplet需要EDA工具从架构探索、芯片设计、物理及封装实现等提供全面支持,为国内EDA企业发展带来了突破口。芯和半导体已全面支持2.5DInterposer、3DIC和Chip
103、let设计。(3)Chiplet也推动了先进封装技术的发展。根据长电科技公告,在封测技术领域取得新的突破。4nm芯片作为先进硅节点技术,是导入Chiplet封装的一部分通富微电提供晶圆级及基板级封装两种解决方案,其中晶圆级TSV技术是Chiplet技术路径的一个重要部分。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体表17:Chiplet相关公司产品产业链公司相关研发华为海思有自己的IP甚至指令集开发实力,但不对外阿里平头哥在2019年推出基于RISC-V内核的处理器(玄钱910)芯原股份基于Chiplet架构
104、所设计了高端应用处理器平台发布了自研的首泰路工艺、跨封装物理层兼容UCle国际标准的芯片IP芯动科技InnolinkChiplet解决方案。提供从0.18um到5rm全套高建混合电路IP核芯来科技RISC-V生态引领者华夏芯拥有完全自主知识产权的CPU、DSP、GPU和AI处理器IP华大九天高建接口IP芯和半导体EDA工具解决系统级高递验证酱塔和仿真大和股份掌握了2.5D、3D先进封装的关键掌握了TSV技术在封测技术领场取得新的突破,4rm工艺制程手机芯片的封装,以长电科技及CPU、GPU和射频芯片的集成封装。4mm芯片作为先进硅节点技术,也是导入Chiplet封装的一部分先进封装工艺节点方面
105、7nm产品实现量产,5rm产品完成研发。针对Chiplet,通窗微电提通富微电供品圆级及基板级封教两种解决方案,其中品圆级TSV技术是Chiplet技术路径的一个重要部分资料来源:公司官网,安信证券研究中心国外芯片厂率先发力,通过Chiplet实现收益。AMD的EPYC率先采用了Chiplet结构,实现了在服务器CPU市场上的翻身。随后,Ryzen产品上重用了EYPCRome的CCD,这样的chiplet设计极好的降低了总研发费用。2023年1月,Intel发布了采用了Chiplet技术的第四代至强可扩展处理器SapphireRapids以及英特尔数据中心GPUMax系列等。SapphireR
106、apids是Intel首个基于Chiplet设计的处理器,被称为“算力神器”。Xilinx的2011Virtex-72000T是4个裸片的Chiplet设计。Xilinx也是业界唯一的同构和异构的3DIC。2.2.4.CPO技术:提升数据中心及云计算效率,应用领域广泛GPO(Copackaged,共封装光学技术)是高速电信号能够高质量的在交换芯片和光引攀之间传输。在5G时代,计算、传输、存储的带宽要求越来越高,同时硅光技术也越来越成熟,因此板上和板间的光互连成为了一种必要的方式。随着通道数大幅增加,需要专用集成电路(ASIC)来控制多个光收发模块。传统的连接方式是Pluggable(可插拔),
107、即光引学是可插拔的光模块,通过光纤和SerDes通道与网络交换芯片(AISC)连接。之后发展出了NPO(Near-CPO是一种将交换芯片和光引擎共同装配在同一个Socketed(插槽)上的方式,形成芯片和模组的共封装,从而降低网络设备的功耗和散热问题。NPO是CPO的过渡阶段,相对容易实现,而CPO是最终解决方案。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体图38.共封装光学技术Pluggable形态网5NPO形态CPO形态资料来源:CSDN安信证券研完中心随着大数据及AI的发展,数据中心的需求激增,CPO有
108、着广泛的应用前景。在数据中心心领域,CPO技术可以实现更高的数据密度和更快的数据传输速度,还可以减少系统的功耗和空间占用,降低数据中心的能源消耗和维护成本,能够应用于高速网络交换、服务器互联和分布式存储等领域,例如,Facebook在其自研的数据中心网络FabricAggregator中采用了CPO技术,提高了网络的速度和质量。在云计算领域,CPO技术可以实现高速云计算和大规模数据处理。例如微软在其云计算平台Azure中采用了CPO技术,实现更高的数据密度和更快的数据传输速度,提高云计算的效率和性能。在5G通信领域,CPO技术可以实现更快的无线数据传输和更稳定的网络连接。例如华为在其5G通信系
109、统中采用了CPO技术,将收发器和芯片封装在同一个封装体中,从而实现了高速、高密度、低功耗的通信。除此之外,5G/6G用户的增加,人工智能、机器学习(ML)、物联网(IoT)和虚拟现实流量的延退敏感型流量激增,对光收发器的数据速率要求将快速增长;AI、WL、VR和AR对数据中心的带宽要求巨大,并且对低延退有极高的要求,未来CPO的市场规模将持续高速扩大。CPO技术壁全高,通信公司成为主要参与者,发展迅速。锐捷网络于2022年正式推出了首款应用CPO技术的数据中心心交换机,截至目前正式发布了多款同时应用硅光技术和液冷技术的交换机,散热成本对比同性能的可插拔光模块设备降低了35%。联特科技专注研发基
110、于EML(电吸收调制激器)、SIP(硅光)、TFLN(薄膜锐酸锂)调制技术的800G光模块,以及用于下一代产品NPO(近封装光学)/CPO(共封装光学)所需的高速光连接技术、激光器技术和芯片级光电混合封装技术等。新易盛的光膜块400G已广泛应用在各大数据中心,更高端的800G已实现产业化出货走在行业引领前端,且光模块已突破低功耗极限,同时布局了光电共同封装(CPO)技术,双重受益,行业需求增量大。中际旭创400G系列相千产品已逐步在国内主流设备商和互联网云厂商中得到了应用,同时也发布了800G的解决方案,部分光模块使用自家研制的硅光芯片。3.投资建议通过探讨对AI大模型的算力需求及相关行生问题
111、,我们梳理了硬件及应用端的产业链和核心技术路径,建议关注如下国内标的:GPU/AI芯片:寒式纪、海光信息、景嘉微、澜起科技(2)英伟达产业链配套:胜宏科技、和林微纳CPU:海光信息、龙芯中科、澜起科技(4)FPGA:紫光国微、复旦微电、安路科技(5)芯片IP:芯原股份、华大九天(6)服务器:浪潮信息、工业富联、中科曙光#page#安信证券ESSENCE SECURITIE行业分析/半导体(7)Chiplet等先进封装相关:通富微电、长电科技、兴森科技、深南电路、生益科技、华正新材(8)光模块:天孚通信、新易盛、中际旭创(9)AIOT:乐鑫科技、恒玄科技、炬芯科技(10)SoC:富瀚微、晶晨股份
112、、瑞芯微、全志科技、恒玄股份(11)Risk-V:兆易创新、芯原股份、国芯科技、北京君正(12)存算一体:兆易创新、恒烁股份(13)存储芯片/模组:兆易创新、佰维存储、江波龙、北京君正、聚辰股份(14)CPU/GPU等供电芯片:杰华特、晶丰明源(15)多模态下游应用:海康威视、大华股份、莹石网络、漫步者等4.风险提示4.1.技术研发不及预期的风险大语言模型涉及对高性能硬件(如GPU、TPU)、大规模高质量数据集的需求以及软件算法的提高等多方面要求。如果公司不能紧跟AI模型的技术发展趋势,及时进行技术升级选代,公司将面临市场竞争力下降的风险,公司产品和技术存在被替代的风险。4.2.应用落地不及预
113、期的风险AI大模型发展时间较短,尚处于商业化探索的早期阶段。如果公司无法研发出具有商业应用价值的AI产品,或者相关AI产品不符合市场需求、性价比超出市场承受能力,公司将面临研发投入无法获得收入回报的风险。4.3.中美贸易摩擦的风险我国AI进度和GPU芯片与国际巨头存在差距,如果未来中美贸易摩擦进一步加剧,可能会对公司供应稳定性、及时性和价格产生不利影响,进而影响公司技术选代升级和业务发展从而可能对公司生产经营和盈利能力带来潜在的不利影响。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体目行业评级体系收益评级:领先
114、大市未来6个月的投资收益率领先沪深300指数10%及以上;同步大市-未来6个月的投资收益率与沪深300指数的变动幅度相差-10%至10%:落后大市未来6个月的投资收益率落后沪深300指数10%及以上;风险评级:正常风险,未来6个月的投资收益率的波动小于等于沪深300指数波动;较高风险,未来6个月的投资收益率的波动大于沪深300指数波动品目分析师声明本报告署名分析师声明,本人具有中国证券业协会授予的证券投资咨询执业资格,勤勉尽责、诚实守信。本人对本报告的内容和观点负责,保证信息来源合法合规、研究方法专业审慎、研究观点独立公正、分析结论具有合理依据,特此声明。目本公司具备证券投资咨询业务资格的说明
115、安信证券股份有限公司(以下简称“本公司”)经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司及其投资咨询人员可以为证券投资人或客户提供证券投资分析、预测或者建议等直接或间接的有偿咨询服务。发布证券研究报告,是证券投资咨询业务的一种基本形式,本公司可以对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向本公司的客户发布。本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。#page#安信证券ESSENCE SECURITIE行业分析/半导体目免贵声明照本报告仅供安信证券股份有限公司(以下简称“本公司”)的客
116、户使用。本公司不会因为任何机构或个人接收到本报告而视其为本公司的当然客户。本报告基于已公开的资料或信息操写,但本公司不保证该等信息及资料的完整性、准确性本报告所载的信息、资料、建议及推测仅反映本公司于本报告发布当日的判断,本报告中的证券或投资标的价格、价值及投资带来的收入可能会波动。在不同时期,本公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,本公司将随时补充、更新和修订有关信息及资料,但不保证及时公开发布。同时,本公司有权对本报告所含信息在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。任何有关本报告的摘要或节选都不
117、代表本报告正式完整的观点,一切须以本公司向客户发布的本报告完整版本为准,如有需要,客户可以向本公司投资顾问进一步咨询。在法律许可的情况下,本公司及所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务,提请客户充分注意。客户不应将本报告为作出其投资决策的惟一参考因素,亦不应认为本报告可以取代客户自身的投资判断与决策。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议,无论是否已经明示或暗示,本报告不能作为道义的、责任的和法律的依据或者凭证。在任何情况下,本公司亦不对任何人因使用本报
118、告中的任何内容所引致的任何损失负任何责任本报告版权仅为本公司所有,未经事先书面许可,任何机构和个人不得以任何形式翻版、复制、发表、转发或引用本报告的任何部分。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“安信证券股份有限公司研究中心”,且不得对本报告进行任何有性原意的引用、删节和修改。本报告的估值结果和分析结论是基于所预定的假设,并采用适当的估值方法和模型得出的,由于假设、估值方法和模型均存在一定的局限性,估值结果和分析结论也存在局限性,请谨慎使用。安信证券股份有限公司对本声明条款具有惟一修改权和最终解释权。安信证券研究中心深圳市邮编:518026上海市地址:上海市虹口区东大名路638号国投大厦3层邮编:200080北京市址:北京市西城区阜成门北大街2号楼国投金融大厦15层编:100034本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。