《计算机行业算力框架报告:拥抱AI算力加速国产化时代-231219(42页).pdf》由会员分享,可在线阅读,更多相关《计算机行业算力框架报告:拥抱AI算力加速国产化时代-231219(42页).pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、算力框架报告拥抱AI算力加速国产化时代行业评级:看好2023年12月1证券研究报告分析师刘雯蜀分析师李佩京邮箱邮箱证书编号S02证书编号S01投资要点2AI算力有望实现加速国产化。我们复盘了超算、通用算力的发展历史,认为国产AI算力有望复刻发展历程,从“可用”迈向“好用”,并且在当前国际局势下,AI算力国产化进程有望加速,具体看2024年将为“客户初选适配年”,2025年将为“客户主动采购年”,2026年国产AI芯片有望成为主导。普通云计算:已从“可用”迈向“好用”,27年国产服务器市场空间千亿。我们预计2024年国产服务器CPU市场规模有望达到19
2、8亿(同比+35.6%),2027年有望达到333亿(24-27年CAGR+19%);2024年国产服务器市场规模有望达到594亿(同比+35.6%),2027年有望达到1000亿(24-27年CAGR+19%);根据Bernstein,2022年国产芯片服务器占比达到25%(ARM占15%,其余占10%);2023年下半年开始,运营商和金融客户陆续进行国产服务器大规模集采,其中Arm服务器在以运营商和银行为代表的行业信创采购大单中占比持续提升,因而我们认为未来信创服务器将呈现华为、海光为主的格局。超算:受限较早,超算云服务远期空间有望达到700亿。我国超算CPU已在8年前受限并开启了自强之路
3、,根据沙利文,2016-2021年中国超算服务市场规模CAGR为24.7%,预计2021-2025年CAGR为24.1%,2025年中国超算服务市场规模将达到466亿元,为了促进国产超算算力的上架率,2023年科技部启动了超算互联网建设工作,预计中国超算云服务市场规模远期有望达到700亿,其中630亿为企业主导,未来商用企业市场潜力巨大。智算:开始受限,国产化进程有望加速。美国从2022年开始针对我国高端AI芯片生产制造、人员、供应等多环节持续加码,我国算力新基建等支持政策不断推出,我们预计2024年国内AI算力总需求有望达到211.50EFlops,其中国产算力需求为98.24EFlops,
4、国产化比例为46.45%,对应需要昇腾910为30.70万张,市场规模307亿,AI服务器3.84万台,市场规模409.33亿。相关标的(1)算力芯片:海光信息、寒武纪、景嘉微;(2)服务器:中科曙光、浪潮信息、紫光股份、华勤技术、四川长虹、高新发展、神州数码、中国长城、烽火通信、拓维信息、广电运通、特发信息、同方股份、软通动力、卓易信息等;(3)软件生态及大模型应用:软通动力、中软国际、北路智控、能科科技、航天宏图、中科星图、超图软件等;风险提示国际形势变化、供应链安全风险、芯片设计迭代风险、竞争加剧风险、下游客户总体需求或节奏不及预期风险、政策风险等wWeWeVbWeYbUmOpPpOtN
5、mM6MaO6MtRqQpNsRiNrQmOkPtRpPaQpPzQMYsPvMNZrNrP目录C O N T E N T S从CPU到GPU,核心技术当自强010203普通计算:从“可用”到“好用”04超算:受限较早,徐徐前行智算:限制加速,国产化时点提前到来05风险提示从CPU到GPU,核心技术当自强01Partone4算力全面国产化时代已提前到来5算力是数字经济运行和发展的基石和前提。IDC发布的2021-2022全球计算力指数报告指出,算力对经济增长的拉动具有长期性和倍增效应:计算力指数平均每提高1点,数字经济和GDP将分别增长3.5和1.8,当一个国家的计算力指数达到40分、60分时
6、,计算力指数每提升1点,其对于GDP增长的推动力将分别增加1.5倍和3.0倍;算力全面国产化时代已提前到来。算力的基本载体是服务器,服务器的核心部件为CPU和类GPU等计算芯片,经过多年的技术积累和市场打磨,我国国产CPU已从“可用”进入“好用”阶段,以运营商和金融为代表的大客户正有序进行信创服务器的集采和规模化应用;随着新一轮AI算力升级的浪潮的兴起以及国际局势的迅速变化,我们认为AI算力芯片的国产化时点已提前到来。算力与经济增长模型计算力指数与GDP回归分析趋势资料来源:IDC、51CTO、清华大学全球产业研究院、浙商证券研究所国内算力产业链的三大体系在国内,算力产业链整体属于生产制造业,
7、经过多年发展,上下游厂商往往存在较为密切的股权/业务关系,可分为如下体系:中科院系以海光为核心芯片,以中科曙光及ODM为主要整机厂的x86信创服务器体系,兼容性好;华为系以鲲鹏+昇腾为核心芯片,以华为硬件生态合作伙伴(四川长虹、高新发展、宝德、超聚变、神州数码、烽火通信、拓维信息等)为主要整机厂的Arm信创服务器体系,自主可控程度更高;中电子系以飞腾为核心芯片,以中国长城为主要整机厂的Arm信创服务器体系,自主可控程度高;整体上看,我国正在逐步完善产业链和生态,以应对日趋复杂的国际局势。资料来源:亿欧智库、资产信息网、千际投行、IDC、wind、中国芯应用创新高峰论坛、企业财报公告、企业官网、
8、浙商证券研究所6体系类别关键芯片体系内主要服务器整机厂商主要下游客户主要海外竞品CPU华为鲲鹏四川长虹、高新发展、宝德、超聚变、神州数码、烽火通信、拓维信息、中国长城、广电运通、东华软件、同方股份、特发信息、百信信息运营商和金融等行业客户Intel x86服务器,主要用于非AI的运算和存储中科院海光中科曙光,紫光股份1、党政客户;2、运营商和金融等行业客户;中电子飞腾中国长城党政客户-龙芯、申威、兆芯-党政等特殊领域体系类别关键芯片体系内主要服务器整机厂商主要下游客户主要海外竞品类GPU华为昇腾四川长虹、高新发展、宝德、超聚变、神州数码、烽火通信、拓维信息、中国长城、广电运通、东华软件、同方股
9、份、特发信息、百信信息1、政府智算中心;2、大模型厂商、运营商、金融等央国企客户或受限客户;NVIDIA H100 服务器,主要用于大模型训练和推理中科院海光中科曙光1、政府算力中心;2、科研院所、央国企等;-景嘉微、寒武纪、壁仞、沐曦、燧源、天数智芯、摩尔线程等党政等特定领域CPU:从“可用”到“好用”02Partone7国产CPU技术路线正逐步趋于收敛8CPU根据架构主要分为x86及Arm,技术路线正逐步收敛于华为和海光两大体系。芯片的发展更看重能否形成更加完善的生态闭环,要求上游供应相对充足、自身性能及价格相比国外芯片具备一定的性价比、下游生态覆盖面广且最好是主流生态,综合上述因素来看,
10、未来信创及商用CPU技术路线将逐步向华为ARM体系及海光X86体系收敛。资料来源:wind、亿欧智库、政府采购网、浙商证券研究所强弱自主化程度指令集授权+自研指令集授权拥有100%源代码,按授权处理器的架构和指令集自行编写代码、设计芯片IP授权指令集体系研发单位产品劣势产品优势CPU代表产品龙芯1号龙芯2号龙芯3号鲲鹏920S2500D2000FT-2000A/2Hygon C86-7285ZX-C+系列ZX-C 系列KX-6000系列KH-30000系列国产化程度最高的MIPS架构芯片多核架构支撑算力,ARM服务器芯片中性能最佳高性能、低功耗,服务器优势显著,有内嵌安全模块高效、兼容、安全,
11、整机优势显著兼容性强,性能和应用生态上具有较强的优势仅低端服务器芯片,MIPS指令集被美国限制兼容性和生态需要进一步打造兼容性和生态需要进一步打造未来技术持续更新需要时间信创市场份额相对较小中科院计算所华为飞腾天津海光上海兆芯MIPSARMARMx86x86(VIA)2027年国产PC市场规模有望达到547亿9资料来源:公开资料整理测算、浙商证券研究所,数据存在四舍五入的情况我们预计27年国产PC市场空间有望达到547亿。根据我们信创框架报告测算,我们预计2024年国产PC CPU市场规模有望达到38亿(同比+50%),2027年有望达到87亿(24-27年CAGR+19%);2024年国产P
12、C市场规模有望达到239亿(同比+50%),2027年有望达到547亿(24-27年CAGR+32%)。国产PC及CPU市场规模(亿元、%)国产服务器市场规模测算2023E2024E2025E2026E2027E23-27合计PC CPU总存量(万颗)63046425654966476747平均每年PC CPU增量(万颗)013291349假设:当年PC CPU采购的国产化率(%)25%37%52%66%81%当年国产PC CPU出货量(万颗)310933449单价(万元/颗)0.080.080.080.080.08当年国产PC CPU市场规模(亿元
13、)25 38 54 71 87 276 yoy50%42%30%24%PC总存量(万台)63046425654966476747平均每年PC增量(万台)013291349假设:当年PC采购的国产化率(%)25%37%52%66%81%当年国产PC出货量(万台)310933449单价(万元/台)0.50.50.50.50.5当年国产PC市场规模(亿元)159 239 339 441 547 1725 yoy50%42%30%24%0%10%20%30%40%50%60%005006002023E2024E2025E2026E202
14、7E当年国产PC CPU市场规模(亿元)当年国产PC市场规模(亿元)yoy2027年国产服务器市场规模有望达到千亿10资料来源:公开资料整理测算、半导体产业纵横、Counterpoint、Bernstein、浙商证券研究所,数据存在四舍五入的情况2022年服务器芯片国产化率达到25%。按照Counterpoint,2022年全球服务器芯片市场中X86占91%、ARM占6%、其它芯片占3%;根据Bernstein,目前中国市场服务器中ARM占比约15%,其它国产CPU(龙芯、海光、兆芯、申威等)占比约10%,合计国产芯片服务器占比达到25%;我们预计27年国产服务器市场空间有望达到千亿。根据我们
15、信创框架报告测算,我们预计2024年国产服务器CPU市场规模有望达到198亿(同比+36%),2027年有望达到333亿(24-27年CAGR+19%);2024年国产服务器市场规模有望达到594亿(同比+36%),2027年有望达到1000亿(24-27年CAGR+19%)。国产服务器及CPU市场规模(亿元、%)国产服务器市场规模测算2023E2024E2025E2026E2027E23-27合计服务器CPU总存量(万颗)195919912,0242,0492,075平均每年服务器CPU增量(万颗)392398405410415假设:当年服务器CPU采购的国产化率(%)37%50%62%73
16、%80%当年国产服务器CPU出货量(万颗)13331229假设:国产CPU单价(万元/颗)11111当年国产服务器CPU市场规模(亿元)146 198 251 301 333 1229 yoy46%36%27%20%11%服务器总存量(万台)9799957平均每年服务器增量(万台)5207假设:当年PC采购的国产化率(%)37%50%62%73%80%当年国产服务器出货量(万台)73994假设:国产服务器单价(万元/台)66666当年国产服务器市场规模(亿元)43859475290210003686yoy4
17、6%36%27%20%11%0%5%10%15%20%25%30%35%40%02004006008001,0001,2002023E2024E2025E2026E2027E当年国产服务器CPU市场规模(亿元)当年国产服务器市场规模(亿元)yoy以运营商和金融为代表的行业客户已开始大规模集采国产服务器1123年下半年开始,运营商和金融客户陆续进行国产服务器大规模集采,我们预计未来能源电力、制造业、医疗、教育等行业的央国企客户信创服务器集采也有望逐步开展;供应上看,Arm服务器在以运营商和银行为代表的行业信创采购大单中占比持续提升,如中信银行65亿订单中Arm芯片服务器约占服务器采购金额的3/4
18、,我们预计未来Arm芯片服务器的份额将进一步提升。2021年x86服务器的主要下游客户构成互联网,38%政府,16%运营商,13%金融,7%制造业,6%服务,5%教育,4%交通,3%公共事业,2%其他,6%普通服务器集采情况资料来源:亿欧智库、资产信息网、千际投行、IDC、wind、中国芯应用创新高峰论坛、工商银行、中信银行、114通信网、浙商证券研究所ARM:华为鲲鹏CPU主打高性能和低功耗12资料来源:鲲鹏社区、华为海思、智东西、华为、浙商证券研究所鲲鹏920是华为自研的面向数据中心的核心CPU,主打高性能和低功耗。基于ARM v8.2架构,由华为公司自主设计完成,主频可达2.6GHz,单
19、芯片可支持64核,支持8通道DDR4、100G RoCE以太网卡,具备PCle4.0及CCIX接口,可提供640Gbps总带宽,通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计,大幅提高处理器性能,SPECint Benchmark评分超过930,超出业界标杆25%。鲲鹏CPU技术演进图鲲鹏920主打高性能和低功耗ARM:飞腾CPU可扩展性、安全性强飞腾CPU兼具高可扩展、高性能、高安全、高可靠、高能效五大核心能力。2020年7月,飞腾正式发布了新一代可扩展多路服务器芯片腾云S2500系列,采用16nm工艺,64核架构,8路直连可达512核,与上代FT-2000+相
20、比增加了4个直连接口,总带宽800Gbps,支持2路、4路和8路直连,可以形成128核到512核的计算机系统;根据芯智讯,飞腾新一代高性能处理器内核FTC870已经研发完成,并且性能达到了国际先进水平。FT870内核的主频可达3GHz,CINT2017得分为5.73672,CFP2017得分为8.42688,整体性能相对于上一代的FTC860提升了约20%,同时也超越了Arm面向服务器市场的Neoverse N1内核,达到了与Neoverse N2相当的水平,并且CFP2017的得分超过了Neoverse N2。13飞腾各系列路线图资料来源:飞腾、芯智讯、浙商证券研究所新一代”870”高性能处
21、理器核,性能追赶国际先进水平点击此处添加标题添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题添加标题飞腾腾云S系列高性能服务器CPU应用于计算和存储服务器、数据中心等飞腾腾锐D系列高效能桌面CPU应用于桌面整机、一体机、便携机等飞腾腾珑E系列高端嵌入式CPU应用于嵌入式设备信息系统、工业控制等飞腾套片X系列与腾云S、腾锐D等处理器搭配构成全国产化方案2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 FT-1500A/16FT-2000+/64
22、S2500FT-1500A/4FT-2000/4D2000D3000FT-2000A/2E2000X100S5000添加标题6.848.196.127.66088.658.426887.1110.1712.8312.1914.164.925.125.25.21525.735.736725.86086.637.497.658.1416FTC860,3GHzGraviton3(V1),2.6GHzQ80-33(N1),3.3GHzFTC861,3GHzXeon8380(Sunny Cove),4.3GHzFTC870,3GHzARM N2,3GHzEPYC7443(ZEN3)
23、,4GHZM1 Max(Firestorm),3.2GHzRyzen9 5950X(ZEN3),4.9GHzi9-12900K(Golden Cove),5.2GHzCINT2017CFP2017FTC870 相对于FTC860提升约20%FTC870单核性能超越ARM N1,和ARM N2相当X86:海光CPU兼具性能和兼容性14海光基于AMD授权的x86指令集研制CPU,兼具性能和兼容性。以海光7285为例,相关参数为32核,64个超线程,2.0GHz主频,DDR4内存,内存通道数8,最高内存频率2666MHz,PCIe通道数128;海光使用先进的处理器微结构和缓存层次结构,改进了分支预测
24、算法,使得每个时钟周期执行的指令数得到显著提高;依托先进的 SoC 架构和片上网络,集成了更多处理器核心;采用先进的工艺制程和物理设计方法,实现了处理器高主频设计,使海光 CPU 产品具有优异的产品性能,目前公司多款产品已在核心数、支持内存、内存通道数、PCIe通道数等方面处于国内前列,比肩全球主流产品;海光三号系列芯片是公司目前的主力产品。最高规格具备32核心64线程,拥有多达128条PCle4.0通道,支持内存频率提升至3200MHZ。相比上一代产品,海光三号的整体实测性能提升了约45%。在SOC设计、I/O带宽、取指单元、功能模块、防御机制等方面,海光三号均做了不同程度的优化,综合性能大
25、幅跃升。海光四号有望采用全新自研微架构,有望对标Intel最新代顶级型号处理器的性能水平。IntelAMD海光兆芯华为海思飞腾龙芯申威品牌Xeon6354EPYC7542海光7285开胜KH-30000鲲鹏920-7260S2500企业级3C5000L申威1621指令集x86x86x86x86ARMARMLoongArchSW_64核心数1616超线程366464不支持不支持不支持不支持不支持主频3.0GHz2.9GHz2.0GHz3.0GHz2.6GHz2.2GHz2.2GHz2.0GHz内存类型DDR4DDR4DDR4DDR4DDR4DDR4DDR4DDR3内存通道数
26、88828848最高内存频率3200MHz3200MHz2666MHz2666 MHz2933MHz3200MHz3200MHz2133MHzPCIe通道数6473216产品定位服务器CPU 服务器CPU 服务器CPU 服务器CPU 服务器CPU 服务器CPU 服务器CPU 服务器CPU海光7285性能参数对比各主流CPU性能参数对比资料来源:海光招股书、公司公告、证券时报、新浪财经、浙商证券研究所产品名称发布时间4路测试结果双路测试结果性能差异 (Intel 数据/海光数据-1)Speccpu_INTSpeccpu_FP Speccpu_INTSpeccpu_FP Sp
27、eccpu_INTSpeccpu_FP Intel8380HL(铂金)2020年第二季度78465739232912.64%6.66%Intel8380H(铂金)2020年第二季度78465339232712.64%6.01%Intel8376HL(铂金)2020年第二季度7656413833219.91%4.06%Intel8376H(铂金)2020年第二季度7566433783228.62%4.38%海光72852020年第一季度-348308-Intel8360HL(铂金)2020年第三季度690599345300-0.86%-2.76%Intel8360H(铂金)2020年第三季度68
28、8597344299-1.15%-3.09%LoongArch:龙芯3A6000性能比肩第10代酷睿i3处理器LoongArch龙架构为完全自主设计,与国际主流处理器的设计差距已补齐。第四代微架构LA664突破了国际主流CPU的标配同时多线程(SMT)技术,全面提升了各项指标,首次将4发射提升到6发射,同时在ROB、定点/向量物理寄存器、发射队列、功能部件、载入/存储队列等各项指标上,都实现了50到100的提升,基本补齐了与当今主流处理器在通用处理能力、单核性能、设计能力的差距;3A6000性能与2020年10代酷睿i3-10100处理器相当。首款产品龙芯3A6000采用自主成熟工艺制造,4个
29、物理核心,支持同时多线程技术(SMT2),因此有8个逻辑核心,主频为2.5GHz,集成安全可信模块,可提供安全启动方案和国密(SM2、SM3、SM4等)应用支持;根据芯智讯,龙芯3A6000处理器总体性能与Intel 2020年上市的第10代酷睿i3-10100四核处理器基本相当,下一步争取使用成熟工艺达到英特尔、AMD 先进工艺 CPU 的性能;龙架构开放授权,打造国际第四大开源生态。在国外,龙架构获得了国际开源生态编号258,与x86、Arm、RISC-V处于等同的地位,得到了Linux系统内核、GCC/LLVM两大支柱性编译器、Rust/Golang/Pascal等传统与新兴编程语言、N
30、odejs/.net等主流应用开发框架等开源社区、开源软件的快速支持;在国内,首批面向微控制器、嵌入式、终端的龙芯CPU IP核已开放授权,国产操作系统及国内基础应用已支持龙架构,可以满足基本的办公、娱乐需求。15各主流CPU性能参数对比各主流CPU性能参数对比资料来源:龙芯中科、硬件世界、浙商证券研究所超算:受限较早,徐徐前行03Partone16超级计算用于处理极端复杂或数据密集型问题17资料来源:常金凤,李宁东,江畅.我国超算产业发展研究J.信息通信技术与政策,2022,48(3):64-68.、头豹研究院、浙商证券研究所超算产业范围超级计算,又称高性能计算(HPC),是计算科学的重要前
31、沿分支,指利用并行工作的多台计算机系统(即超级计算机)的集中式计算资源,处理极端复杂或数据密集型问题,与智算相比,超算要求双精度计算(FP64),而智算一般要求单精度、半精度计算(FP32、16、8);超算产业呈现典型的政策性特征。由于超算芯片所需技术难度较大,同时下游应用一般以前沿基础科学研究等非商业化需求为主,因而主要参与者为央国企、科研院所等单位,整体产业链发展呈现一定的政策周期性。超算芯片受限较早,我国超算在政策加持下已进入互联阶段18资料来源:前瞻产业研究院、华经产业研究院、路透社、中国新闻网、各地政府官网等、浙商证券研究所超算CPU已在8年前受限。早在2015年4月,美国商务部就拒
32、绝Intel向中国的国家超算广州中心、长沙中心、天津中心和国防科大出售“至强”芯片用于天河二号系统升级的申请,并将这4所中国机构列入出口管制名单;后续美国不断加紧对我国超算相关单位的限制,如2019年6月美国商务部依据进出口管理条例对中国超算三巨头中的“神威”和“曙光”实施制裁,将与此两者相关的5家中国企业列入“实体清单”,禁止向其提供美国技术及元器件;我国自受限后就开启了自强之路。2016年“十三五”国家科技创新规划明确提出要突破超级计算机中央处理器(CPU)架构设计技术,而后2021年的十四五规划明确提出建设E级和10E级超级计算中心,目前为了促进国产超算算力的上架率,科技部启动了超算互联
33、网建设工作,目标建成一体化超算算力网络和服务平台,实现算力资源的统筹调度。时间政策文件政策内容2013年上海张江国家自主创新示范区发展规划纲要(2013-2020年)加强科技基础设施建设,支持在示范区内建设和完善超级计算中心、生物样本库、化合物样本库等科技基础设施。2016年国家创新驱动发展战略纲要建设超算中心和云计算平台等数字化基础设施,形成基于大数据的先进信息网络支撑体系。2016年“十三五”国家科技创新规划突破超级计算机中央处理器(CPU)架构设计技术,提升服务器及桌面计算机 CPU、操作系统和数据库、办公软件等的功能、效能和可靠性,攻克智能终端嵌入式 CPU 和操作系统的高性能低功耗等
34、核心关键技术。2017年新一代人工智能发展规划建立人工智能超级计算中心、大规模超级智能计算支撑环境、在线智能教育平台人在回路”驾驶脑、产业发展复杂性分析与风险评估的智能平台2019年交通强国建设纲要推动大教据、互联网、人工智能、区块链、超级计算等新技术与交通行业深度融合2020年发改委首次明确新型基础设施的范围首次明确了新型基础设施的内涵和范围,提出“新基建”主要包括信息基础设施(5G、物联网、人工智能、数据中心等)融合基础设施(智能交通基础设施、智慧能源基础设施等)和创新基础设施(重大科技基础设施、科教基础设施、产业技术创新基础施等)2020年关于加快新型信息基础设施建设扩大信息消费的若干政
35、策措施加快新型信息基础设施建设,加快新一代数据中心布局方面,新建、扩建符合国标A级或T4建设标准的超算中心、大数据中心、云计算中心项目2021年国民经济和社会发展“十四五”和2035年远景目标纲要加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和10E级超级计算中心。聚焦高端芯片、人工智能关键算法等关键领域,加强通用处理器、云计算系统和软件核心技术一体化研发。2021年新型数据中心发展三年行动计划(2021-2023年)到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上,总算力超过200EFlops
36、,高性能算力占比达到10%。加快高性能、智能计算中心部署,推动CPU、GPU等异构算力提升。2021年“十四五”大数据产业规划加快构建全国一体化大数据中心体系,推进国家工业互联网大数据中心建设,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设高性能计算机集群,合理部署超级计算中心。2023年科技部启动国家超算互联网部署工作国家超算互联网将突破现有的单体超算中心运营模式,将全国众多的超算中心连接起来,构建一体化算力服务平台。添加标题中国超算算力总和2020年已达566PFlops19资料来源:国际TOP500组织、头豹、沙利文研究、浙商证券研究所;注:以上算力数据根据国际TOP5
37、00组织全球超级计算机500强榜单统计,2020年起,中国停止向该委员会提交最新超算系统信息722022822620%10%20%30%40%50%0500中国制造超级计算机数量(台,左轴)在全球TOP500占比(右轴)234.7298.9354.5438.2466.9531.8565.6566.6541.3530.1530.20%5%10%15%20%25%30%35%40%00500600中国超算算力Rmax(PFlops,实测峰值,左轴)占全球TOP500份额(右轴)全球超级计算机500强榜单中中国制
38、造的数量及占比(台、%)中国超级计算机算力总和及在全球占比(PFlops、%)在全球Top500榜单中,中国供应商制造超级计算机数量连续9次市场份额位居全球第一。2018年底-2020年中,全球Top500榜单中,中国超算上榜数量占比约为45%。2017-2019年,中国供应商制造超级计算机算力总和在全球Top500超算算力总和占比约为三成,低于数量占比。2020年起,中国停止向TOP500组织提交最新超算系统信息,故此后数量和算力占比均有所下滑。预计2025年中国超算市场规模达到466亿元20全球来看,据头豹研究院预计,以供应商HPC市场收入为口径进行市场规模测算,2017-2021年全球超
39、算市场规模CAGR为12.2%,预计2021-2026年CAGR为6.1%,2026年超算HPC市场规模将达到395.3亿美元;中国来看,根据沙利文研究测算,2016-2021年中国超算服务市场规模CAGR为24.7%,预计2021-2025年CAGR为24.1%,2025年中国超算服务市场规模将达到466亿元。2016-2025E中国超算服务市场规模(亿元、%)16-21年CAGR=24.7%21-25E CAGR=24.1%65.1 82.1 101.2 125.5 157.4 196.6 244.8 303.9 376.6 466.0 0%5%10%15%20%25%30%0501001
40、50200250300350400450500200022E 2023E 2024E 2025E市场规模(亿元,左轴)YOY(右轴)2017-2026E全球超算市场规模(亿美元、%)资料来源:头豹、沙利文研究、浙商证券研究所体系名称地址运营状态算力业务主机共建单位应用领域备注中科院体系深圳中心深圳市南山区笃学路9号2009年获批,2010年9月开始运营理论峰值为3PFlops;二期规划达到2EFlops曙光6000“星云”中科院计算所、深圳市政府等-架构:X86投资额:12.3亿元成都中心四川省成都市天府新区科学城鹿溪智谷核心区2020年9月按照30
41、0P峰值性能进行总体规划,一期完成建设峰值性能170P曙光7000“硅立方”-航空航天、电子信息、生物医药、装备制造、先进材料、能源化工等架构:X86投资额:约25亿元昆山中心江苏省昆山市玉山镇研晖路89号2020年12月双精度峰值300PFlops的通用超算算力曙光6000“星云”-人工智能、生物医药、物理化学材料、大气海洋环境等前沿科学领域架构:X86投资额:20多亿元太原先进计算中心-2021年3月29日动工,10月20日通电试运行,2022年3月31日通过科技部验收,4月18日正式纳入国家序列管理300PFlops曙光“太行1号”-信息、海洋、安全、新能源、新材料、生命健康等研制/承建
42、单位:云时代、山西大学西安中心陕西省西安市航天基地航创路与航天东路十字西南角2020年8月批准成立,截至2023年4月底,一期项目已完成,二期项目建设进度86.5%以上峰值算力180PFlops(二期建设计划2023年12月底前建成投用,算力300P)曙光-先进制造、生物医药、新材料、新能源、人工智能等-郑州中心河南省郑州市郑州高新技术产业开发区长椿路与枫杨街交叉口东南角2019年4月获批,2020年11月通过科技部验收并纳入国家超算序列管理理论峰值算力100PFlops曙光“嵩山”河南省科技厅、郑州大学数字经济、社会管理、精准医学、生物育种、环境治理、高端装备、人工智能、国土资源管理等-国防
43、科大体系天津中心天津经济技术开发区第六大街与北海路交口滨海外包产业园5号楼2009年5月批准-天河一号(TH-IA)、天河三号(TH3)原型机国防科大、天津滨海新区政府、天津经济技术开发区管委会-研制/承建单位:国防科大长沙中心湖南省长沙市岳麓区山南路252号湖南大学南校区2014年11月通用算力200PFlops(FP64)、人工智能算力1000POps(FP16)“天河一号”(TH-1HN)湖南省政府(资金、统筹)、湖南大学(运营管理)、国防科大(技术支撑)-广州中心广东省广州大学城中山大学东校区2014年1月一期峰值100PFlops“天河二号”广东省人民政府、广州市人民政府、国防科大、
44、中山大学-江南计算所体系济南中心山东省济南市超算科技园创建于2011年,2018年建成E级计算原型机,2019-2022年在建百亿亿次超算平台等-神威蓝光山东省科学院、山东省计算中心-研制/承建单位:国家并行计算机工程技术研究中心无锡中心江苏省无锡市蠡园经济开发区2016年6月峰值运算速度12.54亿亿次/秒(125.436PFlops)神威 太湖之光清华大学(管理运维)、无锡市-处理器:国家高性能集成电路设计中心自主研制的“申威26010”众核处理器架构:基于Linux系统优化而成的神威睿思系统投资方:科技部、江苏省、无锡市研制/承建单位:国家并行计算机工程技术研究中心全国有11家国家级超算
45、中心,中科院体系占比过半21资料来源:各国家超算中心官网,各地政府官方网站,人民网、新浪网等媒体,企查查,浙商证券研究所由于超算与国家前沿基础科学研究的需求紧密相关,因此我国国家级超算中心基本可分为中科院、国防科大和江南计算所三大体系,从数量上看,中科院体系份额超过50%;超算上云是必经之路,超算云服务市场规模有望达到700亿22国家超算互联网分为基础算力层、运行管理层、服务运营商三层参与者。由超算中心提供基础算力,运行管理者负责管理资源并实现接口调用,服务运营商作为超算服务运营主体,未来还可以建设类似应用商店的超算应用软件平台,目标是到2025年底,通过超算互联网建设,打造国家算力底座,促进
46、超算算力的一体化运营;超算服务需要大量同时熟悉超算技术和行业科研思维的复合型人才,互联有利于资源的有效配置。由于超算涉及领域广泛且细碎,如海洋气象、地质勘探、工业仿真、富媒体渲染等超算服务场景对超算服务的要求不尽相同,包括超算资源的调度、软件系统的搭配等均不一,因而只有服务商对各个典型使用场景有着深刻的理解,才能设计出符合下游用户使用习惯的产品服务矩阵,各国家级超算中心人才专长领域不同,超算互联和上云有利于实现人才、资源的合理配置,促进超算行业的商业化发展;中国超算云服务市场规模远期有望达到700亿。根据沙利文,按照实验室数量*超算云服务渗透率*年消费额的公式测算,预计中国超算云服务市场规模远
47、期有望达到700亿,其中630亿为企业主导,未来商用企业市场潜力巨大。国家超算互联网平台架构图中国超算云服务市场规模远期有望达到700亿资料来源:国家超算互联网官网、沙利文,浙商证券研究所智算:限制加速,国产化时点提前到来04Partone23美国加大AI芯片管制措施,AI算力国产化时点已提前到来24资料来源:金杜律师事务所、美国政府官网、英伟达等、浙商证券研究所拜登政府上台以来,通过联盟的方式对华半导体产业形成多边管制的态势逐渐明晰,近期出台了先进计算芯片规则(AC/S IFR)、扩大半导体制造项目出口管制暂行最终规则(SME IFR)以及增加了BIS“实体清单”,以对芯片设计、代工、生产设
48、备、芯片供应、人员等多环节进行限制,我们认为充沛的算力是AI大模型成功实现商业化落地的前提,AI算力的国产化时点已提前到来。设计领域设备领域制造领域原材料领域 2019年5月,美国商务部BIS将华为及其非美国附属70家公司纳入出口管制“实体清单”。随后,英国芯片设计公司ARM暂停与华为的业务。2019年华为被美国BIS列入实体清单后,美国三大EDA软件厂商Synopsys、Cadence、Mentor继按照美国商务部的要求暂停了对华为的授权和更新。2022年8月,美国BIS通过发布临时规则对用于GAAFET集成电路开发的EDA软件进行出口管制。2023年10月17日生效的BIS“实体清单”新增
49、壁仞、摩尔线程、光线云、超燃半导体等13家芯片研发实体,代工、用美国技术生产的海外产品等或将受限 2019年5月,美国商务部BIS将华为及其非美国附属70家公司纳入出口管制“实体清单”。随后,英国芯片设计公司ARM暂停与华为的业务。2019年华为被美国BIS列入实体清单后,美国三大EDA软件厂商Synopsys、Cadence、Mentor继按照美国商务部的要求暂停了对华为的授权和更新。2022年8月,美国BIS通过发布临时规则对用于GAAFET集成电路开发的EDA软件进行出口管制。2022年7月,美国游说荷兰停止向中国出口ASML公司的先进产品。2022年7月,美国两家芯片设备公司LamRe
50、search和KLA收到美国商务部的通知,禁止出口14纳米以下制程制造设备到中国大陆。2023年10月,扩大半导体制造项目出口管制暂行最终规则(SME IFR)增加了对其他类型的半导体制造设备的限制。2020年5月,美国BIS宣布限制华为使用美国特定技术和软件在国外设计和制造半导体的能力。2021年11月,英特尔中国工厂扩产计划被拜登政府以危及“国家安全”的理由拒绝。2022年8月美国总统拜登签署芯片法案,禁止受益企业自接受资助之日起10年内在中国增产先进制程半导体。2023年10月,扩大半导体制造项目出口管制暂行最终规则(SME IFR)要求晶圆厂为最终实体为中国内地或者中国澳门在内的客户生
51、产晶体管数量超过50 billion或采用HBM的芯片时需要经过美国EAR认可。美国限制向中国出口芯片制造原材料主要包括:复合半导体晶圆、极紫外掩膜、光刻胶、半导体金刚石材料、刻蚀气体和掺杂物。销售和出口 2022年8月,美国政府禁止AMD和NVIDIA向中国出口高端GPU芯片。将于2023年11月16日生效的先进计算芯片规则(AC/S IFR)新增了总处理性能TPP和性能密度PD限制,英伟达表示A800、H800、L40s、L40、RTX 4090可能会受到影响;智算算力新基建顶层规划已出,各地政策有望逐步跟进25资料来源:工信微报、各地政府官网、IDC圈等、浙商证券研究所算力基础设施高质量
52、发展行动计划从全局对全国智算算力进行了顶层规划,并强调网络联通,以往各自为政的局面有望得到统一,使用国产芯片建设的智算中心上架率有望提升。10月9日,工信部等六部门联合印发算力基础设施高质量发展行动计划(以下简称“行动计划”),明确提出了到2025年全国算力目标规模超过300EFlops,智能算力占比达到35%,重点应用场所光传送网(OTN)覆盖率达到80%,工业、金融等领域算力渗透率显著提升,医疗、交通等领域应用实现规模化复制推广,能源、教育等领域应用范围进一步扩大;“行动计划”从顶层明确了未来三年全国智算算力的建设目标及节奏,解决了各地智算中心建设节奏、标准不统一、各自为政的情况,可以从全
53、国层面实现智算算力的混合调用,也将有利于提升国产智算算力上架率。算力基础设施高质量发展行动计划主要内容今年各地智算算力相关政策文件省市时间政策名称北京5月25日关于征集2023年度“中央引导地方”专项人工智能领域储备课题的通知5月30日北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)、北京市促进通用人工智能创新发展的若干措施6月13日用人工智能创新发展的若干措施北京市机器人产业创新发展行动方案(2023-2025年)10月11日人工智能算力券实施方案(20232025年)成都6月5日成都市关于进一步促进人工智能产业高质量发展的若千政策措施(征求意见稿)福建7月1
54、2日福建省新型基础设施建设三年行动计划(2023-2025年)杭州7月27日杭州市人民政府办公厅关于加快推进人工智能产业创新发展的实施意见8月16日关于高标准建设“中国视谷”高质量发展视觉智能产业的实施意见江苏1月19日关于进一步促进集成电路产业高质量发展若干政策的通知南京2月23日南京市加快发展新一代人工智能产业行动计划(2023-2025)宁夏8月13日促进人工智能创新发展政策措施上海7月8日上海市推动人工智能大模型创新发展的若干措施10月19日上海市进一步推进新型基础设施建设行动方案(2023-2026年)深圳5月31日深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-202
55、4年)四川7月3日关于深入推进新型工业化加快建设现代化产业体系的决定8月21日四川省元宇宙产业发展行动计划(2023-2025年)(征求意见稿)无锡6月14日无锡市人工智能产业创新发展三年行动计划(2023-2025)重庆7月24日重庆市以场景驱动人工智能产业高质量发展行动计划(2023-2025年)2024年国产AI算力需求有望接近100EFlops26考虑到我国国产AI芯片供应商的产能供应、生态适配、综合性价比等情况,国内AI芯片与英伟达H100芯片相比仍有一定差距,因此我们认为政策性客户有望逐步全面转向国产AI芯片,商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产AI芯片,
56、2024年我国国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,根据我们的测算,按8卡昇腾910 AI服务器计算,2024年预计昇腾910出货量为30.7万张,对应3.84万台AI服务器。资料来源:根据公开资料整理测算,存在四舍五入情况,计算过程请见后几页,浙商证券研究所;注:根据华为认证公众号,昇腾910在FP16下算力为320T、INT8下算力为640T2024年新增总算力需求(EFlops)国产化比例(%)国产算力需求(EFlops)单卡算力(Tflops)卡数(万)假设单台AI服务器卡数(张)AI服务器台数(万)政府智算中心(FP16)23.00 100
57、%23.00 3207.19 80.90 运营商(FP16)43.63 80%34.90 32010.91 81.36 金融(FP16)10.69 60%6.41 3202.00 80.25 第三方大模型厂商-训练(FP16)79.37 25%19.84 3206.20 80.78 互联网厂商-百亿训练(FP16)49.60 20%9.92 3203.10 80.39 互联网厂商-百亿推理(INT8)10.42 80%8.33 640 1.30 80.16 合计211.5098.2430.70 3.84 2024年国产AI算力需求有望接近100EFlops271、2024年政府智算中心国产AI
58、算力增量需求为23EP,需要7.19万张昇腾910卡,0.90万台AI训练服务器根据信通院发布的2023智能算力发展白皮书,2022年中国算力总规模已经高达180 EFlops,其中智能算力规模达到了41EFlops;工信部发布的算力基础设施高质量发展行动计划设定到2025年全国算力目标规模超过300EFlops,智能算力占比达到35%,由此我们可得到2024年智算算力缺口为260*30%-220*25%=23EFlops,考虑到智算中心建设为政府行为,因此我们认为国产芯片供应占比将达到100%,即2024年政府智算中心国产AI算力需求为23EFlops,对应需要昇腾910卡7.19万张,AI
59、训练服务器0.90万台。资料来源:信通院、工信微报、华为、浙商证券研究所指标20222023E2024E2025E目标算力规模(EFlops)180 220 260 300 目标智算算力占比23%25%30%35%目标智算算力规模(EFlops)41 55 78 105 智算算力缺口(EFlops)14 23 27 国产化比例100%100%100%国产智算算力规模(EFlops)14 23 27 yoy65%17%单卡算力(Tflops)320320320卡数(万)4.36 7.19 8.44 假设单台AI训练服务器卡数(张)888台数(万)0.55 0.90 1.05 2024年国产AI算
60、力需求有望接近100EFlops282、2024年运营商国产AI算力增量需求为34.90EFlops,需要10.91万张昇腾910卡,1.36万台AI训练服务器据C114通信网,中国电信AI算力服务器(2023-2024年)集中采购项目共分为4个标包,总金额为84.62亿,总采购规模为4175台训练型服务器(根据芯智讯,使用国产鲲鹏芯片的AI服务器1977台,占整体采购数量的47.35%,总金额28亿)及1182台IB交换机,在当前背景下,我们认为:1)运营商将与云计算时代类似,部分承担地方算力基建任务,并提供智算算网服务;2)移动、联通、电信三大运营商招采节奏相近,算力服务器采购数量与202
61、3年各家算力网络Capex比例一致;3)运营商将作为信创排头兵承担AI算力信创任务,国产化率有望达到80%;由此可得到2024年运营商增量国产AI算力需求为34.90EFlops,需要10.91万张昇腾910卡,1.36万台AI训练服务器。资料来源:中国电信、芯智讯、C114通信网、华为、浙商证券研究所科目数据来源&测算过程电信集采AI训练服务器台数(台)4175中国电信AI算力服务器(2023-2024年)集中采购项目其中国产服务器台数(台)1977预计2024年运营商集采AI训练服务器总台数(台)17,042.56 根据114通信网,2023年,中国电信算力(云资源)将投资195亿元,中国
62、移动计划算力投资452亿元,中国联通算力网络资本开支将达到149亿元,我们假设三大运营商在AI算力上的投资比例与算力整体Capex一致,则合计AI训练服务器集采数量为4175/195*(195+452+149)=17042.56昇腾910单卡算力(TFLOPS)320昇腾910基于自研华为达芬奇架构3D Cube技术,半精度(FP16)算力达到320TFLOPS假设单台AI服务器卡数(张)8单台AI服务器算力(PFLOPS)2.56320*8/1002024年新增总算力需求(EFlops)43.63 17042.56*2.56预计国产化率80%2024年国产算力增量(EFlops)34.90
63、43.63*80%所需卡数(万)10.91 34.90*106/104预计国产AI训练服务器台数(台)1.36 10.91/82024年国产AI算力需求有望接近100EFlops293、2024年金融等行业客户国产AI算力增量需求为6.41EFlops,需要2万张昇腾910卡,0.25万台AI训练服务器我们认为运营商客户需要部分额外负担地方智算中心的基建职责,金融客户智算中心则主要为自身业务使用,因而预计金融客户服务器需求小于运营商客户,即6家国有银行及12家股份制银行等行业客户的AI服务器采购规模为4175台,假设国产化率60%,则可得到国产AI服务器需求为1670台,对应算力规模为6.41
64、EFlops,需要2万张昇腾910卡,0.25万台AI训练服务器。资料来源:中国电信、芯智讯、114通信网、华为、浙商证券研究所科目数据来源&测算过程电信集采AI训练服务器台数(台)4175中国电信AI算力服务器(2023-2024年)集中采购项目其中国产服务器台数(台)1977预计2024年银行等行业客户集采AI训练服务器总台数(台)4175金融客户智算中心则主要为自身业务使用,因而预计金融客户服务器需求小于运营商客户昇腾910单卡算力(TFLOPS)320昇腾910基于自研华为达芬奇架构3D Cube技术,半精度(FP16)算力达到320TFLOPS假设单台AI服务器卡数(张)8单台AI服
65、务器算力(PFLOPS)2.56320*8/1002024年新增总算力需求(EFlops)10.694175*2.56/1000预计国产化率60%2024年国产算力增量(EFlops)6.4110.69*60%所需卡数(万)2.006.41*106/104预计国产AI训练服务器台数(台)0.252.00/82024年国产AI算力需求有望接近100EFlops304、2024年第三方大模型厂商的国产AI算力增量需求为19.84EFlops,需要6.20万张昇腾910卡,0.78万台AI训练服务器2023-2024年中国人工智能计算力发展评估报告显示,截至2023年10月中国累计发布两百余个大模型
66、,其中以科研院所和互联网企业为开发主力军,我们认为院所以及讯飞、智谱、智源等第三方大模型厂商或由于算力供应受限,可能会由国内芯片解决部分算力需求,假设2024年新增大模型总数为50个,平均模型参数量为200亿,算力国产化率为25%,则可得到2024年第三方大模型厂商的国产AI算力增量需求为19.84EFlops,需要6.20万张昇腾910卡,0.78万台AI训练服务器.资料来源:2023-2024年中国人工智能计算力发展评估报告、华为、The Economics of Large Language Models、浙商证券研究所参数数据处理过程假设新增大模型数量502023-2024年中国人工智
67、能计算力发展评估报告显示,截至2023年10月中国累计发布两百余个大模型假设新增大模型的平均参数数量(亿个,N)200训练Tokens数量(亿个)342.86 Language Models are Few-Shot Learners论文显示,GPT-3参数为175B,训练使用300B tokens,因此假设参数量与tokens比例固定单个模型单Token训练所需运算次数(TFLOPS,6N)0.12(每个token在模型正向传播和反向传播的时候所需的乘法、加法计算次数)*(平均参数数量)单模型所需算力(PFLOPS)4,114,285.71 342.86*0.12108/1000假设单次训练
68、所需时间(天)30假设30天完成训练训练算力需求(EFlops)79.3750*4,114,285.71/30/24/3600假设国产算力占比25%国产算力需求(EFlops)19.84 79.37*25%所需卡数(万)6.20 19.84*1000/0.32/1000预计国产AI训练服务器台数(台)0.78 6.20/82024年国产AI算力需求有望接近100EFlops315、互联网厂商需要国产算力分别为9.92EFlops(FP16)、8.33EFlops(INT8),合计需要4.4万张昇腾910卡,0.55万台AI服务器美国芯片禁令限制了国内通过官方渠道获取A800、H800等主流GP
69、U的方式,目前阿里云官网已下架英伟达A系列服务器云计算产品、百度为200台服务器订购了1600片昇腾910BAI芯片,因而我们预计互联网厂商在算力选择上将呈现如下情况:1)百亿模型推理率先实现国产替代,通过工程师团队持续调优来实现学习和提升迁移能力以及运算性能,最终等效于A800;2)百亿模型训练在2024年逐步实现国产替代;3)千亿模型推理、训练仍以英伟达芯片为主,后续预算根据各个芯片的实际性价比进行考虑,关键因素包括硬件成本+人员成本+实际性能;我们假设2024年在百亿参数模型上将实现20%的训练需求国产化以及80%的推理需求国产化,则可算得需要国产算力分别为9.92EFlops、8.33
70、EFlops,合计需要4.4万张昇腾910卡,0.55万台AI服务器。资料来源:华为、The Economics of Large Language Models、浙商证券研究所参数数据处理过程训练需求假设大模型数量52023-2024年中国人工智能计算力发展评估报告显示,截至2023年10月中国累计发布两百余个大模型平均参数数量(亿个,N)500假设参数量100亿训练Tokens数量(亿个)857.14 Language Models are Few-Shot Learners论文显示,GPT-3参数为175B,训练使用300B tokens,因此假设参数量与tokens比例固定单个模型单T
71、oken训练所需运算次数(TFLOPS,6N)0.3(每个token在模型正向传播和反向传播的时候所需的乘法、加法计算次数)*(平均参数数量)单模型所需算力(PFLOPS)25,714,285.71 1028580假设单次训练所需时间(天)30假设30天完成训练训练算力需求(EFlops)49.60200*1028571.43/30/24/3600 国产算力占比20%假设国产算力占比20%国产算力需求(EFlops)9.9279.37*20%所需卡数(万)3.10 9.92*1000/0.32/10000预计国产AI服务器台数(台)0.39 3.10/8推理需求假设大模型数量5选取前5家互联网
72、厂商的推理需求进行计算平均参数数量(亿个,N)500假设平均每家大模型参数量1.5万亿每天访问次数(亿次)0.02根据similarweb,Chatgpt每周全球最大访问量接近5000万,平均每天714万,考虑到我国大模型主要针对国内客户群体,因此假设平均国内大模型应用每天访问量为200万每次访问查询次数(次)15大模型应用一般具备多轮查询能力,假设平均每次访问互动15次每次查询Tokens数量(个)1,000假设每次互动Tokens数量为1000单Tokens所需计算次数(TFlops-s,2N)3推理所需计算成本比训练低,大约为2N每次访问每次查询所需计算次数(TFlops-s)3,000
73、3*1000每天累计计算次数(EFlops-s)90,0000.02*108*15*3000/1000/1000平均每秒所需算力(EFlops)1.0490000/24/3600 算力冗余倍数2推理算力需要具备一定的冗余来应对算力响应波峰,因此假设算力储备为算力需求的2倍所需推理算力(EFlops)10.421.04*2*5国产算力占比80%假设国产算力占比20%国产算力需求(EFlops)8.3379.37*20%所需卡数(万)1.30 8.33*1000/0.64/10000预计国产AI服务器台数(台)0.16 1.30/82024年国产AI服务器市场规模有望达到409亿32综上,我们预计
74、2024年国内新增AI总算力需求为211.5EFlops(FP16),其中国产算力需求为98.24EFlops(FP16),国产化比例为46.45%,按单张昇腾910算力320TFLOPS计算,对应需要昇腾910为30.70万张,按单台服务器8张昇腾910计算对应3.84万台AI服务器;根据京东,昇腾Atlas 300T A2训练卡均价在10万以上,因此可得2024年昇腾芯片潜在市场规模约为=30.7*10=307亿;根据IDC,训练型服务器的GPU成本占比约为72.8%,我们假设8张昇腾Atlas 300T A2的训练服务器中GPU占比75%,由此可得2024年华为昇腾服务器潜在市场规模为4
75、09.33亿。资料来源:京东、IDC、智研咨询、浙商证券研究所国产AI芯片单卡部分指标接近英伟达,华为、海光具备竞争力资料来源:各公司官网、算力智库、海光信息招股书、浙商证券研究所33运算协处理器基于不同的设计思想存在多条技术路线,包括 GPGPU、ASIC、FPGA等。其中 GPGPU 的代表企业包括 NVIDIA 和 AMD;利用 ASIC 技术,许多大公司都研发了协处理器产品,包括 Intel 的 Phi 和 NNP、Google 的 TPU、华为昇腾、寒武纪思元等;基于 Intel、Xilinx 的 FPGA,出现过很多专用协处理器产品。综合考虑性能、能效比和编程灵活性等方面的因素,G
76、PGPU 在协处理器应用领域具有非常明显的优势,目前广泛应用于商业计算、人工智能和泛人工智能等领域。国产AI芯片供应商基本可分为体系化厂商(华为、海光、寒武纪等)、互联网自研(平头哥等)、初创厂商(壁仞、沐曦、燧源、摩尔线程)三类,体系化厂商具备相对完善的生态、丰富的行业应用经验、大量的客户积累以及相对稳定的供应体系,因为AI算力的底层硬件需求相对比较统一和标准化,所以我们认为未来AI芯片有望类似CPU芯片,呈现集中度提升的趋势,最终形成寡头竞争的格局。0%20%40%60%80%100%120%2008Q12008Q22008Q32008Q42009Q12009Q22009Q32009Q42
77、010Q12010Q22010Q32010Q42011Q12011Q22011Q32011Q42012Q12012Q22012Q32012Q42013Q12013Q22013Q32013Q42014Q12014Q22014Q32014Q42015Q12015Q22015Q32015Q42016Q12016Q22016Q32016Q42017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22
78、022Q32022Q42023Q12023Q22023Q32023Q4IntelAMD服务器领域Intel和AMD市场份额华为昇腾已形成完善的多层产业生态34资料来源:昇腾社区、浙商证券研究所华为昇腾AI产业生态昇腾计算产业:基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(Compute Architecture for Neural Networks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。华为昇腾AI产业生态包括昇腾AI基础软硬件平台,即Atla
79、s系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。基于昇腾910系列板卡,华为推出了AI训练集群Atlas900、AI训练服务器Atlas800、智能小站Atlas500、AI推理与训练卡Atlas300和AI加速模块Atlas200,完成了Atlas全系列产品布局,支持万亿参数大模型训练,同时覆盖云、边、端全场景。华为提出了具备分层开放、体系协同、敏捷高效、安全可信等特征的,全行业通用的行业智能化参考架构。其中智能底座提供大规模AI算力、海量存储及并行计算框架,支撑大模型训练,提升训练效率,提供高性能的存算网
80、协同。根据场景需求不同,提供系列化的算力能力。适应不同场景,提供系列化、分层、友好的开放能力。另外,智能底座层还包含品类多样的边缘计算设备,支撑边缘推理和数据分析等业务场景。华为行业智能化参考架构华为昇腾从推理卡到算力集群的多层AI算力硬件体系35Atlas 900 AI集群Atlas 900 PoDAtlas 800 训练服务器Atlas 800 训练服务器Atlas 800 推理服务器Atlas 800 推理服务器Atlas 300T 训练卡Atlas 300I 推理卡型号900090009000900003000/3010图示形态-47U机柜4U服务器4U服务器2U
81、服务器2U服务器全高,3/4长,双槽位半高半长PCIe卡CPU-32*鲲鹏9204*鲲鹏9202*Intel V5 Cascaded Lake处理器2*鲲鹏9201/2个Intel Xeon SP Skylake 或 Cascade Lake处理器,最高205W-AI处理器数千颗昇腾910 AI处理器互联64*昇腾9108*昇腾9108*昇腾910最大支持8个Atlas 300I 推理卡最大支持7个Atlas 300I 推理卡昇腾 910昇腾310HBM-2048 GB32 GB,1228GB/s 32GB,1228GB/s-AI算力256 1024 PFlopsFP1614.08 20.48
82、 PFlops FP16,最大可扩展至1 EFlops FP162.24 PFlops FP161.76 PFlops FP162.24 PFlops FP161.76 PFlops FP16最大704 TOPS INT8最大616 TOPS INT8内置30个达芬奇AI Core280 TFlops FP16(Pro)220 TFlops FP1688 TOPS INT8网络及接口集成HCCS、PCIe 和100G RoCE三种高速接口-8*100GE+4*25GE/2*100GE8*100GE1*OCP NIC 3.0标卡,支持2*25GE最多支持9个PCIe4.0 PCIe接口10个PC
83、Ie Gen3.0接口1*100GE QSFP-DD接口,出口总带宽56.5 Gb/sPCIe x16 Gen3.0功耗单柜50KW单柜46 kW,根据采购的设备配置不同,功耗会有所差异最大功耗5.6 kW最大功耗5.6 kW-最大300W最大67W散热方式混合液冷液冷风冷/液冷风冷风冷风冷被动风冷-资料来源:华为官网、浙商证券研究所昇腾加入PyTorch社区共建,有望为世界提供第二AI算力选择36资料来源:华为、科大讯飞、中国电信、云头条、PyTorch、自主可控新鲜事等、浙商证券研究所性能上,昇腾910b正逐步接近A100。昇腾910基于自研华为达芬奇架构3D Cube技术,半精度(FP1
84、6)算力达到320TFlops,科大讯飞创始人、董事长刘庆峰表示华为的 GPU 能力可以对标英伟达A100;应用上,昇腾服务器已在政府智算中心、运营商、银行、央国企、互联网等AI算力领域全面规模化落地。智算中心方面,昇腾算力集群已在华为云、东数西算的枢纽节点贵州和内蒙、中国28个城市的AI智算中心大规模商用部署,神州数码已与恒为科技签订4亿昇腾服务器订单合同;运营商方面,10月,中国电信公布了AI算力服务器集采中标公告,G系列训练服务器总金额28亿,占整体订单金额的1/3;互联网方面,百度为200台服务器订购了1600片昇腾910B AI芯片,我们预计未来以政府智算中心、运营商、金融以及IT企
85、业、互联网等客户有望为昇腾服务器的增长提供强劲动力。未来,昇腾有望构建世界第二“CUDA”生态。目前昇腾迭代的瓶颈在于生态,以英伟达CUDA为核心的AI算力生态是当今世界大模型的主流,10月18日华为作为Premier最高级别会员正式加入全球AI开源框架PyTorch社区,PyTorch 2.1版本已同步支持昇腾NPU,开发者可直接在PyTorch 2.1上基于昇腾进行模型开发,基于PyTorch,昇腾已经适配了BLOOM、GPT-3、LLaMA等业界主流大模型,深度优化后性能可持平业界,我们预计未来昇腾迭代速度有望加快,并复刻鲲鹏计算生态发展历程,在各行业遍地开花。昇腾加入PyTorch社区
86、共建中国电信AI服务器中标候选人公告海光DCU产品具备完善的软件栈支持37海光DCU属于GPGPU的一种。CUDA是一种由NVIDIA推出的通用并行计算架构,包含了应用于NVIDIA GPU的指令集(ISA)以及GPU内部并行计算引擎。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台,因此ROCm也被称为“类CUDA”。因此,海光DCU协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要
87、部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。海光DCU具备开放式生态和统一底层硬件驱动平台,支持常见计算框架、库和编程模型层次化软件栈,适配不同API接口和编译器可最大限度利用已有的成熟AI算法和框架。海光DCU基本组成架构海光软件栈体系资料来源:海光招股书、海光官网、浙商证券研究所项目海光NVIDIAAMD品牌深算一号Ampere 100MI100生产工艺7nm FinFET7nm FinFET7nm FinFET核心数量4096(64 CUs)2560 CUDA processors 640 Tensor processors12
88、0 Cus内核频率Up to 1.5GHz(FP64)Up to 1.7GHz(FP32)Up to 1.53GHzUp to 1.5GHz(FP64)Up to 1.7GHz(FP32)显存容量32GB HBM280GB HBM2e32GB HBM2显存位宽4096bit5120bit4096bit显存频率2.0 GHz3.2 GHz2.4 GHz显存带宽1024 GB/s2039 GB/s1228 GB/sTDP350W400W300WCPU to GPU 互联PCIe Gen4 16PCIe Gen4 16PCIe Gen4 16GPU to GPU 互联xGMI 2,up to 184
89、GB/sNVLink,up to 600GB/sInfinity Fabric 3,up to 276 GB/s海光8100产品图片典型功耗260-350W典型运算类型双精度、单精度、半精度浮点数据和各种常见整型数据计算 60-64个计算单元(最多4096个计算核心)支持FP64、FP32、FP16、INT8、INT4内存 4个HBM2内存通道 最高内存带宽为1TB/s 最大内存容量为32GBI/O 16 Lane PCIe Gen4 DCU芯片之间高速互连海光DCU性能逐步接近英伟达A100,能够完整支持大模型训练38公司新产品加速迭代,性能持续提升,研发团队在高端处理器设计、SoC架构设计
90、、处理器安全、处理器验证、高主频与低功耗处理器实现、高端芯片IP设计、工艺物理设计、先进封装设计、基础软件等关键技术上不断实现突破。性能上,海光深算一号DCU内核频率、显存位宽已逐步接近英伟达A100,在显存容量、带宽、算力、互联性能上仍有一定的进步空间;深算二号已于2023年Q3发布,实现了在大数据处理、人工智能、商业计算等领域的商业化应用,具有全精度浮点数据和各种常见整型数据计算能力,性能相对于深算一号实现了翻倍的增长;深算三号研发进展顺利。在AIGC持续快速发展的时代背景下,海光DCU能够完整支持大模型训练,实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模
91、型的全面应用,与国内包括文心一言等大模型全面适配,达到国内领先水平。海光 DCU 的产品形态海光深算一号与国际主流芯片性能对比资料来源:海光招股书、海光官网、浙商证券研究所风险提示05Partone39风险提示401、国际形势变化:受限美国“实体清单”,行业内企业采购服务器及芯片等有关国外先进部件可能受一定影响;2、供应链安全风险:芯片销售受上游供应制约较为严重,直接影响后续芯片迭代速度;3、芯片设计迭代风险:不同芯片的技术路径、设计思路略有不同,存在技术风险;4、竞争加剧风险:芯片及整机存在竞争加剧的风险;5、下游客户总体需求或节奏不及预期风险:下游客户需求总量或节奏存在不急市场预期可能,因
92、而可能会呈现一定的周期性;6、政策风险:信创、超算、AI算力的发展均受相关政策节奏影响;点击此处添加标题添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题添加标题95%行业评级与免责声明行业的投资评级以报告日后的6个月内,行业指数相对于沪深300指数的涨跌幅为标准,定义如下:1、看好:行业指数相对于沪深300指数表现10%以上;2、中性:行业指数相对于沪深300指数表现10%10%以上;3、看淡:行业指数相对于沪深300指数表现10%以下。我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重。建议:投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者不应仅仅依靠投资评级来推断结论 41联系方式42浙商证券研究所 上海总部地址:杨高南路729号陆家嘴世纪金融广场1号楼25层北京地址:北京市东城区朝阳门北大街8号富华大厦E座4层深圳地址:广东省深圳市福田区广电金融中心33层邮政编码:200127 电话:(8621)80108518 传真:(8621)80106010