上海品茶

寒武纪-公司跟踪报告之一:中国AI芯片巨头加速成长-240620(33页).pdf

编号:165674 PDF  DOCX  33页 2.15MB 下载积分:VIP专享
下载报告请您先登录!

寒武纪-公司跟踪报告之一:中国AI芯片巨头加速成长-240620(33页).pdf

1、 敬请参阅最后一页特别声明-1-证券研究报告 2024 年 6 月 20 日 公司研究公司研究 中国中国 AIAI 芯片巨头加速成长芯片巨头加速成长 寒武纪-U(688256.SH)跟踪报告之一 增持增持(维持维持)专注人工智能芯片领域,注重研发构筑护城河专注人工智能芯片领域,注重研发构筑护城河。寒武纪全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术。2023 年公司凭借人工智能芯片产品的核心优势,拓展算力基础设施项目,深耕行业客户,实现营收 7.09 亿元,同比下滑 2.70%;实现归母净利润-8.48 亿元,同比亏损收窄。2024Q1 实现营收 0.26 亿元,实现归母净利

2、润-2.27 亿元。公司聚焦云端大算力 AI 芯片核心赛道,持续推动产品迭代,技术壁垒不断巩固。公司发布股权激励计划,考核目标值 24 年营业收入值不低于 11 亿元,24-25 年累计营业收入值不低于 26 亿元,24-26 年累计营业收入值不低于 46 亿元。全球全球 AIAI 芯片空间广阔,美国制裁有望持续提升中国芯片空间广阔,美国制裁有望持续提升中国 AIAI 芯片份额。芯片份额。算力军备竞赛持续,AMD 看 27 年 AI 芯片市场规模 4000 亿美元。英伟达公布未来 3 年路线图,Blackwell 已开始投产。美政府对英伟达禁令发布,制裁持续加码,利好国产 GPU 厂。各大下游

3、需求增长,政府智算中心 2025 智能算力超 105EFLOPS;运营商掘金“算力网络”;互联网大模型训练算力需求井喷式增长。寒武纪在寒武纪在 AIAI 芯片领域积淀深厚。芯片领域积淀深厚。(1)云端智能芯片:以思元芯片或加速卡的形式应用于各类云服务器或数据中心中。(2)基础系统软件技术:公司在自有智能芯片产品之上研发的基础系统软件 Cambricon Neuware 可支持各主流人工智能编程框架,包括 TensorFlow、PyTorch 等。公司自研智能芯片编程语言 BANG 语言,并研发了可将 BANG 语言编写的程序编译成智能芯片底层指令集(MLU 指令集)机器码的智能芯片编译器。云边

4、端云边端一体协同发力,产品矩阵逐渐完善一体协同发力,产品矩阵逐渐完善。公司立足高算力领域,AI 芯片技术国内领先,训练与推理产品全面布局,云边端领域协同发力。2023 年公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续落地,并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步。2023年公司的智能芯片及加速卡实现收入 1.01 亿元。盈利预测、估值与评级:盈利预测、估值与评级:寒武纪是国内领先的 AI 芯片公司,在当前 AIGC 与大模型兴起的背景之下,公司业务空间广阔。我们维持预测公司 2024-2025 年营收为 17.94、26.97 亿元,新增 202

5、6 年营收预测为 33.19 亿元,维持预测2024-2025 年归母净利润预测为-2.97、-0.77 亿元,新增 2026 年归母净利润预测为 2.36 亿元。考虑到 AI 芯片的设计难度以及未来发展空间,公司为国内 AI芯片龙头,具备高度稀缺性和先发优势,维持“增持”评级。风险提示:风险提示:研发工作未达预期风险研发工作未达预期风险、AIAI 应用推广不及预期风险应用推广不及预期风险、持续亏损带来持续亏损带来的持续经营风险的持续经营风险、客户集中度较高的风险客户集中度较高的风险。公司盈利预测与估值简表公司盈利预测与估值简表 指标指标 20222022 20232023 2024E2024

6、E 2025E2025E 2026E2026E 营业收入(百万元)729 709 1,794 2,697 3,319 营业收入增长率 1.11%-2.70%152.87%50.35%23.06%归母净利润(百万元)-1,257-848-297-77 236 EPS(元)-3.14-2.04-0.71-0.19 0.57 ROE(归属母公司)(摊薄)-25.88%-15.02%-5.54%-1.47%4.28%P/E N/A N/A N/A N/A 384 P/B 17.9 16.0 16.9 17.2 16.4 资料来源:Wind,光大证券研究所预测,股价时间为 2024-06-19 注:20

7、22、2023、2024 年及之后总股本分别为4.01/4.17/4.17 亿股 当前价:当前价:217.31217.31 元元 作者作者 分析师:刘凯分析师:刘凯 执业证书编号:S0930517100002 分析师:孙啸分析师:孙啸 执业证书编号:S0930524030002 分析师:黄筱茜分析师:黄筱茜 执业证书编号:S0930524050001 市场数据市场数据 总股本(亿股)4.17 总市值(亿元):905.29 一年最低/最高(元):95.85/269.50 近 3 月换手率:119.49%股价相对走势股价

8、相对走势 -51%-32%-12%7%27%06/2309/2312/2303/2406/24寒武纪-U沪深300 收益表现收益表现%1M 3M 1Y 相对 15.31 17.94 1.12 绝对 10.91 16.58-9.11 资料来源:Wind 要点要点 敬请参阅最后一页特别声明-2-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)目目 录录 1、国产国产 AI 芯片先行者,产品技术国内领先芯片先行者,产品技术国内领先 .5 5 1.1 专注人工智能芯片领域,注重研发构筑护城河.5 1.2 创始人学术背景强大,技术实力深厚.7 1.3 财务分析:23 年亏损同比

9、收窄,注重研发投入.9 2、全球全球 AI 芯片空间广阔,美国制芯片空间广阔,美国制裁有望持续提升中国裁有望持续提升中国 AI 芯片份额芯片份额 .1111 2.1 全球 AI 芯片空间广阔.11 2.2 美政府对英伟达禁令加速国产替代.14 2.3 政府智算中心、运营商、互联网,各大下游需求增长.14 3、寒武纪:壁垒深厚,未来可期寒武纪:壁垒深厚,未来可期 .1818 3.1 云边端业务线协同发力,产品矩阵逐渐完善.18 3.2 掌握智能芯片和基础系统软件领域核心技术.19 3.3 智能计算集群系统优势显著.22 3.4 立足高算力领域,受益 AI 全面开拓.26 4、盈利预测及估值评级盈

10、利预测及估值评级 .3131 5、风险分析风险分析 .3131 8XaVcWaYfYbUbZdX8O9RaQsQmMmOmQlOpPtNiNoMpM8OpOoNwMnPpOxNrQmP 敬请参阅最后一页特别声明-3-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图目录图目录 图 1:公司核心技术框架结构.5 图 2:公司云端智能芯片及加速卡和智能计算集群系统的整体业务流程.7 图 3:公司股权结构图(截至 2024 年 3 月 31 日).8 图 4:公司 2019 年-2024Q1 营业收入及同比情况.9 图 5:公司 2019 年-2024Q1 归母净利润情况.

11、9 图 6:2019-2023 年公司各业务营收(单位:亿元).9 图 7:公司 2017 年-2024Q1 毛利率及净利率情况.10 图 8:公司 2019 年-2024Q1 各项费用情况.10 图 9:公司 2019 年-2024Q1 研发费用及研发费用率.10 图 10:训练 AI 系统计算使用的两个不同时代.11 图 11:Blackwell 计算能力的增长惊人.12 图 12:计算能力提高时,成本却在不断下降.12 图 13:黄仁勋介绍英伟达芯片产品“一年迭代一次新架构”.12 图 14:英伟达 2022-2028 财年营业收入及同比增速.13 图 15:英伟达 2022-2028

12、财年 NON-GAAP 归母净利润及同比增速.13 图 16:23 年 AI 龙头公司 H100 购买情况.13 图 17:中国数据中心整体平均上架率.13 图 18:英伟达公告表示其已收到美国政府题为“实施附加出口管制”的通知.14 图 19:行动计划规定.15 图 20:国内智算中心算力规模统计.15 图 21:2022 年我国 AI 服务器下游市场分布.17 图 22:全球大模型全景图.17 图 23:公司 Cambricon Neuware 框架结构.24 图 24:Cambricon Neuware 训练软件平台.25 图 25:推理加速引擎 MagicMind.25 图 26:Ma

13、gicMind 优势.26 图 27:寒武纪玄思 1000 智能加速器整机.27 图 28:寒武纪思元 370.28 图 29:思元 370 系列板块于业内主流 GPU 性能对比.28 图 30:思元 370 系列核心优势.28 图 31:寒武纪 MLU370-X8 训推一体人工智能加速卡.29 图 32:思元 290 系列核心优势.29 敬请参阅最后一页特别声明-4-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表目录表目录 表 1:公司云端智能芯片及加速卡产品.6 表 2:公司股权激励考核目标.8 表 3:英伟达 B200、H100 以及 A100(80GB)性

14、能对比.12 表 4:超算中心、云数据中心及智算中心的区分.15 表 5:三大运营商 2024 年算力投资情况.16 表 6:中国移动招标包段.16 表 7:寒武纪产品布局.18 表 8:云边端业务线协同发力.18 表 9:公司的智能芯片技术.19 表 10:公司的基础系统软件技术.19 表 11:云端智能芯片比较情况.20 表 12:智能计算集群比较情况.23 表 13:寒武纪盈利预测与估值简表.31 敬请参阅最后一页特别声明-5-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)1 1、国产国产 AIAI 芯片先行者,产品技术国内领先芯片先行者,产品技术国内领先 1

15、.11.1 专注人工智能芯片领域专注人工智能芯片领域,注重研发构筑护城河注重研发构筑护城河 我国稀缺的我国稀缺的 AIAI 算力芯片厂商。算力芯片厂商。寒武纪成立于 2016 年,自成立以来一直专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。公司的主营业务是各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售,主要产品为云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器 IP 以及上述产品的配套软件开发平台。随着人工智能市场需求潜力逐步释放,通用型人工智能芯片未来将成为该市场的主流产品。公司全面系统掌握了通用型智能芯片及其基

16、础系统软件研发和产品化核心技术公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术。公司能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。通用型智能芯片及其基础系统软件的研发需要全面掌握核心芯片与系统软件的大量关键技术,技术难度大、涉及方向广,其中处理器微架构与指令集两大类技术属于最底层的核心技术。公司在智能芯片领域掌握了智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等七大类核心技术;在基础系统软件技术领域掌握了编程框架适配与优化、智能芯片编程语言、智

17、能芯片编译器、智能芯片高性能数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境等七大类核心技术。图图 1 1:公司核心技术框架结构公司核心技术框架结构 资料来源:公司招股说明书 云端智能芯片及加速卡是云服务器、数据中心等进行人工智能处理的核心器件云端智能芯片及加速卡是云服务器、数据中心等进行人工智能处理的核心器件,其主要作用是为云计算和数据中心场景下的人工智能应用程序提供高性能、高计算密度、高能效的硬件计算资源,支撑该类场景下复杂度和数据吞吐量高速增长的人工智能处理任务。得益于公司领先的智能处理器架构技术以及成熟的芯片设计能力,云端智能芯片产品具有卓越的性能和能效,可覆盖视觉处

18、理、语音处理、自然语言处理、推荐系统搜索引擎及传统机器学习等多样化应用领域,支持人工智能推理和训练任务,为云计算与数据中心场景的行业客户和互联网客户提供高效可靠的产品。公司于 2018 年推出了中国首款高峰值云端智能芯片思元 100,之后通过技术创新和设计优化,相继推出思元 270 和思元 290,芯片架构针对人工智能应用及各类算法进行了优化,持续提升产品的性能、能效和易用性。敬请参阅最后一页特别声明-6-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表表 1 1:公司公司云端智能芯片及加速卡产品云端智能芯片及加速卡产品 产品型号产品型号 产品概况产品概况 产品展示

19、产品展示 思元 100(MLU100)中国首款高峰值云端智能芯片 使用公司自研的 MLUv01 指令集,面向人工 智能云端推理任务 基于台积电 16nm 先进工艺制造,芯片面积 326.5mm 2,推理场景典型功耗小于 75 瓦 在 1GHz 主频下,FP16 理论峰值性能为 16TOPS(非稀疏)和 64TOPS(稀疏等效理论峰值),INT8 理论峰值性能为 32TOPS(非稀疏)和 128TOPS(稀疏等效理论峰值)思元 270(MLU270)在思元 100 基础上升级了指令集和芯片架构,提升了性能和能效,应用范畴拓展至人工智能训练,集成了丰富的视频图像编解码硬件单元 使用公司自研的 ML

20、Uv02 指令集,面向人工 智能云端推理和训练任务 基于台积电 16nm 先进工艺制造,芯片面积 369.6 平方毫米,推理场景典型功耗小于 70 瓦 在 1GHz 主频下,理论峰值性能为 256TOPS(INT4)、128TOPS(INT8)、64TOPS(INT16)思元 290(MLU290)使用公司自研的 MLUv02 指令集,面向复杂人工智能模型的云端训练任务 基于台积电 7nm 先进工艺制造 采用了 HBM2 内存和先进的 2.5D CoWoS 封装,支持片间高速互联 资料来源:公司招股说明书,光大证券研究所 注:INT4、INT8 和 INT16 分别代表 4 位、8 位和 16

21、 位定点运算,FP16 代表 16 位浮点运算。公司已量产的云端智能芯片及加速卡产品可提供从30TOPS到128TOPS的单加速卡单芯片计算能力。浪潮、联想、新华三等厂商与公司开展密切合作,可为客户提供一机双卡、一机四卡、一机八卡等不同配置的服务器产品,单台服务器的人工智能计算能力最高可达 1,024TOPS。在云计算数据中心场景下,可由多台服务器组成智能计算集群,为客户提供更高的人工智能计算能力。公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件Cambricon NeuwareCambricon Neuwar

22、e(含软件开发工具链等(含软件开发工具链等),打破了不同场景之间的软件开发壁垒,兼具高性能、灵活性和可扩展性的优势,无须繁琐的移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的人工智能应用开发,以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发生态的核心部件。公司自有的云端智能芯片加速卡是服务器集群核心智能计算能力的来

23、源;公司将公司自有的云端智能芯片加速卡是服务器集群核心智能计算能力的来源;公司将加速卡集成到配套服务器及相关系统中,并根据实际应用场景需求配置相应的基加速卡集成到配套服务器及相关系统中,并根据实际应用场景需求配置相应的基础系统软件与开发工具,最终础系统软件与开发工具,最终形成智能计算集群系统交付客户验收。形成智能计算集群系统交付客户验收。敬请参阅最后一页特别声明-7-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 2 2:公司云端智能芯片及加速卡和智能计算集群系统的整体业务流程公司云端智能芯片及加速卡和智能计算集群系统的整体业务流程 资料来源:公司招股说明书 1

24、.21.2 创始创始人人学术学术背景强大,技术背景强大,技术实力深厚实力深厚 寒武纪于 2020 年在科创板上市。截至 2024 年 3 月 31 日,中国科学院计算机技术研究所全资子公司北京中科算源资产管理有限公司持有寒武纪15.76%的股权。寒武纪寒武纪创始人、董事长、实际控制人陈天石创始人、董事长、实际控制人陈天石博士:博士:曾就读于中国科学技术大学少年班,获中国科学技术大学计算机软件与理论专业博士学位,曾于中国科学院计算技术研究所任研究员(教授)和博士生导师。陈天石博士是人工智能芯片领域基础学术研究和商用产品研发的关键推动者之一,曾获国家自然科学奖二等奖、中国科学院杰出科技成就奖等荣誉

25、。陈天石博士在人工智能和处理器芯片等相关领域从事基础科研工作十余年积累了坚实的理论功底和丰富的研发经验,曾获“中国科学院杰出科技成就奖”(2019 年)、“北京市有突出贡献的科学技术管理人才”(2019 年)、“上海市五一劳动奖章”(2019 年)、“科技部科技创新创业人才”(2018 年)、“央视年度科技创新人物”(2017 年)、“上海市青年五四奖章”(2017 年)等众多荣誉。敬请参阅最后一页特别声明-8-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 3 3:公司股权结构图(截至:公司股权结构图(截至 2022024 4 年年 3 3 月月 3131 日

26、日)资料来源:Wind,光大证券研究所整理并绘制 股权激励计划彰显企业信心。股权激励计划彰显企业信心。2023 年 11 月公司公告股权激励计划,本激励计划拟向激励对象授予 800 万股限制性股票,约占激励计划草案公告时公司股本总额的 1.92%,其中首次授予 650 万股,预留 150 万股。公司激励计划首次授予的激励对象总人数为 715 人,考核年度为 2024-2026 年,针对每个会计年度均设置清晰的考核目标。公司此次股权激励计划涉及范围较广,有助于增强内部整体信心。表表 2 2:公司股权激励考核目标公司股权激励考核目标 归属期归属期 目标值目标值 触发值触发值 公司层面归属系数 10

27、0%公司层面归属系数 80%第一个归属期 2024 年营业收入值不低于 11 亿元 2024 年营业收入值不低于 8.8 亿元 第二个归属期 2024-2025 年累计营业收入值不低于 26 亿元 2024-2025 年累计营业收入值不低于 20.8 亿元 第三个归属期 2024-2026 年累计营业收入值不低于 46 亿元 2024-2026 年累计营业收入值不低于 36.8 亿元 资料来源:公司公告,光大证券研究所 敬请参阅最后一页特别声明-9-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)1.31.3 财务分析:财务分析:2323 年亏损同比收窄,注重研发投入

28、年亏损同比收窄,注重研发投入 20232023 年亏损同比收窄。年亏损同比收窄。2023 年,公司凭借人工智能芯片产品的核心优势,拓展算力基础设施项目,深耕行业客户,实现营收 7.09 亿元,同比下滑 2.70%;实现归母净利润-8.48 亿元,同比亏损收窄。2024Q1 实现营收 0.26 亿元,实现归母净利润-2.27 亿元。图图 4 4:公司公司 20192019 年年-2022024Q14Q1 营业收入及同比情况营业收入及同比情况 图图 5 5:公司公司 20192019 年年-2024Q12024Q1 归母净利润情况归母净利润情况 资料来源:Wind,光大证券研究所 资料来源:Win

29、d,光大证券研究所 智能计算集群系统业务营收持续增长。智能计算集群系统业务营收持续增长。2023 年公司的智能计算集群系统业务贡献收入 6.05 亿元,同比增长 31.85%,主要系公司成功在沈阳、台州实施智能计算集群项目,保持了智能计算集群系统业务收入的持续增长。公司云端产品线目前包括云端智能芯片及加速卡和训练整机产品。受供应链影响,2023 年云端产品线贡献收入 0.91 亿元,同比下降 58.73%。图图 6 6:20 年年公司各业务营收(单位:亿元)公司各业务营收(单位:亿元)资料来源:Wind,光大证券研究所 公司聚焦云端大算力公司聚焦云端大算力 AIA

30、I 芯片核心赛道,持续推动产品迭代,技术壁垒不断巩固。芯片核心赛道,持续推动产品迭代,技术壁垒不断巩固。公司 2023 年毛利率为 69.16%,同比增长 3.40pct;2024Q1 毛利率为 57.61%。公司研发费用率仍维持相对高位,2023 年和 2024Q1 研发费用分别为 11.18 亿元和 1.70 亿元,研发费用率为 158.53%和 660.83%。敬请参阅最后一页特别声明-10-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 7 7:公司:公司 2012017 7 年年-2022024Q14Q1 毛利率及净利率情况毛利率及净利率情况 图图 8

31、 8:公司:公司 2012019 9 年年-2022024Q14Q1 各项费用各项费用情况情况 资料来源:Wind,光大证券研究所 资料来源:Wind,光大证券研究所 图图 9 9:公司公司 2012019 9 年年-2022024Q14Q1 研发研发费用费用及研发费用率及研发费用率 资料来源:Wind,光大证券研究所 敬请参阅最后一页特别声明-11-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)2 2、全球全球 AIAI 芯片空间广阔,美国制裁有望持芯片空间广阔,美国制裁有望持续续提升中国提升中国 AIAI 芯片份额芯片份额 2.12.1 全球全球 AIAI 芯片

32、空间广阔芯片空间广阔 全球:算力军备竞赛持续,全球:算力军备竞赛持续,AMDAMD 看看 2727 年年 AIAI 芯片市场规模芯片市场规模 40004000 亿美元。亿美元。AMD CEO Lisa SU 在 23 年 12 月 7 日宣布将 2027 年 AI 芯片市场 1500 亿美元的规模上调到 4000 亿美元。计算系统要满足行业 AI 场景的复杂巨大且多样性的计算需求,从 2012 年开始的 6 年中,AI 计算的需求增加了 30 万倍,远远超过了摩尔定律的增长速度。图图 1010:训练训练 AIAI 系统计算使用的两个不同时代系统计算使用的两个不同时代 资料来源:昇腾计算产业白皮

33、书 英伟达公布未来英伟达公布未来 3 3 年路线图,年路线图,BlackwellBlackwell 已开始投产已开始投产。2024 年 6 月 2 日晚间,台北国际电脑展(COMPUTEX)开幕前夕,英伟达联合创始人兼首席执行官黄仁勋在台湾大学综合体育馆发表主题演讲,分享了人工智能时代如何助推全球新产业革命。黄仁勋公开展示英伟达目前最强性能产品黄仁勋公开展示英伟达目前最强性能产品 GB200GB200 主板。主板。这块主板搭载两颗Blackwell B200 GPU 芯片、一颗 Grauce CPU 芯片,通过其互联技术组合为一体。该产品首次亮相是在今年 3 月份的英伟达 GTC 大会上。据英

34、伟达 2024 年 3 月宣称,训练一个 1.8 万亿个参数的模型以前需要 8000 个Hopper GPU 和 15 兆瓦的电力。如今,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4 兆瓦。在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而英伟达称其训练速度是 H100 的 4 倍。敬请参阅最后一页特别声明-12-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表表 3 3:英伟达:英伟达 B200B200、H100H100 以及以及 A100A100(80GB80GB)性能对比)

35、性能对比 B200B200 H100H100 A100(80GB)A100(80GB)Memory Clock 8Gbps HBM3e 5.23Gbps HBM3 3.2Gbps HBM2e Memory Bandwidth 8TB/s 3.35TB/s 2TB/s VRAM 192GB(2*96GB)80GB 80GB INT8/FP8 Tensor 4500TFLOPS 1980TOPS 624TOPS FP16 Tensor 2250TFLOPS 990TFLOPS 312TFLOPS TF32 Tensor 1100TFLOPS 495TFLOPS 156TFLOPS FP64 Ten

36、sor 40TFLOPS 67TFLOPS 19.5TFLOPS Interconnect NVLink 5 18 Links(1800GB/s)NVLink 4 18 Links(900GB/s)NVLink 3 12 Links(600GB/s)TDP 1000W 700W 400W 资料来源:Nvidia,光大证券研究所 BlackwellBlackwell 全面投产,八年间算力增长全面投产,八年间算力增长 10001000 倍。倍。黄仁勋认为,随着 CPU 扩展速度放缓,最终会基本停止,然而需要处理的数据继续呈指数级增长,最终导致计算膨胀和计算成本的提升。而 GPU 将是改变这一切的关

37、键。图图 1111:BlackwellBlackwell 计算能力的增长惊人计算能力的增长惊人 图图 1212:计算能力提高时,成本却在不断下降计算能力提高时,成本却在不断下降 资料来源:黄仁勋 COMPUTEX 主题演讲 资料来源:黄仁勋 COMPUTEX 主题演讲 此外,黄仁勋还在这次演讲中介绍了英伟达一系列新产品服务的落地情况,包括帮助企业部署 AI 大模型的 NIM 云原生微服务、专为 AI 打造的新型以太网Spectrum-X,以及英伟达开发的机器人技术平台 Isaac 等等。图图 1313:黄仁:黄仁勋介绍英伟达芯片产品“勋介绍英伟达芯片产品“一年迭代一次新架构”一年迭代一次新架构

38、”资料来源:黄仁勋 COMPUTEX 主题演讲 敬请参阅最后一页特别声明-13-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)英伟达 2025 财年 Q1 实现营收 260 亿美元,环比增长 18%,同比增长 262%,远高于预期的 240 亿美元。其中数据中心营收 226 亿美元,创历史新高,环比增长 23%,同比增长 427%,主要得益于对 NVIDIA Hopper GPU 计算平台的持续强劲需求。英伟达 2025 财年 Q2 收入指引为 280 亿美元(2%),GAAP 和NON-GAAP 毛利率为 74.8%(50pct)和 75.5%(50pct)。20

39、25 财年预计毛利率为 75%左右。图图 1414:英伟达英伟达 20 财财年营业收入及同比增速年营业收入及同比增速 图图 1515:英伟达英伟达 20 财财年年 NONNON-GAAPGAAP 归母净利润及同比增归母净利润及同比增速速 资料来源:Bloomberg,光大证券研究所 注:FY2025-FY2028 数据为 Bloomberg 一致预期 资料来源:Bloomberg,光大证券研究所注:FY2025-FY2028 数据为 Bloomberg 一致预期 国内国内:与海外相比,算力差距持续拉大。与海外相比,算力差距持续拉大。根

40、据 Omida 数据,2023 年微软或者meta 一家的 H100 采购量已经超过国内 BBAT。中国算力资源位居世界第二,仅次于美国,但算力利用效率并不高。其中有两个重要表现,一是数据中心上架率偏低,二是算力形态中云计算的占比也低。图图 1616:2323 年年 AIAI 龙头公司龙头公司 H100H100 购买情况购买情况 图图 1717:中国数据中心整体平均上架率中国数据中心整体平均上架率 资料来源:Omdia 统计及预测 资料来源:沙利文,工业和信息化部 敬请参阅最后一页特别声明-14-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)2.22.2 美政府对英

41、伟达禁令加速国产替代美政府对英伟达禁令加速国产替代 美政府对英伟达禁令加速国产替代。制裁持续加码,利好国产美政府对英伟达禁令加速国产替代。制裁持续加码,利好国产 GPUGPU 厂。厂。2022 年 8 月 26 日,美国政府通知 NVIDIA,美国政府对英伟达 A100 和即将推出的 H100 集成电路今后向中国(包括香港)和俄罗斯的任何出口提出了新的许可要求,立即生效。AMD收到类似通知暂停对中国区所有数据中心GPU卡MI100和 MI200 发货。2023 年 10 月,路透独家报道称,美国将出台新规,进一步限制 GPU 出口中国,限制 H800 性能密度、通信速率等;同时,新规或将限制中

42、国企业通过设在海外的子公司获得美国 AI 芯片的途径。2024 年 3 月 30 日,美国商务部下属的工业与安全局(BIS)发布“实施额外出口管制”的新规措施,修订了 BIS 于 2022、2023 年 10 月制定的两次出口限制新规,全面限制英伟达、AMD 以及更多更先进 AI 芯片和半导体设备向中国销售。图图 1818:英伟达公告表示:英伟达公告表示其已收到美国政府题为其已收到美国政府题为“实施附加出口管制实施附加出口管制”的通知的通知 资料来源:英伟达公告 8-K 2.32.3 政府智算中心、运营商、互联网,各大下游需求增长政府智算中心、运营商、互联网,各大下游需求增长 政府智算中心:政

43、府智算中心:20252025 智能算力超智能算力超 105EFLOPS105EFLOPS。工业和信息化部等六部门 2023年 10 月 8 日关于印发算力基础设施高质量发展行动计划的通知。2025 年计算力方面,算力规模超过 300EFLOPS,智能算力占比达到 35%。运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延 1.5 倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到 80%,骨干网、城域网全面支持 IPv6,SRv6 等新技术使用占比达到 40%。存储力方面,存储总量超过 1800EB,先进存储容量占比达到 30%以上。应用赋能方面,围绕工业、金融、医疗、交通、

44、能源、教育等重点领域,各打造 30 个以上应用标杆。敬请参阅最后一页特别声明-15-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表表 4 4:超算中心、云数据中心及智算中心的区分超算中心、云数据中心及智算中心的区分 主要指标主要指标 超算中心超算中心 云数据中心云数据中心 智算中心智算中心 建设目的 面向科研人员和科学计算场景提供支撑服务 帮助用户降本增效或提升盈利水平 促进 AI 产业化,产业 AI 化,政府治理智能化 技术标准 采用并行架构,标准不一,存在多个技术路线,互联互通难度较大 标准不一,重复建设 CSP 内部互联,跨 CSP隔离安全水平参次不齐 统一

45、标准,统筹规划,开放建设,互联互通互操作高安全标准 具体功能 以提升国家及地方自主科研创新能力为目的,重点支持各种大规模科学计算和工程计算任务 能以更低成本承载企业,政府等个性化,规模化业务应用需求 算力生产供应平台,数据开放共享平台,智能生产建设平台,产业创新聚集平台 应用领域 基础科学研究,工业制造,生命医疗,模拟仿真,气象环境,天文地理等 面向众多应用场景,应用领域和应用层级不断扩张,支撑构造不同类型的应用 面向 AI 典型应用场景,如知识图谱,自然语言处理,智能制造,自动驾驶,智慧农业防洪减灾 资料来源:国家信息中心,光大证券研究所整理 工业和信息化部等六部门 2023 年 10 月

46、8 日关于印发算力基础设施高质量发展行动计划的通知。行动计划中提到 2023 年智算中心数量为 30 个,2025年达到 50 个。根据 IDC 圈不完全统计,截至 2023 年底,全国带有“智算中心”的项目有 129 个,其中 83 个项目有规模披露,规模总和超过 7.7 万 P,其中在建规模 4.9 万 P。这些智算中心标准不一、规模各样,算力规模一般在 50P、100P、500P、1000P、有的甚至达到 12000P 以上。图图 1919:行动计划规定行动计划规定 图图 2020:国内智算中心算力规模统计国内智算中心算力规模统计 资料来源:工信部 资料来源:IDC 圈 运营商:掘金“算

47、力网络”运营商:掘金“算力网络”。虽然三大运营商纷纷降低了 2024 年的资本开支金额,但他们均计划今年增加在 AI 基础设施等方面的投资。1)中国移动算力领域投入 475 亿元,同比增长 21.5%,占资本开支比重提升 5.8 个百分点至 27.5%;2)中国电信今年将在云/算力投资 180 亿元,智算规模超过 21EFLOPS,同比增长超过 10EFLOPS;3)中国联通固定资产投资预计约 650 亿元,算网数智投资坚持适度超前、加快布局。敬请参阅最后一页特别声明-16-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表表 5 5:三大运营商三大运营商 20242

48、024 年算力投资情况年算力投资情况 运营商运营商 资本开支资本开支(亿元)(亿元)算力投资算力投资(亿元)(亿元)占比占比 中国移动 1730 475 27.5%中国联通 650 加快布局-中国电信 960 180 18.8%资料来源:中国基金报,光大证券研究所整理 中国移动:中国移动:4 月 18 日,中国移动发布 2024 年至 2025 年新型智算中心采购招标公告,该次项目采购总规模达到 8054 台。项目分为 2 个标包:标包 1 为 7994 台人工智能服务器及配套产品,中标人数量为 5 至 7 家;标包 2 为白盒交换机 60 台,中标人数量为 1 家。标包 1:采购特定场景 A

49、I 训练服务器 7994 台及配套产品,中标人数量为 5 至 7家;若中标人数量为 5 家,中标份额依次为 27.78%、22.22%、19.44%、16.67%、13.89%;若中标人数量为 6 家,中标份额依次为 23.91%、19.57%、17.39%、15.22%、13.04%、10.87%;若中标人数量为 7 家,中标份额依次为 21.05%、17.54%、15.79%、14.04%、12.28%、10.53%、8.77%。标包 2:采购白盒交换机 60 台,中标人数量为 1 家,中标份额为 100%。表表 6 6:中国移动招标包段中国移动招标包段 包段包段 产品名称产品名称 产品单

50、位产品单位 需求数量需求数量 标包 1 特定场景 AI 训练服务器 台 7994 标包 2 以太网交换机 台 60 资料来源:中国移动采购与招标网,光大证券研究所整理 中国联通:中国联通:3 月 23 日,中国联通总部人工智能服务器集采采购总规模为 2503台人工智能服务器,688 台关键组网设备 RoCE 交换机。中国联通公示了 2024年人工智能服务器公开集采的结果,昆仑、宝德、虹信和长江 4 家入围。从 4家中标候选人的中标情况看,该项目平均中标价约为 20460 万元(不含税)。其中,昆仑投标报价比平均中标价略高,斩获第一名;宝德的投标报价也高于平均中标价,获得第二名。虹信和长江分别获

51、得第三名和第四名。中国电信:中国电信:2023 年 10 月 13 日,中国电信发布 AI 算力服务器集中采购项目中标候选人公示,共 80 亿元服务器大标,采购 4175 台 AI 服务器和 1182 台交换机,14 家中标,AI 智算布局加速。服务器采购已经是仅次于 5G 基站的第二大采购品类。中国电信 AI 算力服务器集中采购共计 4 个标包,标包 1、2 为 I 系列服务器,CPU 采用 Intel 至强可扩展处理器,标包 3、4 为 G 系列服务器,CPU采用鲲鹏处理器。敬请参阅最后一页特别声明-17-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)互联网:大

52、模型训练算力需求井喷式增长。互联网:大模型训练算力需求井喷式增长。据 OpenAI 测算,自 2012 年以来,全球头部 AI 模型训练算力需求 3-4 个月提升一倍,每年头部训练模型所需算力增长幅度高达 10 倍。图图 2121:20222022 年我国年我国 AIAI 服务器下游市场分布服务器下游市场分布 图图 2222:全球大模型全景图全球大模型全景图 资料来源:中研网,光大证券研究所 资料来源:CSDN 敬请参阅最后一页特别声明-18-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)3 3、寒武纪:壁垒深厚寒武纪:壁垒深厚,未来可期未来可期 3.13.1 云边

53、端业务线协同发力,产品矩阵云边端业务线协同发力,产品矩阵逐渐逐渐完善完善 公司公司是智能芯片领域全球知名的新兴公司,能提供云边端一体、软硬件协同、训是智能芯片领域全球知名的新兴公司,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司掌握的智能处理器指令集、智能处理器微架构、智能芯片编程语言、智能芯片数学库等核心技术,具有壁垒高、研发难、应用广等特点。公司的主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售,以及为客户提供丰富的芯片产品。目前

54、,公司的主要产品线包括云端产品线、边缘产品线、IP 授权及软件。自 2016 年 3 月成立以来,公司快速实现了技术的产业化输出,先后推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品;基于思元 220 芯片的边缘智能加速卡。其中,寒武纪智能处理器 IP 产品已集成于超过 1 亿台智能手机及其他智能终端设备中,思元系列产品也已应用于浪潮、联想等多家服务器厂商的产品中。思元 220 自发布以来,累计销量突破百万片。表表 7 7:寒武纪产品布局寒武纪产品布局 产品线产品线 产品类型

55、产品类型 寒武纪主要产品寒武纪主要产品 推出时间推出时间 云端产品线 云端智能芯片及加速卡 思元 100(MLU100)芯片及云端智能加速卡 2018 年 思元 270(MLU270)芯片及云端智能加速卡 2019 年 思元 290(MLU290)芯片及云端智能加速卡 2020 年 思元 370(MLU370)芯片及云端智能加速卡 2021 年、2022 年 训练整机 玄思 1000 智能加速器 2020 年 玄思 1001 智能加速器 2022 年 边缘产品线 边缘智能芯片及加速卡 思元 220(MLU220)芯片及边缘智能加速卡 2019 年 IP 授权及软件 终端智能处理器 IP 寒武纪

56、 1A 处理器 2016 年 寒武纪 1H 处理器 2017 年 寒武纪 1M 处理器 2018 年 基础系统软件平台 寒武纪基础软件开发平台(适用于公司所有芯片与处理器产品)持续研发和升级,以适配新的芯片 资料来源:公司公告,光大证券研究所 云边端业务线协同发力。云边端业务线协同发力。公司以云端芯片为业务核心,延伸至边缘产品线服务客户需求。基础系统软件平台打破不同场景之间的软件开发壁垒。智能计算集群系统业务核心算力来源是公司自研的云端智能芯片,聚焦人工智能技术在数据中心的应用,提供软硬件整体解决方案,以科学地配置和管理集群的软硬件、提升运行效率。表表 8 8:云边端业务线协同发力云边端业务线

57、协同发力 产品线产品线 介绍介绍 云端产品线云端产品线 云端产品线目前包括云端智能芯片、加速卡及训练整机。其中,云端智能芯片及加速卡是云服务器、数据中心等进行人工智能处理的核心器件,其主要作用是为云计算和数据中心场景下的人工智能应用程序提供高计算密度、高能效的硬件计算资源,支撑该类场景下复杂度和数据吞吐量高速增长的人工智能处理任务。公司的训练整机是由公司自研云端智能芯片及加速卡提供核心计算能力,且整机亦由公司自研的训练服务器产品。公司的训练整机产品主要面向有一定技术基础的商业客户群体。边缘产品线边缘产品线 边缘计算是近年来兴起的一种新型计算范式,在终端和云端之间的设备上配备适度的计算能力,一方

58、面可有效弥补终端设备计算能力不足的劣势,另一方面可缓解云计算场景下数据隐私、带宽与延时等潜在问题。边缘计算范式和人工智能技术的结合将推动智能制造、智能零售、智能教育、智能家居、智能电网等众多领域的高速发展。IP IP 授权及软件授权及软件 该产品线包括 IP 授权和基础系统软件平台。IP 授权是将公司研发的智能处理器 IP 等知识产权授权给客户在其产品中使用。基础系统软件平台是公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件(包含软件开发工具链等),打破了不同场景之间的软件开发壁垒,敬请参阅最后一页特别声明-19-证券研究报告 寒武纪寒武纪-U U(688256.SH6882

59、56.SH)兼具灵活性和可扩展性的优势,无须繁琐的移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。智能计算集群系智能计算集群系统业务统业务 公司智能计算集群系统业务是将公司自研的加速卡或训练整机产品与合作伙伴提供的服务器设备、网络设备与存储设备结合,并配备公司的集群管理软件组成的数据中心集群,其核心算力来源是公司自研的云端智能芯片。智能计算集群主要聚焦人工智能技术在数据中心的应用,为人工智能应用部署技术能力相对较弱的客户提供软硬件整体解决方案,以科学地配置和管理集群的软硬件、提升运行效率。资料来源:公司公告,光大证券研究所 3.23.2 掌握智能芯片和掌握智

60、能芯片和基础系统软基础系统软件领域核心技术件领域核心技术 从系统角度看人工智能领域,智能芯片是最底层的硬件物质载体,提供了充裕的从系统角度看人工智能领域,智能芯片是最底层的硬件物质载体,提供了充裕的智能计算能力;基础系统软件位于智能芯片和人工智能程序之间,向下管理、调智能计算能力;基础系统软件位于智能芯片和人工智能程序之间,向下管理、调用和控制智能芯片、向上支撑人工智能程序的开发和运行。用和控制智能芯片、向上支撑人工智能程序的开发和运行。在通用型智能芯片及基础系统软件之上,开发者可以研发各类人工智能算法、实现各类人工智能程序,最终实现机器视觉、语音处理、自然语言处理以及推荐系统等多样化的人工智

61、能功能。公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司不直接从事人工智能最终应用产品的开发和销售,但对各类人工智能算法和应用场景有着深入的研究和理解,能面向市场需求研发和销售性能优越、能效出色、易于使用的智能芯片及配套系统软件产品,支撑客户便捷地开展智能算法基础研究、开发各类人工智能应用产品。表表 9 9:公司的:公司的智能芯片技术智能芯片技术 序号序号 技术大类名称技术大类名称 在主营业务及主要产品中的应用和贡献情况在主营业务及主要产品中的应用和贡献情况 成熟程度成熟

62、程度 技术来源技术来源 1 智能处理器微架构 公司迄今已自主研发了三代智能处理器微架构,是国内外在该技术方向积累最深厚的企业之一。公司在云端、边缘端、终端三条产品线的所有智能 芯片和处理器核 IP 产品均基于自研处理器架构研制。成熟稳定 自主研发 2 智能处理器指令集 指令集是处理器芯片生态的基石。公司是国际上最早开展智能处理器指令集研发的少数几家企业之一,迄今已自主研发了三代商用智能处理器指令集,形成了体系完整、功能完备、高度灵活的智能芯片指令集专利群。公司在云端、边缘端、终端三条产品线 的所有智能芯片和处理器 IP 产品以及基础系统软件均构建于自研的MLU 指令集基础之上。成熟稳定 自主研

63、发 3 SoC 芯片设计 公司已掌握复杂 SoC 设计的一系列关键技术,有力支撑了云端大型 SoC 芯片(思元 100、思元 270 和思元290)和边缘端中型 SoC 芯片(思元 220)的研发。成熟稳定 自主研发 4 处理器芯片功能验证 公司拥有成熟先进的处理器和 SoC 芯片功能验证平台,确保了智能处理器和 SoC 芯片逻辑设计按时高质量交付,有效保障了多款芯片产品的一次性流片成功。成熟稳定 自主研发 5 先进工艺物理设计 公司已掌握 7nm 等先进工艺下开展复杂芯片物理设计的一系列关键技术,已将其成功应用于思元 100、思元220、思元 270 及最新的思元 290 等多款芯片的物理设

64、计中。成熟稳定 自主研发 6 芯片封装设计与量产测试 应用于公司云端、边缘端和终端不同品类芯片产品的封装设计与量产测试过程,有效支撑了公司处理器芯片的研发。成熟稳定 自主研发 7 硬件系统设计 有效解决了高速传输链路信号完整性、大功率供电下的电源完整性、大型芯片散热、机箱模块化等关键问题,支撑公司基于自研芯片研发模组/智能加速卡、整机、集群等多样化的产品形态。成熟稳定 自主研发 资料来源:公司招股说明书,光大证券研究所 表表 1010:公司的公司的基础系统软件技术基础系统软件技术 序号序号 技术大类名称技术大类名称 在主营业务及主要产品中的应用和贡献情况在主营业务及主要产品中的应用和贡献情况

65、成熟程度成熟程度 技术来源技术来源 1 编程框架适配与优化 公司在自有智能芯片产品之上研发的基础系统软件可支持各主流人工智能编程框架,包括 TensorFlow、PyTorch、Caffe、MXNet 等。开发者可直接基于主流编程框架的 API 为公司云端、边缘端、终端各款智能芯片和处理器产品方便地编写应用,显著降低了遗产代码迁移的成本,提升了人工智能应用开发的速度,是公司云边端一体化生态体系的核心保障。成熟稳定 自主研发 2 智能芯片编程语言 公司研发的人工智能领域编程语言 BANG,为用户提供通用性好、可扩展的编程方式,是支撑智能芯片满足人工智能应用不断拓展、算法快速迭 代更新等实际需求的

66、核心软件组件。成熟稳定 自主研发 3 智能芯片编译器 公司研发了可将以 BANG 语言编写的程序编译成智能芯片底层指令集机器码的智能芯片编译器,以自动优化的方式代替程序员低效、易错的手工优化,高效地挖掘智能芯片的性能潜力,是提升人工智能算法/应用的开发效 率和执行效率的核心软件组件。成熟稳定 自主研发 4 智能芯片高性能数学库 开发者在编写程序时能够以调用高性能数学库的形式实现常用的数学运算,从而快速实现预期的功能并获得较好的性能。目前,公司开发的高性能数学库已经伴随着公司的处理器和芯片产品服务于过亿台智能终端和服务器设备。成熟稳定 自主研发 5 智能芯片虚拟化软件 公司研发的虚拟化软件,可以

67、将物理上的单个智能芯片虚拟化为数量可配、规模可选且具有良好安全性和隔离性的虚拟智能芯片,以供多个虚拟机或容器同时使用,是提升数据中心场景下智能芯片资源利用率、方便数据中心 IT 资产管理的核心软件组件。成熟稳定 自主研发 敬请参阅最后一页特别声明-20-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)6 智能芯片核心驱动 公司研发的核心驱动程序,为全系列产品提供内存管理、任务调度、状态及性能监控、数据通信、多芯片管理等功能保障,是保证智能芯片在操作系统中高效运行的底层基础组件。成熟稳定 自主研发 7 云边端一体化开发环境 公司研发的云边端一体化开发环境,为智能芯片/处

68、理器产品提供统一、完整、高效的应用开发、功能调试和性能调优的软件工具链。在该软件平台的支持下,程序员可实现跨云边端平台的应用开发,大幅提升人工智能应用在不同硬件平台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协同计算成为可能。成熟稳定 自主研发 资料来源:公司招股说明书,光大证券研究所(1 1)云端智能芯片云端智能芯片 公司云端智能芯片主要以实体芯片或加速卡的形式应用于各类云服务器或数据公司云端智能芯片主要以实体芯片或加速卡的形式应用于各类云服务器或数据中心中。中心中。根据公司招股说明书,公司在完成芯片设计的一系列复杂流程后,将最终的芯片版图交付给台积电进行晶圆代工,然后

69、委托日月光或 Amkor 等厂商完成芯片的封装测试,再由电路板厂商使用芯片生产出加速卡(即包含智能芯片的电路板),最后将加速卡销售给客户,这也是全球各大芯片设计企业常见的运营模式。云端智能芯片及加速卡需与服务器厂商生产的服务器整机产品进行适配,通过服务器厂商、OEM 厂商针对其功能和性能(如稳定性、运行速度和功耗等)的全方位严格认证,才能进入大规模商用阶段。因此,研发此类产品不仅要攻克智能芯片架构等一系列核心技术难关,还要跨越各服务器厂商的高准入门槛。云端智能芯片性能方面,寒武纪、英伟达、华为海思研制的云端芯片产品都已采用 7nm 等先进工艺,在性能功耗比上较为接近。在峰值计算能力方面,英伟达

70、凭借其 A100 占据了领先位置,高于寒武纪与华为海思的竞争产品;英特尔通过收购 HabanaLabs 获得了 Goya 和 Gaudi 两款产品,其峰值计算能力未披露,但推测应低于英伟达 A100。在智能计算的基础软件生态上,英伟达的 CUDA 软件生态成熟完备,在该领域处于绝对领先地位,相对寒武纪、华为海思与英特尔具备显著的优势;在智能计算市场份额与认知度上,英伟达的 GPU 产品仍处于绝对领先地位,而公司、华为海思与英特尔的相关产品仍处于市场开拓期。表表 1111:云端智能芯片比较情况:云端智能芯片比较情况 产品型号产品型号 运算能力运算能力(理论峰值理论峰值性能性能)制造工艺制造工艺

71、性能功耗比性能功耗比 面向训练面向训练/推理推理任务任务 寒武纪思元 100 32TOPSINT8(非稀疏模式)16nm 约 0.5TOPS/W(非稀疏模式)推理 寒武纪思元 270 128TOPSINT8 16nm 约 2TOPS/W 推理和训练 寒武纪思元 290 7nm 推理和训练 Nvidia Telsa T4 130TOPSINT8 12nm 约 2TOPS/W 推理和训练 Nvidia Tesla V100 125TOPSFP16 12nm 约 0.5TFLOPS/W 推理和训练 Nvidia Tesla A100 624TOPSINT8(非稀疏模式)7nm 约 2TOPS/W(非

72、稀疏模式)推理和训练 华为海思 Ascend 310 16TOPSINT8 12nm 约 2TOPS/W 推理 华为海思 Ascend 910 512TOPSINT8 12nm 约 2TOPS/W 推理和训练 资料来源:公司招股说明书,光大证券研究所 (2 2)基础系统软件技术)基础系统软件技术 公司能为自有云端、边缘端、终端全系列智能芯片与处理器产品提供统一的平台级基础系统软件和编程接口,公司自研的基础系统软件平台 Cambricon Neuware 彻底打破了云边端之间的开发壁垒,兼具高性能、灵活性和可扩展性的优势,仅需简单移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片

73、/处理器产品之上。公司在基础系统软件方面各项核心技术的先进性具体如下:1 1)编程框架适配与优化编程框架适配与优化 公司在自有智能芯片产品之上研发的基础系统软件公司在自有智能芯片产品之上研发的基础系统软件 CaCammbricon Neuwarebricon Neuware 可支可支持各主流人工智能编程框架持各主流人工智能编程框架,包括,包括 TensorFlowTensorFlow、PyTorchPyTorch、CaffeCaffe、MXNetMXNet 等。等。开发者可直接基于主流编程框架为寒武纪云端、边缘端、终端各款智能芯片和处 敬请参阅最后一页特别声明-21-证券研究报告 寒武纪寒武纪

74、-U U(688256.SH688256.SH)理器产品方便地编写应用,这显著降低了遗产代码迁移的成本,提升了人工智能应用开发的速度,是公司云边端一体化生态体系的核心保障。为了高效支撑各类人工智能编程框架,并针对公司芯片产品的特性拓展和优化已有的编程框架。公司掌握的关键技术包括:解决编程框架高层算子和智能芯片底层 MLU 指令集间的语义匹配问题。其中,计算图融合技术通过基于规则的子图匹配融合多种不同类型的计算,能有效提升智能芯片对存储资源的利用率。计算图并行技术通过算子间及算子内并行等方式充分利用智能芯片中充裕的并行计算单元。数据布局优化技术能从软件视角有效缓解智能芯片的访存带宽压力,提升整体

75、处理效率。定点化训练技术通过自适应位宽量化机制实现了基于定点数据处理的人工智能训练,突破了传统浮点训练的性能瓶颈,可大幅提升智能芯片用于训练任务时的性能。2 2)智能芯片编程语言智能芯片编程语言 公司成功研发智能芯片编程语言及其产品级编译器。公司成功研发智能芯片编程语言及其产品级编译器。公司研发的 BANG 语言不仅支撑已有的以 C/C+语言编写的智能应用到智能芯片的快速移植,还通过语言扩展进一步具备了对智能芯片的硬件特性进行精确描述的能力。具体而言,BANG 语言通过提供多种存储类型来描述智能芯片的存储资源;通过提供同步及并行等操作来描述智能芯片的控制资源;通过提供多种数据类型以及计算原语来

76、描述智能芯片的计算资源。BANG 语言充分利用了智能芯片的硬件架构特性以显著提升智能算法执行时的性能,并可在不改变用户编程习惯的前提下适应未来新出现的智能算法,从系统软件角度赋予寒武纪系列智能芯片卓越的前瞻性和通用性。同时,基于 BANG 语言开发的算子及应用能在公司云端、边缘端、终端各款智能芯片和处理器产品方便地进行迁移,有力地支撑了寒武纪云边端一体化生态体系。3 3)智能芯片编译器智能芯片编译器 公司研发了可将以公司研发了可将以 BANGBANG 语言编写的程序编译成智能芯片底层指令集(语言编写的程序编译成智能芯片底层指令集(MLU MLU 指指令集)机器码的智能芯片编译器。令集)机器码的

77、智能芯片编译器。公司在该方向上掌握了片内存储分配、自动软件流水、全局指令调度等一系列关键技术:片内存储分配实现了对片内各类存储资源的高效重复利用;自动软件流水实现了对并行计算资源的充分利用;全局指令调度实现了对存储和计算资源的均衡利用。优化后的编译器自动生成的机器码在性能上接近专家手工优化的代码,且开发效率提升了一个数量级以上,可大幅降低在智能芯片上做应用开发的门槛。4 4)智能芯片高性能数学库智能芯片高性能数学库 人工智能领域常见的推理和训练任务可以解构并归纳抽象为数百个基本数学算子(如向量运算、卷积等)。公司在自有智能芯片上将这些基本数学算子预先作公司在自有智能芯片上将这些基本数学算子预先

78、作了高效实现,形成了一套覆盖面广、性能优异的高了高效实现,形成了一套覆盖面广、性能优异的高性能数学库。性能数学库。目前,公司开发的高性能数学库已经伴随着公司的处理器和芯片产品服务于过亿台智能终端和服务器设备。公司在该方向上掌握了自动模板匹配、算子深度融合、静态片上存储管理及多核架构自适应等一系列关键技术。其中,自动模板匹配实现了对复杂手工优化指令模板的精准匹配,提升了处理效率;算子深度融合实现了多类复杂算子的片上数据驻留与融合,大幅度降低了对片外访存带宽的需求;静态片上存储管理实现了对变长片上存储访问的最优分配,能够显著提升对片上存储空间的利用率;多核架构自适应使高性能数学库能快速适应硬件架构

79、的多核扩展。基于上述关键技术,公司研发的高性能数学库具有较高的访存有效利用率及最终运行效率。敬请参阅最后一页特别声明-22-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)5 5)智能芯片虚拟化软件智能芯片虚拟化软件 公司针对寒武纪系列智能芯片研发的虚拟化软件,可以将物理上的单个智能芯片虚拟化为数量可配、规模可选且具有良好安全性和隔离性的虚拟智能芯片,以供多个虚拟机或容器同时使用。公司在该方向上掌握了异构资源共享、热迁移及容器支持等系列关键技术。其中,异构资源共享支持智能芯片上的计算、存储和编解码等多种异构资源的共享,可以有效提升资源利用率;热迁移可以突破传统虚拟化的

80、瓶颈以支持灵活高效的任务迁移;容器支持则为数据中心提供了轻量级部署和集群管理方案的支撑。基于上述关键技术,公司所研发的虚拟化软件不仅能提供良好安全性和隔离性,还能保证服务质量,在各类人工智能应用负载上具有良好的虚拟化性能。6 6)智能芯片核心驱动智能芯片核心驱动 公司研发的核心驱动程序是保证智能芯片在操作系统中高效运行的底层基础组件。公司在该方向上掌握了多内存模型管理、异步任务调度及高效数据拷贝等一系列关键技术。其中,多内存模型管理技术可以提升复杂异构架构下的内存访问效率;异步任务调度可以提升多任务处理的吞吐率;高效数据拷贝可以提升主机/设备间数据传输效率。基于上述关键技术的突破,公司研发的核

81、心驱动可以支撑不同计算和存储架构下数据的高效传输和多任务的高效运行,以统一的用户接口支撑多种型号的智能芯片/处理器和各类型操作系统。7 7)云边端一体化开发环境云边端一体化开发环境 公司研发的云边端一体化开发环境,为公司云边端系列芯片提供统一的软件开发工具链,支持程序员实现跨云边端硬件平台的人工智能应用开发,以“一处开发、处处运行”的模式大幅提升跨平台开发效率和部署速度。公司在该方向上掌握了如下关键技术:指令动态生成通过即时编译的方式,结合指定的硬件信息进行全局数据流优化,实现在运行时生成面向硬件平台优化的指令流;跨平台环境模拟通过细粒度调节处理器核的频率、访存带宽以及可用片上存储大小等参数,

82、实现了跨云边端平台的程序执行环境模拟;跨平台运行时通过软件计算逻辑和硬件运算资源的解耦,保证了不同硬件平台上应用的快速灵活部署。3.33.3 智能计算集群系统智能计算集群系统优势显著优势显著 公司智能计算集群系统一般根据客户要求进行定制化开发公司智能计算集群系统一般根据客户要求进行定制化开发,这样可以最大限度地发挥思元系列芯片及加速卡产品的技术优势和特点,降低了客户使用和维护复杂计算集群设备的难度和成本,将计算能力以云计算的形式输出,降低了用户开发、部署智能应用的门槛,为智能应用程序的维护、升级提供了有力支持。同时,公司智能计算集群系统具有实时监控系统运行状态、迅速定位系统异常、故障快速恢复等

83、优势,具有较强的市场竞争力。公司 CambriconNeuware 基础软件系统平台还具备优秀的可扩展性,能有效支撑众多用户的智能计算需求,大幅提升智能硬件的利用率,同时提升公司在人工智能数据中心市场的竞争力。公司智能计算集群系统的核心是公司自研的思元系列智能芯片加速卡、基础系统公司智能计算集群系统的核心是公司自研的思元系列智能芯片加速卡、基础系统软件平台,以及智能计算集群管理系统。软件平台,以及智能计算集群管理系统。公司通过将自有云端智能芯片加速卡产品与产业链其他厂商提供的服务器、存储设备和网络设备等硬件设施集成,为整个计算集群提供智能计算能力支撑;以自研的 Cammbricon Neuwa

84、re 基础系统软件平台为基础,结合客户需求搭建定制化的应用管理平台,提供系统运维、资源调度、应用管理等功能。寒武纪智能计算集群、英伟达智能计算集群、华为智能计算集群,在可扩展性、性能、能耗、延时和吞吐等指标上相对接近,均可满足集群中典型推理和训练任务的需求。在能耗方面,三种智能计算集群均显著优于通用计算集群。敬请参阅最后一页特别声明-23-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)表表 1212:智能计算集群智能计算集群比较情况比较情况 集群类型集群类型 代表代表厂商厂商 主力计算芯主力计算芯片片 冷却冷却方式方式 集群通讯技集群通讯技术术 集群单台集群单台单服

85、务器单服务器中芯片中芯片/加速卡的加速卡的数量数量 单芯片单芯片/加速卡计算性能加速卡计算性能 单芯片单芯片/加加速卡能耗速卡能耗 能耗能耗 (峰值计(峰值计 算性算性能能 100 POPS 100 POPS 的集的集群)群)吞吐吞吐(峰值计算性能峰值计算性能 100 100 POPS POPS 的集群)的集群)延时(峰值计算性能延时(峰值计算性能 100 POPS 100 POPS 的的集群)集群)寒武纪智能计算集群 寒武纪 思元 270、思元 290 风冷 集群中的 服务器之间以 IB(InfiniB and)或高速以太网 通信;服务器内以 PCIe/CCL ink 通信 4/8/16 卡

86、 思元 270:128TOPS(INT8)、64TOPS(INT16);思元 290 70W(思元 270);约 300W(思元290)思元 270 集群:约 100KW(一 机八卡)、150KW(一机四卡);思元 290 集群:约 110KW(一机八卡)在典型视觉任务(ResNet50)的吞吐超过 400 万图片每秒,在典型 语音任务(WaveRNN)吞吐超过 7 万语音单元每秒,在典型自然语言处理任务(Bert-base)的吞吐超过 70 万句子每秒。相同峰值性能下,训练场景吞吐一般为推理场景的 1/41/10。集群推理延时主要取决于单 芯片性能,单芯片性能越强,延时越低;思元 270/2

87、90 系列 加速卡在典型视觉、语音、自然语言场景的延时可达毫 秒级或者十毫秒级;训练延时取决于单芯片性能,集群规模、集群通讯带宽。在典型视觉、语音和自然语言训练任务上,峰值计算性能 100POPS 的寒武纪智能计算集群的延时在数分钟到数小时量级。英伟达 GPU 集群 浪潮、新华 三 英伟达 Tesla T4、Tesla V100、Tesla A100 风冷 集群中的服务器之间以 IB 或高速以太网通信;服务器内以 PCIe/NV Link 通信 4/8/16 卡 Tesla T4:130TOPS(INT8)、65TOPS(FP16);Tesla V100:15.7 TFLOPS(FP32)、1

88、25TFLOPS(FP16);Tesla A100(非稀疏性 能):19.5TFLOPS(FP32)、156TFLOPS(TF32)、312TFLOPS(FP16/BF16)、624TOPS(INT8)70W(Tesla T4);300W(Tesla V100);400W(Tesla A100)T4 集群:约 100KW(一机八 卡)、150KW(一 机四卡);V100 集群:约 180KW(一机八卡);A100 集群:约 110KW(一机八卡)在典型视觉任务(ResNet50)的吞吐超过 400 万图片每秒,在典型语音任务(WaveRNN)吞 吐尚无准确数据,在典型 自然语言处理任务(Ber

89、t-base)超过 65 万句 子每秒。相同峰值性能下,训练场景吞吐一般为推理场景的 1/41/10。集群推理延时主要取决于单芯片性能,单芯片性能越强,延时越低;T4/V100 系列集群 在典型视觉、语音、自然语言场景的延时可达毫秒级或者十毫秒级;训练延时取决于单芯片性能,集群规模、集群通讯带宽。在典型视觉、语音和自然语言训练任务上,峰值计算性能 100POPS 的GPU 计算集群的延时在数分钟到数小时量级。华为海思智能计算集群 华为 华 为 Atlas 300 加 速 卡(由 4 颗华为 Ascend 310 芯 片 组 成)、华为 Ascend 910 风冷/液 冷 集群中的 服务器之间以

90、 IB 或高速以太网通信;服务器内以 PCIe 以及未披露速率的片间互联技术通信 典型配置 为 4/8 卡 Atlas300:64TOPS(INT8)、32TOPS(FP16);Ascend910:512TOPS(INT8)、256TFLOPS(FP16)67W(Atlas 300);310W(Ascend 910)Atlas300 集群:约 200KW(一 机 八 卡)、280KW(一机四卡);Ascend910 集 群:约 110KW(一机八卡)在典型视觉、语音,自然语言场景的具体数据未披露。相同峰值性能下,训练场景吞吐一般为推理场景的 1/41/10。推理延时主要取决于单芯片性能,单芯片

91、性能越强,延时越低;Atlas 系列加速卡在典型视觉、语音、自然语言 场景的延时数据未披露;训练延时取决于单芯片性能,集群规模、集群通讯带宽。在典型视觉、语音和自然语言训练任务上,峰值计算性能 100POPS 的华为海思智能计算集群的延时在数分钟到数小时量级。资料来源:公司招股说明书,光大证券研究所 公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件Cambricon NeuwareCambricon Neuware(含软件开发工具链等(含软件开发工具链等),打破了不同场景之间的软件开发壁垒,兼具高性能、灵活性和

92、可扩展性的优势,无须繁琐的移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的人工智能应用开发,以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发生态的核心部件。敬请参阅最后一页特别声明-24-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 2323:公司:公司 Cambricon Neu

93、wareCambricon Neuware 框架结构框架结构 资料来源:公司招股说明书 Cambricon NeCambricon Neuwareuware 包括编程框架适配包、智能芯片高性能数学库、智能芯片包括编程框架适配包、智能芯片高性能数学库、智能芯片编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯片虚拟化软件等关键组件。片虚拟化软件等关键组件。在开发应用时,用户既可以基于 TensorFlow 和PyTorch 等主流编程框架接口编写代码,也可以使用公司预先优化的智能芯片高性能数学库对编程框架算

94、子进行扩展或直接编写代码;用户同样可以通过智能芯片编程语言(BANG 语言)对算子进行扩展或直接编写代码;智能芯片编译器可以完成 BANG 语言到 MIU 指令的编译,并在智能芯片核心驱动的支持下使其高效地运行于公司各款芯片产品之上。在开发过程中,用户还可以通过应用开发调试工具包所提供的调试工具、性能剖析工具和系统监测工具等高效地进行应用程序的功能调试和性能调优。此外,Cambricon Neuware 也可以通过智能芯片虚拟化软件为云计算与数据中心场景提供关键支撑。目前,公司尚未对Cambricon Neuware 进行单独销售,主要配合云端、边缘端和终端产品线的推广和销售公司对于基础系统软

95、件平台产品采取灵活的商业策略,可为大客户提供定制化的系统软件开发服务等。1 1)Cambricon NeuwareCambricon Neuware 训练软件平台训练软件平台 训练软件平台支持基于主流开源框架原生分布式通信方式,同时也支持Horovod 开源分布式通信框架,可实现从单卡到集群的分布式训练任务。支持多种网络拓扑组织方式,并完整支持数据并行、模型并行和混合并行的训练方法。训练软件平台支持丰富的图形图像、语音、推荐以及 NLP 训练任务。通过底层算子库 CNNL 和通信库 CNCL,在实际训练业务中达到业界领先的硬件计算效率和通信效率。同时提供模型快速迁移方法,帮助用户快速完成现有业

96、务模型的迁移。敬请参阅最后一页特别声明-25-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 2424:CambriconCambricon NeuwareNeuware 训练软件平台训练软件平台 资料来源:公司官网 2 2)推理加速引擎推理加速引擎 MagicMindMagicMind MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。借助 MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。图图 2525:推理加速引擎推理加速引擎

97、 MagicMindMagicMind 资料来源:公司官网 敬请参阅最后一页特别声明-26-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)MagicMindMagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个是寒武纪全新打造的推理加速引擎,也是业界首个基于基于 MLIRMLIR 图编图编译技术达到商业化部署能力的推理引擎。译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。用户使用 MLU、GPU 或者 CPU 训练好的算法模型,借助 MagicMind 仅需投入极少的开发成本,即可将推理业务部署到寒武纪

98、全系列产品上,并获得颇具竞争力的性能。MagicMind 的优势在于不仅可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署;与此同时,通过MagicMind 插件化的设计,还可以满足在性能或功能上追求差异化竞争力的客户需求。图图 2626:MagicMindMagicMind 优势优势 资料来源:公司官网 3.43.4 立足高算力领域,受益立足高算力领域,受益 AIAI 全面开拓全面开拓 公司所研发的通用型智能芯片产品,具备灵活的指令集和精巧的处理器架构,技公司所研发的通用型智能芯片产品,具备灵活的指令集和精巧的处理器

99、架构,技术壁垒高但应用面广,可覆盖人工智能领域高度多样化的应用场景(如视觉、语术壁垒高但应用面广,可覆盖人工智能领域高度多样化的应用场景(如视觉、语音、自然语言理解、传统机器学习、生成式人工智能等)。音、自然语言理解、传统机器学习、生成式人工智能等)。与 CPU、GPU 等芯 敬请参阅最后一页特别声明-27-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)片相比,通用型智能芯片能够更好地匹配和支持人工智能算法中的关键运算操作,在性能和功耗上存在显著优势。公司核心人员在处理器芯片和人工智能领域深耕十余年,带领公司研发了智能处理器指令集与微架构等一系列自主创新关键技术。公

100、司凭借领先的核心技术,较早实现了多项技术的产品化,例如推出全球首款商用终端智能处理器 IP 产品寒武纪 1A、中国首款高峰值云端智能芯片思元 100 等。公司通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升。图图 2727:寒武纪玄思寒武纪玄思 10001000 智能加速器整机智能加速器整机 资料来源:公司官网 公司公司 AIAI 芯片技术国内领先,训练与推理产品全面布局。芯片技术国内领先,训练与推理产品全面布局。人工智能是计算机科学的一个分支领域,通过模拟和延展人类及自然智能的功能,拓展机器的能力边界,使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能

101、(如自然语言理解),或获得建模和解决问题的能力(如机器学习等方法)。从技术角度看,当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。训练阶段基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。人工智能芯片是面向人工智能领域而专门设计的芯片,其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化,可高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务。1 1)思元)思元 370370 系列系列 思元思元 370370 是寒武纪第三代云端产品,采用是寒武纪第三代云端产品,采用 7nm7nm 制程工艺,是寒武纪首款采用制程工艺,是寒武纪首款采用Chiplet

102、Chiplet 技术的人工智能芯片。技术的人工智能芯片。思元 370 集成了 390 亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370 也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link多芯互联技术,在分布式训练或推理任务中为多颗思元 370 芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎 MagicMind,实现训推一

103、体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。敬请参阅最后一页特别声明-28-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)图图 2828:寒武纪:寒武纪思元思元 370370 图图 2929:思元思元 370370 系列板块于业内主流系列板块于业内主流 GPUGPU 性能对比性能对比 资料来源:公司官网 资料来源:公司官网 思元思元 370370 系列具有系列具有多多项项核心优势核心优势。思元 370 系列具有先进 Chiplet 技术、MLUarch03 芯片架构、MagicMind 推理加速引擎、训推一体软件开发平台、低功耗高带宽 LP

104、DDR5 内存、新一代编解码单元、MLU-Link 多芯互联技术、为AI 浮点计算优化等多个核心优势。图图 3030:思元思元 370370 系列核心优势系列核心优势 资料来源:公司官网 思元思元 370370 智能芯片采用了先进的智能芯片采用了先进的 ChipletChiplet 芯粒技术,支持芯粒间的灵活组合,仅芯粒技术,支持芯粒间的灵活组合,仅用单次流片就达成了多款智能加速卡产品的商用。用单次流片就达成了多款智能加速卡产品的商用。公司目前已推出 3 款加速卡:MLU370-S4、MLU370-X4、MLU370-X8,已与国内主流互联网厂商开展深入的应用适配。MLU370-X8 采用双芯

105、思元 370 配置,为双槽位 250w 全尺寸智能加速卡,提供 24TFLPOS(FP32)训练算力和 256TOPS(INT8)推理算力,同时提供丰富的 FP16、BF16 等多种训练精度。基于双芯思元 370 打造的 MLU370-X8 敬请参阅最后一页特别声明-29-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)整合了两倍于标准思元 370 加速卡的内存、编解码资源,同时 MLU370-X8 搭载MLU-Link 多芯互联技术,每张加速卡可获得 200GB/s 的通讯吞吐性能,是 PCIe 4.0 带宽的 3.1 倍,支持单机八卡部署,可高效执行多芯多卡训练和

106、分布式推理任务。图图 3131:寒武纪:寒武纪 MLU370MLU370-X8X8 训推一体人工智能加速卡训推一体人工智能加速卡 资料来源:公司官网 2 2)思元)思元 290290 系列系列 寒武纪思元 290 芯片是寒武纪首颗 AI 训练芯片,采用创新性的 MLUv02 扩展架构,使用台积电 7nm 先进制程工艺制造,在一颗芯片上集成了高达 460 亿的晶体管。芯片具备多项关键性技术创新,MLU-Link多芯互联技术,提供高带宽多链接的互连解决方案;HBM2 内存提供 AI 训练中所需的高内存带宽;vMLU帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助 AI 计算应对性能、效率

107、、扩展性、可靠性等多样化的挑战。图图 3232:思元思元 290290 系列核心优势系列核心优势 资料来源:公司官网 市场全面拓展,产品逐步落地。市场全面拓展,产品逐步落地。2023 年,依托于智能芯片产品的技术领先优势,公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续 敬请参阅最后一页特别声明-30-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)落地,并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步。2023 年公司的智能芯片及加速卡实现收入 1.01 亿元。在大模型领域,公司与国内头部的算法公司形成了紧密的技术和产品合作。在

108、视觉大模型领域,公司与智象未来达成了算力产品的合作以及视觉多模态大模型的深度适配,寒武纪产品为其在线商业应用提供了算力保障。在语言大模型领域,公司产品与百川智能等头部客户进行了大模型适配,并获得了产品兼容性认证,产品性能亦达到国际主流产品水平。公司与客户正携手在各行业垂直领域进行大模型应用探索与落地。在互联网领域,公司产品在视觉、语音、自然语言等应用场景中持续出货,并在搜索、广告推荐领域与头部互联网企业达成了产品深度适配及优化,产品性能达到客户需求,为后续业务落地奠定了坚实的基础。在金融领域,公司与多家大型银行进行了语言大模型的测试,并正在推动金融领域的应用落地。目前交通银行已选择嵌入公司智能

109、加速卡的 GPU 服务器为指定选型。在通信运营商行业,寒武纪依托集采入围,继续赋能运营商集团及下属省专公司常用的人工智能业务。未来,寒武纪将持续助力三大运营商共同赋能更多业务场景的人工智能应用落地,向“AI+”延伸拓展。在其他垂直行业,公司的智能加速卡继续为传统产业智能化转型保驾护航,助力智慧粮仓、智慧矿山、智慧物流等场景的业务落地。敬请参阅最后一页特别声明-31-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)4 4、盈利预测及估值评级盈利预测及估值评级 寒武纪是国内领先的 AI 芯片公司,在当前 AIGC 与大模型兴起的背景之下,公司业务空间广阔。我们维持预测公司

110、 2024-2025 年营收为 17.94、26.97 亿元,新增 2026 年营收预测为 33.19 亿元,维持预测 2024-2025 年归母净利润预测为-2.97、-0.77 亿元,新增 2026 年归母净利润预测为 2.36 亿元。考虑到 AI 芯片的设计难度以及未来发展空间,公司为国内 AI 芯片龙头,具备高度稀缺性和先发优势,维持“增持”评级。表表 1313:寒:寒武纪盈利预测与估值简表武纪盈利预测与估值简表 指标指标 20222022 20232023 2024E2024E 2025E2025E 2026E2026E 营业收入(百万元)729 709 1,794 2,697 3,

111、319 营业收入增长率 1.11%-2.70%152.87%50.35%23.06%归母净利润(百万元)-1,257-848-297-77 236 EPS(元)-3.14-2.04-0.71-0.19 0.57 ROE(归属母公司)(摊薄)-25.88%-15.02%-5.54%-1.47%4.28%P/E N/A N/A N/A N/A 384 P/B 17.9 16.0 16.9 17.2 16.4 资料来源:Wind,光大证券研究所预测,股价时间为 2024-06-19 注:2022、2023、2024 年及之后总股本分别为4.01/4.17/4.17 亿股 5 5、风险分析风险分析 研

112、发工作未达预期风险研发工作未达预期风险 公司现有产品升级更新和新产品开发需要持续投入大量的资金和人员,但研发项目的进程及结果具有不确定性,如果未来公司在研发方向上未能做出正确判断,在研发过程中未能持续突破关键技术或性能指标未达预期,将对公司业绩产生不利影响。AIAI 应用推广不及预期风险应用推广不及预期风险 AI 为新兴应用,大规模商业化落地存在不确定性,AI 应用推广不及预期可能会对公司业绩产生不利影响。持续亏损带来的持续经营风险持续亏损带来的持续经营风险 芯片行业是一项高投入、长周期的行业,持续的研发投入对于企业的发展至关重要。只有通过不断的研发投入,才能推动技术创新和产品升级,提升核心竞

113、争力,从而在激烈的市场竞争中取得优势地位。受到行业政策、国际政治经济环境、市场竞争、市场需求及研发技术产品化等综合因素的影响,公司核心技术优势转化为业绩收入存在一定不确定性和滞后性,存在持续亏损带来的持续经营风险。客户集中客户集中度较高的风险度较高的风险 公司前五大客户的销售金额合计占比较高。若公司主要客户经营发生变动或者需求放缓,可能给公司业绩带来不利影响。此外,公司面临着新客户拓展的业务开发压力,如果新客户拓展情况未达到预期,亦会对公司经营业绩造成一定不利影响。敬请参阅最后一页特别声明-32-证券研究报告 寒武纪寒武纪-U U(688256.SH688256.SH)财务报表与盈利预测财务报

114、表与盈利预测 利润表(百万元)利润表(百万元)20222022 20232023 2024E2024E 2025E2025E 2026E2026E 营业收入营业收入 729729 709709 1,7941,794 2,6972,697 3,3193,319 营业成本 250 219 564 857 1,069 折旧和摊销 285 250 175 222 270 税金及附加 3 4 8 12 15 销售费用 83 82 179 243 266 管理费用 297 154 359 432 498 研发费用 1,523 1,118 2,153 1,904 1,991 财务费用-52-45-201-3

115、9 5 投资收益 91 74 90 90 90 营业利润营业利润 -1,3241,324 -876876 -302302 -8383 229229 利润总额利润总额 -1,3231,323 -875875 -301301 -8282 230230 所得税 2 3 1 0-1 净利润净利润 -1,3251,325 -878878 -302302 -8282 231231 少数股东损益-68-30-5-5-5 归属母公司净利润归属母公司净利润 -1,2571,257 -848848 -297297 -7777 236236 EPS(EPS(元元)-3.143.14 -2.042.04 -0.710

116、.71 -0.190.19 0.570.57 现金流量表(百万元)现金流量表(百万元)20222022 20232023 2024E2024E 2025E2025E 2026E2026E 经营活动现金流经营活动现金流 -1,3301,330 -596596 -928928 -837837 539539 净利润-1,257-848-297-77 236 折旧摊销 285 250 175 222 270 净营运资金增加-1,494-757 1,634 2,291-1,202 其他 1,135 760-2,441-3,273 1,236 投资活动产生现金流投资活动产生现金流 777777 42542

117、5 -6464 -180180 -210210 净资本支出-284-100-230-270-300 长期投资变化 222 230 0 0 0 其他资产变化 839 295 166 90 90 融资活动现金流融资活动现金流 9999 1,6571,657 201201 1,0911,091 -1,0581,058 股本变化 1 16 0 0 0 债务净变化 10-28 0 1,052-1,052 无息负债变化-188-114 524 322-9 净现金流净现金流 -454454 1,4861,486 -791791 7474 -729729 资产负债表(百万元)资产负债表(百万元)2022202

118、2 20232023 2024E2024E 2025E2025E 2026E2026E 总资产总资产 5,7705,770 6,4186,418 6,6406,640 7,9327,932 7,1027,102 货币资金 2,467 3,954 3,162 3,236 2,508 交易性金融资产 0 700 700 700 700 应收账款 766 644 1,614 2,158 1,991 应收票据 0 0 0 0 0 其他应收款(合计)30 26 72 108 133 存货 287 99 282 857 855 其他流动资产 651 37 42 46 50 流动资产合计流动资产合计 4,2

119、554,255 5,6485,648 5,8965,896 7,1407,140 6,2796,279 其他权益工具 0 0 0 0 0 长期股权投资 222 230 230 230 230 固定资产 233 142 168 190 198 在建工程 26 109 82 61 46 无形资产 291 150 208 256 295 商誉 0 0 0 0 0 其他非流动资产 7 13 13 13 13 非流动资产合计非流动资产合计 1,1,515515 771771 745745 792792 822822 总负债总负债 831831 689689 1,2121,212 2,5872,587 1

120、,5261,526 短期借款 0 0 0 1,052 0 应付账款 230 237 395 600 534 应付票据 0 0 0 0 0 预收账款 0 0 0 0 0 其他流动负债 0 0 0 0 0 流动负债合计流动负债合计 542542 463463 992992 2,3672,367 1,3051,305 长期借款 0 0 0 0 0 应付债券 0 0 0 0 0 其他非流动负债 247 220 220 220 220 非流动负债合计非流动负债合计 288288 225225 220220 220220 220220 股东权益股东权益 4,9404,940 5,7305,730 5,42

121、85,428 5,3455,345 5,5765,576 股本 401 417 417 417 417 公积金 7,874 9,577 9,577 9,577 9,601 未分配利润-3,372-4,221-4,518-4,595-4,383 归属母公司权益 4,855 5,650 5,353 5,276 5,512 少数股东权益 85 80 75 70 65 主要指标主要指标 盈利能力(盈利能力(%)20222022 20232023 2024E2024E 2025E2025E 2026E2026E 毛利率 65.8%69.2%68.5%68.2%67.8%EBITDA 率-90.6%-45

122、.1%-62.9%0.4%12.5%EBIT 率-131.3%-82.4%-72.6%-7.8%4.4%税前净利润率-181.4%-123.3%-16.8%-3.0%6.9%归母净利润率-172.4%-119.6%-16.5%-2.9%7.1%ROA-23.0%-13.7%-4.5%-1.0%3.3%ROE(摊薄)-25.9%-15.0%-5.5%-1.5%4.3%经营性 ROIC-40.2%-39.9%-41.3%-3.9%3.3%偿债能力偿债能力 20222022 20232023 2024E2024E 2025E2025E 2026E2026E 资产负债率 14%11%18%33%21%

123、流动比率 7.85 12.19 5.94 3.02 4.81 速动比率 7.32 11.98 5.66 2.65 4.16 归母权益/有息债务 77.13 160.62 152.18 4.85 156.69 有形资产/有息债务 86.80 178.03 182.68 7.05 193.33 资料来源:Wind,光大证券研究所预测 费用率费用率 20222022 20232023 2024E2024E 2025E2025E 2026E2026E 销售费用率 11.35%11.57%10.00%9.00%8.00%管理费用率 40.69%21.65%20.00%16.00%15.00%财务费用率-

124、7.12%-6.31%-11.20%-1.44%0.16%研发费用率 208.92%157.53%120.00%70.60%60.00%所得税率 0%0%0%0%0%每股指标每股指标 20222022 20232023 2024E2024E 2025E2025E 2026E2026E 每股红利 0.00 0.00 0.00 0.00 0.00 每股经营现金流-3.32-1.43-2.23-2.01 1.29 每股净资产 12.11 13.56 12.85 12.66 13.23 每股销售收入 1.82 1.70 4.31 6.47 7.97 估值指标估值指标 20222022 20232023

125、 2024E2024E 2025E2025E 2026E2026E PE N/A N/A N/A N/A 384 PB 17.9 16.0 16.9 17.2 16.4 EV/EBITDA N/A N/A N/A 8253.7 215.9 股息率 0.0%0.0%0.0%0.0%0.0%敬请参阅最后一页特别声明-33-证券研究报告 行业及公司评级体系行业及公司评级体系 评级评级 说明说明 行行 业业 及及 公公 司司 评评 级级 买入 未来 6-12 个月的投资收益率领先市场基准指数 15%以上 增持 未来 6-12 个月的投资收益率领先市场基准指数 5%至 15%;中性 未来 6-12 个月

126、的投资收益率与市场基准指数的变动幅度相差-5%至 5%;减持 未来 6-12 个月的投资收益率落后市场基准指数 5%至 15%;卖出 未来 6-12 个月的投资收益率落后市场基准指数 15%以上;无评级 因无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使无法给出明确的投资评级。基准指数说明:基准指数说明:A 股市场基准为沪深 300 指数;香港市场基准为恒生指数;美国市场基准为纳斯达克综合指数或标普 500 指数。分析、估值方法的局限性说明分析、估值方法的局限性说明 本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。本报告采用的各种估值方法

127、及模型均有其局限性,估值结果不保证所涉及证券能够在该价格交易。分析师声明分析师声明 本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。负责准备以及撰写本报告的所有研究人员在此保证,本研究报告中任何关于发行商或证券所发表的观点均如实反映研究人员的个人观点。研究人员获取报酬的评判因素包括研究的质量和准确性、客户反馈、竞争性因素以及光大证券股份有限公司的整体收益。所有研究人员保证他们报酬的任何一部分不曾与,不与,也将不会与本报告中具体的推荐意见或观点有直接或间接

128、的联系。法律主体声明法律主体声明 本报告由光大证券股份有限公司制作,光大证券股份有限公司具有中国证监会许可的证券投资咨询业务资格,负责本报告在中华人民共和国境内(仅为本报告目的,不包括港澳台)的分销。本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格编号已披露在报告上海品茶。中国光大证券国际有限公司和 Everbright Securities(UK)Company Limited 是光大证券股份有限公司的关联机构。特别声明特别声明 光大证券股份有限公司(以下简称“本公司”)成立于 1996 年,是中国证监会批准的首批三家创新试点证券公司之一,也是世界 500 强企业中国光大集团股份公司

129、的核心金融服务平台之一。根据中国证监会核发的经营证券期货业务许可,本公司的经营范围包括证券投资咨询业务。本公司经营范围:证券经纪;证券投资咨询;与证券交易、证券投资活动有关的财务顾问;证券承销与保荐;证券自营;为期货公司提供中间介绍业务;证券投资基金代销;融资融券业务;中国证监会批准的其他业务。此外,本公司还通过全资或控股子公司开展资产管理、直接投资、期货、基金管理以及香港证券业务。本报告由光大证券股份有限公司研究所(以下简称“光大证券研究所”)编写,以合法获得的我们相信为可靠、准确、完整的信息为基础,但不保证我们所获得的原始信息以及报告所载信息之准确性和完整性。光大证券研究所可能将不时补充、

130、修订或更新有关信息,但不保证及时发布该等更新。本报告中的资料、意见、预测均反映报告初次发布时光大证券研究所的判断,可能需随时进行调整且不予通知。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。客户应自主作出投资决策并自行承担投资风险。本报告中的信息或所表述的意见并未考虑到个别投资者的具体投资目的、财务状况以及特定需求。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,本公司及作者均不承担任何法律责任。不同时期,本公司可能会撰写并发布与本报告所载信息、建议及预测不一致的报告。本公司的销售人

131、员、交易人员和其他专业人员可能会向客户提供与本报告中观点不同的口头或书面评论或交易策略。本公司的资产管理子公司、自营部门以及其他投资业务板块可能会独立做出与本报告的意见或建议不相一致的投资决策。本公司提醒投资者注意并理解投资证券及投资产品存在的风险,在做出投资决策前,建议投资者务必向专业人士咨询并谨慎抉择。在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问或金融产品等相关服务。投资者应当充分考虑本公司及本公司附属机构就报告内容可能存在的利益冲突,勿将本报告作为投资决策的唯一信赖依据。本报告根据中华人民共

132、和国法律在中华人民共和国境内分发,仅向特定客户传送。本报告的版权仅归本公司所有,未经书面许可,任何机构和个人不得以任何形式、任何目的进行翻版、复制、转载、刊登、发表、篡改或引用。如因侵权行为给本公司造成任何直接或间接的损失,本公司保留追究一切法律责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。光大证券股份有限公司版权所有。保留一切权利。光大证券股份有限公司版权所有。保留一切权利。光大证券研究所光大证券研究所 上海上海 北京北京 深圳深圳 静安区新闸路 1508 号 静安国际广场 3 楼 西城区武定侯街 2 号 泰康国际大厦 7 层 福田区深南大道 6011 号 NEO 绿景纪元大厦 A 座 17 楼 光大证券股份有限公司关联机构光大证券股份有限公司关联机构 香港香港 英国英国 中国光大证券国际有限公司中国光大证券国际有限公司 香港铜锣湾希慎道 33 号利园一期 28 楼 EverEverbright Securities(UK)Company Limitedbright Securities(UK)Company Limited 6th Floor,9 Appold Street,London,United Kingdom,EC2A 2AP

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(寒武纪-公司跟踪报告之一:中国AI芯片巨头加速成长-240620(33页).pdf)为本站 (YY) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_... 升级为标准VIP   137**18... 升级为至尊VIP

wei**n_...  升级为至尊VIP wei**n_... 升级为标准VIP

139**24...   升级为标准VIP  158**25... 升级为标准VIP

wei**n_...  升级为高级VIP  188**60... 升级为高级VIP

Fly**g ... 升级为至尊VIP  wei**n_... 升级为标准VIP 

186**52... 升级为至尊VIP  布** 升级为至尊VIP 

186**69... 升级为高级VIP  wei**n_... 升级为标准VIP

 139**98...  升级为至尊VIP 152**90... 升级为标准VIP 

138**98... 升级为标准VIP     181**96... 升级为标准VIP

185**10...   升级为标准VIP wei**n_...  升级为至尊VIP

高兴  升级为至尊VIP  wei**n_... 升级为高级VIP

wei**n_...  升级为高级VIP   阿**... 升级为标准VIP

wei**n_... 升级为高级VIP  lin**fe... 升级为高级VIP 

 wei**n_... 升级为标准VIP wei**n_...  升级为高级VIP

wei**n_...   升级为标准VIP   wei**n_... 升级为高级VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为至尊VIP 

wei**n_...   升级为高级VIP wei**n_... 升级为高级VIP 

180**21... 升级为标准VIP  183**36... 升级为标准VIP  

wei**n_...  升级为标准VIP wei**n_...  升级为标准VIP

xie**.g...  升级为至尊VIP   王** 升级为标准VIP 

 172**75... 升级为标准VIP  wei**n_... 升级为标准VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP 

 135**82...  升级为至尊VIP  130**18... 升级为至尊VIP 

 wei**n_...  升级为标准VIP wei**n_...  升级为至尊VIP

wei**n_...  升级为高级VIP  130**88...  升级为标准VIP

张川  升级为标准VIP wei**n_...  升级为高级VIP 

叶** 升级为标准VIP wei**n_... 升级为高级VIP 

138**78... 升级为标准VIP   wu**i 升级为高级VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP  

wei**n_... 升级为高级VIP  185**35...  升级为至尊VIP 

wei**n_...  升级为标准VIP 186**30...  升级为至尊VIP

156**61... 升级为高级VIP  130**32... 升级为高级VIP 

136**02... 升级为标准VIP wei**n_...  升级为标准VIP

133**46...  升级为至尊VIP wei**n_... 升级为高级VIP 

180**01...  升级为高级VIP  130**31... 升级为至尊VIP 

wei**n_... 升级为至尊VIP  微**... 升级为至尊VIP 

wei**n_... 升级为高级VIP   wei**n_...  升级为标准VIP

刘磊 升级为至尊VIP  wei**n_... 升级为高级VIP 

班长  升级为至尊VIP wei**n_...  升级为标准VIP 

176**40...  升级为高级VIP  136**01... 升级为高级VIP

159**10... 升级为高级VIP  君君**i... 升级为至尊VIP 

 wei**n_... 升级为高级VIP   wei**n_...  升级为标准VIP

 158**78...  升级为至尊VIP 微**...   升级为至尊VIP

 185**94... 升级为至尊VIP  wei**n_...  升级为高级VIP

139**90... 升级为标准VIP    131**37... 升级为标准VIP

钟**  升级为至尊VIP  wei**n_... 升级为至尊VIP

 139**46... 升级为标准VIP wei**n_...  升级为标准VIP 

 wei**n_... 升级为高级VIP  150**80... 升级为标准VIP 

wei**n_...  升级为标准VIP GT 升级为至尊VIP 

 186**25... 升级为标准VIP wei**n_... 升级为至尊VIP