上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业AIGC系列之七:国产AI芯片的百倍算力需求!-230324(23页).pdf

编号:119841  PDF  DOCX 23页 1.68MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业AIGC系列之七:国产AI芯片的百倍算力需求!-230324(23页).pdf

1、 行业及产业 行业研究/行业深度 证券研究报告 计算机 2023 年 03 月 24 日 国产 AI 芯片的百倍算力需求!看好 AIGC 系列之七 相关研究 一层是 AIGC 狂潮,深层是数字经济出海!-计算机行业周报20 2023 年 3月 18日 百度文心:一个符合预期的起点-AIGC系列之六 2023 年 3 月 17 日 证券分析师 黄忠煌 A0230519110001 洪依真 A0230519060003 李国盛 A0230521080003 刘洋 A0230513050006 联系人 崔航(8621)23297818 本期投资提示:AI 芯片是大模型的

2、基础。AI 芯片主要分为训练和推理两类芯片,云和端对训练和推理芯片要求不同,目前主流架构包括 GPU、FPGA 和 ASIC 三类,通用性 GPUFPGAASIC,性能功耗比 GPUFPGAASIC。四大 AI 芯片技术路线,均围绕打破英伟达 CUDA 生态垄断展开。英伟达凭借 CUDA、cuDNN 和 TensorRT 等软件工具链以及和 Tensorflow 的深度绑定构筑了极高的生态壁垒,2021 年 GPU 市占率超 80%,高性能 AI 芯片 A100、H100 被禁止向中国出口后,快速推出 800 系列合法出口中国;寒武纪复制英伟达成长之路。GPT-4 参数量高达 100 万亿,是

3、 GPT-3 的 500 倍以上!即使考虑到 AI 芯片能力的提升(从当前主流的 A100 升级至 H100),仍然需要巨量的额外增量投资。AI 芯片+AI 服务器,受益于 AIGC+类 GPT 等应用的“鲶鱼效应”。原有英伟达等供给有限,所以国产 AI 芯片有理论上的爆发弹性,AI 服务器有成长空间。由于 AIGC、类 GPT有“鲶鱼效应”,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈(根据 IDC 咨询,预测 2025 年 AI 服务器市场空间仅仅 318 亿美元,21-25 年预计 CAGR 仅仅 19.5%),因此国产 AI 芯片在逻辑上有爆发弹性,此外 AI 服务器也有成长空间。

4、寒武纪思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片。目前华为昇腾 910 性能超越英伟达 V100,但未达到 A100 水平,壁仞科技 7nm 通用 GPU芯片 BR100 称其可与被禁售的英伟达 H100 一较高下,但尚未量产上市。寒武纪思源 590 芯片面积 800mm2,和 A100 一样。内存带宽 2.7T,是 A100 1.8T 的 1.5 倍。HBM2使用海力士,功耗达 350W-550W,FP32 算力到 80TFLops,目前已经客户送样测试阶段,在高性能国产 AI 芯片中进程最快,最有机会承接国内 AI 算法商对英伟达 A100、H10

5、0的需求。重点推荐:1)直接受益 AI 芯片需求崛起的寒武纪(思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片)、海光信息(预计 2023 年底量产的 DCU3 性能与 NVDIA H100 性能持平)。2)AI 服务器供应商:浪潮信息、中科曙光、中兴通讯(通讯)、工业富联(电子)。TMT 领域算力基建逻辑,也建议关注通信、电子相关公司。通信天孚通信、中际旭创、紫光股份、锐捷网络、新易盛等。此外也持续关注流量基建主线的数据中心等环节供需变化,包括奥飞数据、润泽科技等,以及伴随算力增长的温控散热环节,英维克等。电子GPU:景嘉微、好利科技;视觉芯片及 IP:思

6、特威、富瀚微、芯原股份;服务器存储及接口芯片:澜起科技、聚辰股份;CPU:海光信息、龙芯中科;FPGA 芯片:复旦微、安路科技;数通/服务器 PCB:沪电股份、深南电路、生益科技、胜宏科技;光通信芯片:源杰科技。风险提示:AI 芯片迅速迭代,开启价格战;AIGC 行业落地需求不及预期;供应链不稳定。请务必仔细阅读正文之后的各项信息披露与声明 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 2 页 共 23 页 简单金融 成就梦想 投资案件 结论和投资分析意见 预计中国互联网大厂即将进入大模型“军备竞赛”期,国产 AI 芯片需求进入爆发期,带动 AI 服务器进入快速成长期。原因及逻辑

7、AI 芯片+AI 服务器,受益于 AIGC+类 GPT 等应用的鲶鱼效应。原有英伟达等供给有限,所以国产 AI 芯片有理论上的爆发弹性,AI 服务器有成长空间。由于 AIGC、类GPT 有鲶鱼效应,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈(根据 IDC咨询,预测 2025 年 AI 服务器市场空间仅仅 318 亿美元,预计 21-25 年 CAGR 仅仅19.5%),因此国产 AI 芯片在逻辑上有爆发弹性,此外 AI 服务器也有成长空间。有别于大众的认识 市场认为,英伟达 GPU 生态难以突破,我们认为,国产 AI AISC 性能在主流大模型算法中已能毕竟英伟达主流 GPU 计算能力水

8、平。市场认为,国产 AI ASIC 水平竞争格局较差,我们认为,当前 AI ASIC 芯片供应商较多,但主要互联网产商 AI 芯片采购较为集中。eZfYfVdXaV8XaYdX6M8QbRnPpPmOoNeRqQmPkPoMpR9PpNoNwMsPmRNZnNrP 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 3 页 共 23 页 简单金融 成就梦想 1.AI 芯片:大模型的基础.5 2.AI 芯片四大技术路线,寒武纪复制英伟达.7 2.1 英伟达:通用芯片 GPU.8 2.2 寒武纪:复制英伟达成长之路.10 2.3 AMD:部分兼容英伟达 CUDA.11 2.4 谷歌、华为:“

9、深度学习框架+AI 芯片”自研.12 3.中国 ASIC 芯片格局:寒武纪卡位最优.15 4.AIGC 传导至潜在的百倍算力需求!.17 5.重点关注公司.20 6.风险提示.21 目录 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 4 页 共 23 页 简单金融 成就梦想 图表目录 图 1:云端训练、云端推理、设备端推理三个细分市场的 AI 芯片竞争格局.7 图 2:寒武纪针对原生 TensorFlow 的修改(深灰色部分).10 图 3:寒武纪的端云一体软件栈架构.10 图 4:AMD 的 ROCm 是和英伟达 CUDA 对等的智能编程语言.11 图 5:AMD 的 HIPif

10、y 工具可以将英伟达 CUDA 代码转换为 ROCm 代码.11 图 6:英伟达的 CUDA 栈.12 图 7:AMD 的 ROCm 栈.12 图 8:华为在 AI 领域全栈自研:从底层芯片到智能编程语言再到深度学习框架14 图 9:MindSpore 和 Pytorch 结合各类芯片训练速度(单位:张/秒).14 图 10:OpenAI 首席执行官 Sam Altman 谈 ChatGPT 每次聊天的成本.18 图 11:GPT-3 训练成本估算.18 图 12:主流 LLM 模型训练成本估算.19 图 13:LLM 训练/推理成本测算框架.19 图 14:过去 5 年中,LLM 模型参数呈

11、指数增长.20 表 1:“端-边-云”对 AI 芯片的算力和功耗、延时性有不同的要求.5 表 2:国内外主流深度学习框架以及支持的硬件设备.8 表 3:英伟达发布 A800、H800 实现向中国合法出口.9 表 4:英伟达 AI 推理芯片参数一览.9 表 5:寒武纪 AI 芯片性能参数.10 表 6:谷歌历代推理和训练芯片性能参数.13 表 7:华为主流推理和训练芯片性能参数.14 表 8:训练端芯片已有较多参与者.16 表 9:推理端芯片华为/阿里/寒武纪等布局较早.16 表 10:重点公司估值表(单位:亿元).22 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 5 页 共 23

12、 页 简单金融 成就梦想 1.AI 芯片:大模型的基础 人工智能芯片主要分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理,即将在云端训练好的算法模型进行裁剪优化变“轻”之后,进入“实战”阶段,输入数据直接得出准确的识别结果。不同用途(训练 or 推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延时

13、(完成推理过程所需要的时间尽可能短)、低功耗。其次,“端-边-云”三个环节对 AI 芯片的不同要求见下表其中端和边上进行的大部分是 AI“推理”,因此用于端和边的 AI 芯片性能要求和上述推理芯片一致;大部分的训练过程是在云和数据中心进行,训练过程对时延没有什么要求,因此需要保证 AI 芯片在尽可能保证较高算力的情况下,功耗尽可能低,另外许多推理过程也是在云端进行。表 1:“端-边-云”对 AI 芯片的算力和功耗、延时性有不同的要求 端 边 云 耳机电话 智能手机 个人电脑 网络摄像机 IPC 边缘服务器 数据中心 算力 20MOPS 100GOPS 1-10TOPS 10-20TOPS 10

14、-20TOPS 10-500TOPS 200+TOPS 功耗 1 mW 10 mW 1-2W 3-10W 3-10W 10-300W 200+W 模型大小 10KB 100KB 10MB 10-100MB 10-100MB 100+MB 300+MB 延时 FPGAASIC,通用性越低,代表其适合支持的算法类型约少。(2)性能功耗比:GPUFPGAASIC,性能功耗比越高越好,意味着相同功耗下运算次数越多,训练相同算法所需要的时间越短。在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。1.在云和数据中心 AI 芯片市场,“训练”和“推理”两个环节都是英伟达 GPU 一家独大,几乎占据

15、 90%以上份额,包括 AWS、微软 Azure、谷歌云、阿里云、华为云、腾讯云在内的大部分公有云厂商上线的 AI 加速计算公有云服务绝大部分都是基于英伟达 Tesla 系列 GPU。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 6 页 共 23 页 简单金融 成就梦想(1)云端训练用的几乎全部是英伟达 GPU,公有云厂商中仅谷歌云一家除了提供以英伟达 GPU 为主的云计算加速服务之外,还推出了基于自研 AI 芯片 TPU 的深度学习训练服务;(2)云端推理目前出现了基于 GPU、FPGA、ASIC 三种不同芯片云计算服务,但是市场份额仍然以英伟达 GPU 为主,其中 AWS、阿里

16、云、腾讯云、华为云等公有云厂商均推出了 FPGA 加速计算云服务,另外 AWS 推出了基于自研 AI 芯片Inferentia 的 ASIC 加速计算服务,华为云推出了基于自研 AI 芯片昇腾 310 的ASIC 加速计算服务。2.在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防 IPC 领域英伟达暂时领先。(1)手机:高通从骁龙820开始,就已经具备第一代人工智能引擎AI Engine;高通从第三代 AI Engine 开始引入异构计算 CPU、GPU 和 DSP 的异构并行计算;目前高通已经迭代至

17、第四代,骁龙 855 是第一个搭载第四代 AI Engine 的 SoC。华为麒麟 970、980 分别引入寒武纪 IP(1A/1H),使得手机 SoC 开始具备 AI 能力,在 2019 年 6 月华为发布麒麟 810,华为与寒武纪合作终止,华为采用了自研 AI 芯片达芬奇架构(华为在 2018年 推 出 了 达 芬 奇 架 构,对 标 寒 武 纪 智 能 处 理 器IP Cambricon-1A/1H/1M)。苹果 2017 年发布的 A11 芯片也具备了 AI能力,附带 Neural Engine 和开发平台 Core ML 用于机器学习。(2)安防 IPC:仍然以采用英伟达 Jetso

18、n 系列 GPU 为主。例如海康采用了英伟达 JetsonTX1,大华睿智系列人脸网络摄像机采用的是英伟达 Tesla P4 GPU。另外国内三大安防厂商也在陆续采用 ASIC 芯片,例如海康、大华、宇视在前端智能化摄像机中采用 Movidious 的 Myriad 系列芯片,大华自研 AI 芯片用于新款睿智人脸摄像机。(3)智能驾驶:L3 级别以上自动驾驶芯片以英伟达 Drive 平台为主(包括Xavier 和 Orin 两款 SoC);华为将昇腾 310 用于自动驾驶域控制器 MDC上,2020 年已经通过车规级认证;英特尔 Mobileye 的 EyeQ4-5 被用在L3-5 智能驾驶。

19、但是目前整车厂和 Tier1 实际采用得最多仍然是以英伟达 GPU 为主。(在低级别的 L1-L2 辅助驾驶上,采用的是 NXP、瑞萨等厂商的 MCU 芯片,不涉及深度学习。)(4)智能音箱:目前智能音箱的语音语义识别均在云端完成推理计算,终端上没有 AI 专用处理单元。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 7 页 共 23 页 简单金融 成就梦想 图 1:云端训练、云端推理、设备端推理三个细分市场的 AI 芯片竞争格局 资料来源:雷锋网,申万宏源研究 2.AI 芯片四大技术路线,寒武纪复制英伟达 由于 AIGC、类 GPT 应用有鲶鱼效应,带来约百倍算力需求(下文)。而英

20、伟达等供给解决需求有瓶颈,因此国产 AI 芯片有逻辑上需求弹性,AI 服务器也有空间。根据 IDC数据,2021 年全球 AI服务器市场规模为 156 亿美元,预计到 2025 年全球 AI 服务器市场将达到 318 亿美元,预计 21-25 年 CAGR 仅仅 19.5%。AI 服务器的增长和规模总额恐怕无法满足类 GPT 类应用的百倍需求(例如生产地域、供应商产能、工人等限制),因此 AI芯片可能会大量爆发,其次是 AI服务器。近期的行业领袖创业潮,会加速这种趋势。2012-2014 年 AI 创业潮,造就 2015-2017年 AI 机会。2022H2-2023 新一轮 AI 大模型创业

21、潮。目前 AI 芯片主要玩家应对英伟达塑造的 AI 生态壁垒,选取了不同的商业策略:(1)英伟达 AI 芯片依然是 AI 训练和推理最佳选择;(2)寒武纪在走英伟达的路线;(3)AMD 在走部分兼容 CUDA 的路线;(4)谷歌、华为、百度走的是“深度学习框架+AI 芯片”自研路线。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 8 页 共 23 页 简单金融 成就梦想 2.1 英伟达:通用芯片 GPU 英伟达目前在深度学习训练芯片市场占据绝对垄断地位,凭借的是:(1)CUDA 及 cuDNN、TensorRT 等一系列专为深度学习打造的软件工具链。CUDA 是实现 CPU 和 GP

22、U 分工的编程工具;cuDNN 针对深度学习训练,将深度学习模型中对各层(Layer)的常见的操作(例如卷积 convolution、池化pooling)以方便理解和使用的接口暴露给开发人员,从而使得开发人员可以快速搭建 training 的库;TensorRT 针对推理环节,帮助模型自动减值和优化;由于开发者对于这些工具已经非常熟悉,由于学习成本的存在不会轻易迁移;(2)深度学习框架和英伟达 AI 芯片的高度耦合。由于各家 AI 芯片厂商编程语言无法兼容,而深度学习框架厂商仅支持一家 AI 芯片就要投入巨大工程量,因此导致其最终只选择市占率最大的 1-2 家进行深度支持,英伟达在 AI 训练

23、和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒。表 2:国内外主流深度学习框架以及支持的硬件设备 深度学习框架 公司/机构 发布时间 支持的 AI 芯片 国外 Tensorflow 谷歌 2015 年 CPU/GPU(英伟达 CUDA)/TPU(谷歌)Pytorch Facebook 2016 年 CPU/GPU(英伟达 CUDA)中国 Paddle Paddle(飞桨)百度 2016 年 CPU/GPU(英伟达 CUDA+AMD ROCm)/昆仑 XPU(百度)/海光DCU/华为昇腾 Jittor(计图)清华 2020 年 CPU/GPU(英伟达 CUDA)/寒武纪 Mindspore

24、华为 2020 年 CPU/GPU(英伟达 CUDA)/华为昇腾 MegEngine(天元)旷视 2020 年 CPU(ARM+x86)/GPU(英伟达 CUDA)资料来源:Paddle Paddle 官网,旷视天元官网,申万宏源研究 英伟达高性能训练和推理芯片产品主要包括 V100、A100、H100 以及 3 月 21 日 GTC 2023 发布的 H100 NVL(2 张 H100 通过外部接口以 600 GB/s 的速度连接,每张卡显存为 94GB 合计为 188GB),预计 2024 年将推出基于下代 Blackwell 架构的 B100 产品。除上文提到的软件及生态壁垒外,英伟达芯

25、片的主要优势在于大片上内存、高显存带宽以及片间互联方案。大片上内存是支撑最高达上千亿参数(GPT-3 1750 亿、GPT-3.5 2000 亿)的大模型在芯片上运行的必需,高显存带宽能够实现更高的数据传输速率从而减少训练时间、提升效率;NVSwitch 片间互联方案则大大提升多 GPU 互联的运行效率,由于大模型的训练对算力要求非常高,chatGPT 模型训练一次消耗算力达 3640p,需要上万张 A100 芯片支持,英伟达 NVSwitch 能够实现高速多对多全 GPU 通信,能够更大程度发挥 GPU 集群的算力潜力。22 年 9 月起,美国禁止峰值性能等于或大于 A100 阈值的英伟达芯

26、片向中国出口,合法版本 A800、H800 已在国内应用。由于中国高性能计算市场对英伟达来说是一个不可放 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 9 页 共 23 页 简单金融 成就梦想 弃的巨大市场,英伟达分别于 22 年 11 月、23 年 3 月发布 A100、H100 的“阉割”版本A800、H800,通过降低数据传输速率(显存带宽)至 400GB/s、450GB/s 避开美国限制,从而合法出口到中国,根据 CEO 黄仁勋在 GTC 2023 演讲,H800 已在国内 BAT的云计算业务中应用。表 3:英伟达发布 A800、H800 实现向中国合法出口 型号 H100

27、 NVL A800 H100 A100 V100(NVLink)V100(PCIE)V100S T4 功耗 700W 300W 700W 400W 300W 250W 250W 70W 显存 96GB HBM3e 80GB HBM2e 80GB HBM3 40GB HBM2 32/16GB HBM2 32/16GB HBM2 32GB HBM2 16GB HBM2 带宽 7.8TB/s 1935GB/s 3TB/s 1555 GB/s 900 GB/s 900GB/s 1134 GB/s 320+GB/s 上市时间 2023 年下半年(预计)2022 年 12 月 2022 年 3 月 202

28、0 年 5 月 2017年5月 2017 年5月 2019年11月 2018年3月 INT8(TOPS)7916 TFOPs 624 TFOPS 4000 TFOPs 624TFOPS/1248TOPS*130TOPS FP16 2990 TFLOPS 312TFLOPS 2000 TFLOPS 624 TFLOPS FP32 267 TFLOPS?19.5TFLOPS 60 TFLOPs 19.5 TFLOPs 15.7 TFLOPs 14 TFLOPs 16.4 TFLOPS 8.1TFLOPS FP64 234 TFLOPS?9.7TLOPS 30 TFLOPS 9.7 TFLOPS 7

29、.8 TFLOPS 7TFLOPS 8.2 TFLOPS TF32 2495 TFLOPS?156TFLoPs/312TFLOPS*1000 TFLoPs 312TFLOPS*FP64 Tensor Core 264 TFLOPS?9.7 TFLOPS 60 TFLoPs 195TFLOPs 工艺 4nm 7nm 4nm 7nm 2nm l2nm 2nm 2nm 中国供应情况 还未发行 正常销售 限制销售,须获许可 限制销售,须获许可 正常销售 正常销售 正常销售 正常销售 资料来源:英伟达官网,NVIDIA GTC 2023,申万宏源研究 表 4:英伟达 AI 推理芯片参数一览 型号 A10

30、 A16 A30 A40 L40 制程 8nm 4nm 7nm 8nm 4nm 算力 INT8 Tensor 核心 250 TFLOPS|500 TFLOPS*4x 35.9TFLOPS 330 TOPS|661 TOPS*299.3TOPS|598.6TOPS*362TOPS|724TOPS*FP16 Tensor 核心 125 TFLOPS|250 TFLOPS*4x 17.9TFLOPS 165 TF|330 TF*149.7 TF|299.4TF*181.05TF|362.1TF*功耗 150W 250W 165W 300W 300W 显存带宽 24GB GDDR6显存,600GB/s

31、 带宽 4个16G的GDDR6 显存,4*200GB/s 带宽 24GB HBM2 显存、带宽 933GB/s 48GB 显存,696GB/s带宽 带纠错码的 48 GB GDDR6,864GB/s 售价 22,080 24,150 32,430 36,570 52,440 资料来源:英伟达官网,英国硬件设备销售商 Thinkmate,申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 10 页 共 23 页 简单金融 成就梦想 2.2 寒武纪:复制英伟达成长之路 我们认为寒武纪芯片硬件性能相比于英伟达还有追赶空间,上层软件堆栈与英伟达相似,全自研不是兼容路线;不同之处在于

32、寒武纪需要自己对原生深度学习框架进行修改以支持思元芯片,而英伟达有谷歌原厂支持。硬件方面,从一些表观的性能参数对比来看,寒武纪训练芯片思元 290 和英伟达 A100、昇腾 910 相比性能还有追赶的空间。软件方面,寒武纪是自己对原生的 Tensorflow 和 Pytorch 深度学习框架去针对自己的思元芯片去做修改而非像华为一样自研深度学习框架去进行优化,也不想英伟达一样因为芯片市占率高,有 Pytorch/Tensorflow 原厂去做 GPU 算子的优化和设备的支持。另外寒武纪相比英伟达的算子库丰富程度以及软件工具链的完善程度还有一定差距,需要时间去追赶。表 5:寒武纪 AI 芯片性能

33、参数 型号 思元 590 思元 370 思元 290 思元 270 思元 100 思元 220 发布年份 2023 年 2021 年 2021 年 2019 年 2018 年 2019 年 场景 训练 推理 训练 推理 推理 边缘计算 架构 MLUarch03 MLUv02 MLUv02 MLUv01 MLUv02 制程 7nm 7nm 7nm 16nm 16nm 16nm 性能 256TOPS(INT8)512 TOPS(INT8)128 TOPS(INT8)32TOPS(INT8)8TOPS(INT8)80TFLOS(FP32)256 TOPS(INT16)64 TOPS(INT16)16

34、TOPS(FP16)4TOPS(INT16)64 TOPS(CINT32)功耗 350-550W 75W 350W 70W 75W 8.25W 内存带宽 2.7TB/s 1228 GB/s 102 GB/s 102.4GB/s-芯片面积 800mm2 -369.6mm2 326.5mm2 94.8mm2 资料来源:寒武纪官网,申万宏源研究 图 2:寒武纪针对原生 TensorFlow 的修改(深灰色部分)图 3:寒武纪的端云一体软件栈架构 资料来源:寒武纪,申万宏源研究 资料来源:寒武纪,申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 11 页 共 23 页 简单金融

35、成就梦想 2.3 AMD:部分兼容英伟达 CUDA AMD 选择了部分兼容英伟达 CUDA,借力英伟达生态的路线。AMD 在 2016 年全球超算大会上推出了 ROCm,也就是对标英伟达 CUDA 一样的智能编程语言,ROCm 软件堆栈的结构设计与 CUDA 相似度很高;对标英伟达深度学习库 cuDNN,AMD 推出了MIOpen;对标英伟达深度学习推理框架 TensorRT,AMD 推出了 Tensile;对标英伟达编译器 NVCC,AMD 推出了 HCC。ROCm 中包含的 HIPify 工具,可以把 CUDA 代码一键转换成 ROCm 栈的 API,减少用户移植成本。我们认为走兼容英伟达

36、 CUDA 的路线其难点在于其更新迭代速度永远跟不上 CUDA并且很难做到完全兼容。(1)迭代永远慢一步:英伟达 GPU 在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新;但是 AMD 不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如 AMD 有可能刚宣布支持了 CUDA11,但是英伟达已经推出 CUDA12 了)。(2)难以完全兼容反而会增加开发者的工作量:像CUDA 这样的大型软件本身架构很复杂,AMD 需要投入大量人力物力用几年甚至十几年才能追赶上;因为难免存在功能差异,如果兼容做不好反而会影响性能(虽然 99%相似了,但是解决剩下来的 1%不同之处

37、可能会消耗开发者 99%的时间)。图 4:AMD 的 ROCm 是和英伟达 CUDA 对等的智能编程语言 图 5:AMD 的 HIPify 工具可以将英伟达 CUDA 代码转换为 ROCm 代码 资料来源:CSDNAMD ROCm 平台简介,申万宏源研究 资料来源:CSDNAMD ROCm 平台简介,申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 12 页 共 23 页 简单金融 成就梦想 图 6:英伟达的 CUDA 栈 图 7:AMD 的 ROCm 栈 资料来源:CSDNAMD ROCm 平台简介,申万宏源研究 资料来源:CSDNAMD ROCm 平台简介,申万宏源研

38、究 2.4 谷歌、华为:“深度学习框架+AI 芯片”自研 谷歌凭借 Tensorflow 去做 TPU 相对而言不存在太多生态壁垒问题,但是仍然无法撼动英伟达,我们认为其原因在于 TPU 本身性能还有进一步提升空间以及过于专用的问题。理论上谷歌凭借 Tensorflow 在深度学习框架领域实现了垄断地位,是具备绝对的生态掌控力的,会投入大量的 Tensorflow 工程师针对自家 TPU 去做支持和优化,因此 TPU 去挑战英伟达 GPU 其实不存在所谓生态壁垒的问题。但是自谷歌自 2016 年推出第一代 TPU v1至今已经到第四代 TPU v4(2021 年 5 月发布),仍然无法从英伟达

39、手中抢走明显份额,其原因主要在于 TPU 本身性能相比于英伟达同时期 GPU 而言还有一定差距,另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好:(1)谷歌在芯片设计上的实力和英伟达相比还有一定差距,谷歌在 TPU 论文中也明确提到由于项目时间比较紧,所以很多优化只能放弃。从性能参数来看谷歌 TPU v2 和英伟达同年推出的 V100 相比,性能功耗比、显存带宽等指标有着明着差距,即使是谷歌在 2018年推出了第三代 TPU,其性能(FP32)、功耗等指标仍然和英伟达 V100 相比存在一定差距。(2)谷歌采用的是传统脉动阵列机架构,芯片设计上过于专用。TPU 的主要创新在于三点:大规

40、模片上内存、脉动式内存访问、8 位低精度运算。脉动阵列机做卷积时效果不错,但是做其他类型神经网络运算效果不是很好,在一定程度上牺牲了通用性来换取特定场景的高性能。TPU 在芯片设计上只能完成“乘+加+乘+加.”规则的运算,无法高效实现“复数乘法、求倒、求平方根倒数”等常见算法。现在 AI 芯片的行业趋势是:GPU 在通用性的基础上逐渐增加专用计算单元;而类似TPU 的 ASIC 芯片在专用性的基础上逐渐增加通用计算单元两类芯片有逐渐收敛的趋势。英伟达在用于深度学习领域的 GPU 上的设计思路是“在通用的基础上增加专用运算单元”,例如在 Volta 架构上开始增加 TensorCore(专门用于

41、深度学习加速)、在 Turing架构上开始增加 RTCore(专门用于光线追踪加速),牺牲通用性为特殊的计算或者算法实现特殊架构的硬件以达到更快的速度。而 AI 芯片一开始走专用路线,但是现在在专用性之 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 13 页 共 23 页 简单金融 成就梦想 外也在架构设计上也增加了通用计算单元(例如谷歌 TPU v1 主要是矩阵乘法运算单元占了24%芯片面积,但是 TPU v2 也开始增加浮点 ALU 做 SIMD)。表 6:谷歌历代推理和训练芯片性能参数 型号 TPU v1 TPU v2 TPU v3 TPU v4 发布年份 2016 年 20

42、17 年 2018 年 2021 年 场景 推理 推理+训练 推理+训练 训练*制程 28nm 20nm(估计)16nm/12nm(估计)7nm(估计)性能 92TOPS(INT8)23TOPS(INT16)45TOPS(FP16)3TOPS(FP32)123TOPS(FP16)4TOPS(FP32)TPU v3 性能的两倍 功耗 75W 280W 450W 500W(估计)显存带宽 34 GB/s 700 GB/s 900 GB/s 不详 芯片面积 331 611 648 不详 资料来源:,blog.inten.to,申万宏源研究 备注*:是否能做推理尚不确定 华为在2019年8 月发布的昇

43、腾910与英伟达在 2020 年5月发布的A100性能相当,但是我们认为华为的主要问题在于不具备深度学习框架生态掌控力。即使其芯片性能与英伟达水平差不多,但是由于 Tensorflow/Pytorch 两大主流深度学习训练框架没有基于华为昇腾 910 做特定的优化,所以算法结合上述两大训练框架在昇腾 910 上实际跑出来的性能其实不如英伟达 A100;目前仅华为自研的深度学习框架 MindSpore 对昇腾 910 和昇腾310 做了特别优化,由于华为 MindSpore 大部分精力都是放在对昇腾芯片的算子支持和优化上,对英伟达 GPU 的支持还不够(见下图,英伟达的 GTX 2080Ti 结

44、合 MindSpore 的训练速度明显不如 GTX 2080Ti 结合 Pytorch1.5 的训练速度),所以只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。上述我们提到要想在深度学习训练框架要想打破 Tensorflow 和 Pytorch 的垄断必须要靠原始创新,而目前包括华为 MindSpore 在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。Caffe 之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从 0 到 1 的过程,Tensorflow 之所以可以取代 Caffe 是因为解决了其不够灵活、不能自动求导、对非计算机视觉任务支持不好等问题,P

45、ytorch 之所以明显抢夺 Tensorflow 的份额是因为 Pytorch 引入了动态图解决了 Tensorflow 是静态图设计调试困难的问题。但是目前国产的三个深度学习框架百度 Paddle Paddle、旷视 Megengine、华为 MindSpore 还没有完美解决开发者在用 Tensorflow 和 Pytorch 所遇到的痛点。我们认为 Tensorflow 和 Pytorch 目前共同的痛点在于对海量算子和各种 AI 芯片支持的难度,华为正在探索靠 AI 编译器的技术来解决上述问题,但是目前编译技术仍然还达不到人工优化的效果。华为全面布局了三个层次的 AI 编译器,包括图

46、灵完备的图层 IR 设计、使用 poly 技术的图算融合/算子自动生成技术(以 TVM 编译器的设计思想推出算子开发工具 TBE 来解决算子开发自动优化的问题)。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 14 页 共 23 页 简单金融 成就梦想 表 7:华为主流推理和训练芯片性能参数 型号 昇腾 310 昇腾 910 昇腾 610 发布年份 2018 年 2019 年 2020 年(研发中)场景 边缘计算 训练 推理 架构 达芬奇 达芬奇-制程 12nm 7nm-性能 16TOPS(INT8)8TOPS(FP16)640TOPS(INT8)320TOPS(FP16)100+T

47、OPS(INT8)50+TOPS(FP16)功耗 8W 310W-显存带宽-1200 GB/s-芯片面积-456-资料来源:知乎,海思官网,申万宏源研究 图 8:华为在 AI 领域全栈自研:从底层芯片到智能编程语言再到深度学习框架 资料来源:华为官网,申万宏源研究 图 9:MindSpore 和 Pytorch 结合各类芯片训练速度(单位:张/秒)资料来源:知乎,申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 15 页 共 23 页 简单金融 成就梦想 3.中国 ASIC 芯片格局:寒武纪卡位最优 算力精度门槛下,ASIC 和 GPGPU 是最适合大模型的架构。大模型云

48、端训练多数情况下都在 FP32 计算精度上,推理端则以 FP16 和混合精度为主。算力越强,模型效率越高。FPGA 和 GPU 对比,虽然 FPGA 吞吐率、性能功耗比优于 GPU,但是 FPGA 存在两个天然缺陷,FPGA 只适合做定点运算,不适合做浮点运算,如果用来做浮点运算耗费逻辑很大,而且有些 FPGA 不能直接对浮点数进行操作的,只能采用定点数进行数值运算。其二,FPGA可以理解成某种“芯片半成品”,需要开发人员做大量二次开发设计芯片,因此开发使用门槛较高。ASIC 和 GPU 则能够满足大模型的入门门槛。国内视角下,华为、百度昆仑芯、阿里、寒武纪、海光信息及一众初创企业(燧原、天数

49、、壁仞、沐曦)均推出云端训练和推理芯片。架构选择上,华为、百度、阿里、寒武纪选择 ASIC 路线。华为、百度、阿里自家业务场景对 AI 芯片存在天然需求,选择 ASIC在量产制造供应链上的难度显著低于 GPU。初创企业则押注通用型 GPGPU 架构,壁仞、沐曦等初创企业多创立于 2018 年前后,团队一般来自出走英伟达、AMD 的技术专家,因此技术路线多选择他们所熟悉的通用型 GPU。AI大模型让ASIC和 GPU之间的边界愈发模糊,国内GPU 初创企业或在竞争中落后。英伟达在过去很长的一段时间内坚持用统一的硬件,即通用型 GPU 同时支持 Deep Learning 和图像需求。但高性能计算

50、迭代到 H100 产品后,其计算卡和图像卡分开,在技术路线上也愈发靠近 ASIC。初创企业为了实现通用性,选择了在芯片设计和制造供应链存在较多困难的 GPU 路线,暂未推出真正具备量产成熟度的产品。国产 ASIC 厂商中,寒武纪是为数不多能够较为开放支持中游 AI 算法和模型商。1)华为选择部署端到端的完整生态,例如使用昇腾 910 必须搭配华为的大模型支持框架 MindSpore、盘古大模型。第三方开源模型无法在华为上运行,若要运营必须依赖华为提供的工具做深度定制和优化,开放程度低。2)阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台中,对外输出服务。3)百度昆仑芯主要在

51、自身智算集群和服务器上用,以及国内企业、研究所、政府中使用。且由于百度自身 AI 算法商的商业定位,与其他 AI 厂商之间存在竞争关系,昆仑芯未必能够在其他 AI 算法商中铺开。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 16 页 共 23 页 简单金融 成就梦想 表 8:训练端芯片已有较多参与者 训练 型号 功耗 显存 带宽 上市时间 INT8(TOPS)FP16 FP32 FP64 TF32 FP64 Tensor Core 工艺 华为 昇腾 910 640 320 7nm 寒武纪 思元 290 350W 32GB HBM2 1228GB/s 2021 年 512 7nm 思

52、元 570 350-550W 2023 年 80 7nm 壁仞科技 BR100 300W 32GB HBM2E 819GB/s 预计2023年 1028 256 7nm 海光 深算一号DCU 隧原 T21 300W 32GB HBM2E 300GB/s 256 128 300 300 百度 昆仑 1 150W 16GB HBM2 512GB/s 2019 年 11月 256 64 16 14nm 昆仑 2 12oW 32GB 2021 年 8 月 256 128 7nm 资料来源:华为官网,寒武纪官网,壁仞科技官网,百度昆仑芯官网,阿里平头哥官网,申万宏源研究 表 9:推理端芯片华为/阿里/寒

53、武纪等布局较早 推理 型号 功耗 显存 带宽 上市时间 INT8(TOPS)FP16 FP32 FP64 TF32 FP64 Tensor Core 工艺 华为 昇腾310 8TOPS4W 16TOPS8W LPDDR4x 2*64bit3733MT/s 2019 年 16 8 12nm FFC 阿里 含光800 2019 年 9月 820 12nm 寒武纪 思元100 75W 8GB/16GB 102GB/s 2018 年 5月 32 16TFLoPs Tonm 思元270 70W 16GB 102 GB/s 2019 年 6月 128 1Gnm 思元370 75W 24GB LPDDR5

54、301.2GB/s 2021 年 11月 92 18 7nm 资料来源:华为官网,寒武纪官网,壁仞科技官网,百度昆仑芯官网,阿里平头哥官网,申万宏源研究 英伟达 A800、H800 对国产厂商存在一定的威胁,但在大模型趋势下,英伟达的优势有所弱化。过去,机器学习训练时间的主导因素是计算时间,等待矩阵乘法,通过张量核心和降低浮点精度,这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在 Nvidia A100 GPU,如果不进行大量优化,A100 往往具有非常低的 FLOPS 利用率。而 800 系列降低了数据传输速率,弱化了英伟达高

55、算力的优势。此外,大模型 AI 芯片更需要片间互联、HBM,英伟达 CUDA这种标准化平台的优势同样有所弱化。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 17 页 共 23 页 简单金融 成就梦想 寒武纪的优势在于各种深度学习框架,合作经验丰富。寒武纪思元系列产品适配TensorFlow、Pytorch、Caffe 深度学习框架。2019 年开始适配海康,峰值时刻合作开发团队有 70-80 人(公司派出 20-30 人),思元 290 与商汤在 CV 层面深度合作,NLP 领域在讯飞、百度语音都有出货。寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片

56、。目前华为昇腾 910 性能超越英伟达 V100,但未达到 A100 水平,壁仞科技 7nm 通用 GPU芯片 BR100 称其可与被禁售的英伟达 H100 一较高下,但尚未量产上市。寒武纪思源 590 芯片面积 800mm2,和 A100 一样。内存带宽 2.7T,是 A100 1.8T 的 1.5 倍。HBM2使用海力士,功耗达 350W-550W,FP32 算力到 80TFLops,目前已经客户送样测试阶段,在高性能国产 AI 芯片中进程最快,最有机会承接国内 AI 算法商对英伟达 A100、H100 的需求。4.AIGC 传导至潜在的百倍算力需求!当前市场关注 AIGC 所拉动的增量算

57、力需求及相应投资机会。此前我们指出,AI 必然伴随海量计算,算力是完成数据运算的基础,chatGPT 一共有 1750 亿个参数,训练过程中消耗大量算力,其训练模型中就已导入至少 1 万颗英伟达 GPU。AI 发展的基础是算力提升,AI 应用的拓展反向推动算力基建的部署。此前 ChatGPT 宣布因满负荷运行暂停服务,算力基建部署值得关注。推理侧,ChatGPT 海量的访问需求带来了巨大的计算成本。我们根据公开数据对此进行估计:根据 OpenAI 首席执行官 Sam Altman 提供的信息,ChatGPT 单次聊天的成本约为0.01 美元。ChatGPT 目前有超过 2000 万日活且在持续

58、上行,假设未来日活数量达到 5000万、平均每个日活进行 10 条对话,则每日消耗的成本为 500 万美元,推测其中大部分为AI 服务器成本(折旧、维护等)及对应的电费。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 18 页 共 23 页 简单金融 成就梦想 图 10:OpenAI 首席执行官 Sam Altman 谈 ChatGPT 每次聊天的成本 资料来源:Twitter,申万宏源研究 训练侧,由于大型语言模型(LLM)参数量极高,训练成本与参数量正相关,因此大模型路线势必带动大量额外的算力需求。参考海外最新研究The Economics of Large Language M

59、odels1,可以有如下估计:每个 token(1000 token 约等于 750 个单词)的训练成本通常约为 6N(而推理成本约为 2N),其中 N 是 LLM 的参数数量;假设在训练过程中,模型的 FLOPS 利用率为 46.2%,与在 TPU v4 芯片上进行训练的 PaLM 模型(拥有 5400 亿参数)一致;1750 亿参数模型的 GPT-3 是在 3000 亿 token 上进行训练的,成本参考谷歌在GCP TPU v4 芯片上训练 PaLM 模型。计算结果:GPT-3 训练成本为 140 万美元左右。图 11:GPT-3 训练成本估算 资料来源:The Economics of

60、 Large Language Models,申万宏源研究 将上述计算框架应用于其他的 LLM 模型中,可以估算出对应的训练成本。其中参数量最大的谷歌 PaLM 模型,训练成本超过 1000 万美元。1 https:/ 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 19 页 共 23 页 简单金融 成就梦想 图 12:主流 LLM 模型训练成本估算 资料来源:The Economics of Large Language Models,申万宏源研究 考虑到未来 LLM 不断升级演进,训练/推理成本将持续上行。相应的成本估算框架如下图所示。可见成本与模型参数数量、模型训练数据集大小、

61、Cost/FLOP 效率成正比,并与计算资源和硬件利用率成反比。图 13:LLM 训练/推理成本测算框架 资料来源:The Economics of Large Language Models,申万宏源研究 超越“安迪-比尔”定律2的算力需求爆发!模型参数量每年 10 倍增长,即使 AI 芯片的性能提升仍然遵从摩尔定律3,计算资源仍然可能难以满足需求。过去 5 年中,LLM 模型参数呈现指数增长态势。2018 年,OpenAI 推出了 1.17 亿参数的 GPT-1,谷歌推出了 3亿参数的 BERT;接下来的两年(2019、2020 年),OpenAI 陆续推出参数更大的迭代版本 GPT-2、

62、GPT-3,前者有 15 亿参数,后者有 1750 亿参数。GPT-4 参数量高达 100 万亿,是 GPT-3 的 500 倍以上!即使考虑到 AI 芯片能力的提升(从当前主流的 A100 升级至 H100),仍然需要巨量的额外增量投资。2 原话是“Andy gives,Bill takes away.(安迪提供什么,比尔拿走什么。)”安迪指英特尔前 CEO 安迪格鲁夫,比尔指微软前任CEO 比尔盖茨,这句话的意思是,硬件提高的性能,很快被软件消耗掉了。3 集成电路上可以容纳的晶体管数目在大约每经过 18 个月到 24 个月便会增加一倍。行业深度 请务必仔细阅读正文之后的各项信息披露与声明

63、第 20 页 共 23 页 简单金融 成就梦想 图 14:过去 5 年中,LLM 模型参数呈指数增长 资料来源:The Economics of Large Language Models,申万宏源研究 5.重点关注公司 目前,国内 BAT、字节、京东等大厂均投入 AIGC 大模型研发,模型的应用场景也从文字对话进一步扩展至绘画、视频等。多玩家、多场景、丰富的下游应用带来百倍的增量AI 算力需求,算力基建直接受益!计算机行业核心关注 AI 芯片、服务器等环节。AI 芯片建议关注:寒武纪:寒武纪思元系列产品适配 TensorFlow、Pytorch、Caffe 深度学习框架。2019年开始适配海

64、康,峰值时刻合作开发团队有 70-80 人(公司派出 20-30 人),思元 290与商汤在 CV 层面深度合作,NLP 领域在讯飞、百度语音都有出货。寒武纪思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片。海光信息:作为 AI 服务器中的核心,海光的 DCU 是 GPGPU 的一种。根据公司公开发布会,海光 DCU 同时支持全精度和半精度训练,有稀缺性。预计 2023 年底量产的 DCU3性能与 NVDIA H100 性能持平。已量产的 DCU2 约等于 70%NVDIA A100,双方在模拟效率和精度都处于同一代际。算力需求提升叠加国产替代要求,共同构成

65、催化。AI 服务器建议关注:浪潮信息:国内最大的 AI、边缘和云服务器供货商,根据 IDC 数据,浪潮 AI 服务器出货量基本占据国内一半的市场份额,并且多年稳定。chatGPT 为代表的 AIGC 大模型风靡,对于算力的要求会明显提升,AI 服务器作为算力的基础、核心基建,深度受益。浪潮信息的主要客户也是互联网和 AI 巨头,在经历弱周期后,大厂算力竞争有望带来 AI 服务器投入显著回升。此外,根据国家信息中心和浪潮信息联合发布的报告,目前我国有超过30 个城市正在或提出建设智算中心,提供增量。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 21 页 共 23 页 简单金融 成就梦

66、想 中科曙光:在国内超算市场中处于领先地位,超算作为国家级重点项目的支撑,有望在算力的竞赛中承担重要角色,东数西算在内的政策形成催化,预计曙光也将在 AI 服务器以及超算中心加速中受益。此外,中兴通讯(通信)、工业富联(电子)也具备 AI 服务器能力。TMT 领域算力基建逻辑,也建议关注:通信:天孚通信、中际旭创、紫光股份、锐捷网络、新易盛等。此外也持续关注流量基建主线的数据中心等环节供需变化,包括奥飞数据、润泽科技等,以及伴随算力增长的温控散热环节,英维克等。电子:GPU:景嘉微、好利科技;视觉芯片及 IP:思特威、富瀚微、芯原股份;服务器存储及接口芯片:澜起科技、聚辰股份;CPU:海光信息

67、、龙芯中科;FPGA 芯片:复旦微、安路科技;数通/服务器 PCB:沪电股份、深南电路、生益科技、胜宏科技;光通信芯片:源杰科技。6.风险提示 AI 芯片迅速迭代,开启价格战风险。AI 芯片领域存在行业加速迭代的可能,各 AI 芯片厂商存在开启价格战,导致盈利能力不及预期的风险。AIGC 行业落地需求不及预期风险。AIGC 等高速发展,存在行业需求落地不及预期的风险。供应链不稳定风险。存在供应链不稳定,导致 AI 芯片出货量不及预期的风险。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 22 页 共 23 页 简单金融 成就梦想 表 10:重点公司估值表(单位:亿元)证券代码 公司名

68、称 2023/3/23 归母净利润 PE PB(LF)总市值 2021A 2022A/E 2023E 2024E 2021A 2022E 2023E 2024E 688256.SH 寒武纪-U 669-8.25-11.66-7.58-4.36-13.48 688041.SH 海光信息 1,539 3.27 8.02 14.24 21.25 471 192 108 72 9.02 000977.SZ 浪潮信息 557 20.03 24.05 29.49 37.24 28 23 19 15 3.53 603019.SH 中科曙光 559 11.58 15.15 20.05 25.97 48 37

69、28 22 3.3 000063.SZ 中兴通讯 1,632 68.13 80.8 98.2 113.71 24 20 17 14 2.96 601138.SH 工业富联 3,374 200 201 237 264 17 17 14 13 2.62 300394.SZ 天孚通信 200 3.06 3.99 5.09 6.36 65 50 39 31 7.65 300308.SZ 中际旭创 400 8.77 12.36 14.66 17.72 46 32 27 23 3.36 000938.SZ 紫光股份 894 21.48 24.33 30.02 36.48 42 37 30 25 2.85

70、301165.SZ 锐捷网络 295 4.58 5.59 7.55 10.19 64 53 39 29 7.01 300502.SZ 新易盛 198 6.62 9.48 10.37 12.44 30 21 19 16 4.23 300738.SZ 奥飞数据 103 1.45 1.7 2.05 2.51 71 61 50 41 6.55 300442.SZ 润泽科技 670-0.12 12.43 18.62 24.4-54 36 27 9.51 002837.SZ 英维克 141 2.05 2.32 3.35 4.49 69 61 42 31 7.31 300474.SZ 景嘉微 460 2.9

71、3 2.89 4.23 5.77 157 159 109 80 14.56 002729.SZ 好利科技 41 0.24 0.36 0.76 1.22 171 114 54 34 8.83 688037.SH 芯源微 196 0.77 1.97 2.51 3.57 255 99 78 55 9.27 300613.SZ 富瀚微 172 3.64 4.24 5.53 7.17 47 41 31 24 8.11 688008.SH 澜起科技 784 8.29 12.99 18.65 26.89 95 60 42 29 8.08 688123.SH 聚辰股份 127 1.08 3.55 5.68 7

72、.47 118 36 22 17 6.6 688041.SH 海光信息 1,539 3.27 8.02 14.24 21.25 471 192 108 72 9.02 688047.SH 龙芯中科 583 2.37 0.51 2.7 4.56 246 1143 216 128 14.98 688385.SH 复旦微电 466 5.14 10.77 14.89 18.82 91 43 31 25 13.15 688107.SH 安路科技-U 295-0.31 0.6 0.9 1.93-492 328 153 18.35 002463.SZ 沪电股份 397 10.64 13.62 16.74 2

73、1.17 37 29 24 19 4.8 002916.SZ 深南电路 507 14.81 16.4 19.17 23.34 34 31 26 22 4.14 600183.SH 生益科技 456 28.3 15.31 20.87 26.75 16 30 22 17 3.46 688498.SH 源杰科技 97 0.95 1 1.56 2.13 102 97 62 46 4.63 资料来源:申万宏源研究;注:盈利预测取 Wind 一致预期 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 23 页 共 23 页 简单金融 成就梦想 信息披露 证券分析师承诺 本报告署名分析师具有中国证券

74、业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露 本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过 索取有关披露资料或登录 信息披露栏目查询从业人员资质情况、静默期安排及

75、其他有关的信息披露。机构销售团队联系人 华东 A 组 陈陶 华东 B 组 谢文霓 华北组 李丹 华南组 李昇 L 股票投资评级说明 证券的投资评级:以报告日后的 6 个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(Buy)增持(Outperform)中性(Neutral)减持(Underperform):相对强于市场表现20以上;:相对强于市场表现520;:相对市场表现在55之间波动;:相对弱于市场表现5以下。行业的投资评级:以报告日后的6个月内,行业相对于市场基准指数的涨跌幅

76、为标准,定义如下:看好(Overweight)中性(Neutral)看淡(Underweight):行业超越整体市场表现;:行业与整体市场表现基本持平;:行业弱于整体市场表现。我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系,如果您对我们的行业分类有兴趣,可以向我们的销售员索取。本报告采用的基准指数:沪深300指数 法律声明 本报

77、告仅供上海申银万国证券研究所有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。客户应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司 http:/ 网站刊载的完整报告为准,本公司并接受客户的后续问询。本报告上海品茶列示的联系人,除非另有说明,仅作为本公司就本报告与客户的联络人,承担联络工作,不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测

78、仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建

79、议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险,投资需谨慎。若本报告的接收人非本公司的客户,应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业AIGC系列之七:国产AI芯片的百倍算力需求!-230324(23页).pdf)为本站 (小溪) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部