上海品茶

汽车行业深度:Dojo助推特斯拉加速AI落地-240517(56页).pdf

编号:162371 PDF   DOCX 56页 4.31MB 下载积分:VIP专享
下载报告请您先登录!

汽车行业深度:Dojo助推特斯拉加速AI落地-240517(56页).pdf

1、 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 Table_Info1 汽车汽车 Table_Date 发布时间:发布时间:2024-05-17 Table_Invest 优于大势优于大势 上次评级:优于大势 Table_PicQuote 历史收益率曲线 Table_Trend 涨跌幅(%)1M 3M 12M 绝对收益 2%18%6%相对收益 0%9%15%Table_Market 行业数据 成分股数量(只)261 总市值(亿)31781 流通市值(亿)13554 市盈率(倍)28 市净率(倍)2.07 成分股总营收(亿)36981 成分股总净利润(亿)1304 成分股资产负债率(

2、%)61 相关报告 奇瑞汽车深度报告:出海持续增长,新能源转型高弹性-20240219 汽车行业深度:智驾时代来袭,多玩家多模式齐发力推动行业走向落地-20240126 Table_Author 证券证券分析师分析师:周颖:周颖 执业证书编号:S0550521100002 研究助理:陈纬国研究助理:陈纬国 执业证书编号:S0550122090006 Table_Title 证券研究报告/行业深度报告 汽车汽车行业行业深度:深度:Dojo 助推特斯拉加速助推特斯拉加速 AI 落地落地 报告摘要:报告摘要:Table_Summary 特斯拉不仅在电动

3、汽车领域取得了革命性突破,更在智能驾驶和特斯拉不仅在电动汽车领域取得了革命性突破,更在智能驾驶和人人形机器人形机器人领域展现出其作为领域展现出其作为 AI 公司的雄心和实力。公司的雄心和实力。特斯拉在智能驾驶技术上取得了显著成就,其全自动驾驶技术 FSD 已更新至 V12版本。特斯拉的算法演进经历了从 HydraNets 到端到端方案的四代变革,每一代都在感知、决策和规控方面实现了技术突破。最终端到端方案通过直接输入传感器信息到神经网络,实现了高效的驾驶命令输出。特斯拉在人形机器人领域的进展同样领先,自 2021 年首次发布概念以来,特斯拉人型机器人在运动能力、视觉感知能力和自主性方面取得了显

4、著进步。2023 年 12 月发布的 Optimus 第二代产品在行走速度、重量、平衡感和身体控制能力上都有了显著提升,能够在工厂环境中执行精确的电池分拣任务。AI 应用的加速需要应用的加速需要 AI 芯片芯片。AI 芯片是 AI 计算的核心工具,可分为训练和推理两大类,也可分为云端和终端。不同场景对芯片的性能要求不同。云端训练芯片是 AI 时代最重要的武器之一,英伟达作为 AI 芯片市场的领导者,其 GPU 架构从 Fermi 到 Hopper 不断演进,每一代产品都在性能和效能上取得了显著提升。特斯拉的特斯拉的 Dojo 芯片芯片采用采用 ASIC 路线路线,高效高效支持支持自身自身算法算

5、法训练训练。Dojo采用 ASIC 路线,Dojo node 是 Dojo 芯片的最小节点,具有标量处理单元、向量处理单元、存储单元和片上路由器。D1 芯片集成了354 个 Dojo node,提供了高的算力和能效比。Dojo 训练 Tile 通过集成多个 D1 芯片,形成了强大的训练矩阵,能够支持大规模的 AI模 型 训 练。Dojo ExaPOD 则 进 一 步 集 成 了 训 练 矩 阵,提 供 了1.1EFLOPS 的峰值算力和高速 SRAM,为大规模并行计算任务提供了强大的硬件支持。Dojo 的另一个可比对象:的另一个可比对象:谷歌谷歌 TPU。TPU 是首款人工智能专用的计算芯片,

6、于 2016 年首次发布,目前已经从 TPU v1 迭代到了 TPU v5,能力上也有巨大提升,是首个部署张量计算单元的芯片。虽然在数据中心训练和推理方面有其优势,但在工业级别适配和开发生态方面面临挑战。特斯拉 Dojo 在设计理念和应用模式上与 TPU 有相似之处,但也面临着类似的大规模推广压力。总体而言,Dojo 产品设计和性能顶尖,但通用性相对较弱,短期内主要以加速特斯拉自身模型训练为主。风险提示:风险提示:智驾进展智驾进展不及预期不及预期,人形机器人进展不及预期,人形机器人进展不及预期。Table_CompanyFinance -30%-20%-10%0%10%20%2023/5202

7、3/8 2023/11 2024/2汽车沪深300 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 2/56 汽车汽车/行业深度行业深度 目目 录录 1.特斯拉:从制造公司到特斯拉:从制造公司到 AI 公司公司.5 1.1.智能驾驶先行者.5 1.1.1.特斯拉智能驾驶第一代算法:HydraNets.5 1.1.2.特斯拉智能驾驶第二代算法:BEV+Transformer.7 1.1.3.特斯拉智能驾驶第三代算法:占用网络.9 1.1.4.特斯拉智能驾驶第四代算法:端到端方案.10 1.1.5.智驾三要素:算法、算力、数据.12 1.2.掀起人型机器人大潮.12 1.2.1.基本运动

8、能力.14 1.2.2.能力进阶提升.17 2.AI 芯片:芯片:AI 应用的发动机应用的发动机.20 2.1.云端和终端&训练和推理.20 2.2.常见 AI 芯片.22 3.英伟达:英伟达:AI 芯片的领路人芯片的领路人.25 3.1.CPU or GPU.25 3.2.英伟达 GPU 架构演变历程.27 3.3.CUDA core.28 3.4.Fermi 架构.29 3.5.Kepler 架构&Maxwell 架构.29 3.6.Pascal 架构.31 3.7.Volta 架构.31 3.8.Turing 架构.32 3.9.Ampere 架构.34 3.10.Hopper 架构.3

9、6 3.11.英伟达加速器产品.37 4.特斯拉特斯拉 Dojo:极简哲学,物尽其用:极简哲学,物尽其用.40 4.1.Dojo node.40 4.2.D1 Chip.41 4.3.D1 Tile.41 4.4.芯片系统集成.43 4.5.Dojo Interface Processor.43 4.6.Dojo ExaPOD.45 5.谷歌谷歌 TPU:Dojo 的一面镜子的一面镜子.47 5.1.TPU.47 5.2.TPU v1.48 5.3.TPU v2 及以上.51 6.投资建议投资建议.54 7.风险提示风险提示.54 图表目录图表目录 图图 1:特斯拉:特斯拉 Model X.5

10、 图图 2:特斯拉:特斯拉 HydraNets.6 图图 3:HydraNets 动态识别动态识别.7 WWfWvZrVNAWYkZpOaQ9RbRnPrRsQqMfQrRrMfQtRmM7NoPpPvPsPtRwMmPrM 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 3/56 汽车汽车/行业深度行业深度 图图 4:早期:早期 2D 平面标注平面标注.8 图图 5:BEV 实现实现 2D 转转 3D.8 图图 6:BEV 对于感知能力的升级对于感知能力的升级.9 图图 7:特斯拉占用网络:特斯拉占用网络.9 图图 8:特斯拉端到端方案更新:特斯拉端到端方案更新.10 图图 9:端

11、到端自动驾驶:端到端自动驾驶.11 图图 10:基于规则的算法组成:基于规则的算法组成.12 图图 11:端到端算:端到端算法法.12 图图 12:特斯拉人形机器人:特斯拉人形机器人.13 图图 13:特斯拉机器人时间表:特斯拉机器人时间表.13 图图 14:人型机器人整体结构设计:人型机器人整体结构设计.14 图图 15:虚拟空间的步调规划:虚拟空间的步调规划.15 图图 16:真实场景下的步姿调整:真实场景下的步姿调整.15 图图 17:实际空间下的稳定行走:实际空间下的稳定行走.16 图图 18:保持平衡:保持平衡.16 图图 19:动作捕捉:动作捕捉.17 图图 20:学习瑜伽动作:学

12、习瑜伽动作.18 图图 21:物品分类:物品分类.18 图图 22:Optimus Gen2.19 图图 23:分拣:分拣电池电池.19 图图 24:机器人视角的分拣电池:机器人视角的分拣电池.20 图图 25:云端、边缘和终端:云端、边缘和终端 AI 芯片应用情况芯片应用情况.21 图图 26:CPU 和和 GPU 的结构的结构.25 图图 27:SM 流多处理器结构图流多处理器结构图.26 图图 28:CUDA Core 内部组成内部组成.28 图图 29:Fermi 架构架构.29 图图 30:Fermi 架构中架构中 SM 单元内容单元内容.29 图图 31:Kepler 架构架构 S

13、MX.30 图图 32:Maxwell 架构架构 SM.30 图图 33:Pascal 架构架构 SM.31 图图 34:NV Link 示意图示意图.31 图图 35:Volta 架构架构 SM.32 图图 36:Turing 架构架构 SM.33 图图 37:RT Core 效果示意图效果示意图.34 图图 38:Ampere 架构架构.35 图图 39:Grace Hopper 示意图示意图.36 图图 40:GH200.37 图图 41:Dojo node.40 图图 42:D1 Chip.41 图图 43:Dojo 训练瓦片训练瓦片.42 图图 44:训练瓦片:训练瓦片.42 图图

14、45:训练瓦片垂直结构图:训练瓦片垂直结构图.42 图图 46:训练系统:训练系统.43 图图 47:训练矩阵内存共享方式:训练矩阵内存共享方式.44 图图 48:Dojo Interface Processor.44 图图 49:Dojo Host Interface.45 图图 50:Dojo ExaPOD.46 图图 51:Dojo 性能对比性能对比 1.46 图图 52:Dojo 性能对比性能对比 2.46 图图 53:Dojo 集成体积对比集成体积对比 1.47 图图 54:Dojo 集成体积对比集成体积对比 2.47 图图 55:TPU 架构架构.48 请务必阅读正文后的声明及说明

15、请务必阅读正文后的声明及说明 4/56 汽车汽车/行业深度行业深度 图图 57:不同神经网络上不同神经网络上 TPU、CPU、GPU 性能比较性能比较.49 图图 58:TPU 与其他芯片性能比较与其他芯片性能比较.50 图图 59:脉动阵列运算机制:脉动阵列运算机制.50 图图 60:TPU v2.51 图图 61:TPU v2 架构架构.51 图图 62:TPU 架构变化架构变化.52 图图 63:TPU v4.52 图图 64:TPU v4 和和 v5 参数参数.53 表表 2:HydraNets 特点特点.6 表表 3:训练:训练 vs 推理推理.20 表表 4:云端:云端 vs 终端

16、终端.21 表表 5:云端训练芯片:云端训练芯片.23 表表 6:云端推理芯片:云端推理芯片.24 表表 7:英伟达:英伟达 GPU 架构演变历程架构演变历程.27 表表 8:英伟达芯片参数:英伟达芯片参数 1.38 表表 9:英伟达芯片参数:英伟达芯片参数 1.39 表表 10:TPU 历代发布时间历代发布时间.47 表表 11:TPU 历代芯片参数历代芯片参数.48 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 5/56 汽车汽车/行业深度行业深度 1.特斯拉:从制造公司到特斯拉:从制造公司到 AI 公司公司 1.1.智能驾驶先行者 特斯拉最初以其颠覆性的电动汽车而闻名于世,但

17、公司的长期规划和布局是希望成为一家 AI 公司。特斯拉在全自动驾驶(FSD,Full Self-Drive)投入巨大并取得了卓越的成就,它不仅代表了公司在自动驾驶领域的技术突破,而且体现了其在机器学习和数据处理方面的深厚实力。FSD 技术通过不断学习得到强大的神经网络和先进的算法,使得特斯拉汽车能够实现接近人类的驾驶决策。FSD 自发布以来,经过了多次重要更新目前已经来到了 V12 版本,实现了真正智能驾驶端到端大模型。图图 1:特斯拉:特斯拉 Model X 数据来源:懂车帝,东北证券 特斯拉的智驾算法被认为是行业的标杆,也是众多后来者的学习和模仿目标,因此我们通过分析特斯拉的算法演变来理解

18、智驾算法多年来的演化和进步。1.1.1.特斯拉智能驾驶第一代算法:HydraNets 计算机视觉基于人类的视觉系统。计算机视觉基于人类的视觉系统。人类眼睛搜集的信息到达视网膜后,经过大脑皮层的多个区域和神经层,最终形成生物视觉。基于人类视觉,人们设计出计算机视觉神经网络系统,在计算机视觉任务中,物体检测一般有如下通用的结构:Input backbone neck head Output。2016-2018年,自动驾驶行业处在发展初期,年,自动驾驶行业处在发展初期,车企在自动驾驶的目标检测上一般该采用通用网络结构。车企在自动驾驶的目标检测上一般该采用通用网络结构。该结构中仅有一个 head,是单

19、一的目标检测,而驾驶场景通常同时面临多项任务,如车道线/人物/信号灯检测等,单一检测难以满足现实需求。Backbone:指特征提取网络,用于识别单个图像中的多个对象,并提供对象的丰富特征信息。Neck:颈部位于主干和头部之间,用于提取一些更精细的特征。Head:在特征提取(Backbone)之后,提供输入的特征图表示。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 6/56 汽车汽车/行业深度行业深度 图图 2:特斯拉:特斯拉 HydraNets 数据来源:特斯拉,东北证券 HydraNets特斯拉的检测神经网络。特斯拉的检测神经网络。特斯拉将汽车检测、交通灯识别和检测、车道检测等大

20、量任务聚合到一个全新的架构布局中,该架构有一个共同共享的主干,并将分支分成若干个头部,这种架构被称为 HydraNets。HydraNets 使用特征提取网络 BiFPN,实现多特征共享和多任务处理,提升算法效率。表表 1:HydraNets 特点特点 特点特点 解释解释 特征共享特征共享 减少重复卷积计算,减少主干数量,在测试时特别高效。解耦任务解耦任务 将特定任务从主干中解耦,能够单独微调任务。颈部特征缓存颈部特征缓存 训练时缓存特征,在做微调工作流时,只使用缓存的特征微调头部。数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 7/56 汽车汽车/行业深

21、度行业深度 图图 3:HydraNets 动态识别动态识别 数据来源:特斯拉,东北证券 1.1.2.特斯拉智能驾驶第二代算法:BEV+Transformer BEV 感知技术成为感知外部环境的标准方法。感知技术成为感知外部环境的标准方法。BEV 是 Birds Eye-View 的缩写,通过神经网络将多个摄像头和传感器收集的信息进行整合,形成基于俯视角度的全景图,同时结合时序信息,动态地感知周围环境并输出结果,以便后续的预测和规划模块使用。驾驶行为是在 3D 空间中的行为,BEV 通过将 2D 透视空间图像转换为3D 空间,消除了距离尺度和遮挡问题,使算法能够直观地判断车辆在空间中的位置以及与

22、其他障碍物的关系。Transformer 大模型为构建大模型为构建 BEV 空间提供了最佳解决方案。空间提供了最佳解决方案。BEV 空间的构建需要一种合适方法来实现目的,将多个 2D 图像和传感器信息综合转化为一个 3D 向量空间。特斯拉引入 Transformer 算法架构来执行这一转换,通过适应各种输入形式,使得 BEV 在自动驾驶领域得以实现。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 8/56 汽车汽车/行业深度行业深度 图图 4:早期:早期 2D 平面标注平面标注 数据来源:特斯拉,东北证券 图图 5:BEV 实现实现 2D 转转 3D 数据来源:特斯拉,东北证券 在在

23、 2020-2021 年到来的的大模型时代,特斯拉引领自动驾驶行业迈向新篇章,提出年到来的的大模型时代,特斯拉引领自动驾驶行业迈向新篇章,提出了了 BEV+Transformer 的创新算法。的创新算法。特斯拉将 BEV 和 transformer 结合,并且首次实现了该算法的商业化落地。相比于传统自动驾驶算法,BEV+Transformer 大模型在感知能力有了极大进步:改善了 2D-3D 空间转换中难以深度预测的问题,大幅提升感知性能,完美实现了多摄像头和多传感器信息的融合,极大方便了后续的规控任务;同时更容易融入时序信息,使得模型具有良好的记忆,能够避免遮挡等问题;汽车具备实时建图能力,

24、摆脱对高精度地图的依赖;从后融合到特征融合,信息损失变少,感知能力加强。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 9/56 汽车汽车/行业深度行业深度 图图 6:BEV 对于感知能力的升级对于感知能力的升级 数据来源:百度,东北证券 1.1.3.特斯拉智能驾驶第三代算法:占用网络 2022 年特斯拉在算法中加入占用网络。年特斯拉在算法中加入占用网络。占用网络的基本思路是对周围环境进行分析从而获得体积占用率,以此为基础实现实时感知。占用网络的具体实现过程需要先将三维世界划分为网格单元,然后根据算法定义不同单元的占用与空闲,形成一般障碍物的感知能力。图图 7:特斯拉占用网络:特斯拉

25、占用网络 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 10/56 汽车汽车/行业深度行业深度 占用网络是占用网络是 BEV+Transformer 的升华迭代。的升华迭代。原有鸟瞰图的底层能力来源于 2D 图像信息感知,会缺失一些空间高度信息,无法真实反映物体在 3D 空间的实际占用体积,因此传统的 BEV 更关心静止物体(如路沿、车道线等),而空间目标的识别(如物体 3D 结构)难以识别。占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界,可以在没有激光雷达提供点云数据的情况下对 3D 环境进行重建,且相较于激光雷达还可以更好地将感知到

26、的 3D 几何信息与语义信息融合,得到更加准确的三维场景信息。1.1.4.特斯拉智能驾驶第四代算法:端到端方案 图图 8:特斯拉端到端方案更新:特斯拉端到端方案更新 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 11/56 汽车汽车/行业深度行业深度 图图 9:端到端自动驾驶:端到端自动驾驶 数据来源:智驾最前沿,东北证券 特斯拉最新的特斯拉最新的 FSD V12 版本采用端到端方案,这是完全基于大模型和数据驱动的版本采用端到端方案,这是完全基于大模型和数据驱动的方案。方案。端到端自动驾驶的核心思想是将车辆从传感器中收集到的信息(原始图像数据、原始点云数

27、据等)直接输入到一个整合的深度学习神经网络中,该网络经过处理后直接输出自动驾驶汽车的驾驶命令,包括方向盘转角、方向盘转速、油门踏板开度、制动踏板开度等。端到端智驾方案高效而全面。端到端智驾方案高效而全面。端到端能够覆盖各种场景,不需要人工设计繁复的规则,只需不断投喂训练数据,深度学习神经网络就能学会驾驶。因此从性能角度出发,在海量数据的情况下,端到端方案的驾驶能力会无限逼近于人。另外与模块化自动驾驶系统相比,端到端自动驾驶系统设计难度低,硬件成本较小,并且通过多样性的数据,能够获得在不同场景下的泛用性。国内目前仍处在国内目前仍处在 BEV+transformer到占用网络的演变进程上,特斯拉则

28、已经走在端到端方案的路上。到占用网络的演变进程上,特斯拉则已经走在端到端方案的路上。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 12/56 汽车汽车/行业深度行业深度 1.1.5.智驾三要素:算法、算力、数据 在自动驾驶系统中,算法通常可以分为感知和决策规控两个主要部分,在端到端方法里两者结合为一体。图图 10:基于规则的算法组成:基于规则的算法组成 图图 11:端到端算法:端到端算法 数据来源:东北证券 数据来源:东北证券 影响智驾能力的要素主要影响智驾能力的要素主要有有算法、算力和数据。算法、算力和数据。传统感知算法的进步主要取决于自身的算法框架、训练数据质量以及标注能力(依

29、赖训练算力+研发人数),而在以规则为主的决策规控方案里面算法的进步主要依赖自身规则框架的迭代,训练数据和代码数量(依赖研发人数),即算法进步需要算法+数据+算力&研发人数多个维度的支持。在端到端方案中感知和决策规控被结合为一个整体,算法进步依赖于算法框架,训练算力和数据。由于模型直接从原始数据中学习,而不需要依赖于人工设计的特征或规则,训练算力和数据的重要性更为突出。1.2.掀起人型机器人大潮 凭借着自身在智能驾驶和人工智能领域的积累,凭借着自身在智能驾驶和人工智能领域的积累,特斯拉特斯拉积极投入积极投入人型机器人人型机器人领域领域,并掀起了行业大潮,并掀起了行业大潮。通过开发具有高度灵活性和

30、智能的人型机器人,特斯拉正在探索 AI 在工业自动化、家庭服务和复杂任务执行中的潜力。这些机器人将能够执行重复性、危险或需要高度精确度的工作,从而推动生产力的提高和人类工作的转型。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 13/56 汽车汽车/行业深度行业深度 图图 12:特斯拉人形机器人:特斯拉人形机器人 数据来源:特斯拉,东北证券 图图 13:特斯拉机器人时间表特斯拉机器人时间表 数据来源:东北证券整理 特斯拉人形机器人在 2021 年初步亮相,展示了其基础形态和设计,包括与人类相似的身体结构和四肢以及静态站立能力,但尚未展示动态行走或其他复杂动作。2022 年 9 月 O

31、ptimus 正式亮相,该原型开始展示一些基本的运动能力,如平稳的行走、转向和动态平衡,机器人的四肢运动变得更加流畅,能够在一定范围内进行灵活的伸展和弯曲。后面机器人的视觉感知能力开始得到应用,但仅限于简单的环境感知和物体识别。2023 年开始 Optimus 功能逐步增强,运动能力得到显著提升,能够完成更复杂的动作,如单脚保持平衡、瑜伽动作等。同时机器人的视觉感知能力进一步增强,能够执行更高级的任务,如视觉自标定、颜色分拣等。特斯拉开始强调 Optimus 的自主性和智能性,通过端到端神经网络的应用,机器人能够接收视频输入并直接输出控 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明

32、 14/56 汽车汽车/行业深度行业深度 制指令,实现更高效的任务执行。机器人的双手和手指变得更加灵活,能够处理更精细的物体和操作任务。2023 年 12 月 Optimus 二代正式发布,拟人行动能力持续提升,行走速度与上一代相比提高了 30%,重量减轻 10 公斤,改善了平衡感和身体控制能力,手部和颈部灵活性增强,所有手指都具备触觉,能够处理精细的物体,如鸡蛋。2024 年 5 月 Optimus 展现了更高的运动性能和精确性,在分拣电池任务中表现出色,能够像人类一样精准地将电池插入托盘。总体来说,特斯拉人形机器人 Optimus 在短短几年内取得了显著的进步,不仅在运动能力、视觉感知能力

33、和自主性方面得到了提升,还在应用场景和商业化方面取得了重要突破。这些进展预示着 Optimus 在未来将有更广泛的应用前景和潜力。1.2.1.基本运动能力 图图 14:人型机器人整体结构人型机器人整体结构设设计计 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 15/56 汽车汽车/行业深度行业深度 图图 15:虚拟空间的步调规划虚拟空间的步调规划 数据来源:特斯拉,东北证券 图图 16:真实场景下的步姿调整真实场景下的步姿调整 数据来源:特斯拉,东北证券 机器人的移动实现需要几个步骤,首先需要形成物理上的自我感知,然后得到节省能源的步态(研发人员通过运动

34、计划和控制堆栈,生成机器人运动学模型,然后将所需路径生成底层平台,让整个系统参考其轨迹进行训练)、保持平衡不摔倒,最后实现全身协调运动(利用相应的传感器以及他们在现实世界中的观察来解决机器人的控制难题,机器人的骨盆位置、重心位置,使用更好的机器人模型来进行训练,通过跟踪机器人在工作室中的路径来构建更好的机器人模型,并依据实际情况修正机器人的行为)。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 16/56 汽车汽车/行业深度行业深度 机器人模拟系统中按照其期望的路径规划一条线路,不断添加相互连接的轨迹,直到能让整个系统保持平衡。但是从模拟系统到了实际体系往往会有更多的复杂问题出现。图

35、图 17:实际空间下的稳定行走实际空间下的稳定行走 数据来源:特斯拉,东北证券 图图 18:保持平衡保持平衡 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 17/56 汽车汽车/行业深度行业深度 通过传感器测量,将真实世界的复杂性引入训练环境成了解决问题的关键。根据人体结构设计好后,可以先到模拟环境中规划动作,一旦来到现实世界的复杂性中,还是走不出三步就会倒。研发人员利用相应的传感器以及他们在现实世界中的观察来解决机器人的控制难题。最终特斯拉擎天柱也像波士顿动力 Atlas 一样,反复训练,甚至适应了人类干扰后才学会在步行中保持稳定。1.2.2.能力进阶

36、提升 图图 19:动作捕捉动作捕捉 数据来源:特斯拉,东北证券 能够得到稳定的行走姿态之后下一步要去学习具体的执行动作,特斯拉人形机器人先捕捉人类搬箱子时的运动轨迹,再结合机器人自身特点进行规划。为了解决人形机器人在观察的同时操纵真实的物体世界的难题,研发人员将这一步骤分成了两个,首先生成一个自然运动参考系统,然后再将其进行优化推广。假设有一个人类对某一动作进行了演示,研发人员通过视频对其动作设置关键帧,并将其映射到机器人上。这样只需要一个演示视频,研发人员就可以将其推广到机器人的现实操纵应用上。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 18/56 汽车汽车/行业深度行业深度

37、图图 20:学习瑜伽动作学习瑜伽动作 数据来源:特斯拉,东北证券 图图 21:物品分类物品分类 数据来源:特斯拉,东北证券 2023 年 5 月特斯拉 Optimus 终于具备了流畅行走和抓取物体的能力。到了 9 月,特斯拉 Optimus 再次进化,可以自主对物体进行分类了,亮点在于神经网络完全端到端训练:输入视频、输出控制。闲暇之余,它还能做瑜伽消遣。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 19/56 汽车汽车/行业深度行业深度 图图 22:Optimus Gen2 数据来源:特斯拉,东北证券 2023 年 12 月特斯拉发布了 Optimus Gen2,重量减少 10k

38、g,灵活性等方面都有显著进步,行走速度提高了 30%,并且能够完成抓取鸡蛋等高精度的动作指令。从画面来看,Optimus Gen2 拥有灵活的双手,手指伸展灵活得像个真人,2 个自由度的脖子可以让机器人在一定幅度内转头。图图 23:分拣电池:分拣电池 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 20/56 汽车汽车/行业深度行业深度 图图 24:机器人视角的分拣电池:机器人视角的分拣电池 数据来源:特斯拉,东北证券 2024 年 5 月 6 日,特斯拉放出了 Optimus 的最新演示视频,经过端到端方案的训练之后,它能够在特斯拉的工厂中轻巧自由地拿取

39、电池,放进电池槽中排列整齐,即使失败,也能自主纠正。总体而言,特斯拉的人形机器人已经经过几年的进步和发展,已经具备了一定的运动能力,同时学习人类完成一些精细的操作,逐渐在工厂里面承担一些实际工作。在利用端到端神经网络的驱动下,机器人的能力边界不断拓宽。2.AI 芯片:芯片:AI 应用的发动机应用的发动机 在大模型的加持下,智能驾驶、人型机器人等 AI 应用场景的落地进展持续加速,而AI 芯片是推动这些变化的发动机。2.1.云端和终端&训练和推理 表表 2:训练:训练 vs 推理推理 环节环节 特点特点 敏感因素敏感因素 AI 算力芯片特点算力芯片特点 AI 算力芯片种类算力芯片种类 训练训练

40、大量数据 大量计算资源 硬件通用性 算力敏感 高性能 高带宽 高精度 GPU 为主 推理推理 快速转化推理结果 综合能耗、算力、时延和成本因素 时延敏感 成本敏感 低功耗 低延迟 低成本 GPU FPGA ASIC 数据来源:清华-中国工程院知识智能联合实验室、东北证券 人工智能的实现包括训练人工智能的实现包括训练(Training)和推理和推理(Inference)两个环节。两个环节。训练环节需要通过大量数据训练出一个复杂的神经网络模型,使其能够适应特定的功能,如图像识别、语音识别、自然语言处理等。训练过程需要处理海量的数据,因此对系统的计算性能有较高要求,同时系统需要具有一定的通用性,以便

41、完成各种各样的学 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 21/56 汽车汽车/行业深度行业深度 习任务。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据获得正确结论的过程,如识别图像中的物体、转换语音为文本、生成自然语言回答等。和训练相比,推理需要快速将推理行动转化为结果,要重点考虑单位能耗算力、时延、成本等指标。根据承担任务的不同,根据承担任务的不同,AI 芯片分为训练芯片分为训练 AI 芯片和推理芯片和推理 AI 芯片。芯片。训练芯片用于训练过程,通过大数据构建神经网络模型,注重绝对的计算能力和计算精度,具有一定的通用性,可处理不同的任务。推理芯片利用神经网络

42、模型进行推理预测,对计算性能要求相对较低,更注重综合指标,需要综合考虑单位能耗算力、时延、成本等。表表 3:云端:云端 vs 终端终端 功能场景功能场景 训练训练 推理推理 云端云端 云端训练:云端即数据中心,对神经网络而言,训练过程就是通过不断更新网络参数,缩小推理(或者预测)误差的过程。由于涉及海量的训练数据和复杂的深度神经网络结构,云端训练对芯片性能的要求很高 云端推理:推理过程是指直接将数据输入神经网络并评估结果的正向计算过程。相比云端训练芯片,云端推理芯片考虑的因素不再聚焦于算力,而需要同时考虑功耗、算力、时延、成本等因素 终端终端 终端训练:训练对数据量的要求和终端场景在功耗、成本

43、的限制存在一定的矛盾,目前此类型产品亟待研究 终端推理:在 5G 技术和 AIoT 技术高速发展的今天,终端推理芯片有越来越丰富的应用场景,部署在数字城市传感器、自动驾驶汽车、智慧家居等各种终端设备中,需求和约束也日趋多样,由于对速度、体积、能效、安全、成本等因素的考虑,模型对准确度和数据精度的要求略有降低 数据来源:东北证券整理 图图 25:云端、边缘和终端:云端、边缘和终端 AI 芯片应用情况芯片应用情况 数据来源:亿欧智库,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 22/56 汽车汽车/行业深度行业深度 AI 芯片部署位置可以分为云端芯片部署位置可以分为云端和和

44、终端。终端。云端即训练中心,在计算机领域中一般指将训练过程集中在大规模训练中心进行处理。在深度学习的训练阶段一般需要庞大的数据量和运算量,单一处理器无法独立完成,因此训练环节主要依赖于云端实现。某些大型模型的推理过程也较为复杂,通过云端计算方式实现。终端指个人可直接接触或使用、不需要远程访问的设备,或者直接和数据或传感器一体的设备,如手机、汽车、智能家居以及各种物联网设备等。终端的数量庞大,并且需求的差异性明显,一般主要负责推理过程,也有一些小型模型可以在终端完成本地化部署和训练。根据部署的位置不同,根据部署的位置不同,AI 芯片分为云端芯片分为云端 AI 芯片和终端芯片和终端 AI 芯片。芯

45、片。云端 AI 芯片是指在服务器端完成人工智能相关运算的芯片。深度神经网络首先需要使用大量数据进行训练操作,训练完成之后,该神经网络模型就可以根据输入的数据进行推理计算。在云端数据中心,训练和推理都需要用 AI 芯片进行加速。训练芯片需要考虑可扩展性,因此其主要设计精力除了在计算部分之外,网络通信部分(包括软件接口)也至关重要。而推理芯片场景和功能相对更为单一,主要需要兼顾好计算和内存访问。云端训练芯片通常有更高的要求,需要用到最新的半导体工艺和高级封装技术,一旦在站稳脚跟,其他竞争者很难再进入该市场,因此壁垒较高。与云端 AI 芯片相对的是终端 AI 芯片,终端 AI 芯片在设计思路上与云端

46、 AI 芯片有着较大区别。首先,必须保证很高的计算能效;其次,在高级辅助驾驶 ADAS 等设备对实时性要求很高的场合,推断过程必须在设备本身完成,因此要求终端设备具备足够的推断能力。终端计算强调的是超低功耗以及能效比,设计门槛相对于云端要低一些,现阶段中国大多数 AI 芯片初创公司都是终端芯片。目前训练与推理的完成主要集中在云端,随着越来越多芯片厂商的努力,很多的应用将逐渐转移到终端。AI 芯片的应用逐渐芯片的应用逐渐专注于特殊场景专注于特殊场景的优化的优化。随着技术成熟化,AI 芯片的应用场景除了在云端之外,也逐渐开拓出了边缘端的场景,部署于智能家居、智能制造、智慧金融等领域;另外随着智能产

47、品种类日渐丰富,芯片也逐渐开始部署于智能手机、安防摄像头及自动驾驶汽车等智能终端领域,智能产品种类也日趋丰富。未来,AI计算将无处不在。2.2.常见 AI 芯片 人工智能芯片市场竞争愈演愈烈。人工智能芯片市场竞争愈演愈烈。云端训练芯片对性能要求较高,主要公司包括英伟达、特斯拉、百度、遂原和谷歌等,主流芯片有特斯拉 D1,百度昆仑 1,邃思,英伟达 A100、V100(NVLink)、V100(PCIe)和 V100S 等。云端推理芯片综合考虑单位功耗算力、时延和成本等因素,市场除了有英伟达、谷歌和赛灵思等传统芯片大厂之外,Wave computing 等初创公司加入在内。中国公司里寒武纪、比特

48、大陆等同样积极布局云端芯片业务。主流芯片包括英伟达 T4,赛灵思 AlveoU50、U200、U250、U280,思元 100、思元 270,昇腾 310 等。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 23/56 汽车汽车/行业深度行业深度 表表 4:云端训练云端训练芯片芯片 公司名称公司名称 特斯拉特斯拉 百度百度 遂遂原原 NVIDIA 芯片名称芯片名称 D1 百度昆仑 1 邃思 A100 V100(NVLink)V100(PCIe)V100S 功耗功耗 400W 150W 190W(最 大 功耗)400W 300W 250W 250W 内存内存 440 SRAM 16GB

49、 16GB HBM 40GB HBM2 32/16GB HBM2 32/16GB HBM2 32GB HBM2 带宽带宽 10TB/S 512GB/s 512GB/s 1555GB/s 900GB/s 900GB/s 1134GB/s 上市时间上市时间 2023 年 2019 年 11月 2020 年 6月 2020 年 5月 2017 年 5月 2017 年 5月 2019 年 11月 INT8 256TOPS 80TOPS 624TOPS|1248TOPS(稀 疏 技术)FP16 362TFLOPS 16TOPS 80TFLOPS 315TF|624TF(稀疏技术)125TFLOPS 11

50、2TFLOPS 130TFLOPS FP32 22.6TFLOPS 16TOPS 20TFLOPS 19.5TFLOPS 15.7TFLOPS 14TFLOPS 16.4TFLOPS FP64 9.7TFLOPS 7.8TFLOPS 7TFLOPS 8.2TFLOPS TF32 315TFLOPS(稀疏技术)FP64 Tensor Core 19.5TFLOPS 工艺工艺 7nm 14nm GF12 nm FinFET 7nm 12nm 12nm 12nm 数据来源:东北证券整理 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 24/56 汽车汽车/行业深度行业深度 表表 5:云端推

51、云端推理芯片理芯片 NVIDIA 赛灵思赛灵思 中科寒武纪科技股份中科寒武纪科技股份有限公司有限公司 华为技术华为技术有限公司有限公司 芯片名称芯片名称 NVIDIA T4 Alveo U50 Alveo U200 Alveo U250 Alveo U280 思元 100 思元 270 昇腾 310 功耗功耗 70W 50W 100W 110W 100W 75W 70W 8TOPS4W 16TOPS8W 内存内存 16GB GDDR6 8GB 64GB 64GB/8GB/16GB 16GB LPDDR4X 带宽带宽 320+GB/s 316GB/s 77GB/s 77GB/s/102GB/s

52、102GB/s 2*64bit3733MT/s 上市时间上市时间 2018 年 3月 2019 年 8月 2018年10月 2018年10月 2018年11月 2018 年 5月 2019 年 6月 2019 年 INT8 130TOPS 16.2TOPS 18.6TOPS 33.3TOPS 24.5TOPS 32TOPS 128TOPS 16T FP16 65TFLOPS 16TFLOPS FP32 8.1TFLOPS 2.2T FP64 TF32 FP64 Tensor Core 工艺工艺 12nm 16nm UltraScale 16nm UltraScale 16nm UltraSca

53、le 16nm UltraScale 16nm 16nm 12nm FFC 数据来源:东北证券整理 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 25/56 汽车汽车/行业深度行业深度 3.英伟达:英伟达:AI 芯片的领路人芯片的领路人 英伟达公司创立之初的产品定位为图形处理芯片,主要用在游戏领域,之后人们逐渐将该芯片的计算能力挖掘出来,英伟达也于 2006 年正式推出统一计算架构(Compute Unified Device Architecture,简称 CUDA),这是全球首款 GPU 上的通用计算解决方案。随着人工智能的发展,计算芯片的市场不断扩大,英伟达也成为了毫无争议的

54、行业引领者。3.1.CPU or GPU 中央处理器中央处理器(CPU)和图形处理器和图形处理器(GPU)是重要的是重要的计算机计算机引擎引擎,具有不同的,具有不同的结构和作用结构和作用。CPU 由数百万个晶体管组成,有多个处理内核,被称为计算机的大脑。CPU 被缓存占据了大量空间,而且有复杂的控制单元,计算单元占比很小,适用于单位内核性能要求较高的工作。GPU 主要由 ALU(Arithmetic and Logic Unit)组成,具有众多计算单元和超长流水线,只有非常简单的控制逻辑,适用于大规模计算。图图 26:CPU 和和 GPU 的结构的结构 数据来源:英伟达,东北证券 GPU 中包

55、含多个 GPC(Graphics Processing Cluster,图形处理簇)。GPC 可以被认为是一个独立的处理单元,包含光栅引擎(Raster Engine)和 SM(流多处理器),它们之间相互连接。不同架构 GPU 所含 SM 数量有所不同,但从 Fermi 架构开始的英伟达 GPU 都有 GPC。主机接口(Host Interface)通过 PCI-Express 将 GPU 连接到 CPU。GPC 中一般有若干个 TPC(Textures Processing Cluster,纹理处理簇),TPC 的基本组成单元是 SM(Streaming Multiprocessors,流多

56、处理器),GPU 硬件的并行性就是由 SM 决定的。每个 SM 具有多个 CUDA 内核,每个 CUDA 内核都有一个完全流水线化的整数算术逻辑单元(ALU)和浮点单元(FPU)负责计算。这些内核由线程调度器(Warp Scheduler)驱动,执行过程中它管理一组线程束(Warp)并将要执 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 26/56 汽车汽车/行业深度行业深度 行的指令移交给分发单元(Dispatch Units),之后通过寄存器(Register File)将任务分给每个内核。GPU 中还有 LD/ST(Load/Store)模块来加载和存储数据,SFU(Spec

57、ial Function Units)来执行特殊数学运算(sin、cos、log 等)。每个 SM 中含有若干个 SP(Streaming Processor),Fermi 架构后称为 CUDA core,通过 CUDA 控制执行,是最基本的处理单元,SP 的数量相当于 CUDA core 的数量。CoreSM 流多处理器流多处理器TPC 纹理处理簇纹理处理簇GPC 图形处理簇图形处理簇GPU。从整体结构上看,GPU 包含若干个 GPC,不同架构的 GPU 包含的 GPC 数量不一样。例如Maxwell 架构中由 4 个 GPC 组成;Turing 架构中由 6 个 GPC 组成。GPC 包含

58、若干个 SM,不同架构的 GPU 的 GPC 包含的 SM 数量也有所不同。例如 Maxwell 架构的一个 GPC 有 4 个 SM;而 Turing 架构的一个 GPC 包含了 6 个 TPC,每个 TPC 又包含了 2 个 SM。SM 包含若干个 Core,能够同时处理多个线程。图图 27:SM 流多处理器结构图流多处理器结构图 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 27/56 汽车汽车/行业深度行业深度 3.2.英伟达 GPU 架构演变历程 表表 6:英伟达英伟达 GPU 架构演变历程架构演变历程 中文名字中文名字 发布时间发布时间 核心

59、参数核心参数 特点特点&优势优势 纳米制程纳米制程 代表型号代表型号 费米费米 2010 16 个 SM,每个SM 包含 32 个CUDA Cores,一共 512 CUDA Cores 首个完整 GPU计 算架构,支持与共享存储结合的 Cache 层次GPU 架 构,支持ECC GPU 架构 40/28nm 30 亿晶体管 Quadro 7000 开普勒开普勒 2012 15 个 SMX,每个 SMX 包括 192个 FP32+64 个FP64 CUDA Cores 游戏性能大幅提升首次持 GPU Direct 技术 28nm 71 亿晶体管 K80、K40M 麦克斯韦麦克斯韦 2014 1

60、6 个 SM,每个SM 包括 4 个处理块,每个处理块包括 32 个CUDA Cores+8个 LD/ST Unit+8SFU 每组 SM 单元从192 个减少到每组 128 个,每个SM 单元拥有更多逻辑控制电路 28nm 80 亿晶体管 M5000、M4000 GTX 9XX 系列 帕斯卡帕斯卡 2016 GP100 有 60 个SM,每个 SM 包括 64 个 CUDA Cores,32 个 DP Cores NVLink 第一代,双向互联带宽160 GB/s,P100拥有 56 个 SM HBM 16nm 153 亿晶体管 P100、P6000 TTX1080 伏特伏特 2017 80

61、 个 SM,每个SM 包括 32 个FP64+64 Int32+64 F P32+8 个 Tensor Cores NVLink2.0,CUDA core 拆分,Tensor Core 第一代,支持 AI运算 12nm 211 亿晶体管 V100、TiTan V 图灵图灵 2018 102 核心 92 个SM,SM 重新设计,每 个 SM 包含 64 个Int32+64 个FP32+8 个Tensor Cores Tensor Core2.0,RT Core 第一代 12nm 186 亿晶体管 T4,2080TI RTX 5000 安培安培 2020 108 个 SM,每个 SM 包含 64

62、个FP32+64 个INT32+32 个FP64+4 个Tensor Cores Tensor Core3.0,RT Core2.0,NVLink3.0,结构稀疏性矩阵MIG1.0 7nm 542 亿晶体管 A100、A30 系列 赫柏赫柏 2022 132 个 SM,每个 SM 包含 128 个FP32+64 个INT32+64 个FP64+4 个Tensor Cores Tensor Core4.0,NVlink4.0,结构稀疏性矩阵MG2.0 4nm 800 亿晶体管 H100 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 28/56 汽车汽车/行

63、业深度行业深度 英伟达深耕英伟达深耕 GPU 业务业务,产品更迭迅速。产品更迭迅速。2006 年,英伟达发布首个通用 GPU 计算架构 Tesla,它采用全新的 CUDA 架构,支持使用 C 语言进行 GPU 编程;2009 年,英伟达发布第一款采用 40nm 制程的 Fermi 架构 GPU;2012 年,英伟达发布采用28nm 制程的 Kepler 架构,是首个支持超级计算和双精度计算的 GPU 架构;2014年,英伟达发布采用 28nm 制程的 Maxwell 架构;2017 年,英伟达发布采用 12nm FinFET 制程的 Volta 架构,Volta 架构新增了张量核心,可以大大加

64、速人工智能和深度学习的训练与推理;2018 年,英伟达发布采用 12nm FinFET 制程的 Turing 架构,Turing 架构新增了 Ray Tracing 核心(RT Core),可硬件加速光线追踪运算;2020年,英伟达发布 Ampere 架构,Ampere GA100 具有 6912 个 CUDA 核心、108 个张量核心,比 Turing 架构提高约 50%,并在人工智能、光线追踪和图形渲染等方面性能大幅跃升,且能效比显著提高;2022 年,英伟达发布采用 4nm 制程的 Hopper 架构,并推出了 CPU 和 GPU 一体的 Grace Hopper 超级芯片;2024 年

65、,英伟达发布了同样是 4nm 制程的 Blackwell 架构,再次突破了 AI 芯片的能力上限。3.3.CUDA core 图图 28:CUDA Core 内部组成内部组成 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 29/56 汽车汽车/行业深度行业深度 CUDA core 是英伟达 GPU 中的基本计算单元,在 Fermi 架构中提出,此时一个 SM包含 2 组各 16 个 CUDA core,每个 core 包含一个整数运算 ALU 和浮点运算单元FPU。在 Volta 架构中,CUDA core 变成单独的 FP32 FPU 和 INT32

66、ALU,两者比例1:1,合并之后可组成原来的 CUDA core,每个 SM 可以支持 FP32 和 INT32 的并发执行。3.4.Fermi 架构 图图 29:Fermi 架构架构 图图 30:Fermi 架构中架构中 SM 单元内容单元内容 数据来源:英伟达,东北证券 数据来源:英伟达,东北证券 Fermi 架构于 2010 年发布,最多可支持 16 个 SM,每个 SM 包含 32 个 CUDA core,整块芯片一共包含 512 个 CUDA core,执行过程中浮点运算和整数运算只能二选一。Fermi 架构通过 CUDA 软件来实现并行,具有局部内存,同一个分区可以共享内存,SM

67、之间还可以共享全局内存。GPU 由多个 GPC 组成,一个 GPC 包含一个 Raster Engine 光栅引擎,L2 缓存放在中间方便传输。相比相比英伟达英伟达最初的最初的 Tesla 架构,架构,Fermi 架构架构在许多方面有所提升在许多方面有所提升。新的架构中 CUDA core 的精度运算能力提升;支持同一个上下文内的算子并行等。3.5.Kepler 架构&Maxwell 架构 Kepler 架构于 2012 年发布,该架构中 SM 更名为 SMX,但实际含义没有太大改变。Kepler 从硬件上增加了双精度运算单元的架构,并提出 GPU Direct 技术,可以绕过CPU 在 GP

68、U 间直接进行数据交换,架构中每个 SMX 的运算单元达到 192 个。Maxwell 架构于 2014 年发布,每组 SM 单元的运算单元下降到 128 个,但是包含了更多的逻辑控制电路。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 30/56 汽车汽车/行业深度行业深度 图图 31:Kepler 架构架构 SMX 图图 32:Maxwell 架构架构 SM 数据来源:英伟达,东北证券 数据来源:英伟达,东北证券 Kepler 架构和架构和 Maxwell 架构功能也有所优化。架构功能也有所优化。Kepler 架构支持在 GPU 内创建 kernel执行动态并行;具备超级队列功能

69、,让不同进程的 CUDA streams 拥有更多的物理队列,增加并发度;支持 warp 内的数据操作,在 warp 内的数据能够直接在寄存器进行交换,不需通过共享内存。Maxwell 架构对 SM 进行了优化,提出 SMM,具有更高的效率,SM 的指令执行与下发进行了分块;改进了共享内存结构,在同计算量下功耗更低。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 31/56 汽车汽车/行业深度行业深度 3.6.Pascal 架构 图图 33:Pascal 架构架构 SM 图图 34:NV Link 示意图示意图 数据来源:英伟达,东北证券 数据来源:英伟达,东北证券 Pascal 架

70、构的 SM 结构进一步精简,SM 内部包含的东西更少,同时芯片制程升级,片上 SM 的数量继续增加,单个 SM 拥有 64 个 FP32 CUDA core,并分成了两个区,每个区有单独的寄存器,因此单个 SM 可以并发执行更多的线程,进一步加强了并行处理能力。Pascal架构提出了第一代NVlink,实现了多GPU间的点到点通信,带宽达到160GB/s,约等于当时 PCLe 的 5 倍。Pascal 架构是首款采用 HBM2 内存的 GPU 架构,并且统一内存 UVM 进行地址和操作的优化。带宽是分布式系统训练大模型的主要瓶颈。带宽是分布式系统训练大模型的主要瓶颈。大模型的训练涉及大量数据在

71、不同计算节点之间的频繁传输,这导致数据传输量的增加,通信开销的上升,对带宽提出了更高的要求。带宽限制可能导致节点之间的通信效率下降,同时在同步更新模型参数时引入延迟,影响整体训练速度。3.7.Volta 架构 Volta 架构是为深度学习优化过的新型流式多处理器架构。架构是为深度学习优化过的新型流式多处理器架构。Volta 架构对 CUDA core进行了拆分,将 FPU 和 ALU 分离,可以同时执行。架构改进了 SIMT 模型,每个线程可以拥有独立的存取计数和堆栈,使得线程间同步通信可以更加灵活,也可以去适应更复杂的算法逻辑。针对深度学习,Volta 架构提供了 Tensor core 张

72、量计算核心,对卷积计算进行加速。Tensor Core 出现。出现。在过去,矩阵乘法的运算需要被编码成 FMA,硬件层面需要寄存器-ALU-寄存器-ALU-寄存器来回搬运。Tensor Core 可以直接执行矩阵乘法,但只支持 FP16 数据,输出结果可以是 FP32,相当于 64 个 FP32 ALU 提供算力,能耗上有优势。此外从 Volta 架构开始,购买 GPU 可以不仅仅是一张卡,而是 DGX Station,可以装配 4 块或者 8 块芯片一起使用。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 32/56 汽车汽车/行业深度行业深度 图图 35:Volta 架构架构 S

73、M 数据来源:英伟达,东北证券 3.8.Turing 架构 Turing 在性能、效能和功能方面都取得了突破。在性能、效能和功能方面都取得了突破。Turing 架构配备了名为 RT Core 的专用光线追踪处理器,主要用来做三角形和光线的求交,将实时光线追踪运算加速至上一代 Pascal 架构的 25 倍,并能以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。Turing 架构继续配备了用于 AI 加速的 Tensor Core,增加了对 INT8 和 INT4的支持,每秒可提供高达 500 万亿次的张量运算,极大加速 AI 计算能力。Turing 架构还配备了新型流多处理器和用于模拟

74、的 CUDA,运算效率得到显著提高,改善虚拟现实体验。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 33/56 汽车汽车/行业深度行业深度 图图 36:Turing 架构架构 SM 数据来源:英伟达,东北证券 Turing 架构架构主要主要应用于应用于游戏领域。游戏领域。Turing 架构是为游戏领域设计和优化的一种图形处理架构,通过引入先进的技术来提供更真实、更引人入胜的游戏体验。RT Core 使得光线追踪技术在游戏中得以广泛应用,实现更逼真的光影效果和视觉细节,为玩家呈现更加逼真的游戏画面。Tensor Core 用于深度学习和人工智能任务,为游戏开发者提供更大的灵活性,提升

75、游戏的智能化水平,更好地实现高度复杂的图形效果和智能化的游戏体验,为玩家带来更加沉浸式和创新性的游戏体验。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 34/56 汽车汽车/行业深度行业深度 图图 37:RT Core 效果示意图效果示意图 数据来源:英伟达,东北证券 3.9.Ampere 架构 Ampere 架构是英伟达推出的一项技术巨献。架构是英伟达推出的一项技术巨献。Ampere 架构搭载超过 540 亿个晶体管,是当时世界上规模最大的 7nm 处理器,代表 GPU 为 A100,具备 6912 个 CUDA core,108 个 SM,540 亿个晶体管。Ampere 架构

76、的核心创新之一是 Tensor Core 3.0技术,新增了对 TF32 的支持,从而显著提升了 FP32 的人工智能性能。Ampere 架构在多实例 GPU 方面表现出色,能将单个 A100 GPU 划分为 7 个独立 GPU,为租赁和云服务需求提供了更灵活的算力配置。Ampere 架构引入 NVLink 2.0,将高速连接速度翻倍,使得多台机器能够通过 NV Switch 实现更快速的相互连接。此外,Ampere 架构还充分利用 AI 数学中的稀疏特性,通过结构稀疏性实现性能的翻倍效果。Ampere 架构不仅在图形处理领域有着显著影响,也在人工智能和高性能计算领域取得了巨大的成功。请务必阅

77、读正文后的声明及说明请务必阅读正文后的声明及说明 35/56 汽车汽车/行业深度行业深度 图图 38:Ampere 架构架构 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 36/56 汽车汽车/行业深度行业深度 3.10.Hopper 架构 图图 39:Grace Hopper 示意图示意图 数据来源:英伟达,东北证券 Hopper 架构是一项创新性的设计架构是一项创新性的设计。Hopper 架构的核心构成包括 8 组 GPC、64 组TPC 和 132 组 SM,共提供 16896 个 CUDA core,同时搭载 528 个 Tensor core,

78、还配备了 Tensor Memory Accelerator,为深度学习任务提供更优秀的加速性能。Grace Hopper superchip 将 Hopper GPU 和 Grace CPU 紧密结合,实现了高达 900GB/s 的数据传输速度。Hopper 架构中引入了 Transformer Engine,专为大规模模型训练提供加速,为人工智能领域的应用提供更大的灵活性。NV Link C2C 技术的应用进一步提升了 Hopper 架构的整体性能,通过高速的通信通道连接多个 GPU,实现协同计算,适用于大规模并行计算任务。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 37/5

79、6 汽车汽车/行业深度行业深度 图图 40:GH200 数据来源:英伟达,东北证券 3.11.英伟达加速器产品 英伟达英伟达是图形处理和人工智能领域的领军企业,以其卓越的技术创新和高性能产品是图形处理和人工智能领域的领军企业,以其卓越的技术创新和高性能产品著称,显卡产品系列在推动计算和图形处理领域的发展上发挥着关键作用。著称,显卡产品系列在推动计算和图形处理领域的发展上发挥着关键作用。从 Tesla架构开始到 Tensor Core 的引入,英伟达显卡不仅在游戏领域取得了引人注目的成就,还在在高性能计算、科学计算和人工智能等专业领域也取得了巨大成功。在显卡产品线中,H100、H800、A100

80、 和 A800 等型号凭借其出色的性能和创新的技术而备受瞩目,在 AI/HPC 科学计算能力应用广泛。H800 和 A800 系列为制裁后中国特供版本,NV Link 速度下调,其他参数保持不变,之后为了满足美国商务部新的限令,英伟达又推出了 L20 等产品。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 38/56 汽车汽车/行业深度行业深度 表表 7:英伟达芯片参数英伟达芯片参数 1 型号型号 H100 80GB SXM5 H800 80GB SXM5 H100 80GB PCle H800 80GB PCle 应用场景应用场景 AI/HPC 科学计算 Al AI/HPC 科学计

81、算 AI GPU 架构架构 Hopper Hopper Hopper Hopper GPU 核心版本核心版本 GH100 GH100 GH100 GH100 单 精 度 浮 点 核 心单 精 度 浮 点 核 心(CUDA Core)16896 16896 14592 14592 显存容量显存容量 80GB HBM3 80GB HBM3 80GB HBM2e 80GB HBM2e 显存带宽显存带宽 3.35TB/s 3.35TB/s 2TB/s 2TB/s NVLink NVLink 4.0 NVSwitch 900GB/s NVLink 4.0 NVSwitch 400GB/s NVLink

82、bridge 600 GB/s NVLink bridge 400 G8/s 张量运算核心张量运算核心(Tensor Core)528(4 代)528(4 代)456(4 代)456(4 代)FP64 浮点浮点(TFLOPS)34 1 26 0.8 FP32 浮点浮点(TFLOPS)67 60 51 51 FP64 Tensor Core(TFLOPS)67 60 51 51 TF32 Tensor Float(TFLOPS)989 989 756 756 BF16 Tensor Core(TFLOPS)1979 1979 1513 1513 FP16 Tensor Core(TFLOPS)1

83、979 1979 1513 1513 INT8 Tensor Core(TOPS)3958 3958 3026 3025 INT4 Tensor Core(TOPS)-最大功耗最大功耗 700W 700W 350W 350W 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 39/56 汽车汽车/行业深度行业深度 表表 8:英伟达芯片参数英伟达芯片参数 1 型号型号 A100 80GB SXM4 A800 80GB SXM4 A100 80GB PCle A800 80GB PCle 应用场景应用场景 AI/HPC 科学计算 AI/HPC 科学计算 AI/H

84、PC 科学计算 AI/HPC 科学计算 GPU 架构架构 Ampere Ampere Ampere Ampere GPU 核心版本核心版本 GA100 GA100 GA100 GA100 单 精 度 浮 点 核 心单 精 度 浮 点 核 心(CUDA Core)6912 6912 6912 6912 显存容量显存容量 80GB HBM2e 80GB HBM2e 80GB HBM2e 80GB HBM2e 显存带宽显存带宽 2039 GB/s 2039 GB/s 1935 GB/s 1935 GB/s NVLink NVLink 3.0 NVSwitch 600 GB/s NVLink 3.0

85、NVSwitch 400 GB/s NVLink bridge 600 GB/s NVLink bridge 400 GB/s 张量运算核心张量运算核心(Tensor Core)432 432 432 432 FP64 浮点浮点(TFLOPS)9.7 9.7 9.7 9.7 FP32 浮点浮点(TFLOPS)19.5 19.5 19.5 19.5 FP64 Tensor Core(TFLOPS)19.5 19.5 19.5 19.5 TF32 Tensor Float(TFLOPS)156 156 156 156 BF16 Tensor Core(TFLOPS)312 312 312 312

86、FP16 Tensor Core(TFLOPS)312 312 312 312 INT8 Tensor Core(TOPS)624 624 624 624 INT4 Tensor Core(TOPS)1248-最大功耗最大功耗 400W 400W 300W 300W 数据来源:英伟达,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 40/56 汽车汽车/行业深度行业深度 4.特斯拉特斯拉 Dojo:极简哲学,物尽其用:极简哲学,物尽其用 和英伟达相比,特斯拉在芯片设计上走了一条不一样的道路。英伟达追求满足所有的不同场景选择通用路线,而特斯拉主要为自己服务选择专用路线。4.1

87、.Dojo node 图图 41:Dojo node 数据来源:特斯拉,东北证券 特斯拉特斯拉完全从零出发完全从零出发,基于基于满足满足自己应用需求的自己应用需求的原则进行原则进行设计。设计。特斯拉 Dojo 芯片中的最小节点称之为 Dojo node,相当于精简的定制化小型 CPU 单元,分为五部分,第一部分为前端模块;第二部分为标量处理单元(类似于 CUDA 核),包含 AGU(访问内存)和 ALU(运算器);第三部分为向量处理单元(类似于 Tensor 核,具备矩阵乘法能力),第四部分为存储单元 SRAM(类似于 CPU 内存),为整个芯片提供400GB/s 的读和 270GB/s 写速

88、度,吞吐量很大;第五部分为片上路由器 NOC Router,通过特斯拉 TTP 协议实现片间传输。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 41/56 汽车汽车/行业深度行业深度 4.2.D1 Chip 图图 42:D1 Chip 数据来源:特斯拉,东北证券 D1 芯片中有 354 个 Dojo node,采用台积电 7nm 制程工艺,在 645mm的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为 400W。相比之下,同样采用台积电 7nm 制程工艺、TDP 达400W 的英伟达旗舰计算卡

89、A100 GPU,面积为 826mm,晶体管数量达 542 亿颗,BF16、CFP8 算力为 312TFLOPS,FP32 峰值算力为 19.5TFLOPS。D1 芯片芯片相较于相较于传统传统 GPU 的优势在于效率的优势在于效率。无论是机器人还是智能驾驶,其算法的本质都是大量数据的不断进行神经网络的机器学习,对算力的要求极大。定制化的Dojo 芯片对特定算法具有更高的执行效率和更低的能耗。对于神经网络训练而言,相较于同期的 CPU 和 GPU 相比,D1 可以实现 15-30 倍的性能提升,以及 30-80 倍效率提升。D1 芯片和 GPU 的本质差别在于平行运算上,GPU 对接平行处理只能

90、逐步处理任务,而 D1 芯片可以同时进行多个任务处理,因此能耗和效率相差极大。4.3.D1 Tile 基于 D1 芯片,特斯拉和台积电一起推出了晶圆上系统级方案。通过台积电InFO_SoW 封装技术,可以将 25 颗 D1 裸片都集成到一个训练 Tile 上,同时周围部署 40 个 I/O 芯片,负责瓦片之间的数据传送。这样得到的每个 Dojo 训练 Tile 能耗为 15kW。特斯拉 Dojo 训练 Tile 中有计算、I/O、功率和液冷模块,其中功率和液冷模块放在垂直方向上。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 42/56 汽车汽车/行业深度行业深度 图图 43:Doj

91、o 训练瓦片训练瓦片 图图 44:训练瓦片训练瓦片 数据来源:特斯拉,东北证券 数据来源:特斯拉,东北证券 图图 45:训练瓦片垂直结构图训练瓦片垂直结构图 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 43/56 汽车汽车/行业深度行业深度 4.4.芯片系统集成 图图 46:训练系统训练系统 数据来源:特斯拉,东北证券 系统集成层面 6 个训练瓦片组成一个系统矩阵,2 个系统矩阵组成一个训练机柜,10 个训练机柜组成一个集群超级计算机,这里面包含了包含 3000 个 D1 芯片,超过 106w 个 CPU 内核,1320G SRAM 内存,得到了 1.

92、1EFlops 算力。在 Dojo 的训练矩阵内部具有高速连接、密集集成等特性,75mm 高度能够支持 135kg的栽重,满足 100+kW 的功耗。4.5.Dojo Interface Processor 由于 D1 芯片自身没有共享内存,在 Dojo 训练矩阵里面每个瓦片最多可以连接 5 个PCle 卡,每个卡上有两个 16G 的 HBM 内存和以太网接口,整个训练矩阵通过 PCle(Dojo Interface Processor)来访问高速内存和外部的主机,也可以通过交换机来访问其他服务器。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 44/56 汽车汽车/行业深度行业深度

93、 图图 47:训练矩阵内存共享方式训练矩阵内存共享方式 数据来源:特斯拉,东北证券 图图 48:Dojo Interface Processor 数据来源:特斯拉,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 45/56 汽车汽车/行业深度行业深度 图图 49:Dojo Host Interface 数据来源:特斯拉,东北证券 除了 DIP 之外,Dojo 还可以通过特斯拉自研的 TTPoE 协议将标准以太网转换至 Z平台拓扑,进行跨以太网的互联。另外,每一个训练矩阵可以搭配一个 Dojo 主机接口,里面具有 512 个 x86 核心,8TB 主存。4.6.Dojo Ex

94、aPOD 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 46/56 汽车汽车/行业深度行业深度 图图 50:Dojo ExaPOD 数据来源:特斯拉,东北证券 每个 Dojo ExaPOD 由十个机柜组成,内部一共集成了 120 个训练矩阵,包含 3000个 D1 芯片,超过 100w 个训练节点,因此具备了 BF16/CFP8 层面上 1.1EFLOPS 的峰值算力,拥有 1.3TB 高速 SRAM 和 13TB 高带宽 DRAM。图图 51:Dojo 性能对比性能对比 1 图图 52:Dojo 性能对比性能对比 2 数据来源:特斯拉,东北证券 数据来源:特斯拉,东北证券 请务必

95、阅读正文后的声明及说明请务必阅读正文后的声明及说明 47/56 汽车汽车/行业深度行业深度 图图 53:Dojo 集成体积对比集成体积对比 1 图图 54:Dojo 集成体积对比集成体积对比 2 数据来源:特斯拉,东北证券 数据来源:特斯拉,东北证券 Dojo 相比英伟达具有更高的延迟和更好的训练效果相比英伟达具有更高的延迟和更好的训练效果。以往要用 6 个 GPU Box 的计算开销现在只需 1 个 GPU Box,原本 72 个 GPU 机柜才能跑完的自动标注算法现在只要 4 台 Dojo Cabinet 机柜就能做到。Dojo 相较于 A100 的优势分为两点:1、画面帧数传输速度更快,

96、相同模型相同数据大小的情况下 Dojo 的运行 FPS 略高于英伟达 A100,意味着 Dojo 芯片有更好的传输速度和更优的计算性能。5.谷歌谷歌 TPU:Dojo 的的一面一面镜子镜子 2016 年,谷歌在开发者大会上,推出了自行研制的人工智能芯片 Tensor Processing Unit,TPU。这是首个人工智能的专用计算芯片,后续谷歌又开发出了 TPU v2、TPU v3、TPU v4、TPU v5 等系列产品。5.1.TPU 表表 9:TPU 历代发布时间历代发布时间 名称名称 时间时间 性能性能 应用应用 TPUv1 2016 年 92Tops+8GB DDR3 数据中心推理

97、TPUv2 2017 年 180TFlops(集成 4 块芯片)+64GB(HBM)数据中心训练和推理 TPUv3 2018 年 420TFlops+128GB(HBM)数据中心训练和推理 Edge TPU 2018 年 可处理高吞吐量的流式数据 loT 设备 TPUv2 pod 2019 年 11.5 千万亿次点运算/s,4TB(HBM),二维环面网状网络 数据中心训练和推理 TPUv3 pod 2019 年 100 千 万 亿 次 浮 点 运 算/s,32TB(HBM),二维环面网状网络 数据中心训练和推理 TPUv4 2021 年 OCS 光互连 数据中心训练和推理 TPUv4 pod

98、2022 年 数据中心训练和推理 TPUv5 2023 年 数据中心训练和推理 数据来源:谷歌,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 48/56 汽车汽车/行业深度行业深度 表表 10:TPU 历代芯片历代芯片参数参数 TPUv1 TPUv2 TPUv3 Edge vl Pixel Neural Core TPUv4i Google TPUv4 Tensor TPUv5p Date introduced 2016 2017 2018 2018 2019 2020 2021 2023 Process node 28 nm 16 nm 16 nm 7nm 7 nm 5

99、nm Die size(mm)330mm 625mm 700mm 400mm 780mm On-chip memory(MB)28MB 32MB 32MB 144MB 288MB Clock speed(MHz)700MHz 700MHz 940MHz 1050MHz 1050MHz Memory 8GB DDR3 16 GB HBM 32 GB HBM 8GB DDR 32 GB HBM 95 GB HBM Memory bandwidth 300 GB/s 700 GB/s 900 GB/s 300GB/s 1200 GB/s 2765 GB/s TDP(W)75 280 450 175

100、300 TOPS Tera/Second)45 123 4 275 918 TOPS/W 0.31 0.16 0.56 2 1.62 数据来源:谷歌,东北证券 TPU 是谷歌基于自身的产品需要(云服务、终端产品)开发专门用于 AI 场景的 ASIC芯片,从 2016 年第一代产品推出至今已经来到了第五代。5.2.TPU v1 图图 55:TPU 架构架构 数据来源:谷歌,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 49/56 汽车汽车/行业深度行业深度 TPU v1 是采用 28nm 制程工艺的 ASIC 推理芯片,主频为 700MHz,功耗为 40W。TPU v1 主

101、要对主要对 2015 年最火的神经网络进行优化,年最火的神经网络进行优化,包括 MLP、CNN、RNN、LSTM等,其性能在同期产品中非常拔群,计算采用 INT8 数据格式,并通过量化压缩,保持精度。芯片种具有矩阵乘加专用加速器 MXU,通过改变传统的运算模式,优化了流程,提升了效率,这也是第一个提出的张量计算单元。在芯片结构图中,黄色代表运算单元;蓝色是数据单元;绿色是 I/O,红色是控制逻辑单元。与 CPU 和 GPU 相比,TPU 的控制单元更小,更容易设计,面积只占了整个冲模的 2%,给片上存储器和运算单元留下了更大的空间。而且,TPU 的大小只有其他芯片的一半,而硅片越小,成本越低,

102、良品率也越高。图图 56:不同不同神经网络上神经网络上 TPU、CPU、GPU 性能比较性能比较 数据来源:量子位,东北证券 TPU 的另外一个优势是的另外一个优势是专用化带来的高效率。专用化带来的高效率。像 CPU 和 GPU 需要考虑各种任务上的性能优化,需要一些复杂的机制,带来了更大的不确定性和报错可能,也会带来计算效率的损失;而对于 TPU 而言,我们能预测运行一个神经网络需要的时间,能让芯片以吞吐量接近峰值的状态运行,同时严格控制延迟,所以表现出更加优异的性能,例如在 CNN1 模型中 TPU 的性能达到了 CPU 的 71 倍。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说

103、明 50/56 汽车汽车/行业深度行业深度 图图 57:TPU 与其他芯片性能比较与其他芯片性能比较 数据来源:In-Datacenter Performance Analysis of a Tensor Processing Unit,东北证券 图图 58:脉动阵列运算机制脉动阵列运算机制 数据来源:量子位,东北证券 在在 TPU 的的张量计算单元中,矩阵之间的计算可以一次进行,无需反复读取内存张量计算单元中,矩阵之间的计算可以一次进行,无需反复读取内存,因此大大提升了效率同时降低了能耗,使得 TPU v1 跑出了远超同期其他芯片的计算性能。如上图所示,CPU 和 GPU 在每次运算中都需要

104、从多个寄存器(register)中进行存取;而 TPU 的脉动阵列将多个运算逻辑单元(ALU)串联在一起,复用从一个寄存器中读取的结果,TPU 也是首个引入此项运算机制的芯片。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 51/56 汽车汽车/行业深度行业深度 5.3.TPU v2 及以上 图图 59:TPU v2 数据来源:谷歌,东北证券 图图 60:TPU v2 架构架构 数据来源:谷歌,东北证券 2017 年谷歌发布了 TPU v2 芯片,采用 16GB 高带宽内存 HBM,单片算力达到45TFLOPS,可以支持 BF16 格式数据的浮点运算,因此具备了模型训练能力。请务必阅

105、读正文后的声明及说明请务必阅读正文后的声明及说明 52/56 汽车汽车/行业深度行业深度 图图 61:TPU 架构变化架构变化 数据来源:谷歌,东北证券 原先 TPU v1 架构中的 Actication Storage 和 Accumulators 都是存储区域,为了提升训练过程中的可编程性,将两者合并得到了类似于 L1 Cache 的 Vector Memory。Activation Pipeline 变为更加通用可编程的 Vector Unit,负责进行激活等相关运算。MXU 单元直接和 Vector Unit 相连,作为向量单元的协处理器,对编程更加友好。由于训练场景既要读取权重,又要

106、写入权重,将高速 HBM 和 Vector Memory 相连。通过以上改动就得到了 TPU v2 的训练芯片架构,之后谷歌在此基础之上有迭代开发出了 TPU v3、TPU v4 和 TPU v5 系列芯片。图图 62:TPU v4 数据来源:谷歌,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 53/56 汽车汽车/行业深度行业深度 图图 63:TPU v4 和和 v5 参数参数 数据来源:谷歌,东北证券 谷歌 TPU 系列推出之时轰动全球,不过作为一款专用芯片时至今日也难以做到工业级别的适配和开发生态,最后还是以谷歌内部自用为主,特斯拉 Dojo 的路线和模式也使得它在

107、大规模推广上也会面临着相同的压力。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 54/56 汽车汽车/行业深度行业深度 6.投资建议投资建议 特斯拉从制造公司到 AI 公司的转型需要大量算力作为储备,虽然英伟达的训练芯片生态完备,但是作为通用芯片效率相对较低,而且单位成本较高,因此特斯拉通过自研 Dojo 来解决上述问题。Dojo 芯片关注的核心点在于其性能、应用范围和对英伟达训练芯片的影响。我们的结论也非常清晰,Dojo 产品设计和性能顶尖,但通用性不如英伟达,未来主要还是加速特斯拉内部模型训练为主:1.Dojo 是采用存算一体架构,内核高度精简,系统高度集成的超算体系,能够在单

108、位体积和空间实现极致的运算能力,对于特斯拉智能驾驶和人形机器人的视觉模型的训练具有更强的加速作用。2.Dojo 是特斯拉对自身情况定制的算力体系,对其他公司或者其他应用场景的模型训练场景不一定具备类似的适配性,目前也没有良好的开发生态,预计 Dojo短期之内很难做到类似于英伟达的上手难度。3.参考谷歌 TPU 推出之时也是轰动全球,但是还是难以做到工业级别的适配和开发生态,最后也是以自用为主,特斯拉Dojo的路线和模式也会面临类似的困境。7.风险提示风险提示 智驾进展不及预期智驾进展不及预期。目前智能驾驶尚处于行业发展期,方案和功能仍需进步,存在消费端的需求增长较慢不及预期的风险。人形机器人进

109、展不及预期。人形机器人进展不及预期。人型机器人行业处在行业初期,未来进展可能不及预期。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 55/56 汽车汽车/行业深度行业深度 研究团队简介:研究团队简介:Table_Introduction 周颖:伯明翰大学国际商业学硕士,现任电力设备新能源组证券分析师,2019 年加入东北证券。陈纬国:北京大学材料化学学士,加州大学洛杉矶分校化学工程硕士,现任新能车组研究助理,主要研究方向包括锂电、智能驾驶、机器人等,2022 年加入东北证券。分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,并在中国证券业协会注册登记为证券分析

110、师。本报告遵循合规、客观、专业、审慎的制作原则,所采用数据、资料的来源合法合规,文字阐述反映了作者的真实观点,报告结论未受任何第三方的授意或影响,特此声明。投资投资评级说明评级说明 股票 投资 评级 说明 买入 未来 6 个月内,股价涨幅超越市场基准 15%以上。投资评级中所涉及的市场基准:A 股市场以沪深 300 指数为市场基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为市场基准;香港市场以摩根士丹利中国指数为市场基准;美国市场以纳斯达克综合指数或标普 500指数为市场基准。增持 未来 6 个月内,股价涨幅超越市场基准 5%至 15%之间。中性 未来 6 个

111、月内,股价涨幅介于市场基准-5%至 5%之间。减持 未来 6 个月内,股价涨幅落后市场基准 5%至 15%之间。卖出 未来 6 个月内,股价涨幅落后市场基准 15%以上。行业 投资 评级 说明 优于大势 未来 6 个月内,行业指数的收益超越市场基准。同步大势 未来 6 个月内,行业指数的收益与市场基准持平。落后大势 未来 6 个月内,行业指数的收益落后于市场基准。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 56/56 汽车汽车/行业深度行业深度 重要声明重要声明 本报告由东北证券股份有限公司(以下称“本公司”)制作并仅向本公司客户发布,本公司不会因任何机构或个人接收到本报告而视其

112、为本公司的当然客户。本公司具有中国证监会核准的证券投资咨询业务资格。本报告中的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证。报告中的内容和意见仅反映本公司于发布本报告当日的判断,不保证所包含的内容和意见不发生变化。本报告仅供参考,并不构成对所述证券买卖的出价或征价。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的证券买卖建议。本公司及其雇员不承诺投资者一定获利,不与投资者分享投资收益,在任何情况下,我公司及其雇员对任何人使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或其关联机构可能会持有本报告中涉及到的公司所发行的证券头寸并进行交易,并在法律许可

113、的情况下不进行披露;可能为这些公司提供或争取提供投资银行业务、财务顾问等相关服务。本报告版权归本公司所有。未经本公司书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,须在本公司允许的范围内使用,并注明本报告的发布人和发布日期,提示使用本报告的风险。若本公司客户(以下称“该客户”)向第三方发送本报告,则由该客户独自为此发送行为负责。提醒通过此途径获得本报告的投资者注意,本公司不对通过此种途径获得本报告所引起的任何损失承担任何责任。地址地址 邮编邮编 中国吉林省长春市生态大街 6666 号 130119 中国北京市西城区锦什坊街 28 号恒奥中心 D 座 100033 中国上海市浦东新区杨高南路 799 号 200127 中国深圳市福田区福中三路 1006 号诺德中心 34D 518038 中国广东省广州市天河区冼村街道黄埔大道西 122 号之二星辉中心 15 楼 510630

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(汽车行业深度:Dojo助推特斯拉加速AI落地-240517(56页).pdf)为本站 (破茧成蝶) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 wei**n_... 升级为至尊VIP  wei**n_...  升级为高级VIP

 130**88... 升级为标准VIP  张川  升级为标准VIP

wei**n_... 升级为高级VIP  叶**   升级为标准VIP

wei**n_... 升级为高级VIP  138**78...  升级为标准VIP

wu**i 升级为高级VIP   wei**n_...  升级为高级VIP

wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP 

185**35... 升级为至尊VIP  wei**n_... 升级为标准VIP

186**30...  升级为至尊VIP 156**61... 升级为高级VIP

130**32... 升级为高级VIP  136**02...  升级为标准VIP 

wei**n_...  升级为标准VIP 133**46... 升级为至尊VIP 

wei**n_...  升级为高级VIP  180**01...  升级为高级VIP

130**31...  升级为至尊VIP wei**n_...  升级为至尊VIP

 微**... 升级为至尊VIP  wei**n_...  升级为高级VIP

 wei**n_... 升级为标准VIP   刘磊 升级为至尊VIP

 wei**n_... 升级为高级VIP  班长 升级为至尊VIP

wei**n_... 升级为标准VIP  176**40...  升级为高级VIP

136**01... 升级为高级VIP 159**10...  升级为高级VIP

君君**i... 升级为至尊VIP  wei**n_... 升级为高级VIP 

 wei**n_...  升级为标准VIP   158**78... 升级为至尊VIP

微**... 升级为至尊VIP 185**94... 升级为至尊VIP

 wei**n_... 升级为高级VIP  139**90...  升级为标准VIP

131**37... 升级为标准VIP   钟**  升级为至尊VIP 

wei**n_... 升级为至尊VIP  139**46... 升级为标准VIP 

 wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP 

 150**80...  升级为标准VIP wei**n_...  升级为标准VIP

GT 升级为至尊VIP  186**25...  升级为标准VIP 

wei**n_... 升级为至尊VIP   150**68... 升级为至尊VIP

wei**n_...  升级为至尊VIP 130**05... 升级为标准VIP

 wei**n_... 升级为高级VIP  wei**n_...  升级为高级VIP 

 wei**n_... 升级为高级VIP  138**96... 升级为标准VIP

 135**48... 升级为至尊VIP  wei**n_... 升级为标准VIP 

 肖彦 升级为至尊VIP wei**n_... 升级为至尊VIP 

wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP

 国**...  升级为高级VIP 158**73...   升级为高级VIP

wei**n_...  升级为高级VIP wei**n_...   升级为标准VIP

wei**n_... 升级为高级VIP   136**79...  升级为标准VIP

沉**...  升级为高级VIP 138**80...  升级为至尊VIP 

 138**98... 升级为标准VIP  wei**n_... 升级为至尊VIP

wei**n_... 升级为标准VIP   wei**n_...  升级为标准VIP

wei**n_... 升级为至尊VIP  189**10...  升级为至尊VIP

wei**n_...  升级为至尊VIP  準**...  升级为至尊VIP 

 151**04... 升级为高级VIP  155**04... 升级为高级VIP

wei**n_...   升级为高级VIP  sha**dx...  升级为至尊VIP

 186**26... 升级为高级VIP   136**38... 升级为标准VIP

 182**73... 升级为至尊VIP 136**71...  升级为高级VIP

139**05...  升级为至尊VIP wei**n_... 升级为标准VIP  

wei**n_...  升级为高级VIP  wei**n_... 升级为标准VIP 

 微**... 升级为标准VIP Bru**Cu...  升级为高级VIP 

155**29... 升级为标准VIP  wei**n_... 升级为高级VIP 

爱**... 升级为至尊VIP   wei**n_... 升级为标准VIP