国内外主要芯片参数情况-行业数据

您的当前位置：上海品茶 > 行业数据 > 国内外主要芯片参数情况

国内外主要芯片参数情况原图定位

谷歌 TPU专为 AI 而生，在制程劣势背景下已在集群算力、能耗等方面展现出自身优势。谷歌研发 AI芯片其实比英伟达更早，2016年 Google凭借 AlphaGo战胜围棋冠军惊艳世界，随后推出自研的专为 AI而生的芯片 TPU(Tensor Processing Unit)，中文名叫做“张量处理单元”——“张量”即神经网络的基本单元，从芯片结构上专为 AI大模型训练设计。如果说英伟达 GPU 是“魔改”版的 AI 芯片，那么 TPU 则是从根本上舍弃了传统CPU 和 GPU 使用的技术，如缓存、乱序执行、多线程、多任务处理、预取等，其确定性执行的方式更加符合神经网络的执行要求，有助于提高计算吞吐量（GPU主要是降低数据和计算延迟）。具体而言，神经网络运算需要进行大量矩阵运算，GPU只能按部就班将矩阵计算拆解成多个向量的计算，每完成一组都需访问内存，保存这一层的结果，直到完成所有向量计算，再将每层结果组合得到输出值。而 TPU最大的创新点在于引入了专门用于矩阵运算的矩阵乘法单元（Matrix Multiply Unit, MXU），在 TPU中，成千上万个计算单元被直接连接起来形成矩阵乘法阵列，作为计算核心，可以直接进行矩阵计算，除了最开始的加载数据和函数外无需再访问存储单元。这大大降低了访问频率，使得 TPU的计算速度大大加快，能耗和物理空间占用也大大降低。具体来看，在MLPerf标准测试中，A100的能耗是 TPUv4的 1.33~1.93倍。此外，在第四代 TPU——TPUv4的架构更新上，Google采用了 3D torus互联方式+光电路交换机的方式大幅度提升了芯片互联集群的能力，最多能将 4096个计算核心相互连接，而最新一代的 TPUv5p的互联数量再次翻倍，达到了 8960个，远超英伟达 NVLink + NVSwitch所提供的 256个计算核心互联能力。因此即使制程原因导致 TPU单卡性能较英伟达差距较大，但在大规模集群算力方面已然大幅超越英伟达，以 TPUv5p为例，其最大集群算力达到 8.2ExaFLOPS，是 H200集群的 8倍。