国内外主要芯片参数情况 原图定位 谷歌 TPU专为 AI 而生,在制程劣势背景下已在集群算力、能耗等方面展现出自身优势。谷歌研发 AI芯片其实比英伟达更早,2016年 Google凭借 AlphaGo战胜围棋冠军惊艳世界,随后推出自研的专为 AI而生的芯片 TPU(Tensor Processing Unit),中文名叫做“张量处理单元”——“张量”即神经网络的基本单元,从芯片结构上专为 AI大模型训练设计。如果说英伟达 GPU 是“魔改”版的 AI 芯片,那么 TPU 则是从根本上舍弃了传统CPU 和 GPU 使用的技术,如缓存、乱序执行、多线程、多任务处理、预取等,其确定性执行的方式更加符合神经网络的执行要求,有助于提高计算吞吐量(GPU主要是降低数据和计算延迟)。具体而言,神经网络运算需要进行大量矩阵运算,GPU只能按部就班将矩阵计算拆解成多个向量的计算,每完成一组都需访问内存,保存这一层的结果,直到完成所有向量计算,再将每层结果组合得到输出值。而 TPU最大的创新点在于引入了专门用于矩阵运算的矩阵乘法单元(Matrix Multiply Unit, MXU),在 TPU中,成千上万个计算单元被直接连接起来形成矩阵乘法阵列,作为计算核心,可以直接进行矩阵计算,除了最开始的加载数据和函数外无需再访问存储单元。这大大降低了访问频率,使得 TPU的计算速度大大加快,能耗和物理空间占用也大大降低。具体来看,在MLPerf标准测试中,A100的能耗是 TPUv4的 1.33~1.93倍。此外,在第四代 TPU——TPUv4的架构更新上,Google采用了 3D torus互联方式+光电路交换机的方式大幅度提升了芯片互联集群的能力,最多能将 4096个计算核心相互连接,而最新一代的 TPUv5p的互联数量再次翻倍,达到了 8960个,远超英伟达 NVLink + NVSwitch所提供的 256个计算核心互联能力。因此即使制程原因导致 TPU单卡性能较英伟达差距较大,但在大规模集群算力方面已然大幅超越英伟达,以 TPUv5p为例,其最大集群算力达到 8.2ExaFLOPS,是 H200集群的 8倍。