图表41TPUv4与A100在MLPerf测试的表现对比 原图定位 自研芯片有助于低成本高性能算力部署,或成为产业发展新趋势。Google 的 TPUv4 相较于 A100 性能更佳、成本更低、功耗更低,下游客户拥有更多高性价比选择。根据 Google论文披露,对于类似大小的系统,TPUv4 的 BERT 训练速度比 A100 快 1.15 倍;对于ResNet,TPUv4 表现为 A100 的 1.67 倍。而在部分测试中,A100 的功耗是 TPUv4 的 1.3-1.9 倍。对于 TPUv4 和 A100 的使用成本,我们参考 Google Cloud 的相关报价进行对比,TPUv4 Pod 在 us-centra2 区域按需/1 年租/3 年租的单芯片每小时使用价格分别约为 3.22美元、2.03 美元、1.45 美元,而 Google 提供向虚拟机 (VM) 实例挂接 GPU 的服务,其中 A100 80G GPU 在 us-central1 区域的每小时价格约为 1.57 美元。综合以上数据,TPUv4在性能表现和功耗成本上,相较于 A100 都具有一定的优势。这为下游客户提供了更多的选择,有望助力原本受制于成本和供应因素而未完全释放的下游需求得到进一步加快加大的释放,利好算力基础设施产业链。Google 的客户如 Anthropic、Hugging Face 和AssemblyAI 等就已在广泛应用 TPU 所提供的算力服务。