处理器和存储器的速度失配 原图定位 过去大模型的训练时间主要受限于算力,英伟达等 GPU 厂商通过利用摩尔定律缩减制程、改变架构等方式,GPU 的浮点运算能力大幅提高,但对应的存储带宽增速慢于 GPU 算力增长速度。如英伟达 H100 相比A100,FP32 算力从 19.5 到 66.9tflops 提升 3 倍+,但带宽从 2039GB/s到 3.35TB/s 仅提升 1.5 倍。