MetaOPT-175B模型训练中出现多个断点 原图定位 除性能外,工程环境的稳定性也尤其重要。英伟达在《Efficient Large-Scale Language Model Training on GPU Clusters》论文中预估过:1750 亿参数的模型,在 3000 亿样本的规模下,1024 卡也需要训练 34 天。如何保证在有故障发生的情况下,模型能持续稳定的训练,也是亟需解决的问题。根据 Susan Zhang 教授30,Meta 在OPT-175B 模型的训练中出现了 50 多次的断点(需要回到 Checkpoint 重启训练),下图中不同颜色代表着模型连续训练的时间。而根据 GPT-4 技术报告,OpenAI 认为 GPT-4 模型训练的重要因素是工程环境的完善搭建。