上海品茶

三个皮匠报告—— 严选型全行业研究报告分享下载平台，您的专属行业智库！

欢迎来到三个皮匠报告！帮助中心

MetaOPT-175B模型训练中出现多个断点-行业数据

您的当前位置：上海品茶 > 行业数据 > MetaOPT-175B模型训练中出现多个断点

MetaOPT-175B模型训练中出现多个断点原图定位

除性能外，工程环境的稳定性也尤其重要。英伟达在《Efficient Large-Scale Language Model Training on GPU Clusters》论文中预估过：1750 亿参数的模型，在 3000 亿样本的规模下，1024 卡也需要训练 34 天。如何保证在有故障发生的情况下，模型能持续稳定的训练，也是亟需解决的问题。根据 Susan Zhang 教授30，Meta 在OPT-175B 模型的训练中出现了 50 多次的断点（需要回到 Checkpoint 重启训练），下图中不同颜色代表着模型连续训练的时间。而根据 GPT-4 技术报告，OpenAI 认为 GPT-4 模型训练的重要因素是工程环境的完善搭建。