2MegatronTuring-NLG(MT-NLG)再次刷新模型规模纪录 原图定位 汲取“两家”所长,Megatron Turing-NLG(MT-NLG)再次刷新模型规模纪录。微软联手英伟达进一步打造的 MT-NLG 模型容纳 5300 亿参数,训练过程一共使用了 4480 块英伟达 A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。MT-NLG 融合英伟达最先进的GPU 加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度,并用上千亿个 token 构建语料库,共同开发训练方法来优化效率和稳定性。具体实现上,通过借鉴英伟达 Megatron-LM 模型的 GPU 并行处理,以及微软开源的分布式训练框架 DeepSpeed,创建 3D 并行系统,对于 5300 亿个参数的模型,每个模型副本跨越 280 个 A100 GPU,节点内采用 Megatron-LM 的 8 路张量切片,节点间采用 35 路管道并行,然后再使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU,最终在基于DGX SuperPOD的Selene超级计算机上完成混合精度训练。该模型在PiQA开发集和 LAMBADA 测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。