2MegatronTuring-NLG（MT-NLG）再次刷新模型规模纪录-行业数据

2MegatronTuring-NLG（MT-NLG）再次刷新模型规模纪录原图定位

汲取“两家”所长，Megatron Turing-NLG（MT-NLG）再次刷新模型规模纪录。微软联手英伟达进一步打造的 MT-NLG 模型容纳 5300 亿参数，训练过程一共使用了 4480 块英伟达 A100 GPU，最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。MT-NLG 融合英伟达最先进的GPU 加速训练设备，以及微软最先进的分布式学习系统，来提高训练速度，并用上千亿个 token 构建语料库，共同开发训练方法来优化效率和稳定性。具体实现上，通过借鉴英伟达 Megatron-LM 模型的 GPU 并行处理，以及微软开源的分布式训练框架 DeepSpeed，创建 3D 并行系统，对于 5300 亿个参数的模型，每个模型副本跨越 280 个 A100 GPU，节点内采用 Megatron-LM 的 8 路张量切片，节点间采用 35 路管道并行，然后再使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU，最终在基于DGX SuperPOD的Selene超级计算机上完成混合精度训练。该模型在PiQA开发集和 LAMBADA 测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。