上海品茶

GTC2024对GPT模型参数的描述-行业数据

GTC2024对GPT模型参数的描述原图定位

Google 是 MoE 架构的早期探索者之一，OpenAI 实现了 MoE 的商业化落地。MoE 的理念起源于 1991 年的论文《Adaptive Mixture of Local Experts》。在 ChatGPT 问世之前，Google 已经有了较深入的 MoE 研究，典型代表是 20 年的 Gshard 和 21 年的开源 1.6 万亿Switch-Transformer 模型。23 年 3 月 GPT-4 问世，OpenAI 继续走了闭源路线，没有公布模型参数。但是据 SemiAnalysis 信息，GPT-4 的参数约 1.8 万亿，采用 MoE 架构，专家数为 16，每次推理调用两个专家，生成 1 个 token 约激活 2800 亿参数（GPT-3 为 1750亿参数），消耗 560 TFLOPs 算力。在 GTC 2024 演讲上，黄仁勋展示了 GB200 训练 GPT模型示意图，给出的参数也是 GPT-MoE-1.8T，交叉印证。