GTC2024对GPT模型参数的描述 原图定位 Google 是 MoE 架构的早期探索者之一,OpenAI 实现了 MoE 的商业化落地。MoE 的理念起源于 1991 年的论文《Adaptive Mixture of Local Experts》。在 ChatGPT 问世之前,Google 已经有了较深入的 MoE 研究,典型代表是 20 年的 Gshard 和 21 年的开源 1.6 万亿Switch-Transformer 模型。23 年 3 月 GPT-4 问世,OpenAI 继续走了闭源路线,没有公布模型参数。但是据 SemiAnalysis 信息,GPT-4 的参数约 1.8 万亿,采用 MoE 架构,专家 数为 16, 每次推理调用两个专家,生成 1 个 token 约激 活 2800 亿参数(GPT-3 为 1750亿参数),消耗 560 TFLOPs 算力。在 GTC 2024 演讲上,黄仁勋展示了 GB200 训练 GPT模型示意图,给出的参数也是 GPT-MoE-1.8T,交叉印证。