上海品茶

国内外典型MoE模型比较-行业数据

国内外典型MoE模型比较原图定位

Mistral 引发 MoE 关注，Google 掀起 MoE 浪潮，国内厂商跟随发布 MoE 模型。23 年 12月，Mistral 开源 Mixtral-8x7B-MoE，以近 47 亿的参数在多项测评基准上达到或超过 1750亿参数的 GPT-3.5 水平，引发了全球开发者对 MoE 架构的再次关注。24 年 2 月，Google将其最先进模型系列 Gemini 更新到 1.5 Pro，并指出架构上从稠密架构切换到 MoE 架构，实现了 1.5 Pro 模型性能的大幅提升，核心能力超过 Gemini 1.0 Ultra。国内外模型厂商随即跟进发布 MoE 相关模型，包括 xAI 开源的 Grok-1（23 年 10 月已实现 MoE，24 年开源）、MiniMax abab6、Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆仑万维天工3.0、阶跃星辰 STEP 2、商汤日日新 5.0 等。