国内外典型MoE模型比较 原图定位 Mistral 引发 MoE 关注,Google 掀起 MoE 浪潮,国内厂商跟随发布 MoE 模型。23 年 12月,Mistral 开源 Mixtral-8x7B-MoE,以近 47 亿的参数在多项测评基准上达到或超过 1750亿参数的 GPT-3.5 水平,引发了全球开发者对 MoE 架构的再次关注。24 年 2 月,Google将其最先进模型系列 Gemini 更新到 1.5 Pro,并指出架构上从稠密架构切换到 MoE 架构,实现了 1.5 Pro 模型性能的大幅提升,核心能力超过 Gemini 1.0 Ultra。国内外模型厂商随 即跟进发 布 MoE 相关模型,包括 xAI 开源的 Grok-1(23 年 10 月已实现 MoE,24 年开源)、MiniMax abab6、Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆仑万维天工3.0、阶跃星辰 STEP 2、商汤日日新 5.0 等。