Jamba架构(左)吸收了Mamba+Transformer+MoE多种技术 原图定位 全球首个基于 Mamba 架构的生产级模型发布,Mamba 开始得到落地验证。24 年 3 月,AI21 发布世界首个 Mamba 的生产级模型 Jamba,融合了 Mamba+Transformer+MoE 等不同类型的大模型技术。Jamba 基本信息如下:1)共 52B 参数,其中 12B 在推理时处于激活状态;2)共 16 位专家,推理过程中仅 4 个专家处于活跃状态;3)模型基于 Mamba,采用 SSM-Transformer 混合的架构;4)支持 256K 上下文长度;5)单个 A100 80GB 最多可支持 140K 上下文;6)与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍。从测评结果看,Jamba 在推理能力上优于 Llama 2 70B、Gemma 7B 和 Mixtral 8x7B。Mamba 架