DeciLM与Llama2在token生成上的性能对比 原图定位 Deci:模型部署层面优化,小模型功能优化。DeciLM 解码器的 Transformer 具有可变的Grouped-Query Attention(GQA)的能力:其会改变不同 Transformer 层的 attention 组、键值和数值的数量,DeciLM 是第一个在 Transformer 层结构互不重复的语言模型。60 亿参数的 DeciLM 模型在跑分上胜过 PyTorch 的 70 亿参数 Llama2。