不同编码方式下模型的困惑度(左),不同编码方式下模型的分辨率(右) 原图定位 微软研究团队于 2022 年 12 月提出 XPOS(衍生自 RoPE),实际上对 Q、K 做了非对称变化,导致最终结果引入超参数的变化,且也是以来相对距离𝑚 − 𝑛,而非此前 ALiBi 的|𝑚 − 𝑛|,由于是单向模型,因此只需要考虑𝑚 ≥ 𝑛的情况,并设置超参数在 0~1 的范围变化即可(相当于指数衰减)。