Attention机制和数据都会导致厚尾分布 原图定位 Adam 在 Transformer 架构模型上优于 SGD with momentum,且坐标剪裁(CClip)优于全局剪裁(GClip)。MIT 和 Google 研究团队在《Why Adam beats SGD for attention models》提到 SGD with momentum 在多数任务上表现好于自适应方法,但在注意力机制模型(如 BERT)Adam 收敛速度、稳定性好于 SGD with momentum。而研究团队指出,SGD 表现不佳的原因主要是 BERT 模型规模通常更大,且呈现厚尾分布,而 ImageNet 的随机梯度分布更接近高斯分布。BERT 模型随机梯度的厚尾分布导致,一些随机梯度大于平均值从而致使 SGD 的过度更新,因而 SGD 不稳 定,最终收敛效果不如 Adam。此外,团队提出 ACClip,收敛速度和稳定性优于 Adam。