上海品茶

三个皮匠报告—— 严选型全行业研究报告分享下载平台，您的专属行业智库！

欢迎来到三个皮匠报告！帮助中心

Attention机制和数据都会导致厚尾分布-行业数据

您的当前位置：上海品茶 > 行业数据 > Attention机制和数据都会导致厚尾分布

Attention机制和数据都会导致厚尾分布原图定位

Adam 在 Transformer 架构模型上优于 SGD with momentum，且坐标剪裁（CClip）优于全局剪裁（GClip）。MIT 和 Google 研究团队在《Why Adam beats SGD for attention models》提到 SGD with momentum 在多数任务上表现好于自适应方法，但在注意力机制模型（如 BERT）Adam 收敛速度、稳定性好于 SGD with momentum。而研究团队指出，SGD 表现不佳的原因主要是 BERT 模型规模通常更大，且呈现厚尾分布，而 ImageNet 的随机梯度分布更接近高斯分布。BERT 模型随机梯度的厚尾分布导致，一些随机梯度大于平均值从而致使 SGD 的过度更新，因而 SGD 不稳定，最终收敛效果不如 Adam。此外，团队提出 ACClip，收敛速度和稳定性优于 Adam。