Root Mean Square Layer Normalization - 文章 - 开发者社区

本文提出了一种新的归一化方法RMSNorm，它根据 RMS 对 summed inputs 进行归一化。 RMSNorm保留了LayerNorm的重新缩放不变性，但回避了对模型训练贡献较小的 re-centering 不变性 。与LayerNorm相比， RMSNorm模型的计算开销更小 。RMSNorm 可以作为LayerNorm的临时替代品 ，很容易地应用于不同的模型体系结构。在多个NLP任务上的实验表明，RMSNorm在质量上与LayerNorm相当，但运行速度加快。实际的速度改进取决于框架、硬件、神经网络架构和其他组件的相对计算成本，我们根据经验观察到，在不同的模型和实现中， 速度提高了7% ~ 64% 。我们的 效率提高来自于简化计算 ，因此我们期望它们 与其他提高训练速度的方法(如低精度算法和GPU内核融合)是正交的 。

LayerNorm

picture.image

在这里插入图片描述

picture.image

RMSNorm

LayerNorm成功的一个众所周知的解释是它的 re-centering 和 re-scaling的不变性。 前者使模型对输入和权值上的移位噪声不敏感，后者在输入和权值随机缩放时保持输出表示不变 。在本文中，我们 假设LayerNorm成功的原因是重新缩放不变性 ，而不是重新定心不变性.

我们提出了RMSNorm，它 只关注重尺度不变性 ，并简单地根据均方根(RMS)统计量对求和输入进行正则化:

picture.image

在这里插入图片描述

直观地说， RMSNorm通过完全去除Eq.(3)中的平均统计量来简化LayerNorm，代价是牺牲均值归一化所提供的不变性 。当输入之和的均值为零时，RMSNorm正好等于LayerNorm。虽然RMSNorm没有像LayerNorm那样重新调整输入的中心，但我们通过实验证明，这个属性并不是LayerNorm成功的基础，而且RMSNorm与LayerNorm相似或更有效。

RMS测量输入的二次平均值，在RMSNorm中，它将求和输入强制到

尺度的单位球中。通过这样做，输出分布保持不变，而不受输入和权重分布的影响，有利于层激活的稳定性。虽然欧几里得范数与RMS仅相差

个因子已被成功探索[22]，但我们经验地发现它不适用于层归一化。我们假设用输入向量的大小来缩放球体是很重要的，因为它使得在不同大小的向量上的归一化更加健壮。据我们所知，在神经网络归一化中使用均方根的想法之前还没有被研究过。

Experiments

picture.image

参考文献

https://arxiv.org/pdf/1910.07467v1