Root Mean Square Layer Normalization

本文提出了一种新的归一化方法RMSNorm,它根据 RMS 对 summed inputs 进行归一化。 RMSNorm保留了LayerNorm的重新缩放不变性,但回避了对模型训练贡献较小的 re-centering 不变性 。与LayerNorm相比, RMSNorm模型的计算开销更小 。RMSNorm 可以作为LayerNorm的临时替代品 ,很容易地应用于不同的模型体系结构。在多个NLP任务上的实验表明,RMSNorm在质量上与LayerNorm相当,但运行速度加快。实际的速度改进取决于框架、硬件、神经网络架构和其他组件的相对计算成本,我们根据经验观察到,在不同的模型和实现中, 速度提高了7% ~ 64% 。我们的 效率提高来自于简化计算 ,因此我们期望它们 与其他提高训练速度的方法(如低精度算法和GPU内核融合)是正交的

LayerNorm

picture.image

在这里插入图片描述

picture.image

RMSNorm

LayerNorm成功的一个众所周知的解释是它的 re-centering 和 re-scaling的不变性。 前者使模型对输入和权值上的移位噪声不敏感,后者在输入和权值随机缩放时保持输出表示不变 。在本文中,我们 假设LayerNorm成功的原因是重新缩放不变性 ,而不是重新定心不变性.

我们提出了RMSNorm,它 只关注重尺度不变性 ,并简单地根据均方根(RMS)统计量对求和输入进行正则化:

picture.image

在这里插入图片描述

直观地说, RMSNorm通过完全去除Eq.(3)中的平均统计量来简化LayerNorm,代价是牺牲均值归一化所提供的不变性 。当输入之和的均值为零时,RMSNorm正好等于LayerNorm。虽然RMSNorm没有像LayerNorm那样重新调整输入的中心,但我们通过实验证明,这个属性并不是LayerNorm成功的基础,而且RMSNorm与LayerNorm相似或更有效。

RMS测量输入的二次平均值,在RMSNorm中,它将求和输入强制到

尺度的单位球中。通过这样做,输出分布保持不变,而不受输入和权重分布的影响,有利于层激活的稳定性。虽然欧几里得范数与RMS仅相差

个因子已被成功探索[22],但我们经验地发现它不适用于层归一化。我们假设用输入向量的大小来缩放球体是很重要的,因为它使得在不同大小的向量上的归一化更加健壮。据我们所知,在神经网络归一化中使用均方根的想法之前还没有被研究过。

Experiments

picture.image

参考文献

0
0
0
0
评论
未登录
暂无评论