Transformer:学习稳定性与记忆能力的差异化调控研究 !

机器学习算法人工智能与算法

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Image

层归一化(Layer Normalization, LayerNorm)是Transformer架构中的核心组件之一,能够稳定训练过程并提升优化性能。

近年来,由于具备更稳定的梯度 Stream 特性,Pre-LayerNorm Transformer逐渐取代Post-LayerNorm Transformer成为主流选择。然而,LayerNorm在不同架构中对学习与记忆能力的影响仍不明确。

本文系统研究了LayerNorm对Pre-LayerNorm与Post-LayerNorm Transformer中记忆与学习行为的影响。

作者发现:在Pre-LayerNorm架构中,LayerNorm是实现稳定学习的关键因素;

而在Post-LayerNorm架构中,LayerNorm则主要影响模型的记忆能力。分析表明,移除Pre-LayerNorm模型中的LayerNorm参数会加剧过拟合现象并导致学习过程不稳定;而在Post-LayerNorm模型中,移除LayerNorm参数则能有效抑制记忆,恢复真实标签的表示。

进一步研究发现,早期层的LayerNorm对模型性能影响最为显著,且其作用在Pre-LayerNorm与Post-LayerNorm模型之间存在差异。作者在6个视觉与语言基准数据集上的13个模型中验证了上述结论。

本研究为理解LayerNorm在Transformer中调控记忆与学习机制提供了新的视角。

1 引言

层归一化(Layer Normalization, LN)[Lei Ba et al., 2016] 在深度学习模型中,尤其是在 Transformer 模型中,对稳定训练过程和提升性能起到了重要作用。它通过在每一层对激活值进行归一化,确保训练过程中梯度 Stream 更加一致。近年来,Transformer 架构主要采用两种 LayerNorm(LN)放置方式:Pre-LN 和 Post-LN。Post-LN Transformer 由 Vaswani 等人 [2017] 提出,其在残差连接输出与层输出相加之后进行归一化,在语言建模和机器翻译任务中表现出良好的性能。然而,由于 Post-LN 模型存在梯度 Stream 不稳定的问题 [Liu et al., 2020],Pre-LN Transformer [Xiong et al., 2020] 被提出,其在自注意力(Self-Attention)和 FFN (feed-forward)层之前进行归一化。这种配置通过改善梯度 Stream ,显著稳定了训练过程并实现了更快的收敛速度,因此成为现代架构(如 GPT、Llama 和 Vision Transformers)中的首选方案。

尽管Transformer在从数据中学习丰富表示方面表现出卓越能力,但由于其复杂的结构,模型往往倾向于记忆部分样本,这种现象通常被称为标签记忆化(Label Memorization)[Feldman, 2020, Feldman and Zhang, 2020]。在该现象中,模型在训练过程中记住了标签,而未能学习到能够泛化到未见数据的相关模式,从而导致过拟合。近期研究探讨了记忆化是否可以局限于特定层 [Maini et al., 2023, Baldock et al., 2021] 或特定组件,例如注意力头(attention heads)和 FFN (feed-forward network, FFN)[Haviv et al., 2023, Geva et al., 2023, Yu et al., 2023]。除了注意力头和FFN之外,LayerNorm(LayerNorm)是Transformer架构中的关键组件,进一步影响模型的优化动态与性能表现。研究表明,LN层中的异常神经元(outlier neurons)会损害Transformer的性能,并阻碍量化过程 [Kovaleva et al., 2021, Puccetti et al., 2022, Bondarenko et al., 2023, He et al., 2024]。[Xu et al., 2019] 指出,LayerNorm可能加剧Pre-LN模型的过拟合问题。

在本文中,作者发现,在 Pre-LN Transformer (transformer)中,LayerNorm(LN)对于学习至关重要,移除其可学习参数会加剧过拟合并破坏学习过程。相反,在 Post-LN Transformer 中,LN 在记忆(memorization)中起着显著作用,通过移除 LN 的参数,可以在不损害模型学习能力的前提下,抑制记忆行为,从而恢复真实的标签。作者通过多种模型——包括 BERT、Longformer、RoBERTa、DeBERTa、ELECTRA、DistilBERT、GPTNeo、GPT2、Qwen2、RoBERTa-PreLayerNorm、ViT-Base、ViT-Small 和 DeiT——在视觉(Vision)与语言(Language)任务中对上述观点进行了严格验证。

综上所述,本文关于 LN 对 Transformer 中记忆与学习影响的核心发现如下:

1 学习稳定性、记忆抑制与标签恢复:作者发现,LN在Pre-LN模型中对学习至关重要,而在Post-LN模型中则不然。对于Post-LN模型,移除LN的可学习参数能够抑制记忆化现象并恢复真实的标签;而在Pre-LN模型中,移除LN会加剧过拟合,且记忆化现象持续存在。

2 早期 Layer Normalization(LN)至关重要:作者发现,移除早期层中的 LN 参数对缓解 Post-LN 模型的过拟合最为有效,同时会破坏 Pre-LN 架构中的学习稳定性。

3 梯度解释LN的影响:作者通过比较学习梯度和记忆梯度,解释了LN在Pre-LN和Post-LN模型中不同影响的原因,揭示了为何在Pre-LN模型中移除LN参数会导致学习过程的破坏,而在Post-LN模型中则导致记忆能力的抑制。

2 相关工作

记忆与学习:Transformer 在学习通用、简单的模式方面表现出色,但也倾向于记忆罕见、错误标注或复杂的样本。

Feldman 和 Zhang [2020]、Feldman [2020] 对标签记忆(label memorization)进行了形式化定义,而 Baldock 等人 [2021] 提出了预测深度(prediction depth)以捕捉样本的难度。其他研究 [Jiang et al., 2020, Ravikumar et al., 2024, Garg et al., 2023] 将高曲率(high curvature)与一致性(consistency)关联到长尾分布或错误标注的样本。除了识别记忆现象外,多项研究 [Haviv et al., 2023, Geva et al., 2023, Dai et al., 2021] 探讨了自注意力(self-attention)和前馈层(feedforward layers)在 Transformer 各层中对事实回忆(factual recall)的贡献。更近期的工作 [Yin et al., 2023, Lad et al., 2024, Men et al., 2024, Li et al., 2024, Sun et al., 2025] 指出,在 Pre-LN 架构中,深层网络在学习上的有效性有限。尽管已有诸多洞察,但 LayerNorm 在塑造 Pre-LN 与 Post-LN 架构中记忆与学习特性的独特影响,目前仍缺乏深入理解。

理解 Transformer 中的 LayerNorm(LN):除了 Self-Attention 机制和 FFN 之外,Layer Normalization(LN)在 Transformer 模型中也扮演着关键角色。先前的研究表明,LN 对 Transformer 整体表达能力至关重要。除了其功能性之外,LN 还被发现包含异常神经元(outlier neurons),移除这些神经元会显著降低模型性能。此外,这些异常神经元也被证明会阻碍 Transformer 模型的量化过程 [Bondarenko et al., 2023, He et al., 2024]。

同时,多项研究指出,Post-LN 架构可能导致训练过程中的梯度不稳定,而 Pre-LN 配置则可能在早期层引发梯度爆炸问题——这促使了多种技术的提出 [Shleifer et al., 2021, Wang et al., 2022, Kumar et al., 2023, Qi et al., 2023, Jiang et al., 2023] 以应对上述问题。此外,Xu et al. [2019] 提出,LN 的参数可能在 Pre-LN 模型中导致过拟合现象。

然而,作者对Layer Normalization(LN)的作用提供了更为细致的见解:

在Pre-LN的transformer中,LN对于学习至关重要,但对记忆作用不大;

而在Post-LN模型中,LN对记忆至关重要,但对学习作用较小。这一区分为理解LN在transformer中对学习与记忆的功能提供了全新的视角。

3 预备知识

3.1 理解Transformer中的LayerNorm及其对记忆与学习的定义

LayerNorm 操作。设

为输入向量,其维度为

,输入到 LayerNorm 函数

中。该函数首先使用均值

和标准差

对输入

进行归一化,得到

。随后,利用可学习参数

(权重)和

(偏置)对

进行重新缩放和重新中心化。LayerNorm 层的输出为:

其中

表示点积操作。

Pre-LN 与 Post-LN Transformer。在 Pre-LN Transformer 中,LayerNorm 在每个子层(多头自注意力机制 Multi-Head Self Attention, MHSA 和 FFN Feed-Forward Network, FFN)之前应用。另一方面,在 Post-LN Transformer 中,LayerNorm 在残差连接之后应用。作者以如下方式表示这两种配置在架构设计上的关键差异:

理解学习与标签记忆(Label Memorization, LM)。深度神经网络模型(如Transformer)在训练过程中学习特征与标签之间的有意义关系,并将所学表示泛化到未见的测试数据上——这一现象被广泛理解为学习/泛化。与此同时,这些模型也倾向于记忆训练数据中的复杂样本点,这一现象通常被称为标签记忆(Label Memorization, LM)[Feldman, 2020; Feldman and Zhang, 2020],即模型在训练过程中仅记忆标签,而未能捕捉到能够泛化到新数据的有意义模式,从而导致过拟合。

标签记忆的出现通常由多种因素引起,例如复杂且模糊的特征以及噪声标签[Baldock et al., 2021],这些因素使得模型难以学习到有意义的关系。

在本工作中,作者特别关注通过引入噪声标签来研究记忆现象,具体做法是将某一类样本的标签更改为一个与原始标签不同的随机选择类别标签。为确保噪声标签样本被模型记住,作者持续训练模型直至其在训练集上达到

的准确率。

在所有实验中,作者通过修改

的训练集标签,在所有数据集上引入随机标签噪声,以保证评估的一致性。

3.2 探究 LayerNorm (LN) 对记忆与学习的影响

移除LN参数。为了探究LayerNorm(LN)在Transformer模型中的记忆与学习作用,作者分析了在训练过程中移除其可学习参数的影响。这有助于理解LN如何影响Pre-LN和Post-LN模型在学习与记忆之间的平衡。作者在第4节中对LN在记忆与学习中的影响进行了精确分析。请注意,本文中“LN移除”与“LN参数移除”可互换使用,二者均指移除LN层的可学习参数,同时保留归一化操作

不变。

各层中移除LayerNorm(LN)的影响。为了进一步理解LN在模型不同阶段的影响,作者将网络层分为早期、中期和后期层(详见附录F.4)。随后,作者逐个移除某一组LN参数,以分析其缺失对学习和记忆能力的影响。该分析揭示了在Pre-LN和Post-LN Transformer中,哪一组LN对记忆和学习行为的影响最为显著。相关实验与结果详见第5节。

各层LN梯度分析。为了支持作者关于LN影响的观察,作者计算损失函数

关于LN输入

的梯度,记为

。该度量反映了LN层输入对模型损失的影响程度,从而衡量其学习与记忆能力。

为了理解每一层的 LayerNorm(LN)对记忆和学习的敏感性,作者计算该梯度的 L2 范数(即

)。具体而言,为了量化对学习的敏感性,即模型将模式泛化到测试集的能力,作者对每个测试集样本计算

,并对其在所有测试样本上的结果取平均,得到学习梯度范数,记为

。对于记忆性分析,作者对注入训练集中的每个带噪声标签的样本计算

,然后对所有此类带噪声样本的结果取平均,得到记忆梯度范数,记为

较高的梯度范数表明该层的 LayerNorm(LN)显著影响模型的记忆或学习能力,而较低的梯度则表明影响较小。关于记忆化与学习梯度及其意义的讨论见第6节。

3.3 关键指标:学习准确率、记忆能力、恢复能力与随机预测得分

为了评估LayerNorm(LN)对Transformer模型学习能力和记忆能力的影响,作者重点关注若干关键指标,这些指标能够揭示模型在训练过程中面对噪声标签时的行为特征和有效性。

学习(测试)准确率(%)指模型在测试集上的性能,反映其将所学关系泛化到未见数据的能力,是衡量模型学习进展的核心指标(#测试集上正确预测的数量# / #测试集样本总数# × 100)。较高的学习准确率表明模型已学习到有意义的模式,并能很好地泛化到未见数据。相反,较低的学习准确率则表明模型泛化能力较差。

记忆分数(Memorization Score)(%)用作衡量模型倾向于记忆无关或错误的噪声标签(noisy labels)而非真正学习底层真实关系的指标(#被记忆的噪声标签样本数# / #噪声标签样本总数# × 100)。较高的记忆分数表明模型已对噪声标签过拟合,实际上“记忆”了这些错误标签。

恢复分数(Recovery Score)(%)是一个关键指标,有助于理解 LayerNorm(LN)对噪声标签记忆的影响。该指标衡量模型在移除 LN 参数后恢复真实标签的能力(恢复为真实标签的噪声标签样本数 / 总噪声标签样本数 × 100%)。较高的恢复分数表明模型能够通过抑制对噪声标签的过度记忆,成功恢复原始正确标签。

随机预测得分(%)衡量的是在移除LayerNorm(LN)参数后,其预测结果被更改为随机标签的噪声标签样本所占的百分比。这些被预测为随机标签的样本既不是真实标签,也不是原始噪声标签(#被预测为随机标签的噪声标签样本数 / 总噪声标签样本数 × 100)。尽管这并非理想情况,但它能够全面反映移除LN参数的影响,并指示模型恢复真实标签的能力程度。随机预测比例越高,表明模型在有效恢复真实标签方面能力越弱。

3.4 Datasets & Models Used

作者通过实验验证了所有论点,并在语言和视觉模态上展示了广泛的结果,包括3个语言分类数据集和3个视觉分类数据集,以及7种Pre-LN和6种Post-LN结构的transformer架构,具体如下:

数据集:CIFAR10 [Krizhevsky et al., 2009],

[Zhang et al., 2023],UTK-Face [Zhang et al., 2017],Emotions [Saravia et al., 2018],News [Okite97, 2024],以及 TweetTopic [Antypas et al., 2022]

Post-LN 模型:BERT [Devlin et al., 2019]、RoBERTa [Yinhan et al., 2019]、DistilBERT [Sanh et al., 2019]、DeBERTa [He et al., 2020]、ELECTRA [Clark, 2020] 以及 Longformer [Beltagy et al., 2020]

Pre-LN 模型:ViT-B [Alexey, 2020]、ViT-S [Assran et al., 2022]、DeiT [Touvron et al., 2021]、GPT2 [Radford et al., 2019]、GPT-Neo [Black et al., 2022]、Qwen2 [Yang et al., 2024] 以及 RoBERTaPreLayerNorm [Ott et al., 2019]。

需要指出的是,在实际应用/文献中,Post-LN 架构仅能使用语言模态。作者在附录 F 中对数据集、模型及训练配置进行了详尽讨论。所有实验均在 3 个随机种子下进行。

4 LayerNorm 对记忆与学习的影响

在本节中,作者考察层归一化(Layer Normalization, LN)在预归一化(Pre-LN)和后归一化(Post-LN)Transformer架构中对记忆化和学习能力的差异化影响。为评估其影响,作者训练了模型的两种版本——一种移除了LN参数,另一种保留了LN参数,并通过学习准确率、记忆能力、恢复能力以及随机预测得分对两者性能进行比较。

4.1 学习稳定性

picture.image

Image

从图1a和图1c可以看出,移除Pre-LN Transformer中的LayerNorm(LayerNorm)参数会显著破坏学习过程,而Post-LN Transformer则保持稳健,在移除LayerNorm参数后仍能维持其学习准确性。

picture.image

Image

当分析训练过程中的学习进展时,这种差异变得更加明显,如图2a所示的Qwen2(Pre-LN)和图2d所示的ELECTRA(Post-LN)模型。对于Qwen2,一旦移除LayerNorm(LN)参数导致学习中断,整个训练过程中均无法恢复,表明其存在根本性的不稳定性。然而,ELECTRA在整个训练过程中始终保持稳定的学习状态,未表现出任何性能退化迹象,进一步凸显了其对LN参数移除的鲁棒性。其他Post-LN模型(BERT、DeBERTa、Longformer、RoBERTa)和Pre-LN模型(GPT2、GPTNeo、ViT-B、DeiT、ViT-S)也观察到类似结果,详见附录G.1。

4.2 记忆抑制与标签恢复

作者现在考察 LayerNorm(LN)在记忆与标签恢复中的作用。从图1b和图1d可以看出,在Post-LN模型中,LN主导了记忆过程,移除其参数可有效缓解记忆现象。

(a) Pre-LN 模型(Qwen2)在训练过程中的学习(测试)准确率随训练轮次的变化

(b) PreLN 模型(Qwen2)在训练轮次中的记忆能力、恢复能力与随机预测表现

(c) PreLN 模型(Qwen2)的过拟合差距

(e) PostLN 模型(ELECTRA)在训练轮次中的记忆、恢复与随机预测表现

(f) PostLN 模型(ELECTRA)的过拟合差距

并提升了真实标签的恢复能力,表现为更低的记忆化分数和更高的恢复分数。相比之下,对于Pre-LN模型,移除LayerNorm(LayerNorm)参数并不能缓解记忆化现象,表现为持续较高的记忆化分数和随机预测分数。

这种现象在分析训练轮次(epoch)中的记忆行为时表现得更加明显,如ELECTRA(图2e)和Qwen2(图2b)所示。在ELECTRA中,随着训练的进行,记忆能力逐渐下降,同时标签恢复(label recovery)性能持续提升。相反,在Qwen2中,记忆行为在整个训练过程中持续存在,且标签恢复性能始终较差,表明在Pre-LN模型中移除LayerNorm(LN)参数并不能抑制记忆现象,也无法促进标签恢复。在其他Post-LN模型(BERT、DeBERTa、Longformer、RoBERTa)和Pre-LN模型(GPT2、GPTNeo、ViT-B、DeiT、ViT-S)中也观察到了类似规律,详见附录G.1。这些发现为LN的作用提供了更为细致的视角:在Pre-LN模型中,LN对学习过程至关重要,但其存在与否并不影响模型的记忆行为,这与先前研究[Xu et al., 2019]的结论相反,后者认为Pre-LN结构中的LN可能加剧过拟合。

picture.image

Image

综上所述,在Pre-LN模型中,LayerNorm(LN)对于稳定学习至关重要,因此移除其参数会显著 destabilize 学习过程,并扩大训练-测试准确率差距

,即加剧了过拟合/记忆现象,如图2c所示。相比之下,在Post-LN模型中,移除LN参数会抑制记忆行为并提升真实标签的恢复能力,从而缩小训练-测试准确率差距

,如图2f所示。这一差异在表1中进一步得到体现,该表对Pre-LN与Post-LN模型中LN在学习与记忆中的作用进行了对比概述。在其他Pre-LN模型(GPT2、GPTNeo、ViT-B、ViT-S、DeiT)和Post-LN模型(BERT、RoBERTa、DeBERTa、Longformer)中也观察到类似现象,详见附录G.1。

5 早期层中Layer Normalization(LN)的关键作用

picture.image

Image

基于观察到Layer Normalization(LN)对Pre-LN和Post-LN模型在学习与记忆方面具有不同的影响,作者进一步精确探究了早期、中间和后期LN层对Pre-LN和Post-LN模型的影响。如图3所示,在Pre-LN和Post-LN模型中,早期的LN层在驱动学习与记忆方面均比中间或后期的LN层更为重要。

(a) 预LN模型(DeiT、UTK-Face)中,早期、中期、后期LayerNorm对学习(测试)准确率、记忆能力、恢复能力以及随机预测得分的影响

(b) 早期、中期、后期 LayerNorm(LNs)对 Post-LN 模型(DeBERTa、Emotions)学习(测试)准确率、记忆能力、恢复能力和随机预测得分的影响

在 Pre-LN 模型(DeiT,图3a)中,移除早期 LayerNorm(LayerNorm)参数会显著破坏学习过程,凸显了其在 Pre-LN 模型学习中的重要性。而在 Post-LN 模型(DeBERTa,图3b)中,移除早期 LayerNorm 参数相较于中间或后期层的移除,最显著地缓解了模型的过拟合现象,并提升了真实标签的恢复能力。这一对比凸显了早期 LayerNorm 在塑造学习与过拟合动态中的关键作用:在 Post-LN 模型中具有积极影响,而在 Pre-LN 模型中则具有负面影响。其他多个 Pre-LN 和 Post-LN 模型也呈现出一致的趋势,详见附录 G.2。先前的研究 [Gromov et al., 2024, Li et al., 2024, Lad et al., 2024, Men et al., 2024] 指出,Pre-LN 模型中深层网络在学习方面的效果有限。作者的观察进一步深化了这一发现,精确地指出:在 Post-LN 模型中,早期 LayerNorm 是影响过拟合的关键因素,这一发现具有新颖性和独特性。

早期 LayerNorm(LayerNorm)参数移除的独特效应——在 Pre-LN 模型中破坏学习过程,而在 Post-LN 模型中缓解过记忆现象——进一步由训练-测试准确率差距

得到支持。具体而言,在 Pre-LN 模型中,移除早期 LayerNorm 会导致

显著增加,相较于中间或后期 LayerNorm 的移除更为明显;而在 Post-LN 模型中,移除早期 LayerNorm 则导致

出现更急剧的下降。这一趋势如图3( Pillar 图)所示,并可形式化表述如下:

综上所述,作者观察到,早期层的 LayerNorm(LN)比后期层的 LN 更为重要,其移除会破坏学习过程,这可由 Pre-LN 模型中较高的

解释。另一方面,在 Post-LN 模型中,其移除会抑制记忆化现象,同时恢复真实标签,这由较低的 ∆Post, earlyoverfit 所体现。在其他 Pre-LN 模型(GPTNeo、Qwen2、GPT2、ViT-B、ViT-S)和 Post-LN 模型(BERT、RoBERTa、ELECTRA、Longformer)中也观察到了类似趋势,如附录 G.2 所示。

6 梯度解释了LayerNorm的影响

为了更好地理解层归一化(Layer Normalization, LN)在学习和记忆过程中的作用,作者计算了不同层中与这两个过程相关的梯度范数(

)。具体而言,作者分别测量了学习(

)和记忆(

)梯度的范数,从而能够量化它们在整个网络中的相对贡献。

(a) Pre-LN (GPTNeo)

在各层间的分析

(b) Post-LN (DeBERTa)

层间分析

定理 1(学习梯度范数

大于或等于记忆梯度范数

,在所有层上均成立)。其形式化表达如下:

定理1的证明见附录B。

picture.image

Image

由定理1可知,对于预归一化(Pre-LN)和后归一化(Post-LN)模型,在所有层中,学习梯度范数通常大于记忆梯度范数。这一观察结果在图4的趋势中得到了进一步的实证验证。

6.1 理解LN在Pre-LN与Post-LN架构中的独特影响

在识别出早期层的 Layer Normalization(LN)的重要性之后(第5节),作者现在重点解释为何在 Pre-LN 模型中移除 Layer Normalization(LN)会阻碍学习,而在 Post-LN 模型中则能缓解记忆化现象而不破坏学习过程。为此,作者关注各层中学习梯度与记忆梯度范数之比(

,图4a与4b中的红色曲线),该比值反映了模型在学习与记忆之间的平衡。基于实验结果,作者揭示了以下现象:

这表明在 Pre-LN 模型中,LayerNorm 主要促进学习过程,这由

显著大于

所证实。因此,移除其参数会破坏学习过程并加剧过拟合。相比之下,在 Post-LN 模型中,

的量级相当。因此,移除 LN 参数能够通过恢复真实标签有效缓解记忆化现象,同时不会干扰学习过程。对于其他 Pre-LN 模型(GPT2、Qwen2、ViT-B、DeiT、ViT-S)和 Post-LN 模型(RoBERTa、BERT、Longformer、ELECTRA),也观察到了一致的趋势,详见附录 G.3。

6.2 为何早期层中的 LayerNorm(LN)对记忆和学习至关重要?

在本节中,作者通过梯度分析的视角,解释为何早期层的 LayerNorm(LN)在调控 Post-LN 和 Pre-LN 模型中的记忆与学习过程方面起着关键作用。

定理 2(损失函数

关于 LayerNorm(LN)输入的梯度范数有上界)。后置 LayerNorm(Post-LN):设

表示第

个后置 LayerNorm(Post-LN)模型层中

的输入。则,

Pre-LN:设

表示第

个 Pre-LN 模型层中

的输入。则,

定理2的证明,以及Pre-LN和Post-LN设置下

的表达式,详见附录C。

定理 3(早期层 LayerNorm 的梯度范数上界高于后期层 LayerNorm)。其形式化表示如下:

;对于 Pre-LN 和 Post-LN 模型均成立,其中

表示

的上界,

为第

层 LayerNorm(LayerNorm)的输入。

定理3的证明见附录D。

图4所示的结果在经验上验证了定理3所建立的趋势。具体而言,作者观察到,在较早的层中,

的值显著高于较深层。这一梯度衰减趋势在Pre-LN(GPTNeo,图4a)和Post-LN(DeBERTa,图4b)架构中均保持一致。其他Pre-LN模型(GPT2、Qwen2、ViT-B、DeiT、ViT-S)和Post-LN模型(RoBERTa、BERT、Longformer、ELECTRA)也呈现出类似趋势,详见附录G.3。

因此,理论上的上界不仅为梯度幅值的行为提供了分析性解释,而且与在多种Transformer变体中观察到的实验模式高度一致。这种一致性有助于解释为何在Pre-LN模型中移除早期层的LayerNorm(LN)参数会导致学习过程的破坏,而在Post-LN模型中则能缓解记忆现象,突显了这些LN层在整个网络中起主导作用的原因,这归因于它们具有更高的梯度范数。

除了早期层中学习与记忆的分离之外,作者还观察到另一种有趣的现象。对于 Post-LN 模型(图4b),

随着层的加深逐渐减小。然而,对于 Pre-LN 模型(图4a),梯度范数在第一层显著较高,而后续各层的梯度范数几乎可以忽略不计。这一观察结果解释了为何移除早期层的 LN 参数对 Post-LN 模型的学习能力影响不大:因为在 Post-LN 模型中,后续的 LN 可以补偿早期 LN 的缺失,从而恢复学习能力,同时由于各层梯度范数相近,还能有效缓解记忆过强的问题。然而,这一特性在 Pre-LN 模型中并不成立,其早期层 LN 的高梯度范数至关重要,一旦缺失将严重破坏学习过程。

在其他 Pre-LN 模型(GPT2、Qwen2、ViT-B、DeiT、ViT-S)和 Post-LN 模型(RoBERTa、BERT、Longformer、ELECTRA)中也观察到类似的结论,详见附录 G.3。

综上所述,梯度分析揭示了为何移除 LayerNorm(LN)参数会显著影响学习与记忆能力:(1) 在 Pre-LN 模型中,移除 LN 会破坏学习过程,而在 Post-LN 模型中则缓解了记忆现象,这归因于两类模型梯度范数比值的显著差异;(2) 该分析还揭示了早期层 LN 的特殊重要性,其表现出更强的梯度范数,因此在学习与记忆过程中发挥着更为关键的作用。

7 结论

综上所述,本研究揭示了层归一化(Layer Normalization, LN)在调控两种不同Transformer结构(Pre-LN与Post-LN)中记忆与学习过程方面的关键作用。

作者发现,在Pre-LN模型中移除LN参数会显著 destabilize 学习过程,导致持续的过拟合现象。相比之下,在Post-LN架构中移除LN参数则能有效缓解记忆行为,并促进真实标签的恢复。

更具体地,作者发现早期层中的LN尤其关键——移除这些层的LN参数对Pre-LN模型的学习过程破坏性最强,同时对Post-LN模型的记忆行为抑制效果最为显著。

通过分析学习与记忆的梯度范数,作者进一步揭示了LN在Pre-LN与Post-LN模型中对这两种机制的差异化影响。该现象在涵盖多个视觉与语言数据集的广泛模型架构中均得到验证。总体而言,作者的研究揭示了层归一化在Transformer模型中影响学习与记忆之间的重要关联。

参考

[1]. Impact of Layer Norm on Memorization and. Generalization in Transformers.

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论