https://arxiv.org/pdf/2312.03732.pdf
这篇论文主要研究了大型语言模型(LLMs)的参数有效微调方法。LoRA通过在选定层添加可训练的低秩“适配器”来实现参数有效的微调。每个适配器由一个低秩矩阵乘积组成,并乘以一个与秩相关的因子。然而,传统的LoRA方法中,适配器除以秩的因子过于激进,导致高秩适配器的学习速度减缓,性能受限。因此,在实际应用中,LoRA通常仅限于使用非常低的秩。
本文深入研究了LoRA适配器的缩放因子对学习过程的影响,并证明了LoRA适配器应该除以秩的平方根而不是秩。我们将这种修改后的LoRA称为秩稳定的LoRA(rsLoRA)方法。rsLoRA可以轻松实现微调计算/性能权衡,通过使用较大的秩在训练期间增加计算资源以获得更好的微调性能,同时不改变推理计算成本。
论文首先回顾了LoRA方法的背景知识,
,其中缩放因子,这个方法训练,在秩增加时会导致梯度消失的问题。然后引入了一种用于研究缩放-初始化-更新方案的框架。通过分析秩的极限情况,作者证明了唯一能确保适配器在任意秩下稳定的缩放因子是(其中α是一个超参数)。这种方法被称为秩稳定的LoRA(rsLoRA)方法。
总之,本文从理论上推导了微调中添加适配器的秩校正因子,并通过实验证实了该方法的有效性。实验结果表明,rsLoRA方法在使用较大秩时具有更好的性能和学习稳定性。这一发现激发了进一步研究微调中学习流形内在维数效应的兴趣,因为原始LoRA工作可能误导地认为非常低的秩就足够实现最大化的微调性能。未来的研究方向包括将本文提出的校正因子应用于AdaLoRA方法,以及探讨在给定内存预算下使用最大可能秩以获得最佳微调性能的无限制参数效率。