RLVR强化学习训练成本暴降98%！12种PEFT方法大PK，结果让人意外...

picture.image

| Method | Status | Description | | --- | --- | --- | | LoRA | ✅ | Standard Low-Rank Adaptation | | DoRA | ✅ | Weight-decomposed Low-Rank Adaptation | | MiSS | ✅ | Mixture of Sub-Spaces (Efficient shard-sharing structure) | | AdaLoRA | ✅ | Adaptive budget allocation for rank-adaptive matrices | | LoRA+ | ✅ | Differentiated learning rates for improved adaptation dynamics | | rsLORA | ✅ | Rank stabilization scaling factors | | PiSSA | ✅ | Principal Singular values & Singular vectors Adaptation | | MiLORA | ✅ | Minor Singular components initialization | | LORA-FA | ✅ | Memory-efficient adaptation with frozen projection matrix A | | VeRA | ✅ | Vector-based Random Matrix Adaptation | | LN Tuning | ✅ | Parameter-efficient tuning on Layer Normalization layers | | | ✅ | Infused Adapter by Inhibiting and Amplifying Inner Activations |

“ 这些PEFT方法让强化学习训练效果飙升46%

研究背景：当LoRA遇上强化学习，谁才是最强王者？

最近大语言模型（LLM）在数学推理等复杂任务上的表现越来越惊艳。特别是"基于可验证奖励的强化学习"（Reinforcement Learning with Verifiable Rewards，简称RLVR）这个训练范式，已经成为进一步提升模型推理能力的主流方法。简单来说，就是让模型做数学题，做对了给奖励，做错了不给，通过这种方式让模型越来越聪明。

但问题来了——强化学习训练特别"烧钱"，需要海量算力。为了降低成本，研究者们通常会用参数高效微调（PEFT）方法，其中最流行的就是LoRA（低秩适应）。LoRA的核心思想很简单：不更新所有参数，只训练一小部分低秩矩阵，就能达到不错的效果。

但这里有个关键问题：大家默认用LoRA，真的是因为它最适合强化学习吗？

这篇论文的作者团队（来自浙江大学、香港科技大学、布朗大学等机构）就盯上了这个问题。他们发现，虽然LoRA的各种变体层出不穷，但在强化学习场景下，大家几乎都还在用最原始的标准LoRA。这太奇怪了——明明在监督学习场景下，DoRA、AdaLoRA等变体已经被证明比标准LoRA更强，为什么在强化学习中就没人系统研究过呢？

于是，作者们提出了核心研究问题：哪种参数高效方法最适合强化学习？

为了回答这个问题，他们构建了一个大规模评测基准，在DeepSeek-R1-Distill模型家族（1.5B和7B参数规模）上测试了超过12种PEFT方法，涵盖MATH-500、AIME24/25等数学推理任务。

论文的三大核心发现 非常颠覆认知：

结构变体完胜标准LoRA ：DoRA、MiSS、AdaLoRA这些结构变体的表现持续超越标准LoRA，DoRA甚至比全参数微调还要强！
SVD初始化会"翻车"：PiSSA、MiLoRA这类基于奇异值分解（SVD）的初始化策略在强化学习中会彻底崩溃。作者通过频谱分析揭示了背后的机制：这些方法强制在主成分上更新，但强化学习偏偏需要在"非主成分"空间学习，两者根本不兼容。
参数压缩不是越狠越好 ：VeRA、Rank-1适配器这种极端压缩方法会严重限制模型的"可塑性"，导致性能崩盘。强化学习需要一定的表达能力下限，压得太狠反而学不到东西。

picture.image

核心方法：如何"公平竞赛"这12种PEFT？

实验设计

picture.image 为了确保评测的公平性和可靠性，作者们下了很大功夫：

模型选择 ：用DeepSeek-R1-Distill系列的1.5B和7B模型。这些模型已经经过监督微调（SFT），具备基础推理能力和标准输出格式（把推理过程放在 <think>标签里，最终答案放在 \boxed{}里）。

数据集 ：使用DAPO-Math-17k数据集（约17,400道高质量数学题），在AIME24/25、MATH-500、AMC等六个数学推理基准上评测。

训练配置 ：统一超参数——学习率1e-5、LoRA秩32、dropout 0.05。每道题生成8个答案，用DAPO算法训练。1.5B模型训练1024步（批次大小128），7B模型训练8192步（批次大小32）。

奖励机制 ：非常严格的二元奖励——答案完全正确得1分，否则0分。用latex2sympy和math_verify来验证数学等价性。

评测指标 ：为了应对AIME这类样本量小的基准的统计波动，采用Avg@k指标（k次生成的平均准确率）和Pass@1（k次生成中至少有一次正确）。

消融实验的"四个维度"

为了验证发现的稳健性，作者们做了非常全面的消融研究：

批次大小 （32 vs 128）：测试PEFT方法是否像SFT那样偏好小批次。
算法变体 （GRPO、DAPO、Dr. GRPO）：验证结论是否依赖特定算法。
学习率 （1e-5、5e-6、1e-6）：确认最优学习率范围。
LoRA秩 （1、8、16、32）：探索秩与性能的关系。

实验效果：三大发现颠覆认知

发现1：LoRA已经"过时"，结构变体才是王道

实验结果一出来就很震撼：标准LoRA（42.5%）全面落后于全参数微调（44.9%） ，而结构变体们则大放异彩：

DoRA ：平均准确率46.6%，不仅超越LoRA，甚至比全参数微调还强！在AIME24上达到39.0%，在AMC上71.9%。
AdaLoRA ：44.2%，稳定超越LoRA。
MiSS ：43.4%，也比LoRA表现更好。

为什么会这样？作者认为，标准LoRA的低秩约束太"死板"，无法应对强化学习中复杂的策略调整需求。而DoRA通过解耦幅度和方向，AdaLoRA通过自适应秩分配，MiSS通过参数分片，都提供了更灵活的优化空间，更符合RLVR的优化动态。

核心结论 ：别再无脑用标准LoRA了！在强化学习场景下，结构变体才是最优选择。

picture.image

发现2：SVD初始化的"灾难性崩溃"

这个发现特别有意思。理论上，PiSSA和MiLoRA这类SVD初始化方法应该挺合理的：

PiSSA ：用主成分（大奇异值）初始化，假设重要信息集中在主成分。
MiLoRA ：反其道而行，用次要成分（小奇异值）初始化，认为这样能保留更多"新"信息。

结果呢？PiSSA直接崩盘到0.2%准确率，MiLoRA也只有18.0%。这是怎么回事？

作者做了深入的频谱分析（见图3）。关键发现是：强化学习更新主要发生在"非主成分"空间 。最近的研究（Zhu et al., 2025）揭示，RLVR为了保护预训练模型的知识结构，会避开高曲率的主成分，在低曲率的非主成分子空间学习。

PiSSA为什么失败 ：它强制在主成分上更新，和RLVR的"非主成分偏好"直接冲突，导致训练崩溃。
MiLoRA为什么失败 ：虽然初始化在次要成分，但这些成分的奇异值太小（接近0），导致初始适配器几乎为零

。没有足够的初始偏置，梯度会自动"滑向"主成分方向（因为梯度沿着最大方差方向），最终还是退化成主成分更新。

频谱分析图显示：MiLoRA最终的更新分布和PiSSA几乎一样，都在主成分上有明显尖峰，而全参数微调的更新是均匀分布在整个频谱上的。

picture.image

核心结论 ：基于SVD的初始化策略不适合RLVR。如果想改进初始化，应该像LoRA+那样调整学习率动态，而不是玩SVD分解的花样。

发现3：参数压缩的"表达力地板"

很多人可能觉得，参数越少越好——既省显存又省算力。但实验揭示了一个残酷真相：强化学习对参数量有下限要求 。

对比一下不同方法的可训练参数比例：

全参数：100%（准确率44.9%）
LoRA：1.55%（准确率42.5%）
MiSS：0.99%（准确率43.4%）——压缩到LoRA的2/3，性能反而略好
LoRA-FA：冻结一半参数（准确率43.0%）——还能接受
VeRA：0.0029%（准确率40.7%） ——崩了
IA³：只调缩放向量（准确率22.3%） ——崩得更厉害
LN Tuning：只调归一化层（准确率41.8%） ——勉强能用但明显变弱
Rank-1 LoRA（准确率40.5%） ——和基线模型一样，等于没训练

为什么会这样？作者解释说，强化学习的监督信号是稀疏的 （只有0或1的奖励信号），不像监督学习有密集的token级别反馈。这种稀疏信号需要足够的参数空间来"承载"复杂的策略调整。极端压缩方法（如VeRA只训练缩放向量）创造了一个"信息瓶颈"，严重限制了模型学习推理行为的能力。

核心结论 ：参数高效不等于参数越少越好。要在效率和表达力之间找平衡，别把模型"饿"得太厉害。

picture.image

消融实验：结论稳如泰山

作者做的消融实验也很有料：

批次大小 ：和SFT不同，RLVR对批次大小不那么敏感。小批次（32）略好于大批次（128），但差距不大。这可能是因为强化学习的稀疏奖励不会像SFT的密集信号那样"撑爆"适配器容量。

算法变体 ：无论用GRPO、DAPO还是Dr. GRPO，结论都一致——说明PEFT方法的优劣是由"稀疏可验证奖励"这个根本特性决定的,而不是具体算法细节。

学习率 ：验证了之前的缩放律——最优学习率大约是

。太大会不稳定，太小学不动。

LoRA秩 ：Rank=32 > Rank=16 > Rank=8 >> Rank=1。别信"Rank=1就够了"的鬼话，保持适中的秩（16-32）才是王道。

picture.image

7B模型验证：结论可扩展

为了证明发现不是1.5B小模型的特殊现象，作者在7B模型上重复了实验。结果非常一致：

LoRA：54.8%
DoRA：55.0%
LoRA+：55.5%（最佳）
MiSS：53.4%

DoRA和LoRA+仍然稳定超越标准LoRA，说明结构优化和学习率调整的优势在大模型上依然有效 。

picture.image

论文总结：给强化学习训练指一条明路

这篇论文做了一件非常扎实的工作：第一次系统评测了PEFT方法在强化学习中的表现 。三大发现为我们指明了方向：

停用标准LoRA，改用结构变体 ：DoRA、MiSS、AdaLoRA在RLVR场景下明显更强，DoRA甚至能超越全参数微调。如果你还在用标准LoRA训练强化学习模型，那真的该升级工具箱了。
远离SVD初始化的坑 ：PiSSA和MiLoRA在强化学习中会翻车，原因是它们和RLVR的"非主成分更新"特性存在根本性冲突。如果想优化初始化，学LoRA+调学习率就好，别折腾SVD分解。
保持适度的参数量 ：极端压缩（VeRA、IA³、Rank-1）会让模型"饿"到学不动。强化学习的稀疏信号需要足够的表达能力，别为了省那点显存牺牲性能。

作者们还很诚实地指出了未来工作方向：迁移到更高性能的训练框架（如VeRL）、深入研究适配器动态的理论机制、扩展到多模态和长期训练场景、解决权重合并的数值稳定性问题等。

最后的最后 ，这篇论文给强化学习社区提供了一份"PEFT选型指南"：如果你要训练数学推理、代码生成等基于验证器反馈的模型，DoRA是首选，LoRA+是备选，标准LoRA只能算"能用但不够好"，而SVD初始化和极端压缩方法请直接避开。这份指南，值得每个做RLVR的研究者和工程师收藏！

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：ChallengeHub小编

/ 作者：欢迎转载，标注来源即可

研究背景：当LoRA遇上强化学习，谁才是最强王者？

相关工作：RLVR与PEFT的"前世今生"

RLVR：用验证器"调教"模型

PEFT家族：十八般武艺各显神通

核心方法：如何"公平竞赛"这12种PEFT？

实验设计

消融实验的"四个维度"

实验效果：三大发现颠覆认知

发现1：LoRA已经"过时"，结构变体才是王道

发现2：SVD初始化的"灾难性崩溃"

发现3：参数压缩的"表达力地板"

消融实验：结论稳如泰山

7B模型验证：结论可扩展

论文总结：给强化学习训练指一条明路