点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
像DeepSeekR1和OpenAI-O1这样的大规模生成模型从思维链(CoT)推理中获益匪浅,然而提升它们的性能通常需要海量数据、大模型规模和全参数微调。虽然参数高效微调(PEFT)有助于降低成本,但大多数现有方法主要处理领域适应或分层分配,而不是根据不同的响应需求明确定制数据和参数。
受《思考,快与慢》的启发,该书描述了两种不同的思维模式——系统1(快速、直观、通常是自动的)和系统2(较慢、更深思熟虑和分析性的)——作者类比认为,LLM参数的不同"子区域"可能同样专门用于需要快速、直观响应的任务与需要多步逻辑推理的任务。
因此,作者提出了LoRA-PAR,一个双系统LoRA框架,它根据系统1或系统2的需求对数据和参数进行分区,为每个任务使用更少但更集中的参数。
具体来说,作者通过多模型角色扮演和投票对任务数据进行分类,基于重要性评分对参数进行分区,然后采用两阶段微调策略:先用监督微调(SFT)训练系统1任务以增强知识和直觉,再用强化学习(RL)优化系统2任务以加强更深层次的逻辑思考。
大量实验表明,SFT和RL的两阶段微调策略降低了活动参数使用量,同时匹配或超越了SOTA PEFT Baseline 。
unsetunset1 引言unsetunset
大语言模型(LLMs)如DeepSeekR1和OpenAI-O1(Contributors等人,2024)在配备CoT Prompt 时,在复杂推理方面表现出显著进展。然而,将其性能提升到新水平通常依赖于海量数据集和全参数微调,这需要大量的计算资源和大型模型尺寸。为减轻这一负担,参数高效微调(PEFT)方法已成为一种有前景的替代方案。然而,大多数现有的PEFT方法主要插入统一的 Adapter 模块(例如LoRA(Hu等人,2021)),并未专门针对不同任务或推理 Level 的独特需求定制其参数配置。尽管最近已有一些尝试设计更具任务或数据感知能力的PEFT解决方案,但这些工作主要集中在领域适应或逐层参数分配上,而非明确针对更High-Level的多步推理能力。
同时,受《思考,快与慢》(Kahneman, 2011)的启发,作者将双系统概念融入LLMs的参数高效微调中。具体而言,如图2所示,作者借鉴了人脑在系统1与系统2中采用部分不同神经过程的概念。最近的研究进一步证明,大语言模型可以表现出或受益于不同的"快"与"慢"模式:(Hagendorff等人,2022)展示了类似人类的直觉偏见,(Pan等人,2024)提出了受Kahneman框架启发的动态决策机制,而更广泛的讨论支持连接认知双过程理论与AI(Booch等人,2020)。
通过类比,作者假设LLM的参数可以被划分为专门应对不同响应需求的"子区域"。作者通过三个步骤实现这一点:
(1)作者使用多专家角色扮演和投票将每个训练实例分类为系统1或系统2任务,确保快速、直接的"快思考"问题与更深思熟虑的多步骤任务分开;
(2)然后作者为系统1和系统2分配LoRA模块的不同参数子集(通过基于重要性的划分),类似于激活不同的认知模式;
(3)作者使用端到端SFT训练系统1参数以进行直接的问题-答案映射,并使用强化学习(GRPO (Shao等人,2024))来优化系统2参数,类似于DeepSeek-R1(DeepSeekAI等人,2025)等模型实现更深层次的思维链风格推理。
通过这种方式,llm-LoRA-PAR_2507保持在PEFT的轻量级范围内,同时仍然捕捉到人类认知的双过程优势——快速、直观的响应和有条理的、逐步的逻辑。
unsetunset2 相关工作unsetunset
2.1 参数重要性计算与剪枝
SparseGPT (Frantar and Alistarh, 2023) 无需重新训练即可有效剪枝大规模LLM参数,在最小性能损失的情况下大幅减少模型大小。
Wanda (Sun et al., 2023) 采用无需重新训练的激活感知幅度剪枝,显著优于传统的基于幅度的方法。LLM-Pruner (Ma et al., 2023) 通过基于梯度的评分识别并移除结构冗余组件,同时保留通用多任务能力。
Týr-the-Pruner (Li et al., 2025) 应用二阶泰勒近似进行全局结构化剪枝,在最小精度损失的情况下实现高Sparse度水平。
2.2 选择性冻结与双阶段训练
LIMA (Zhou et al., 2023) 表明最小微调能有效对齐预训练模型,这意味着模型的大部分部分可以保持冻结状态而不会损失知识。ILA (Shi et al., 2024) 开发了一种分析技术来选择性地冻结非关键层,提高了微调效率和性能。
安全层冻结 (Li et al., 2024) 建议在进一步微调过程中冻结已识别的"safety-critical"层,以保持原始对齐和安全行为。
2.3 LoRA和PEFT变体
LoRA (Hu et al., 2021) 引入了低秩适应(low-rank adaptation),通过冻结大部分参数同时更新小型 Adapter 矩阵,大幅减少了微调开销。PiSSA (Meng et al., 2024) 使用预训练的奇异向量初始化LoRA Adapter ,加速了收敛并提高了任务准确性。
OLoRA (Büyükakyüz, 2024) 通过正交矩阵增强了LoRA初始化,显著加速了微调收敛。QLoRA (Dettmers et al., 2023) 实现了对大型模型的高效4位量化微调,大幅降低了计算需求而不损失性能。
(Hayou et al., 2024) 通过学习率缩放调整优化LoRA微调,实现了更快的收敛和更高的准确性。
unsetunset3 方法unsetunset
3.1 整体工作流程
作者提出的整体工作流程如下。首先,多个教师LLMs通过投票将每个 Query Token 为快速、单步(系统1)或多步推理(系统2)。接下来,作者在LoRA中计算参数重要性,并仅保留每个系统中累积重要性分数最高的参数,同时识别出对两个系统都重要的共享子集。最后,作者采用两阶段微调策略,对系统1任务使用SFT,对系统2使用RL。
共享参数可以在两个阶段中被部分激活,由
和
控制。这种设计通过冻结不相关参数并将更新集中在最关键的子区域上,有效地在单个LLM中解决了"快速思维与慢速思维"的问题。
3.2 多模型角色扮演与投票数据分类
在将模型参数划分为不同思维模式之前,需要先识别问题属于哪个类别。作者设计了一种多模型角色扮演方法,而不是依赖于可能容易出错或有偏见的单一分类器。在这里,几个先进的LLM(如"教师")各自扮演"目标"模型(如"学生")的角色,并相应地对问题进行分类。由于这些教师模型通常具有更广泛的预训练覆盖范围,它们可以近似模拟学生模型如何感知问题类型——无论是System 1还是System 2。角色扮演的 Prompt 以及System 1和System 2的示例问题如图3所示。
如图1上方面板所示(参见"样本分割器"),每个teacher独立提供一个分类,然后作者应用voting procedure来聚合这些判断。这确保了由于teachers的不同架构或training histories而产生的disagreements以robust的方式得到解决。得到的 Token 子集
(系统1)和
(系统2)输入到后续模块中,在这些模块中,它们指导parameter partitioning和two-stage training。
3.3 用于子区域划分的参数重要性计算
在对问题进行分类后,下一步是确定每个类别应该"激活"哪些LoRA参数。作者采用LoRA而非全参数微调
参数微调以保留基础模型的全局知识,并为System 1和System 2任务启用模块化的激活或冻结策略。这一分区过程类似于人脑不同区域响应不同认知需求而被激活的方式(Kahneman, 2011)。在大语言模型中,参数梯度作为神经激活的类似物。如果某个参数的梯度较大,则意味着该参数在纠正特定任务的输出错误方面至关重要。为提高模型回答不同类型问题(System 1或System 2)的能力,作者在损失计算中应用 Mask 来忽略 Prompt 和上下文 Token ——即作者只关注输出位置。这确保了作者的重要性评分强调每个参数对生成正确最终答案的贡献,而不仅仅是对 Prompt 文本的建模。
计算重要性分数
在实践中,作者在目标模型层内的Q/K/V/Gate/Up/Down位置附加LoRA模块。令
表示一个单独的LoRA参数。作者通过对 Mask 交叉熵损失
进行二阶泰勒展开来测量其重要性:
在此,
是 masked loss 对
的梯度,而
是从每个样本的梯度
近似得到的 Fisher 矩阵的对角线。关注输出 Token 将参数重要性与模型产生正确答案的能力对齐。
选择和冻结参数。作者通过
对
进行排序,并选择顶部比例(由
控制)作为每个系统的"激活"子区域。在训练过程中,激活的参数保持可学习状态,而其余参数被冻结,从而减少开销。
一些参数可能对 System 1 和 System 2 都至关重要;这些"重叠"参数在两个微调阶段之间共享。通过这种方式划分参数,llm-LoRA-PAR_2507更接近于神经类比,即针对需要快速思考与慢速思考的任务,会调用不同的"子区域"。
3.4 基于重要性参数选择的两阶段微调策略
基于在
中计算的重要性分数,作者现在形式化如何(i)确定每个系统要激活的参数数量,(ii)处理System 1和System 2参数之间的重叠,以及(iii)将微调过程安排在两个不同的阶段。如算法1所示,llm-LoRA-PAR_2507依赖于三个超参数——
、
和
——它们控制System 1 (SFT)和System 2 (RL)中哪些参数以及多少参数被更新。
阈值θ:选择最重要的参数。从参数重要性可视化(见图4)中,作者观察到系统1和系统2各自依赖于部分不相交的LoRA参数集,且有显著重叠。此外,每个数据集包含许多"低影响"参数,这些参数对两个系统的重要性都接近于零。作者引入了一个累积重要性阈值
。具体来说,对于每个系统的重要性排名,作者只保留累积重要性分数超过
的最重要参数子集,舍弃那些重要性可忽略的尾部参数以减少开销并避免不必要的更新。例如,设置
意味着作者只保留累积重要性分数超过
的参数,这些参数分别对系统1和系统2的任务至关重要。
激活分数α和β:处理重叠。将θ分别应用于系统1和系统2会产生两个排名靠前的LoRA参数集,它们部分重叠。具体来说,一些参数在两个系统中都排名靠前;作者称这些参数为"共享"参数(见图4中的紫色区域)。因此,作者引入两个激活分数α和β,以控制在两个训练阶段更新多少这些共享参数:
• 第一阶段(在系统1任务上进行SFT):作者激活(a)仅系统1子集中的所有参数和(b)共享参数中的
部分。如果
,作者在此阶段仅部分训练共享区域。
• 第二阶段(在System 2任务上进行强化学习):然后作者激活(a)System 2专用子集中的所有参数和(b)共享参数中比例为
的部分。其余参数保持冻结状态,使作者能够根据
值灵活地为System 2分配更多(或更少)的共享参数。
通过调整
和
,作者微调了System 1的"快速、直接"适应与System 2的"多步骤、深思熟虑"适应之间的平衡,确保对两者都有用的参数可以根据需要在每个阶段进行部分或完全训练。
为什么需要两个不同的阶段(SFT然后RL)?
作者采用SFT和RL的方法,遵循了OpenAI GPT、DeepSeek-R1以及多阶段语言模型训练相关文献中的实践。System 1任务——快速、直接的问答——天然适合端到端的SFT,它建立了"快速思考"能力,而无需深入复杂的推理。这种"知识基础"有助于启动第二阶段,在第二阶段中,RL鼓励对System 2任务进行逐步逻辑推理(类似于"慢思考"过程)。本质上,RL精炼和扩展了通过SFT获得的能力, Reward 正确的多步骤策略,而不仅仅是直接答案。
整合所有部分
算法1更正式地概述了这些步骤。在第一阶段(SFT)中,仅训练仅系统1子集加上共享参数的
部分;在第二阶段(RL)中,仅更新仅系统2子集加上共享参数的
部分。这种设计确保每个系统的专门子区域针对各自任务进行优化,同时共享参数可以灵活地贡献于快速和慢速思维模式。
unsetunset4 实验unsetunset
4.1 实验设置
作者首先通过多模型角色扮演和投票
对每个数据集进行划分,然后计算LoRA参数重要性并为每个系统保留排名靠前的参数
。训练分为两个阶段
:(1) 系统1的SFT,以及(2) 系统2的RL,共享参数由
和
管理。作者在GSM8K (Cobbe等人, 2021)、MMLU (Hendrycks等人, 2021)(使用Dolly15K (Conover等人, 2023) 或 OpenPlatypus (Lee等人, 2023) 训练)和HumanEval (Chen等人, 2021)(代码任务)上测量准确率,将llm-LoRA-PAR_2507与LoRA (Hu等人, 2021)、OLoRA (Büyükakyüz, 2024)、PiSSA (Meng等人, 2024) 和
进行比较,所有方法均基于LLaMA2 7B。关键超参数包括
(排名靠前参数的比例)、
、
(重叠参数的激活比例),以及每个 Baseline 模型的1-2个训练周期。
4.2 角色扮演和投票用于数据分类
作者首先通过在GSM8K上比较各种数据分类策略来验证
中介绍的角色扮演和投票方法。具体来说,作者对比了(a)没有角色扮演的单模型,(b)被 Prompt "扮演"LLaMA2 7B的单模型,(c)随机分区,以及(d)具有角色扮演和投票的多模型。如表1所示,多模型角色扮演+投票设置实现了最高性能。 Prompt 外部LLM模仿目标模型的决策边界(角色扮演)相比其默认推理风格减少了错误分类,而投票集成减轻了个体偏差并产生了更鲁棒的分割。这一结果与作者的直觉一致,即结合多个"教师"视角能更好地近似LLaMA2 7B如何区分System 1与System 2问题,最终增强下游微调效果。
4.3 通过
进行自适应参数使用
作者接下来研究改变累积重要性截断点
(从
到
)如何影响激活的LoRA参数数量以及在SFT下的性能表现。本质上,
决定了更新哪些参数以及更新多少参数,如
§
中所述。对于每种设置,作者将三种LoRA模块配置——QKV、GUD和QKVGUD——与随机选择 Baseline 进行比较,该 Baseline 选择相同比例的参数但不考虑重要性。
算法1 两阶段微调
1: 输入:LoRA参数
,重要性分数
,阈值
2: 步骤1 (分区):
3:根据
对参数进行排序,并保留最重要的部分作为
。
4:
,
.
5:步骤2(阶段1:SFT):
6:仅激活
中的所有参数。
7:对于每个
,若其根据
值排在前α比例内,则将其激活。
8:冻结所有其他参数。
9: 步骤3 (阶段2: RL):
10: 仅激活
中的所有参数
11:对于每个
,若其根据
的值位于前
比例内,则将其激活。
冻结所有其他参数。
4.4 通过
与
利用共享参数
回顾一下,
和
(在
中引入)分别控制着在SFT(系统1)和RL(系统2)阶段中有多少共享参数保持活跃。作者将每个系统的
固定,然后变化
和
来测量它们对训练动态的影响。表2显示了使用QKVGUD LoRA在GSM8K上的结果。"性能(SFT)"列反映了第一阶段后的准确率,而"性能(RL)"是第二阶段后的最终准确率。当
时,共享参数在两个阶段都保持完全活跃——最大化SFT预训练权重并产生最佳最终得分(34.37)。较低的
或
值会减少重叠,限制SFT中的早期收益或阻碍RL阶段的多步推理能力。实际上,强大的SFT基础为RL(系统2)提供了"热启动",让模型能够在其快速思考技能之上构建更深层次的逻辑。
4.5 最终性能与 Baseline 比较
作者通过在四个任务上评估llm-LoRA-PAR_2507以及几个基于LoRA的 Baseline (LoRA (Hu et al., 2021), OLoRA (Büyükakyüz, 2024), PiSSA (Meng et al., 2024),
)来总结:GSM8K、MMLU(使用Dolly15K或Platypus训练)和HumanEval。表4中的每一列对应于这些任务之一,训练了一个或两个周期。例如,GSM8K使用自己的数据进行训练,而MMLU(Dolly)和MMLU(Platypus)分别使用Dolly15K和OpenPlatypus。HumanEval依赖于专注于代码的数据(CodeAlpaca (Chaudhary, 2023), CodeFeedback)。基础模型(LLaMA2 7B)作为参考展示,没有进行微调。 Baseline 通常执行两轮SFT,除了
,它执行一个SFT周期然后一个RL周期。作者的 Proposal ( Token 为
)在两阶段训练中应用基于
的参数选择(
或
)以及角色扮演+投票数据分割和完全活跃的重叠
)。值得注意的是,PiSSA(
或
)仅使用完整LoRA参数的约
,却优于原始PiSSA,这表明专注于高重要性子区域可以产生更强的结果。总体而言,llm-LoRA-PAR_2507在GSM8K上实现了最佳准确率
,比PiSSA高出约
,同时使用的参数显著减少。在MMLU上,作者也观察到比标准LoRA和PiSSA更好的表现,证实选择性激活最相关的参数既高效又有效。除了PiSSA之外,作者的QKVGUD配置每个系统仅激活约
的LoRA参数(基于
或0.95),但仍优于完整LoRA和相当大小的随机子集。如图4中的散点图所示,这些"顶级"参数形成了一个高度专业化的子区域,用于快速直观(系统1)与多步骤(系统2)任务。换句话说,通过将更新集中在对每种推理风格重要的参数上,作者实现了双系统类比——不同的参数子集擅长快速直观的SFT或逐步的RL——同时降低了活动参数的使用。
unsetunset5 局限性unsetunset
作者的实验证实,针对系统1和系统2选择性激活LoRA参数在性能和参数效率方面都带来了明显的好处。通过将基于角色扮演的数据分割与重要性驱动的参数分区相结合,作者在大语言模型(LLM)中有效地近似了双过程范式。然而,存在一些局限性:(1) 多模型标注。尽管使用多个教师大语言模型(LLM)提高了标注质量,但它增加了计算开销,并预设了能够访问多样化、高容量模型的条件。(2) 任务分区的粒度。llm-LoRA-PAR_2507在粗粒度层面(系统1与系统2)处理任务。更细微的区分(例如中间步骤或部分多跳推理)可能需要更细粒度的分析。(3) 对其他架构的适用性。作者在LLaMA2 7B上展示了结果;推广到其他模型系列(例如解码器-编码器混合架构)可能需要对LoRA参数的附加和评分方式进行相应调整。
unsetunset6 结论unsetunset
作者提出了一个受《思考,快与慢》启发的双系统PEFT框架,其中LoRA参数的"系统1"和"系统2"子区域分别处理快速、直观的任务与较慢的多步推理。
作者的流程(i)通过多模型角色扮演和投票对 Query 进行分类,(ii)确定每个LoRA参数相对于系统1或系统2的重要性,以及(iii)进行两阶段微调—SFT用于直观响应,然后RL用于更深层次的逻辑。在GSM8K、MMLU和HumanEval数据集上,作者发现将更新集中在排名靠前的参数上不仅减少了活动参数的使用(通常减少到
或更少),而且超过了统一微调更大参数集的 Baseline PEFT方法。
通过将每个子区域分配到不同的"认知"模式,作者在单个LLM中有效地协调了快速思考与慢速思考。作者相信这种"子区域专业化"为认知引导的LLM适应开辟了新方向,使模型更高效,同时在直观推理和有条理推理方面都表现出色。
unsetunset参考unsetunset
[1]. LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning
点击上方卡片,关注「AI视界引擎」公众号