哈工大/齐鲁工大/北京师范联合提出 PMoL:结合 LoRA 与 MoE 框架,实现高效偏好混合与降低训练成本的新方法 !

大模型向量数据库云通信

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

强化学习从人类反馈(RLHF)已被证明是一种有效的偏好对齐大语言模型(LLM)的方法,并在LLM的预训练过程中得到了广泛应用。

然而,RLHF在处理多个相互竞争的偏好时存在困难,这导致LLM与人类偏好的对齐降低。为解决此问题,作者从模型架构的角度提出偏好混合低秩自 Adapter (PMoL),它可以适应任意数量的偏好进行混合。

PMoL将专家群体软损失与低秩自 Adapter (LoRA)相结合,并将其创新性地应用于偏好对齐的研究,取得了显著的性能提升。专家组软损失被用来使MoE具备混合偏好的能力。

通过奖励模型和GPT-40的全面评估,实验结果表明,与 Baseline 方法相比,PMoL在偏好混合能力上具有优势,同时实现了更优的偏好对齐和较低的训练成本。

1 Introduction

目前,基于人类偏好的风格和道德价值观的预训练语言模型(RLHF,Christiano等人,2017;Ouyang等人,2022)是一种广泛使用的方法,用于将预训练语言模型与人类偏好对齐。这种方法需要使用人类标注的偏好数据来构建奖励模型,然后使用强化学习来训练预训练语言模型。

RLHF利用预训练的LLM的知识和能力,使LLM朝着人类期望的方向发展,从而产生更具安全性、有益性和可控性的LLM。LLM如GPT-4和LLama3的技术报告表明,它们在RLHF阶段试图降低潜在危害并增加模型有益性。然而,同时追求增加有益性和降低危害性是矛盾的。例如,拒绝回答是一种无害的行为,但总是拒绝回答则是不有益的。RLHF方法不能用单一奖励满足人类多样化的偏好,但人类偏好也可以进一步优化(Cui等人,2023年)。如何缓解不同偏好之间的竞争已成为值得研究的问题。

为了应对这个问题,以前的研究尝试训练多个奖励模型并动态地混合它们,或者通过合成或过滤数据来控制不同的偏好。然而,这些方法需要更强的LLM监督,额外的数据处理,或者使用更多的奖励和优势模型。这引入了显著的额外训练成本,使得昂贵的RLHF方法变得更加昂贵。随着偏好的数量增加,成本呈指数增长。这些方法也具有有限的可移植性和可扩展性。

因此,作者考虑一个问题:是否存在一种可以以较低成本更好地混合多个偏好的方法?在本工作中,作者引入了PMoL,从模型架构的角度混合不同的偏好。作者发现偏好混合任务可以表示为MoE框架。因此,PMoL通过MoE框架集成多个LoRA。通过让不同的专家网络专注于不同的偏好数据,它混合各种偏好。PMoL通过路由层协调所有专家,根据上下文确定每个专家的权重。

通过引入专家组软损失,PMoL将专家聚类。这不仅增强了PMoL对每个偏好的关注度,还更好地利用了偏好之间的非竞争部分,提高了混合多个偏好的能力。此外,偏好对齐不会扰动许多 Token ,对齐后的LLM仍然高度依赖预训练知识林等人(2023)。因此,作者引入了空专家。空专家占用一些权重,使模型仅依赖预训练知识进行解码。

由于计算过程的并行化,PMoL的训练成本相比类似方法较低。如图1所示,作者的方法使用较少的GPU内存,训练时间较少,并实现了更好的偏好混合结果。同时,作者将共情作为第三个偏好,与有用性和无害性相结合,使用HHRLLHF Bai等人(2022),Extes Zheng等人(2023)和ESConv Liu等人(2021)的数据集合并形成一个偏好数据集。PMoL验证了在降低训练成本和混合多种偏好方面的优越性能。

picture.image作者的主要贡献如下三个方面:

作者设计了PMoL,一种将多个LoRAs集成在MoE框架中的新方法,允许在多个偏好之间进行高效混合。PMoL具有良好的灵活性,不受偏好类型或对齐算法的限制。

PMoL具有较低的训练成本。与其他方法相比,PMoL不需要加载额外的模型,也没有额外的奖励和数据处理,因此它可以适应任何偏好的混合数量。

作者将情感视为偏好,并构建了一个包含共情偏好的多偏好数据集。证明将共情偏好视为一种单独类型的偏好是必要的。

2 Relative Work

PEFT and MoE

参数高效的微调(PEFT)将LLM Backbone 冻结,并引入少量额外的参数进行微调。

它可以分为两类:

一类是基于 Adapter 的算法,例如LoRA,IA3 Liu等人(2022);Hu等人(2021);

另一类是基于 Prompt 的算法,例如P-tuning Lester等人(2021)。Mixture-of-Experts(MoE)使用多个稀疏、可激活的专家网络来替代前馈神经网络,这显著扩大了模型,而计算成本并未显著增加(Jacobs等人,1991)。

目前,在LLM中广泛应用的 Token 级路由MoE架构。

一些研究通过使用多个LoRAs提高了模型性能。黄等人(2023)提出使用多个LoRA Adapter 实现多任务泛化。沈等人(2023)使用成千上万的LoRA提供服务。罗等人(2024);扎多里等人(2023);窦等人(2024)将MoE和PEFT模块相结合,并将其应用于LLM微调,实现了在特定下游任务上接近或超过监督微调(SFT)的性能。PEMT林等人(2024)将多个预训练的LoRA以MoE的形式集成在一起。

这些方法主要关注将MoE与PEFT与SFT相结合,以实现简单的下游任务。然而,尚无研究将这些方法应用于复杂任务,如偏好对齐。

Preference Alignment and Mixing

当前的强化学习方法包括基于人类偏好的奖励模型训练,然后使用Proximal Policy Optimization (PPO) Schulman等人(2017年)进行微调语言模型。由于PPO训练的高成本,出现了不需要奖励模型即可实现的方法,如DPO方法Rafailov等人(2024年)。许多DPO方法的变体,如ORPO Hong等人(2024年)已经改进了DPO。

标准RLHF无法有效地混合多个偏好,Ouyang等人(2022年)对此问题进行了研究。为解决这一问题,一些研究关注于数据,校准奖励模型使其与数据保持一致,Li等人(2024年); Siththaranjan等人(2023年); 其他研究强调单一奖励模型的缺陷,训练奖励模型以学习混合偏好,Chakraborty等人(2024年)或为每种类型的数据训练奖励模型并混合它们,Dai等人(2023年)。

这些方法主要关注数据和奖励模型,导致高训练或手动成本。大多数方法仅适用于两种类型的偏好。当引入更多偏好类别时,成本呈指数增长或方法变得不可用。

3 PMoL

PMoL 的概述如图2 所示。PMoL 是一个使用多个 PEFT 模块作为专家的 Adapter ,这些专家被添加到 Transformer 块中。专家被分组,并使用额外的损失函数来限制一组专家专注于一种类型的偏好。路由器根据上下文信息确定所有专家的混合比例。空专家使 LLM 更有效地利用预训练知识。

Preference Mixing as MoE

首先,LLM解码下一个词的过程可以表示为

picture.image

参数P代表1000 M的参数。指令用In表示,LLM的响应用Res表示。

在偏好学习前后LLM参数差异用表示。偏好学习后LLM解码下一个 Token 的过程可以用如下表示:

picture.image

偏好对齐可以通过扰动少数 Token 的分布来实现。因此,作者设有一个系数 来表示参数差异 ,这使得LLM在解码过程中调整参与度程度,并更多地依赖预训练知识。 的值与对齐后的 LLM 和基础 LLM 之间的分布差异呈正相关。解码过程可以表示为:

picture.image

其中, 表示参数差 的系数,由上下文确定。

最后,参数差异 被替换为多个偏好参数的差异。每个参数差异都分配一个系数。系数 仅表示偏好的参与程度,因此系数和不为 1。解码过程可以表示为:picture.image

作者将每个参数差异 表示为一个专家 ,这个过程可以等价于MoE(Mixture of Experts)形式。

LoRA as expert

由于每个偏好参数需要通过PEFT模块进行表示,因此LoRA被选择为MoE领域的专家。对于具有参数的线性层,LoRA引入了两个低秩矩阵和,其中。添加LoRA后的线性层的输出可以表示为

Mixture of LoRA

3.1节中描述了MoE框架用于混合不同偏好。不同的专家需要通过路由器进行协调。MoE模块的输出可以表示为:

picture.image

在这个论文中,每个专家都是一个LoRA,是专家的总数,而是每个专家的权重,该权重通过路由器获得。路由器的计算过程可以表示为:

picture.image

其中 是可以对每个专家分配权重的可训练矩阵,基于上下文向量 x。

为了确保稳定性和灵活性,等式4进行了修改,限制所有权重的总和必须小于1。因此,空专家被设置为0。路由器的输出数量设置为K+1,其中K个权重分配给K个专家,剩余权重表示空专家。空专家允许模型更高效地利用预训练知识。

Expert Group Soft Loss

专家利用不平衡是混合专家系统(MoE)中的一个经典问题。在本工作中,作者需要确保专家利用的平衡,同时限制不同专家专注于不同的偏好。

对于个偏好需要混合,每个偏好对应一个数据集,整体数据为。偏好数据集与专家之间的对应关系表示为,其中和分别表示专家范围的开始和结束索引。

在训练过程中,对于来自数据集 的偏好数据,作者首先需要计算标准平衡分布 :

picture.image

其中 是软约束系数。可以为主观偏好数据集分配不同的软约束系数,以控制混合程度。专家组的软损失是路由器输出的专家权重与标准均衡分布之间的 KL 散射:

picture.image

总体上,确保了不同组别专家专注于不同的偏好数据,并在同一组专家之间保持平衡利用。总损失可以表示为:

β 是控制专家组软损失系数的系数。

在训练过程中,LLM 的 Backbone 网络被冻结,只训练路由器参数和 LoRA 专家。在推理时,路由器根据上下文自动激活相应的专家,无需指定数据类型。需要注意的是,空专家不参与专家组软损失的计算。

Parallelization

作者分析了在训练和推理过程中,PMoL的每个部分的耗时。如表1所示,计算PMoL所耗时间过长。因此,PMoL严重拖累了模型的训练和推理。

picture.image尽管 耗时较长,但执行频率较低,对结果影响较小。如表1所示,并行计算过程显著减少了训练和推理过程中的时间消耗。

4 Experiments

Experimental Setup

4.1.1 Data

作者使用HHRLHF作为有益性和有害性偏好的训练和测试数据集。对于同理心偏好,作者结合Extes 和 ESConv 数据集。由于Extes和ESConv只包含一个响应,且不包括偏好的配对,作者使用指令微调的gamma-2b从偏好数据中采样被拒绝的响应,使用原始数据集中的响应作为选择的数据。作者从每种偏好数据中提取10,000个样本作为训练集。

4.1.2 Evaluation

作者使用奖励模型进行评估。作者向奖励模型添加了一个价值头进行训练。在测试阶段,作者通过奖励模型的平均得分来判断模型与偏好的对齐情况。作者分别针对每个偏好训练奖励模型。作者还使用LLM进行评估。通过 Prompt GPT-4o,作者对响应进行评分。对于GPT-4o由于有害内容而拒绝的响应,作者使用人工评估。

为了衡量偏好混合的能力,作者在偏好混合前后分别计算平均偏好分数和分数差异。具体来说,作者将多个偏好数据训练的模型的分数减去单个性偏好数据训练的模型的分数,然后计算多个偏好之间平均分数差异。较大差异表示偏好混合导致的损失较大,较低的平均分数表示该方法混合偏好的能力较差。

4.1.3 Baselines

作者选择了一些可以节省大量额外成本的方法。

全面参数微调(全参数):使用DPO算法训练模型。模型的所有参数都设置为可训练的。

LoRA (Hu et al., 2021): 作者将LoRA添加到LLM中的所有transformer模块的down_proj层。为了进行公平的比较,作者使用表现最佳的超参数。

JANUS (李等,2024): JANUS 为不同的偏好数据设置不同的系统 Prompt ,并通过指令微调训练模型。值得注意的是,与 PMoL 不同,JANUS 在推理时需要给出偏好类型。因此,为了进行公平的比较,作者还计算了未给出偏好类型(表示为 JANUS*)的 JANUS 的得分。

Main Results

如图2所示,作者在一个、两个和三个类型的偏好数据集上训练PMoL。

PMoL 实现了最高的平均分。尽管 LoRA 的平均分高于 Full,但 LoRA 在三个偏好上表现出明显的失衡。LoRA 获得了最低的无害性分数,而 Full 获得了最高无害性分数,但帮助性和共情性分数较低。两者都与偏好混合的目的相悖。PMoL 实现了接近 Full 的无害性分数,同时保持了接近 LoRA 的帮助性和共情性分数。这表明 PMoL 很好地平衡了三个偏好。

欧洋等人(2022年)的研究表明,在有益性和无害性偏好之间存在权衡取舍。PMoL在有益性和同情心得分上做出了一定程度的牺牲,以实现无害性得分的显著提高。而Full则牺牲了更多的有益性和情感得分,但无害性得分并没有明显改善。这突显了PMoL在混合多个竞争性偏好方面的优势。

与仅针对一种偏好数据集进行PMoL训练的相比,训练三种偏好数据集的PMoL的平均奖励模型得分降低了0.224。然而,LoRA的平均得分降低了0.280。PMoL损失的分数较少。这表明PMoL在偏好混合方面具有卓越的能力。

与全量方法和LoRA方法相比,当偏好类型数量从两个增加到三个时,PMoL在HH上的平均得分降低较少(-0.0038 vs -0.0055和-0.0044)。这表明随着偏好类型数量的增加,PMoL保持了一种高混合偏好的能力。这证明了PMoL具有良好的可扩展性。然而,全量和LoRA方法并不擅长适应更多类型的偏好数据。

JANUS 得到的结果接近 PMoL。然而,当系统 Prompt 中的偏好类型被替换为默认系统 Prompt 时,JANUS 的得分不如 PMoL。这表明 JANUS 严重依赖系统 Prompt 给出的偏好类型。JANUS 在混合和区分偏好方面能力较弱。

Ablation Study

4.3.1 Effect of Expert Group Soft Loss

表3中添加专家组软损失后的平均分显示其在偏好混合能力上的显著改善。此外,作者分析了公式10中的β的影响。如表3所示,较大的β能良好地平衡不同专家,但同时也限制了具有不同偏好的专家的组合。较小的β在约束上存在困难,导致PMoL性能下降。

picture.image除了方程10之外,作者还测试了一些损失函数进行比较,包括开关 Transformer (Fedus等人,2022年),该 Transformer 在MoE中广泛使用。详细的公式可以在附录A中找到。如表5所示,除了软和硬之外,其他损失函数没有聚集专家的能力。因此,它们的偏好混合能力较差。与软相比,硬对专家权重有更严格的要求。这可能导致多个偏好之间不冲突的信息没有被所有专家共享。

picture.image#### 4.3.2 Effect of Empty Expert

表4展示了空专家的影响。空专家在某种程度上改善了PMoL的偏好混合能力。

picture.image如图5所示,空专家权重对于所有偏好都小于0.1,说明其影响较小。这是由于PMoL对模型输出的微小扰动。与线性层相比,PMoL的平均输出要小3个数量级。LoRA的低秩性质意味着它不会对主网络造成显著的扰动。

picture.image#### 4.3.3 Effect of LoRA rank and number

作者调整了LoRA专家的排名和数量。如图6左所示,较小的排名导致LoRA专家的拟合能力较差,无法在偏好数据中学习复杂的语义信息。这种现象在有益和无害的偏好中尤为明显。

picture.image当排名超过8时,排名的提高并不能带来显著的改善。

如图6所示,较少的专家会导致模型退化为类似LoRA的结构,从而降低混合能力。当专家数量过多(128个)时,作者发现许多专家获得的权重非常小(<0.001),并且分数也出现了显著下降。

5 Analyse

Parallelization

图3和1展示了并行化的显著优势。与没有并行化的PMoL相比,并行化将训练速度提高4倍,推理速度提高3倍。并行化实现了训练成本和推理速度接近LoRA,同时超越了全参数微调的偏好混合能力。

picture.image### Conflict among Preferences

表2显示,无论是三偏好的混合还是两偏好的混合,PMoL得分都低于在单一偏好上训练的得分。类似的情况也出现在LoRA和Full方法的结果中。这表明三种偏好之间存在竞争。模型需要平衡这些偏好。表10中的实例进一步说明了共情、 helpfulness 和 harmlessness 之间的竞争。这表明将共情视为偏好是合理且必要的。

picture.image### Impact of Data Gap on Preference Mixing

此外,影响偏好混合难度的偏好程度之间的冲突,以及偏好数据的差距也是重要因素。如表2所示,当多种偏好混合时,无害性分数下降更多,而同情心分数下降。作者认为这种情况与偏好数据的差距有关。

作者观察到,当多种偏好混合在一起时,每个方法的共情偏好分数较高且降低较小。这是因为共情偏好数据集是合成的,导致被选中和被拒绝的响应之间存在明显的差距。如图4b所示,这种类型的数据对理想潜在奖励函数的要求更为宽松。与其他偏好数据混合在一起时,有更大的调整空间。

picture.image数据对有益性和无害性都有所贡献,这些数据都来源于模型采样和人类评估。所选和被拒的响应之间的差异并不显著。如图4a所示,当与其他偏好数据混合时,调整空间较小。在各种偏好冲突部分之间需要做出权衡,这会导致损失。由于人类偏好的偏见(Hosking等人,2023),数据中也可能存在冲突。这种数据很难用明确的边界区分开来。

Preference Tendency Adjustment

作者可以通过调整不同偏好数据的软约束系数来调整混合强度。结果如表7所示。系数放大后的偏好获得更高的分数。系数缩小后的偏好略微降低了分数。这说明通过软约束系数可以调整与不同偏好混合的趋势。

picture.image### Expert Weights

作者计算了在具有不同偏好的测试数据上专家权重变化的差异。如图5所示,即使使用专家组软损失,PMoL仍能充分探索具有不同偏好的专家的混合使用。在较低层,不同偏好的专家权重之间没有显著差异。只有在较高层,差异才会明显体现。

Other Alignment Algorithm

为了验证PMoL是否依赖于特定的对齐算法,作者还使用ORPO(Hong等人,2024年)训练PMoL。结果如表6所示。与表2中展示的DPO训练结果相似,PMoL仍然显示出强烈的混合偏好能力。与仅针对一种偏好数据训练的PMoL相比,在三种偏好数据上训练的PMoL的得分下降较少。这表明PMoL不依赖于特定的偏好对齐算法。

picture.image### More Type of Preference

为了验证PMoL混合各种偏好的能力,作者从BeaverTails(Ji等人,2024年)中引入了5种无害偏好,总共包括6种偏好,包括有用性。如表11所示,PMoL获得了最高的平均分。与第4.2节类似,作者观察到Full和LoRA之间存在显著的不平衡。当无害性进一步细化时,PMoL改进得更加明显。这表明PMoL可以混合更广泛的偏好数据。

picture.image6 Conclusion

在本研究中,作者提出了一种创新方法称为PMoL。PMoL将LoRA和MoE框架相结合,实现了出色的偏好混合,同时降低了训练成本。

综合实验表明,PMoL在偏好混合能力上超过了 Baseline 方法。

PMoL的主要创新在于使用MoE进行偏好混合,引入了空专家和专家组软损失,以及计算过程的并行化。

空专家更好地利用了预训练知识。专家组软损失将专家分组并控制PMoL的注意力针对不同的偏好。并行化显著降低了PMoL的训练成本。

作者的分析证明,PMoL可以根据上下文激活不同的专家,突显了PMoL的强健性能。

参考文献

[0]. PMoL: Parameter Efficient MoE for Preference Mixing of LLM Alignment.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论