南洋理工提出简单如精细理念，通过双向负反馈损失进行LLM定位！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

南洋理工提出简单如精细理念，通过双向负反馈损失进行LLM定位！

picture.image

直接偏好优化（DPO）作为一种比从人类反馈中学习的强化学习（RLHF）更具有计算效率的替代方案，结合了接近策略优化（PPO），消除了奖励模型和在线采样的需求。

尽管这些优势，DPO及其变体仍对超参数敏感，且容易不稳定，尤其是在数学数据集上。

作者认为这些问题源于对数似然损失函数中固有的单向似然导数负反馈。为了解决这个问题，作者提出了一种新的LLM对齐损失，在优化过程中建立了一个稳定的双向负反馈（BNF）。

作者提出的BNF损失无需配对对比损失，也不需要任何额外的可调整超参数或配对偏好数据，从而简化了对齐流程，使其与监督微调一样简单。

作者在两个具有挑战性的QA基准和四个推理基准上进行了大量实验。

实验结果显示，BNF在QA基准上的性能与最佳方法相当，而在四个推理基准上的性能降低明显低于最佳方法，从而在价值对齐和推理能力之间取得了更好的平衡。

此外，作者还进一步验证了BNF在非配对数据集上的性能，并深入分析了不同偏好优化方法之间的对数似然和logit转换。

GitHub URL：https://github.com/MaoXinn/BNF/。

1 Introduction

大型语言模型（LLMs）的对齐在确保这些LLMs遵循人类价值观和期望方面发挥着关键作用（Bai等人，2022年）。随着LLMs越来越多地集成到各种应用中，确保正确的对齐对于降低偏见或有害输出的风险，同时提高可信度至关重要。最突出的LLM对齐方法之一是从人类反馈中学习强化（Ouyang等人，2022年）与近端策略优化（RLHF-PPO），这支撑了ChatGPT的成功。然而，尽管取得了这些成就，RLHF-PPO面临着明显的局限性，特别是在奖励建模和在线采样方面与计算成本相关的问题。这些挑战使得其广泛应用更加复杂，尤其是在计算资源有限的情况下。

针对这些限制，直接偏好优化（DPO）及其派生方法旨在通过消除奖励和价值模型以及在线采样的需求，简化整体对齐流程。尽管在问答和聊天机器人任务上实现了令人印象深刻的性能，DPO系列方法仍对超参数高度敏感，通常表现出不稳定性（Xu等人，2024年）。这种不稳定性在应用于数学数据集时尤为明显，可能导致训练崩溃（Pal等人，2024年）。最近，已经采取了几项措施来解决这个问题。他们认为崩溃是由于偏好样本的可能性错误降低，并建议使用负对数似然率（NLL）正则化来稳定训练过程。尽管这些方法成功地防止模型在数学数据集上崩溃，但在多个流行的聊天和QA基准测试（Meng等人，2024年）上表现不佳，并引入了额外的超参数。

不同于以前的研究，作者主张DPO的不稳定性源于一个更基本的原因：对数似然损失中固有的单向似然导数负反馈。如图1所示，当应用NLL损失以增加首选输出

的似然度

时，与未归一化对数似然

2 Theoretical Analysis of Log-Likelihood and DPO

在本节中，作者首先详细讨论了单向负反馈如何导致不喜欢的样本的概率过度降低，最终导致模型崩溃。然后，作者解释了DPO-series方法通过使用成对对比损失来缓解这种过度降低，以及为什么这种方法对于数学数据集是无效的。

Limitation of Log-likelihood Loss

在监督微调（SFT）阶段，作者通常只使用NLL损失来最大化数据集中每个样本的似然度，而不考虑塌陷问题。在对齐阶段，一个简单的优化方法是尝试以下对数似然损失：

picture.image

该天真损失试图通过NLL增加首选样本

的可能性，并通过正对数似然率（PLL）降低不首选样本

的可能性。然而，当使用上述损失优化LLM时，它们会迅速崩溃（Rafailov等人，2023年）。如第1节所述，这种现象的根本原因是对数似然损失中固有的单向似然导数负反馈。让作者考虑一个简单的情况，其中响应

只包含一个 Token 。当作者应用NLL损失以增加首选

的可能性

：

picture.image

是词汇量。NLL 损失关于对数似然

的偏导数

等于

（见附录 A.1 的导出）。在这种情况下，似然函数

和偏导数

实际上建立了稳定的负反馈。当

增加时，

逐渐减小，这限制了

和

的未来增长速度，从而防止模型过拟合。

然而，这种负反馈是单向的。当使用

来减小

的似然度时，上述负反馈将变成正反馈，这意味着

的任何减少都会进一步加速自身。当

减小时，部分偏导数

继续上升，这进一步加速了

和

随后的减少，最终导致模型崩溃。

Role of Pairwise Contrastive Losses

由于仅使用常规对数似然损失在偏好优化中会导致模型崩溃，DPO-series方法引入了配对对比损失来稳定优化过程。大多数DPO-series方法与参数θ相关的梯度可以表示为：

方程（3）的后半部分类似于方程（1）的梯度，旨在增加首选样本

的似然度，并降低不喜欢的样本

的似然度。关键的区别在于引入了一对对比函数

，该函数限制了不喜欢的样本的似然度从首选样本的似然度中过度偏离。以DPO为例，

，其中

随着

和

之间的对数似然度差距的增加而逐渐减小，创建了一个负反馈，限制了对数

从过度偏离对数

。表2列出了一些代表性的DPO系列方法及其导出的约束函数C。尽管具体实现存在差异，但这些方法都共享一个共同的核心思想：使用对比损失避免不喜欢的样本的似然度过度降低。

picture.image

Failure on Mathematical Datasets

通常，构建偏好数据集涉及三个步骤：

(1) 在指令数据集中为每个 Prompt 生成多个响应，(2) 使用人类标注员或奖励模型对每个响应进行评分，(3) 选择得分最高和最低的响应作为偏好对。然而，由于数学推理需要严谨的逻辑，数学问题的响应多样性通常显著低于其他类型的问题。因此，数学偏好数据集通常包含许多高度相似的配对，有些甚至只有一个单独的 Token 不同。针对这种数据分布，为DPO-series方法选择一个适当的缩放因子β具有挑战性，因为很难为高度相似的偏好对创建显著的对数似然差距。如图2所示，尽管正确答案的可能性显著大于错误答案（0.8 vs. 0.05），但总对数似然差距仍仅为1.2。

在这种情况下，如果将缩放因子β设置为通常水平（例如，DPO中的0.1），缩放后的差距将变得非常小，这可能导致对数似然函数

在防止

过度降低时失败。相反，如果将β设置为高于通常水平，则可能导致具有较小重叠度的偏好对过拟合，从而对性能产生负面影响。

最近的研究提出了两种解决方案：(1) 为首选响应添加NLL正则化以最大化偏好响应的可能性（Saeidi等人，2024），(2) 直接从数据集中移除具有小编辑距离的偏好对（Pal等人，2024）。虽然这些方法可以解决数学数据集的塌陷问题，但它们通常在QA基准测试上表现不佳（Meng等人，2024）。

picture.image

3 Bidirectional Negative Feedback Loss

在本节中，作者详细介绍了提出的双向负反馈（BNF）损失，包括优化目标和梯度分析。

Optimization Objective

在第二部分，作者论证了对数似然损失在偏好优化中的局限性源于单向负反馈。虽然DPO-series方法引入了配对对比损失来解决这个问题，但在超参数调优方面面临挑战，特别是在应用于数学偏好数据集时。在这些洞察的基础上，作者提出了一种新的对齐损失，建立双向负反馈，无需对比损失，并将LLM对齐简化为监督微调的程度。作为目标分布，那么所提出的损失将与公式（1）相同：

picture.image

Gradient Analysis

实验设置作者遵循SimPO（Meng等人，2024）的实验设置，客观评估作者提出的方法的 effectiveness。他们提供了与DPO系列方法对齐的多个预训练权重以及相应的训练数据集，作者承认他们的贡献。为了参考，作者在附录C中列出了训练时间和API成本。

模型和训练数据集 在本文中，作者采用三个主流的开源LLM作为基础模型：Mistral-7B-Instruct-v0.2（Jiang等人，2023a），Meta-Llama-3-8B-Instruct（Dubey等人，2024）和Gemma2-9b-it（团队，2024）。为了进行公平比较，作者使用由SimPO构建的相同偏好的训练数据集。具体来说，对于超反馈（Cui等人，2024）中的每个 Prompt x，它们生成5个响应，采样温度为0.8。然后，使用PairRM（Jiang等人，2023b）或ArmoRM（Wang等人，2024）对这些5个响应进行评分，选择最高得分的那个作为y_{w}，最低得分的那个作为y_{l}。这里有三个训练数据集：Mistral-Ultrafeedback-PairRM，Llama3-Ultrafeedback-ArmoRM和Gemma2-Ultrafeedback-ArmoRM。

训练超参数。在本论文中，作者将最大序列长度设置为4096，并采用AdamW优化器（Loshchilov和Hutter，2018），应用余弦学习率调度，其中包含10%的预热步骤。由于作者提出的BNF损失没有额外的可调超参数，所以作者只在批处理大小{64, 128, 256}和学习率{5-7, 6-7, 8-7, 1-6-6}上进行网格搜索。搜索完成后，作者采用统一的批处理大小128，并分别选择Mistral-7B-Instruct-v0.2的学习率5e-7，Meta-Llama-3-8B-Instruct的学习率6e-7，以及Gemma-2-9b-it的学习率8e-7。

Baseline 除了DPO（Rafailov等人，2023年），作者还将在偏好优化中与以下强 Baseline 进行比较：

（1）SLiC-HF（Zhao等人，2023年）基于对比排序损失，直接应用对数似然度并集成SFT目标。

（2）IPO（Azar等人，2023年）是一种理论基础扎实的方法，旨在绕过DPO假设中的双向偏好可以被点状奖励替代。

（3）KTO（Ethayarajh等人，2024年）从不是双向的偏好数据中学习。

（4）RDPO（Park等人，2024年）引入了一个长度正则项，以防止利用长度进行攻击。

（5）SimPO（Meng等人，2024年）是一种无需使用参考模型的更简单有效的偏好优化方法，正如Meng等人（2024年）所描述的那样，所有 Baseline 都已通过超参数网格搜索进行了良好调整。

评价基准。作者主要使用两个最近提出的指令遵循QA基准：Arena-Hard（Li等人，2024年）和Wild-Bench（Lin等人，2024年）。Arena-Hard，是MT-Bench（Zheng等人，2023年）的增强版，包括500个高质量的 Prompt 来自真实用户 Query 。对于Arena-Hard，作者报告标准胜率（WR）和长度控制胜率（LC），使用GPT-4-0314作为参考模型和GPT-4o-mini作为评估者2。Wild-Bench是一个极具挑战性的基准，具有更长的 Prompt 和来自真实用户的更难的问题。除了在100分制上对每个响应进行评分外，Wild-Bench还引入了LMSYS-Elo（Chiang等人，2024年）以更好地对所有模型进行排名。对于Wild-Bench，作者报告Elo并使用GPT-4o作为评估者。这些基准的统计比较请参见表3。

作者没有采用MT-bench和AlpacaEval的原因是这些数据集存在严重的缺陷：MT-bench只包含80个样本，并且不同方法之间的可分性较差（Meng等人，2024年）。AlpacaEval是一个高度不平衡的数据集，有50%的问题类型专注于信息寻求，而不到20%与推理相关。实际上，Arena-Hard和Wild-Bench是MT-Bench和AlpacaEval的升级版，提供了更具挑战性的任务，并且分布更加平衡。此外，作者还将在四个逻辑推理基准上评估所有模型，以验证这些对齐方法对模型推理能力的影响，包括：MMLU-redux（Gema等人，2024年）（语言），CRUX（Gu等人，2024年）（代码），GSM8K（Cobbe等人，2021年）和MATH-L5（Hendrycks等人，2021年）（数学）。在这些推理基准上，作者使用ZeroEval（Lin，2024年）作为评估者，旨在评估针对指令的LLM的零样本性能。

picture.image

5 Experimental Results

表4呈现了所有偏好优化方法在六个基准和三种基础模型上的详细实验结果，涵盖了性能和相对排名。在本节中，作者首先对这些统计数据进行全面分析。

然后，作者进行实验来评估作者的提出的BNF在非配对偏好数据集上的性能。最后，作者分析了不同偏好优化方法下的对数似然度和对数偏移。此外，作者还将在附录D中提供一些响应比较供参考。

picture.image

Main Experiment Analysis

偏好优化对于QA至关重要。从表4中，作者可以观察到三种基础模型在两个QA基准测试Wild-Bench和Arena-Hard上排名最低，而所有偏好优化方法都取得了显著的性能提升。

更具体地说，DPO、SimPO和作者提出的BNF与其他方法相比表现优越，始终在前三名的位置，横跨所有QA指标。DPO在Meta-Llama-3上表现最好，SimPO在Mistral-7B上表现最好，而作者提出的BNF在Gemma-2上表现出色。

这些实验结果表明，偏好优化对于改进模型在QA任务上的性能至关重要，并证明了作者提出的BNF可以提供与最强偏好优化 Baseline 相当或更好的性能。

BNF支付最低对齐税。 当作者将注意力转移到推理基准测试时，作者发现QA基准测试表现优秀的算法在推理基准测试中表现往往不佳，这被称为对齐税（Ouyang等人，2022年）。例如，SimPO在QA基准测试中表现良好，但在GSM8K上的推理表现却显著下降，性能降低了超过10%，排名接近底部。相比之下，KTO在推理基准测试中表现出色，但在QA基准测试中的表现却较差，仅略好于基础模型。一些研究（Lin等人，2023年）表明，对齐税是由于对偏好数据的过度拟合导致推理能力下降。

通过双向负反馈，作者提出的BNF可以自动约束模型对偏好数据过度拟合，从而保持推理能力。实验结果显示，BNF在三个基础模型（表4的最后一行）的平均相对排名上取得了最佳结果，表明BNF在QA和推理能力之间取得了更好的平衡，因此支付了最低的对齐税。

不同方法的响应长度。一些最近的研究（徐等人，2024b）指出，使用DPO训练的模型倾向于产生冗长的响应，可能会降低结果的质量。为了调查这个问题，作者在两个QA基准上计算了所有偏好优化方法的平均响应长度，并将其统计数据列在表5中。在Meta-Llama-3上，几乎所有方法的平均响应长度都减少。然而，在Mistral-7B上，只有KTO在两个基准上的响应长度减少，而其他所有方法在至少一个基准上都有所增加。

尽管引入了长度规范化，但Mistral-7B上SimPO的平均响应长度仍然显著增加。这些统计数据表明，平均响应长度与基础模型密切相关。DPO不一定生成更长的响应，特别是专门设计的算法在某些模型上也可能失败。

picture.image

Non-pairwise Optimization

双向负反馈使得 BNF 不再需要配对对比损失来约束非偏好样本的过度下降概率。因此，BNF 本质上消除了优化过程中偏好对的需要。为了评估其在非配对偏好数据集上的性能，作者用一定概率随机 Mask 原偏好对中的首选或非首选响应。表6 展示了不同配对比例的实验结果。

在 QA 基准测试中，可以明显看到更多的配对偏好数据导致更好的性能。然而，即使没有任何偏好对，BNF 仍然在 Wild-Bench 上实现了显著的性能提升，平均得分增加了 6.8 分；在 Arena-Hard 上，获胜率提高了 12.3%。值得注意的是，这种情况下也观察到了对齐税现象。在 0% 的配对比例下，没有偏好对防止过度依赖偏好数据。这导致 QA 性能提升较低，但在数学数据集上，模型的推理能力得到了 1.6% 的提高，在 GSM8K 上提高了 2.6%。

picture.image

Distributions of Log-Likelihood and Logit

为了更深入地理解 BNF 的优化行为，作者利用 Wild-Bench（Lin等人，2024）中的1000个问题分析了策略模型与参考模型之间的对数似然度和对数转换。作者使用 BNF 并应用三种 Baseline ：DPO、IPO 和 SimPO 来生成响应。基础模型为 Llama-3-8B-Instrut。

BNF 展示最小的对数似然度变化。作者的实验表明，BNF 表现出最小的对数似然度变化（图2(a) 和 2(d)），这可能有助于保留参考模型的推理和理解能力。相比之下，SimPO 表现出最大的变化，这可能解释了它在这些领域的较差性能。

BNF的统一对数几率增加导致独特的位移模式。有趣的是，BNF与DPO和IPO相比显示出更大的对数几率移动（图2(b)和2(e)），这也需要一个参考模型。通常，较大的对数几率移动与较大的对数似然移动相关，但BNF呈现出一种独特的模式：许多样本在对数似然移动很小的情况下显示出显著的对数几率移动（图2(c)，左上角）。这可能是因为BNF在每次位置的每个首选 Token 上统一增加输出对数似然，在softmax归一化后得到一致的对数似然。

BNF 使位移均匀地分布在 Token 上。logit 移动的吉尼系数（吉尼，1912 年）表明，与其他 Baseline 相比，BNF 的 logit 移动在 Token 上分布得更加均匀（图2（f））。较低的吉尼系数表示位移来源于许多 Token ，而不是集中在少数具有显著差异的 Token 上。这表明 BNF 实现了平衡优化策略，通过减小已显示与参考 Token 有较大差异的 Token 的梯度，从而有效地防止过拟合并减少对齐税。

BNF相较于DPO表现出更少的极化偏移。作者使用DPO作为参考模型来分析 Token Level 的对数似然度（如图4所示）。具体而言，作者将DPO的 Token Level 对数似然度偏移分为10个分位数区间，并将BNF、SimPO（Meng等人，2024）和IPO（Azar等人，2023）的 Token Level 偏移映射到这些DPO定义的区间。图4显示，BNF的 Token Level 偏移分布相较于DPO更为中心化，这可能是因为其双向负反馈设计的调节作用，该作用限制了极端对数似然度偏移。相比之下，SimPO显示出更二进制的分布，而IPO的分布仍接近DPO。

picture.image

6 Related Works

Reinforcement Learning from Human Feedback

强化学习从人类反馈（RLHF）已经成为广泛采用的方法，用于将大型语言模型（LLMs）与人 preferences 对齐。

典型的 RLHF 流水线包括三个阶段：监督微调（SFT）、奖励模型训练和策略优化。近端策略优化（PPO） (Schulman 等，2017) 通常在策略优化阶段使用，以将模型与人类反馈对齐。RLHF 已在多个领域得到应用，包括减轻毒性（Chaudhari 等，2024）、增强推理能力（Wang 等，2024b）和提高语言模型的效用（Bai 等，2022a）。

然而，RLHF 通常需要复杂的超参数调优，并且可能不稳定，这主要归因于奖励模型的敏感性（Casper 等，2023）。相比之下，直接偏好优化（DPO） (Rafailov 等，2023) 通过移除显式奖励模型，直接优化偏好，简化了这一过程。这使得 DPO 成为 RLHF 更资源高效的替代方案。虽然 DPO 解决了 RLHF 的一些复杂性，但为了克服偏好优化的特定挑战，已经提出了进一步改进和变体。

Challenges of Direct Preference Optimization

尽管DPO系列方法在问答和聊天机器人任务上表现出色（Meng等人，2024年），但它们对超参数高度敏感，且往往表现出不稳定性（Xu等人，2024b）。这种不稳定性在应用于数学数据集时尤为明显，可能导致训练崩溃（Pal等人，2024年）。最近的研究提出使用对数似然率（NLL）正则化来稳定训练。

尽管这些方法成功防止了数学数据集上的崩溃，但在多个流行的聊天和QA基准测试（Meng等人，2024年）上的表现不佳，并引入了额外的超参数。另一个偏好优化中的重要挑战是控制输出长度，因为使用DPO训练的模型往往产生冗长的响应，可能会降低结果的质量（Xu等人，2024b）。

为了解决这个问题，已经开发了多种DPO变体。例如，SimPO（Meng等人，2024年）应用了一个长度归一化的奖励来防止生成过长的输出。RDPO（Park等人，2024年）添加了一个正则化项来减少长度利用。

7 Conclusion

在本文中，作者提出了一种名为双向负反馈（BNF）的新颖LLM对齐损失，解决了DPO及其变体中存在的稳定性和超参数敏感性问题。

与DPO系列方法不同，BNF无需成对对比损失和偏好数据，简化了对齐流水线，使其变得与监督微调一样简单。

作者在六个基准测试上的实验表明，BNF在QA基准测试上取得了强大的性能，同时保留了LLM的推理能力，并支付了最低的对齐税。

南洋理工提出简单如精细理念，通过双向负反馈损失进行LLM定位 ！

1 Introduction

2 Theoretical Analysis of Log-Likelihood and DPO

3 Bidirectional Negative Feedback Loss

5 Experimental Results

6 Related Works

7 Conclusion