“ 等了半年,第二篇终于来了,同第一篇一样,很多很多的实验。。。。
https://arxiv.org/abs/2401.06080
https://github.com/OpenLMLab/MOSS-RLHF
这篇文章《Secrets of RLHF in Large Language Models Part II: Reward Modeling》主要探讨了如何通过强化学习从人类反馈(RLHF)来优化大型语言模型,使其更好地与人类的价值观和意图相一致。文章提出了两种主要的方法来解决实际应用中奖励模型面临的挑战:数据中的不正确和模糊的偏好对以及奖励模型的泛化能力差。
- 数据角度的方法:
- 偏好强度测量 :文章提出了一种基于多个奖励模型投票机制的方法来衡量数据中偏好的强度。通过这种方法,可以区分原始数据集中的错误、模糊和正常偏好。通过训练多个奖励模型并计算它们的得分平均值和标准差,可以量化每个比较对的偏好强度。偏好强度较高的数据对模型性能的影响更大。
- 错误偏好的纠正 :对于数据集中的低质量偏好数据,文章提出了翻转标签(flip labels)和平滑标签(label smoothing)的方法来减轻错误偏好的影响。对于偏好强度较低的数据,可能包含错误的偏好标签。通过翻转这些数据的标签,可以更有效地学习偏好信息。
- 自适应边界 :在偏好建模的损失函数中引入了基于偏好强度的自适应边界,使得模型更容易区分相似的响应。
- 算法角度的方法:
- 对比学习(Contrastive Learning) :为了增强奖励模型区分选择和拒绝回复的能力,文章引入了对比学习。通过在奖励建模过程中引入无监督对比损失,奖励模型能够更好地区分微妙的偏好差异。
- 元学习(Meta-Learning) :为了使奖励模型能够在分布外(out-of-distribution, OOD)样本中保持区分细微差异的能力,文章采用了元学习。这种方法可以用于迭代的RLHF优化。
这些方法共同工作,旨在提高奖励模型的准确性和泛化能力,从而使大型语言模型能够更好地与人类的价值观和意图相一致。