SimPO:比 DPO 更好的偏好优化方法

推荐算法

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

SimPO (简单偏好优化)是一种新的 RLHF(基于人工反馈的强化学习)方法,旨在提高离线偏好调优的简单性和训练稳定性,同时优于 DPO 或 ORPO。SimPO 与 DPO 非常相似,都是无奖励的方法,但 SimPO 使用 序列的平均对数概率作为隐式奖励 。SimPO 类似于 DPO,但有以下不同之处:

  • 使用 序列的平均对数概率作为奖励

  • 不需要参考模型 ,减少了计算和内存需求

  • 采用 长度归一化奖励公式, 惩罚过长的响应

  • 引入 目标奖励边际, 鼓励选择和拒绝响应之间的较大差距

  • 目标是最大化累积奖励 ,即选择响应的平均对数概率与拒绝响应的平均对数概率之差,减去目标奖励边际

见解:

普林斯顿大学 的团队表示祝贺,更值得赞赏的是他们不仅发布了代码,还发布了 所有模型检查点

补充背景知识

基于人类反馈的强化学习(RLHF)

RLHF

是一种技术,可将大型语言模型与人类偏好和价值观相一致。 典型的 RLHF 流程(来自 InstructGPT 论文)通常包括 三个阶段:监督细调、奖励模型训练和策略优化 。RLHF 框架广泛应用于各种应用,如缓解毒性、确保安全性、增强有用性、搜索和浏览网络以及提高模型推理能力。

picture.image

邻近策略优化(PPO)

是 RLHF 第三阶段 广泛使用的算法,需要同时运行 Actor、Critic、RM、SFT 四个模型进行策略优化。

picture.image

(图片来源:ColossalAI)

直接偏好优化(DPO) 是一种广泛使用的离线偏好优化算法,它从人类反馈(RLHF)中重新参数化了强化学习中的奖励函数,以增强简单性和训练稳定性。

开发团队介绍

picture.image

普林斯顿大学自然语言处理组致力于自然语言处理研究,旨在让计算机有效地理解和使用人类语言。 我们开发新颖的算法、设计新的框架并探索理论基础,以解决语言理解中的挑战性问题,借助 深度神经网络和强化学习 等技术。 我们的工作旨在推进人工智能的边界,同时也能在实际文本处理应用领域取得进展,从而对各种现实世界问题产生广泛影响。 我们最新的努力集中在问答系统、对话系统、语言理解、知识表示与推理、表示学习以及弱监督学习算法等方面。


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论