欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正 !
“ 全是公式,超纲了,写不了。效果非常好,然后还是微软的工作,关注度挺高的。另外一个消息是Meta员工透漏下个周会发布2个小参数的llama3模型
https://www.theinformation.com/articles/meta-platforms-to-launch-small-versions-of-llama-3-next-week
https://arxiv.org/pdf/2404.03715.pdf
最早的时候rlhf基于奖励最大化框架,通过预先定义奖励函数来对齐大模型。但是这个样子很难训练,比如说reward hacking, reward shaping, reward sparse等问题。科学家们就一直在研究如何直接优化偏好函数,无奖励学习,从而更好的对齐模型,一个典型的策略就是dpo。
rlhf & dpo
传统的 RLHF 方法通常涉及两个步骤:奖励学习(reward learning)和策略优化(policy optimization)。这种方法依赖于一个奖励模型(如 Bradley-Terry 模型)来将人类的偏好转换为标量奖励。然而,这种方法受限于“点对点”奖励的性质,无法表达复杂的非传递性或循环偏好关系。
DPO: Direct Preference Optimization (DPO) 是一种将 RLHF 的两步过程合并为单一对比学习目标的算法。DPO 通过使用一个内部奖励函数来等效地表达策略,从而简化了 RLHF 问题。DPO 通常是离线的,并且在稳定性和优化简便性方面有所增强。尽管如此,DPO 和其他基于奖励最大化的算法仍然依赖于奖励最大化框架。
如下图:
dpo 2步合成一步
DNO 旨在解决 RLHF 和 DPO 中存在的限制,特别是在表达一般偏好和扩展性方面的挑战。DNO 通过以下方式解决这些问题:
- 一般偏好的表达:DNO 利用最近关于奖励应当表达为与一般偏好函数相关的预期胜率的见解。
- 稳定性和可扩展性:DNO 通过将学习过程分解为一系列“批量在线策略”迭代来解决在线算法在样本效率或稳定性方面的挑战。每一步优化一个简单的回归目标,通过自我对弈(self-play)来激励自我改进行为。
- 算法设计:DNO 的设计允许在训练中包含更强大的教师(如 GPT-4)的样本,并且提出了一种过滤方案,仅在偏好对之间具有足够大的差距时进行奖励回归。
DNO-prct是DNO 理论框架在实际中的实现,流程如下图
结果就是很厉害: