OAIF:基于在线AI反馈的直接偏好优化对齐方法

火山方舟大模型智能语音交互

        
          
https://arxiv.org/pdf/2402.04792.pdf  

      

picture.image

这篇文章介绍了一种名为在线AI反馈(Online AI Feedback, OAIF)的方法,直接偏好优化(Direct Preference Optimization, DPO),通常在训练前收集偏好数据集,并在训练过程中不更新这些数据集,导致反馈是纯粹的离线反馈。此外,这些数据集中的响应通常是由与正在对齐的语言模型(LLM)不同的模型生成的,这使得对齐阶段不可避免地成为离线策略(off-policy)。

OAIF的核心思想是利用在线反馈来改进DAP(Direct Alignment from Preferences)方法。包括以下步骤:

  1. 在线采样 :在每次训练迭代中,从当前模型πθ中采样两个响应答案y1和y2。
  2. 在线反馈 :使用一个大型语言模型(LLM)作为注释器,提示LLM选择两个响应中更优的一个,从而提供在线反馈。这个过程确保了反馈是基于当前模型生成的响应,而不是预先收集的数据集。
  3. 模型更新 :利用这个在线反馈通过标准的DAP损失函数来更新模型πθ。

picture.image

OAIF的关键优势在于它结合了DAP方法的实用性和RLHF(Reinforcement Learning from Human Feedback)的在线特性。这种方法不需要额外的奖励模型(RM),而是直接从LLM中提取偏好,从而简化了对齐过程。此外,OAIF还展示了通过指令提示对LLM注释器的可控性,例如,通过要求LLM注释器偏好较短的响应,可以显著缩短响应的平均长度,同时保持或提高响应质量。

文章通过在多个任务上的人类评估和实验比较,证明了OAIF在将离线DAP方法(如DPO、IPO、SLiC)转换为在线方法方面的有效性和通用性。实验结果表明,OAIF在多个任务上的性能优于离线DAP方法和RLHF方法,并且能够通过修改提示来控制LLM注释器的行为,实现对模型输出的精细调整。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CloudWeGo白皮书:字节跳动云原生微服务架构原理与开源实践
本书总结了字节跳动自2018年以来的微服务架构演进之路
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论