sft的时代过去了？融合监督微调和偏好对齐的新算法orpo来了 - 文章 - 开发者社区

欢迎关注我的公众号“ NLP前沿 ”，日更最新论文/博客速读，周更AI领域近一周发生的那些事儿。欢迎投稿！ 行文仓促，有理解错误，欢迎指正 ！


        
          
https://huggingface.co/blog/mlabonne/orpo-llama-3  
https://arxiv.org/html/2403.07691v2  
https://colab.research.google.com/drive/1eHNWg9gnaXErdAa8_mcvjMupbSS6rDvi?usp=sharing

ORPO是一种的新的微调技术，将传统的监督微调和偏好对齐阶段结合到一个过程中。这减少了训练所需的计算资源和时间。此外，结果表明，ORPO在各种模型大小和基准上都优于其他对齐方法。常用的trl、llama-factory等已经支持了该算法。在上面链接中有个colab实现了使用orpo微调llama3-8b。

picture.image

虽然 SFT 有效地使模型适应所需的领域，但它无意中增加了与最有答案一起生成不良答案的可能性。这就是为什么需要偏好对齐阶段来扩大首选输出和拒绝输出的可能性之间的差距。如下图HH-RLHF数据集上OPT-350M模型中选择和拒绝答案的对数概率

picture.image

实现原理非常简单，如下图，在正常的sft损失基础上，约束y_w的概率要远大于y_l picture.image 对比最上面一张图训练过程中y_w和y_l的gap出现了

picture.image

看一张效果图： picture.image