RL驱动的Reflection炼丹,谷歌开源SCoRe

大模型机器学习算法

论文笔记分享,标题:Training Language Models to Self-Correct via Reinforcement Learning。来自google deepmind。

Reflection、Self-Correct这些东西在O1出来之后,挺火的。但是,正常的LLM在没有外部输入的时候,本身的自我修正能力是不够的。

除此之外,像PE以及FT这些,一般都比较难的让模型获得一个比较好的自我修正。

所有SCoRe来了,通过一通强化学习炼丹,在MATH任务上的自我修正性能提高了15.6%,在HumanEval任务上提高了9.1%。流程上会先进行第一次尝试,进行反思,第二次尝试中完成最终的结果。

picture.image

2阶段训练,如果是单次的训练这种修正过程,模型很容易就学习到一个简单的策略。比如不对第一次的结果进行修正,或者先给一个明显错误的结果,然后在进行刻意修正。

为了避免这种情况,需要需要在第一阶段,引导模型探索更广泛的解题空间。第一阶段训练,第一次尝试的结果会用KL散度约束跟基础模型的结果保持一致。第二次尝试的结果最大化与正确答案之间的损失。如下图。picture.image

有了第一阶段打底,第二阶段就放纵一点了。这次需要2次尝试一方面都尽可能的与正确答案去靠拢,还增加了一个额外的损失,鼓励从第一次尝试错误到第二次正确的奖励,这分别对应了下面2个奖励函数。

picture.image

picture.image

最后,贴一个与其他方法的效果对比提升图。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论