SPAR:自我博弈,增强指令遵循

大模型向量数据库机器学习

picture.image

大模型要听话,就得懂得用户的指令。这种能力,我们叫它“指令遵循能力”。 

但是,要让模型完全听懂指令并不容易,一点点微小差别就可能导致理解错误。为了提高模型的指令遵循能力,我们常用一种方法叫“偏好优化”,也即通过学习用户更喜欢哪种回答,来帮助模型更好地理解和执行指令。 

不过,现有的方法有个问题:构造这些偏好数据,通常要采样多个独立回复,而这些回复不可避免地会引入一些干扰因素,例如语义相同但表述不同的回答,这些因素不影响模型对指令的遵循,但却会导致模型学习不到真正重要的内容。 

 

为解决这个问题,我们提出了“SPAR自我博弈框架”,该框架采用了“树搜索”的技术,以及自我完善技术,来帮助大模型更好地理解指令。这个框架的核心思想,即去掉数据中的干扰因素,让模型能更专心地学习真正重要的东西。 

 

picture.image

 

Paper: https://www.arxiv.org/abs/2412.11605 

Code: https://github.com/thu-coai/SPaR 

 

SPaR 框架

 

在 SPaR 框架中,LLM 扮演两个角色进行自我博弈,以不断改进: 

 

  1. 生成者(Actor):负责执行给定的复杂指令,生成回复。

  2. 完善者(Refiner):负责分析生成者的回复,找出问题并进一步完善。

picture.image

SPaR的训练流程分为三个关键步骤,确保逻辑严谨且易于理解: 

 

第一步:失败数据收集 

  • 生成者对指令生成多个回复。
  • 完善者分析这些回复,识别出未能完全遵循指令的失败回复。

第二步:树搜索修正 

  • 完善者使用树搜索策略修正失败回复。
  • 从错误回复开始,逐层扩展搜索树,探索多条修正路径。
  • 完善者为每条路径生成不同修正版本,并自我评判,直到找到完全遵循指令的回复。

第三步:模型优化 

  • 利用树搜索后完善的回复和原本的失败回复,构建无干扰因素的偏好数据,有效提升生成者。
  • 同时,利用失败回复收集和树搜索过程中的数据,构建完善者的训练数据,实现同步提升。

 

实验结果

 

我们在LLaMA3系列模型以及GLM-4-9B上进行了实验,在指令遵循评估基准上的结果表明,SPaR框架能够显著提升大模型的指令遵循能力。 

 

经过三轮迭代训练后,基于LLaMA3-8B的模型能够在IFEval评估基准上超过GPT-4-Turbo的性能表现。此外,结合推理时间扩展,SPaR进一步提升了模型的整体性能(标记为绿色)。 

 

picture.image

 

这里展示了每一轮迭代训练中,各个方法在IFEval上的平均指标,SPaR在每一轮中均稳定优于各个基线方法。 

picture.image

 

作为一种自我博弈训练框架,SPaR不仅能够迭代提升生成者的指令遵循能力,也会同步提升完善者的评估能力。经过三轮训练的LLaMA3-8B模型在评估能力上超越了用于构建其SFT数据的教师模型GPT-4o-Mini,验证了SPaR在进行持续自我提升方面的巨大潜力。 

 

picture.image

 

Q&A

Q:偏好数据中的无关因素如何干扰指令遵循学习?

picture.image

我们通过两个合成数据实验研究了这一问题: 

  • 任务1:生成指定数量的字母字符串,例如 “ 生成3个a和5个b ” , 偏好对中的无关干扰 因素为 字母 大小写差异。
  • 任务2:生成以特定开头和结尾句子的故事,例如 “写一个 以 ‘ 他们幸福地生活在一起。 ’ 为结尾的故事 ” ,其中 无关 干扰因素为不同的故事情节。

实验结果表明,包含无关变量的偏好数据组显著影响了偏好学习的效果(上图绿色实线)。特别的,我们观察到在任务1中,模型更倾向于学习到干扰因素(即大小写差异,左图绿色虚线),而非任务的成功率,这说明了排除干扰因素以突出关键差异的重要性。 

 

Q:SPaR中的各个元素对最终结果有何影响?

picture.image

在消融实验中,我们证明了SPaR框架中各个元素的必要性,树搜索,迭代提升和自我完善都对结果有很大的影响。 

 

Q:扩展推理时计算开销对模型性能有何影响?

picture.image

扩展推理时的计算开销能够进一步提升模型性能,并显著优于贪婪解码方法。同时,在较高的计算开销下,SPaR的树搜索自我完善方法优于Best-of-N方法。 

↓ ↓↓

picture.image

picture.image

0
0
0
0
关于作者
相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论