阿里等提出RaFe:利用Reranker反馈来改善RAG查询重写的新框架,无需标注,泛化性好

火山方舟向量数据库大模型

随着大型语言模型(LLMs)和检索增强生成(RAG)技术的发展,查询重写已被广泛用于开放域问答等下游任务中。现有的方法通常使用小型模型结合强化学习来改进查询重写,而不是使用成本较高的LLMs。但是,这些方法 需要标注(例如,标记的相关文档或下游答案)或预先设计的反馈奖励 ,这限制了它们的泛化能力,并且没有充分利用针对查询重写的信号。

RAG查询重写的示意图。

左侧部分表示常规的RAG流程,而右侧部分展示了 查询重写 ,以扩展更多与RAG相关的文档。

picture.image

RaFe(Ranking Feedback improves Query Rewriting)

框架通过使用公开可用的重排器(reranker)来提供与重写目标一致的反馈,从而无需标注即可训练查询重写模型

重排器在传统信息检索(IR)系统中用于根据查询对检索到的文档进行打分和排序

RaFe的概述。

整个流程包括两个阶段: 初始的SFT (Supervised Fine-Tuning,监督微调)和随后的 反馈训练RaFe在没有标注数据 的情况下获得与 查询重写目标一致 的排名反馈,并能够以两种方式利用这些反馈。 离线训练 :从离线生成的数据中构建好的和坏的对。 在线训练 :对实时生成的查询进行评分并完成反馈训练。

picture.image

  1. 任务制定:在检索增强生成(RAG)过程中,输入原始查询q后,通过搜索引擎检索到一组相关文档D。查询重写的目的是将原始查询q重新表述为另一种形式q',以便更好地检索到相关文档。

  2. 初始监督式微调(Initial Supervised Fine-Tuning):在利用排名反馈之前,首先通过标准的监督式微调初始化重写模型。使用大型语言模型(LLMs)生成重写数据,并将其分为两部分用于SFT和反馈训练。训练重写模型Mθ,使用标准的SFT损失函数。

  3. 反馈训练(Feedback Training):由于直接评估查询重写的质量非常困难,因此以往的反馈通常依赖于注释的段落。RaFe利用重排器作为自然反馈来改进查询重写。重排器模型Mr用于根据查询q对文档d进行打分,重写q'的排名分数S(q, q')通过文档集合D'中所有文档的Mr(q, d')的平均值计算得出。

  4. 离线反馈(Offline Feedback):使用检索到的每个文档的排名分数来构建偏好数据。设定阈值μ来区分好的和坏的重写,μ是所有训练实例的平均排名分数。超过阈值的重写被认为是好的,否则是坏的。通过这种方式,我们为开放域问答(Open-Domain Question Answering, ODQA)构建了偏好对。

  5. 离线反馈训练:使用DPO(Direct Preference Optimization)和KTO(Kahneman-Tversky Optimization)方法进行离线反馈训练。DPO直接使用偏好对来优化模型,而KTO是一种只需要重写是好或坏的信号而不需要对的方法。

  6. 在线反馈(Online Feedback):排名分数也可以作为在线反馈信号。使用近端策略优化(PPO, Proximal Policy Optimization)算法来实现在线反馈训练。训练过程包括重写、检索、打分,并最终提供反馈。

RaFe在跨语言数据集上的表现优于基线模型。通过使用公开可用的重排器,RaFe能够驱动查询重写模型的训练,显示出所提出方法的有效性和潜在的泛化能力。具体来说,RaFe在不同的实验设置(包括, SUBSTITUTE设置 :直接使用检索到的文档进行评估、 EXPAND设置 :使用原始查询和重写查询检索到的文档进行评估、 Raw设置 :按照默认顺序拼接检索到的前5个文档、 Ranked设置 :在对所有检索到的文档重新排名后连接前5个文档)中都取得了改进。

结果展示了在SUBSTITUTE-Raw和EXPAND-Raw设置中的性能表现 。"QA"指的是通过Qwen-max获得的结果,而"w/o retrieval"表示直接生成答案。结果中超过OQR(Open Question Response,开放问题回答)的用粗体突出显示,代表表现最佳,而那些下划线的表示第二名。

picture.image

SUBSTITUTE-Ranked和EXPAND-Ranked设置的结果。"OQR"在排名后进行评估。

picture.image

在EXPAND设置下,不同重写模型在所有文档重新排名前后的性能表现。 每个条形图上显示的数字代表了从Raw(原始)到Ranked(排名)的具体改进幅度。

picture.image

三种类型的示例,包括原始查询以及来自SFT和RaFe的重写。

展示了查询和重写的Prec@5(前5个预测的精确度)结果,"Correct"表示预测是否正确。

picture.image


          
https://arxiv.org/pdf/2405.14431
          
RaFe: Ranking Feedback Improves Query Rewriting for RAG
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论