随着大型语言模型(LLMs)和检索增强生成(RAG)技术的发展,查询重写已被广泛用于开放域问答等下游任务中。现有的方法通常使用小型模型结合强化学习来改进查询重写,而不是使用成本较高的LLMs。但是,这些方法 需要标注(例如,标记的相关文档或下游答案)或预先设计的反馈奖励 ,这限制了它们的泛化能力,并且没有充分利用针对查询重写的信号。
RAG查询重写的示意图。
左侧部分表示常规的RAG流程,而右侧部分展示了 查询重写 ,以扩展更多与RAG相关的文档。
RaFe(Ranking Feedback improves Query Rewriting)
框架通过使用公开可用的重排器(reranker)来提供与重写目标一致的反馈,从而无需标注即可训练查询重写模型
。重排器在传统信息检索(IR)系统中用于根据查询对检索到的文档进行打分和排序。
RaFe的概述。
整个流程包括两个阶段: 初始的SFT (Supervised Fine-Tuning,监督微调)和随后的 反馈训练 。 RaFe在没有标注数据 的情况下获得与 查询重写目标一致 的排名反馈,并能够以两种方式利用这些反馈。 离线训练 :从离线生成的数据中构建好的和坏的对。 在线训练 :对实时生成的查询进行评分并完成反馈训练。
-
任务制定:在检索增强生成(RAG)过程中,输入原始查询q后,通过搜索引擎检索到一组相关文档D。查询重写的目的是将原始查询q重新表述为另一种形式q',以便更好地检索到相关文档。
-
初始监督式微调(Initial Supervised Fine-Tuning):在利用排名反馈之前,首先通过标准的监督式微调初始化重写模型。使用大型语言模型(LLMs)生成重写数据,并将其分为两部分用于SFT和反馈训练。训练重写模型Mθ,使用标准的SFT损失函数。
-
反馈训练(Feedback Training):由于直接评估查询重写的质量非常困难,因此以往的反馈通常依赖于注释的段落。RaFe利用重排器作为自然反馈来改进查询重写。重排器模型Mr用于根据查询q对文档d进行打分,重写q'的排名分数S(q, q')通过文档集合D'中所有文档的Mr(q, d')的平均值计算得出。
-
离线反馈(Offline Feedback):使用检索到的每个文档的排名分数来构建偏好数据。设定阈值μ来区分好的和坏的重写,μ是所有训练实例的平均排名分数。超过阈值的重写被认为是好的,否则是坏的。通过这种方式,我们为开放域问答(Open-Domain Question Answering, ODQA)构建了偏好对。
-
离线反馈训练:使用DPO(Direct Preference Optimization)和KTO(Kahneman-Tversky Optimization)方法进行离线反馈训练。DPO直接使用偏好对来优化模型,而KTO是一种只需要重写是好或坏的信号而不需要对的方法。
-
在线反馈(Online Feedback):排名分数也可以作为在线反馈信号。使用近端策略优化(PPO, Proximal Policy Optimization)算法来实现在线反馈训练。训练过程包括重写、检索、打分,并最终提供反馈。
RaFe在跨语言数据集上的表现优于基线模型。通过使用公开可用的重排器,RaFe能够驱动查询重写模型的训练,显示出所提出方法的有效性和潜在的泛化能力。具体来说,RaFe在不同的实验设置(包括, SUBSTITUTE设置 :直接使用检索到的文档进行评估、 EXPAND设置 :使用原始查询和重写查询检索到的文档进行评估、 Raw设置 :按照默认顺序拼接检索到的前5个文档、 Ranked设置 :在对所有检索到的文档重新排名后连接前5个文档)中都取得了改进。
结果展示了在SUBSTITUTE-Raw和EXPAND-Raw设置中的性能表现 。"QA"指的是通过Qwen-max获得的结果,而"w/o retrieval"表示直接生成答案。结果中超过OQR(Open Question Response,开放问题回答)的用粗体突出显示,代表表现最佳,而那些下划线的表示第二名。
SUBSTITUTE-Ranked和EXPAND-Ranked设置的结果。"OQR"在排名后进行评估。
在EXPAND设置下,不同重写模型在所有文档重新排名前后的性能表现。 每个条形图上显示的数字代表了从Raw(原始)到Ranked(排名)的具体改进幅度。
三种类型的示例,包括原始查询以及来自SFT和RaFe的重写。
展示了查询和重写的Prec@5(前5个预测的精确度)结果,"Correct"表示预测是否正确。
https://arxiv.org/pdf/2405.14431
RaFe: Ranking Feedback Improves Query Rewriting for RAG
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。