阿里等提出RaFe：利用Reranker反馈来改善RAG查询重写的新框架，无需标注，泛化性好 - 文章 - 开发者社区

随着大型语言模型（LLMs）和检索增强生成（RAG）技术的发展，查询重写已被广泛用于开放域问答等下游任务中。现有的方法通常使用小型模型结合强化学习来改进查询重写，而不是使用成本较高的LLMs。但是，这些方法 需要标注（例如，标记的相关文档或下游答案）或预先设计的反馈奖励 ，这限制了它们的泛化能力，并且没有充分利用针对查询重写的信号。

RAG查询重写的示意图。

左侧部分表示常规的RAG流程，而右侧部分展示了 查询重写 ，以扩展更多与RAG相关的文档。

picture.image

RaFe（Ranking Feedback improves Query Rewriting）

框架通过使用公开可用的重排器（reranker）来提供与重写目标一致的反馈，从而无需标注即可训练查询重写模型

。重排器在传统信息检索（IR）系统中用于根据查询对检索到的文档进行打分和排序。

RaFe的概述。

整个流程包括两个阶段： 初始的SFT （Supervised Fine-Tuning，监督微调）和随后的 反馈训练 。 RaFe在没有标注数据 的情况下获得与 查询重写目标一致 的排名反馈，并能够以两种方式利用这些反馈。 离线训练 ：从离线生成的数据中构建好的和坏的对。 在线训练 ：对实时生成的查询进行评分并完成反馈训练。

picture.image

任务制定：在检索增强生成（RAG）过程中，输入原始查询q后，通过搜索引擎检索到一组相关文档D。查询重写的目的是将原始查询q重新表述为另一种形式q'，以便更好地检索到相关文档。
初始监督式微调（Initial Supervised Fine-Tuning）：在利用排名反馈之前，首先通过标准的监督式微调初始化重写模型。使用大型语言模型（LLMs）生成重写数据，并将其分为两部分用于SFT和反馈训练。训练重写模型Mθ，使用标准的SFT损失函数。
反馈训练（Feedback Training）：由于直接评估查询重写的质量非常困难，因此以往的反馈通常依赖于注释的段落。RaFe利用重排器作为自然反馈来改进查询重写。重排器模型Mr用于根据查询q对文档d进行打分，重写q'的排名分数S(q, q')通过文档集合D'中所有文档的Mr(q, d')的平均值计算得出。
离线反馈（Offline Feedback）：使用检索到的每个文档的排名分数来构建偏好数据。设定阈值μ来区分好的和坏的重写，μ是所有训练实例的平均排名分数。超过阈值的重写被认为是好的，否则是坏的。通过这种方式，我们为开放域问答（Open-Domain Question Answering, ODQA）构建了偏好对。
离线反馈训练：使用DPO（Direct Preference Optimization）和KTO（Kahneman-Tversky Optimization）方法进行离线反馈训练。DPO直接使用偏好对来优化模型，而KTO是一种只需要重写是好或坏的信号而不需要对的方法。
在线反馈（Online Feedback）：排名分数也可以作为在线反馈信号。使用近端策略优化（PPO, Proximal Policy Optimization）算法来实现在线反馈训练。训练过程包括重写、检索、打分，并最终提供反馈。

RaFe在跨语言数据集上的表现优于基线模型。通过使用公开可用的重排器，RaFe能够驱动查询重写模型的训练，显示出所提出方法的有效性和潜在的泛化能力。具体来说，RaFe在不同的实验设置（包括， SUBSTITUTE设置 ：直接使用检索到的文档进行评估、 EXPAND设置 ：使用原始查询和重写查询检索到的文档进行评估、 Raw设置 ：按照默认顺序拼接检索到的前5个文档、 Ranked设置 ：在对所有检索到的文档重新排名后连接前5个文档）中都取得了改进。

结果展示了在SUBSTITUTE-Raw和EXPAND-Raw设置中的性能表现 。"QA"指的是通过Qwen-max获得的结果，而"w/o retrieval"表示直接生成答案。结果中超过OQR（Open Question Response，开放问题回答）的用粗体突出显示，代表表现最佳，而那些下划线的表示第二名。

picture.image

SUBSTITUTE-Ranked和EXPAND-Ranked设置的结果。"OQR"在排名后进行评估。

picture.image

在EXPAND设置下，不同重写模型在所有文档重新排名前后的性能表现。 每个条形图上显示的数字代表了从Raw（原始）到Ranked（排名）的具体改进幅度。

picture.image

三种类型的示例，包括原始查询以及来自SFT和RaFe的重写。

展示了查询和重写的Prec@5（前5个预测的精确度）结果，"Correct"表示预测是否正确。

picture.image


          
https://arxiv.org/pdf/2405.14431
          
RaFe: Ranking Feedback Improves Query Rewriting for RAG