RQ-RAG: RAG中的的query改写、分解、消歧（代码开源）

“ chatglm - rlhf 今天arxiv挂了篇论文，感兴趣的可以瞅瞅。


        
          
https://arxiv.org/abs/2404.00610  
https://github.com/chanchimin/RQ-RAG

picture.image

结论：端到端的方式训练了一个7B Llama2模型，能够通过改写、分解和澄清歧义来动态地改进搜索query，提高RAG系统整体效果。

给定原始数据集的输入-输出对(Xorigin, Yorigin)，简而言之，数据集构建可以看作如下公式：

picture.image 其中为一个特殊标记，，里面的type表示具体操作，例如，改写，分解，消除歧义;[Di1, Di2, . . . , Dik]表示召回的文档。

为了保证效率，这个过程当然交给chatgpt咯。大概流程分为3步：

“ 文章附录提供了构造多轮数据的提示词、问题分解的提示词、问题消歧的提示词

picture.image

没啥说的，跑呗

picture.image

在每个时间步，模型可以选择改写、分解或消除给定查询的歧义，也可以选择直接生成响应。鉴于这种内在特性，设计了一种树解码策略。然而，使用不同的查询来搜索会产生不同的检索上下文，从而导致不同的最终答案。所以，如何采样最合适的路径是关键部分

picture.image

picture.image

RQ-RAG: RAG中的的query改写、分解、消歧 （代码开源）