Auto-RAG：基于大模型的自主检索增强生成 - 文章 - 开发者社区

今天给大家分享一篇论文。

题目是：Auto-RAG：基于大模型的自主检索增强生成 picture.image

论文链接: https://arxiv.org/abs/2411.19443 代码链接: https://github.com/ictnlp/Auto-RAG

论文概述

这篇论文介绍了一个名为Auto-RAG的模型，旨在解决以下几个问题：

迭代检索的自动化 ：现有的检索增强生成（RAG）系统通常依赖于少量样本提示（few-shot prompting）或手工构建的规则来实现迭代检索，这不仅需要大量的人力工作，还会在推理过程中引入额外的计算开销。Auto-RAG通过利用大型语言模型（LLMs）的决策能力，自动化地进行迭代检索，减少了人为干预和计算成本。
处理复杂查询和噪声问题： 在处理复杂问题时，现有的RAG系统可能难以通过单次检索获取足够的知识，并且检索内容可能包含噪声，这些问题影响了RAG系统的整体性能。Auto-RAG通过系统地规划检索和提炼查询来获取有价值的知识，直到收集到足够的外部信息，从而提高了性能。
提高LLMs的推理和决策能力： 以往的方法忽视了LLMs在推理和决策方面的能力，而Auto-RAG则充分发挥了LLMs在确定何时以及检索什么内容方面的潜力。
增强模型的解释性和用户体验： Auto-RAG以自然语言形式表达迭代检索过程，提高了模型的可解释性，并为用户提供了更直观的体验。

Auto-RAG试图通过自动化的迭代检索和利用LLMs的内在推理能力，来解决现有RAG系统在处理复杂查询和噪声问题时的性能瓶颈，同时提高模型的解释性和用户体验。

核心内容

picture.image

论文通过提出Auto-RAG模型来解决上述问题，具体解决方案包括以下几个方面：

1. 自主迭代检索框架

Auto-RAG通过模拟大型语言模型（LLMs）与检索器之间的多轮对话，系统地规划检索和提炼查询以获取有价值的知识。这个过程一直持续到收集到足够的外部信息，然后才能充分回答用户的问题。自动合成基于推理的决策指令：

论文提出了一种方法，用于自动合成基于推理的迭代检索中的决策指令，并通过微调最新的开源LLMs来实现这一点。 picture.image

2. 推理规划和查询优化

Auto-RAG在每次迭代中都进行细致的推理，以确定是否需要额外的检索以及具体要寻找的信息。这包括检索规划、信息提取和答案推断三种不同类型的推理。

3. 数据构建和训练过程

论文详细描述了数据构建过程，包括如何从原始数据集中生成用于训练Auto-RAG的指令数据集，以及如何过滤和格式化数据。

4. 推理和查询优化

Auto-RAG通过使用少量样本提示（few-shot prompting）来引导LLM进行推理，并根据用户输入和先前的检索计划来迭代地优化查询。 picture.image

5. 参数知识和外部知识的结合

当检索器和检索语料库无法提供必要的知识来回答某个问题时，Auto-RAG尝试提供由Auto-RAG自生成的文档或答案

论文实验

论文中进行的实验旨在评估上下文感知门（Context Awareness Gate, CAG）架构的性能和效果。具体实验包括：

实验设置：

论文专注于使用Auto-RAG解决问答（QA）任务，包括开放域QA和多跳QA。
使用了两个代表性数据集Natural Questions (NQ) 和 2WikiMultihopQA (2Wiki) 来合成推理指令，并基于这些指令微调Llama-3-8B-Instruct模型。

基准测试：

在六个数据集上评估Auto-RAG的效果，包括NQ、2Wiki、TriviaQA (TQA)、PopQA (PQA)、HotpotQA (HQA) 和 WebQuestions (WQ)。

使用了Exact Match (EM) 和 F1分数作为评估指标。

与基线比较

与没有检索（Naive Gen）、单次检索（Standard RAG）和迭代检索（FLARE、Iter-RetGen 和 Self-RAG）的基线模型进行比较。主要结果： picture.image 在六个基准测试中，Auto-RAG的性能一致优于其他基线方法，包括没有检索的方法（Naive Gen）、单次检索的方法（Standard RAG），以及其他迭代检索方法（如FLARE、Iter-RetGen和Self-RAG）。

适应性和检索器分析

分析了Auto-RAG在不同数量文档每轮迭代中的表现，并比较了Auto-RAG与无检索方法（Naive Gen）和标准RAG的性能。

消融研究

对Auto-RAG的训练过程、迭代推理和数据构建的有效性进行了消融研究。 picture.image 进一步分析揭示了Auto-RAG能够根据问题的复杂性和检索到的知识的相关性动态调整迭代次数。这意味着Auto-RAG能够自主决定何时停止检索过程，这减少了人工干预的需求。

数据扩展：

研究了不同训练数据量对Auto-RAG性能的影响。 picture.image 实验还研究了不同训练数据量对Auto-RAG性能的影响，发现大约0.5k的数据量就足以让模型获得自主检索能力，而增加数据量可以进一步提升性能。

通用任务性能

在AI2 Reasoning Challenge (ARC)、ReAding Comprehension Dataset From Examinations (RACE)、Situations With Adversarial Generations (SWAG) 和 Open Book Question Answering (OpenBook QA) 等通用任务评估基准上测试了Auto-RAG的性能。

picture.image

Auto-RAG在一般任务上也表现出改善，例如在AI2 Reasoning Challenge (ARC) 和 Situations With Adversarial Generations (SWAG) 上的性能提升，表明通过合成数据训练可以增强LLM的推理能力和处理对抗性任务的能力。

效率比较

比较了Auto-RAG与FLARE和Self-RAG在性能、速度和检索次数上的差异。 picture.image 与FLARE和Self-RAG相比，Auto-RAG在性能、速度和检索次数上展现出显著优势。Auto-RAG能够自主决定何时检索和检索什么，从而在处理速度和检索次数上更胜一筹。

案例研究

通过一个具体案例比较了Auto-RAG和Self-RAG在处理多跳问题时的不同表现。 picture.image

这些结果证明了Auto-RAG作为一种自主迭代检索模型的有效性和实用性，特别是在处理复杂问题和动态调整检索策略方面的能力。

编者简介

致Great,中国人民大学硕士，多次获得国内外算法赛奖项，目前在中科院计算所工作，目前负责大模型训练优化以及RAG框架开发相关工作。

个人主页： https://github.com/yanqiangmiffy

项目链接： https://github.com/gomate-community/GoMate