当RAG遇上了推理：一文看懂 DeepResearch 背后的灵魂 - 文章 - 开发者社区

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

发布时间：2025年07月12日

RAG

picture.image

如遇无法添加，请+ vx: iamxxn886

picture.image

RAG与大模型推理

大型语言模型正在重塑多个领域，展现出非凡能力，但其应用的发展仍受制于两大瓶颈：

第一，知识以静态参数的形式存储导致频繁出现幻觉
第二，应对复杂现实问题时的缺乏推理能力

这两大瓶颈互为因果，知识缺失会阻碍推理，而推理缺陷又会浪费已有知识。

为了突破这两大瓶颈，出现了两大技术路线：

一是通过检索增强生成（RAG）引入外部知识
二是提升模型内在推理能力

随着大模型应用的深入，大家逐渐开始探索检索与推理的融合，早期工作呈现两种单向增强模式：

推理增强型RAG（Reasoningenhanced RAG）在流程中注入推理环节
知识增强型推理（RAGenhanced Reasoning）则为LLM提供事实锚点。

目前的方法仍受限于静态的"检索-推理"（Retrieval-Then-Reasoning, RTR）框架，存在三大问题：

（1）检索质量不可控，预取知识常与动态推理需求脱节；
（2）错误知识会污染推理过程；
（3）系统缺乏自适应能力，难以应对开放域问答等场景。

picture.image

如上图所示，当前研究正转向"协同检索推理"新范式（Synergized Retrieval and Reasoning），实现知识检索与逻辑推理的动态迭代。

OpenAI等机构推出的"深度研究（DeepResearch）"系统正是该范式下的典型应用，通过智能体协调多轮搜索，结合推理深度解析内容。

picture.image

今天介绍的这篇文章，将分别从推理增强型RAG （Reasoningenhanced RAG）和知识增强型推理 （RAGenhanced Reasoning）两个角度带大家一起探究"协同检索推理 "新范式（Synergized Retrieval and Reasoning）。

推理增强型RAG(Reasoning enhanced RAG)

传统RAG方案先检索文档，再将结果与原始问题简单拼接来生成答案，往往难以支撑需要深度推理的复杂任务。

新一代方法在检索、整合、生成全流程中融入推理能力，精准锁定关键信息，有效减少幻觉，显著提升回答质量。

2.1 检索优化

检索优化通过智能推理提升结果质量，现有方法主要分为三大方向：

(1) 智能查询重构（Reasoning-Aware Query Reformulation）
(2) 策略化检索规划（Retrieval Strategy and Planning）
(3) 检索模型升级（Retrieval Model Enhancement）

2.1.1 智能查询重构

智能查询重构是指通过优化原始查询精准获取推理上下文。

一种方法是采用查询分解技术，将复杂问题拆解为简单子问；
另一种方法是通过查询重写，将模糊表述转化为精准指令，部分研究结合强化学习训练改写模型；
第三种方法是运用思维链推理扩展查询语义。

2.1.2 策略化检索规划

检索方案包含两类：

前瞻式规划通过推理模型预先生成完整检索路径，如：

PAR-RAG 运用思维链规避局部最优
LPKG 基于知识图谱微调模型

自适应决策则实时判断检索需求，如：

FIND 和自适应 RAG 通过智能分类减少冗余检索

2.1.3 检索模型升级

升级路径分两种：

知识结构化方案，如：

GNN-RAG 用图神经网络实现隐式推理
RuleRAG 通过符号规则保障逻辑一致

显式推理方案，将思维链融入查询，优化多跳问答的知识召回。

2.2 集成增强（Integration Enhancement）

集成增强通过深度推理实现异构证据的融合，屏蔽无关信息干扰。

可分为两大方向：

(1) 相关性精筛 (Relevance assessment)
(2) 信息熔炼(Information synthesis)

2.2.1 相关性精筛

通过多维度推理精准评估检索内容的相关性。

采用专家评估机制筛选高价值证据；
结合NLI模型过滤与对抗训练，使模型具备噪声免疫力。

2.2.2 信息熔炼

核心在于多源信息的有机融合，比如：

BeamAggR 首创概率组合推理框架；
DualRAG 实现查询推理与知识图谱的协同进化；
CRP-RAG 构建动态推理网络，实现知识路径的智能优选。

2.3 生成增强

获取了检索上下文，传统RAG仍可能因缺乏推理而生成失真内容。为此，生成过程中的推理通过两大核心策略实现优化：

(1) 上下文感知合成（Context-aware synthesis）
(2) 证据锚定控制(Grounded generation control)

2.3.1 上下文感知合成

上下文感知合成可以在保持输出相关性的同时有效降噪。

选择性上下文机制会依据任务需求对内容智能筛选与加权：

Open-RAG 采用稀疏专家混合动态调配知识模块；
RARE 则通过提示工程注入领域知识，促使模型优先调用外部上下文而非依赖记忆。

推理路径构建方面，可以通过段落相关性逐级对比生成解释，引导模型精准推导；也可以采用证据链式验证，搭建结构化推理框架。

2.3.2 证据锚定控制

证据锚定控制通过三重保障确保生成内容扎根于检索证据：

事实验证：Self-RAG（Asai等，2023）在解码时植入反思标记实现实时纠偏；
引用生成：RARR在保持行文流畅的同时精准标注来源；
可信推理：确保每个推理步骤严格遵循检索证据，避免引入未经验证的内容。代表性工作包括：

TRACE 通过构建知识图谱形成连贯证据链
AlignRAG 采用批判对齐机制优化推理路径

知识增强型推理（RAG enhanced Reasoning）

3.1 外部知识检索

外部知识检索通过整合网页内容、数据库或工具，填补知识缺口。定向检索提升事实准确性，让语言模型基于外部证据可靠解答复杂问题。

3.1.1 知识库

知识库（KB）存储算术、常识等结构化知识，检索策略因任务而异。

问答推理中，AlignRAG、MultiHop-RAG等从通用知识库提取关联事实，强化逻辑链条；
数学推理采用Premise-Retrieval等工具调用定理库引理；
法律推理如CASEGPT通过判例库实现类比推演；
代码生成则依赖CodeRAG等从仓库获取语法正确的代码片段。

3.1.2 网络检索

动态网络内容（新闻/社交媒体）为推理注入时效性。

事实核查类工具通过多源验证提升可信度；
智能问答系统迭代优化网络素材，契合当前搜索智能体趋势；
医疗诊断则精准抓取文献实现专业决策。

3.1.3 工具调用

外部工具显著增强推理能力：

问答场景调用计算器/API确保数值精准
科研建模整合Wolfram Alpha等符号计算工具
数学推理自主使用计算器验证结果
代码生成通过文档库保证语法合规性

3.2 上下文检索

上下文检索通过调用模型的内部经验或从训练数据中提取的示例，为推理提供引导。

这种机制不仅提供相关范例，还能帮助模型学习推理模式，从而在处理新问题时提升准确性与逻辑性。

3.2.1 先验知识（Prior Experience）

先验知识是指模型内部存储的过往交互或成功策略，其检索方式因任务而异。例如：

在机器人路径规划等决策任务中，RAHL 和RA-DT 会调用历史决策和强化信号进行序列推理。
对于交互式任务，JARVIS1、RAP 和 EM-LLM 则动态调取多模态交互记录和对话历史，实现个性化自适应推理。
在逻辑推理领域，CoPS 通过检索结构化案例（如医疗和法律判例），为专业场景提供可靠的逻辑支持。

3.2.2 示例和训练数据（Example or Training Data）

与依赖历史经验不同，示例驱动的方法直接从示例或训练数据中提取外部样本。例如，

RE4 利用标注句对增强文本关系识别；
OpenRAG、UPRISE、MoD和Dr.ICL则通过精准匹配问答样本提升泛化能力。
代码生成领域，PERC会基于语义/结构相似性，从HumanEval等数据集中检索伪代码模板，确保生成代码的准确性。

协同式检索增强推理（Synergized Retrieval and Reasoning）

开放域问答和科学发现等真实场景中，往往需要新证据与推理能力相互促进的迭代过程。

单次检索可能信息不足，单轮推理易遗漏关键洞见。通过多轮交互式检索推理协同，系统能持续优化信息检索的相关性，并深化对原始问题的理解。

现有应用主要聚焦两个互补维度：

注重结构化多步推理的推理工作流，
研究智能体与环境互动、彼此协同的智能体编排机制。

4.1 推理范式演进

推理范式主要分为链式、树状和图状三大类，展现了从线性推演到多路径探索的进化轨迹。

4.1.1 链式推理（Chain-based）

思维链（CoT）开创了分步线性推理的先河，但纯参数化推理易导致错误累积。

IRCoT和Rat创新性地在推理链中嵌入检索机制。
CoV-RAG通过逐环验证机制确保推理准确性
RAFT和Chain-of-Note则分别采用干扰文档屏蔽和阅读笔记技术来净化上下文信息。

4.1.2 树状推理（Tree-based）

思维树（ToT）架构通过构建多分支推理路径，有效规避了早期决策偏差，在模糊问题诊断和复杂叙事创作中表现突出。

蒙特卡洛派生的AirRAG等方案则引入概率搜索策略，配合自校验机制和动态检索优化，显著提升了推理可靠性。

4.1.3 图状推理（Graph-based）

Walk-on-Graph 把图学习当“探路器”：

PullNet、QA-GNN、GreaseLM 直接上 GNN，层层聚合邻居信息；
SR、LightRAG、StructRAG 则用向量索引、PageRank 等轻量招式，在多跳上下文里“抽丝”般精准召回，为 LLM 奉上量身定制的结构化答案。

Think-on-Graph 图融进 LLM 的推理脉络：

ToG 让模型把知识图谱当“推理乐园”，每步挑实体、选关系，自行铺出一条通向答案的小径；
Graph-CoT 设计“推理—图交互—执行”三步舞曲，KGP 先搭文档级图谱，二者都让 LLM 智能体在全局视野里逐段跳跃。
GraphReader每一步都把子图抓回来、证据钉牢，边推理边校准，让答案站得更稳。

4.2 智能体编排

基于智能体架构研究，将现有工作划分为单智能体与多智能体两大范式。

4.2.1 单智能体

单智能体系统通过将知识检索深度融入LLM推理循环，实现了动态信息获取与主动证据搜寻的闭环机制。

ReAct框架及其衍生技术开创性地采用"推理-工具交互"交替策略。
相较之下，Self-Ask 和IRCoT 通过递归子问题求解实现检索推理交织。
DeepRAG 与Self-RAG 则赋予模型自省式检索决策能力。

相比只依赖提示或静态检索器，Toolformer 和 INTERS 通过监督微调（SFT）在基于指令或合成数据集上训练大语言模型，交替进行搜索与推理，开辟了一条互补路线。

合成数据生成的目的在于创建大规模、多样化、任务专用的搜索数据集，无需大量人工标注。

而基于指令的数据重构则把现有数据集改写成指令格式，以提升模型泛化能力并贴合类人推理。INTERS就是典型：它用 43 个原始数据集和人工编写的模板，拼出涵盖 20 个任务的 SFT 数据集。

强化学习（RL）激励型方法通过奖励信号优化答案质量，指导智能体“搜什么、怎么整合证据、何时收工”，专攻复杂知识密集型任务（即“深度研究”难题）。如：

WebGPT 和 RAG-RL 用事实正确度或人类偏好来奖励输出，以提升推理忠实度。更近的工作直接面向动态环境（实时网页搜索、本地工具），训练智能体在嘈杂现实里探索、反思、自纠。例如 Search-R1 学会在推理中生成

4.2.2 多智能体协同

多智能体系统呈现两大演进方向：

分散式架构充分发挥角色化智能体的专业优势，如：分区检索系统、Collab-RAG 的能力分工机制、MDocAgent组建图文处理团队、Agentic reasoning则构建起搜索-计算-推理的智能体联邦。
集中式架构以分层管控见长：HM-RAG 采用"分解-检索-决策"三级流水线；Chain of Agents 实现长上下文分层处理；以及动态路由机制。

未来展望

协同RAG推理系统的未来研究将聚焦于提升推理与检索能力，以应对现实场景中对精准度、效率、可信度及用户适配的严苛要求。

5.1 推理能力

5.1.1 推理效率

协同RAG-推理系统虽擅长复杂推理，但迭代检索和多步推理循环会导致显著延迟。例如，实际场景中一次深度研究查询可能耗时超10分钟。

未来研究可通过潜在推理方法、思维蒸馏及长度惩罚策略优化推理效率。

此外，量化、剪枝等模型压缩技术有望打造高效轻量级系统。

检索层面需采用预算感知查询规划与记忆缓存机制，配合基于不确定性的自适应检索控制，推动系统突破静态框架，实现动态自我调节的智能推理-检索闭环。

5.1.2 人机协作

知识增强型推理应用（比如文献综述AI应用）具有强个性化特征，用户往往难以精准提问或处理结果，人类可作为高阶智能体提供精细反馈。

未来潜在研究方向：不确定性下的用户意图建模、交互式澄清界面、基于用户画像的自适应推理策略。

这种人机协同范式对开放域/高风险场景的可靠系统构建至关重要。

5.1.3 智能体能力

协同式检索增强推理的核心在于其智能体架构——系统能自主选择推理阶段的工具与检索策略。

要释放其潜力，需重点研发支持动态工具选择、检索规划和工作流编排的智能体框架，这种上下文感知的问题解决能力是应对复杂多样化任务的关键。

5.2 检索能力

5.2.1 多模态检索

现有协同式检索增强推理系统多局限于纯文本任务。但实际应用正迫切需求多模态内容的检索与整合能力。

未来研究需突破传统视觉-文本范式，实现真正的多模态。

这要求强化MLLMs的基础能力，包括跨模态推理与语义理解。通过混合模态思维链推理提升模型智能体能力也至关重要，使其能借助多模态搜索工具与现实交互。同时，亟需开发能统一处理图像、表格及异构文档的多模态检索器。

5.3 检索可信度

协同式检索增强推理系统易受污染知识源的对抗攻击。

确保内容可信度是维持可靠推理的关键。

现有水印等技术虽能提升溯源能力，但需开发更灵活的防御机制以应对LLMs演进与新型攻击。不确定性量化与鲁棒生成研究的有机整合将显著提升系统稳健性。未来还应扩展基准测试场景，建立超越准确率的多元化可信度评估体系。

论文原文: https://arxiv.org/abs/2507.09477
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886