ReSearch: 用强化学习让LLM 学会边推理边搜索 - 文章 - 开发者社区

提纲

1 简介

2 背景

3 Research

3.1 强化学习


3.2 推理链设计


3.3 奖励机制

4 实验

5 讨论

参考文献

1 简介

在大语言模型（LLM）飞速发展的今天，“推理能力” 和 “工具使用能力” 已成为衡量模型智能的核心指标。然而，面对需要多步检索的复杂问题时，LLM 往往难以自主规划搜索步骤，要么依赖人工设计的提示词，要么因缺乏有效反馈而陷入低效推理。基于此，研究人员

提出了一种创新框架Research，让 LLM 通过强化学习自主学会 “边推理边搜索”，无需任何推理步骤的标注数据，就在多跳问答任务中实现了显著性能提升。

（友情提醒一下：Research跟Search-R1相近，看到前一篇博客并且很赶时间的朋友可以不用看这一篇了。Search-R1：让 LLM 学会 “边搜边想”，强化学习赋能检索增强推理）

近年来，LLM 在推理任务中展现出惊人进步，从OpenAI-o1到 DeepSeek-R1，通过 思维链（CoT）”等技术，模型能逐步拆解问题并推导答案。但在需要外部知识的复杂任务中，推理与搜索的结合仍存在瓶颈：

ReSearch的核心思路很简单，不教模型该怎么搜，而是让它从结果中学习 “如何搜得更好”。

picture.image

ReSearch 采用GRPO算法，无需单独训练评价模型，而是通过一组推理结果的相对优劣来优化策略。


损失mark机制: 在计算损失过程，仅对模型生成的 “思考文本” 和 “搜索查询” 计算损失，这就需要mask掉检索结果（避免模型死记硬背检索内容）。

在 ReSearch 中，推理链不再是单纯的文本思考，而是融合了思考过程、搜索查询、检索结果的闭环。文中特定了base跟Instruct模型分别定制了对应的prompt模版。

这种结构让模型能根据思考决定 “何时搜、搜什么”，再根据检索结果调整推理方向，形成 “推理→搜索→再推理” 的动态循环。

ReSearch 无需标注推理步骤，仅通过最终答案质量和格式规范性给予奖励。

这种 “结果导向” 的奖励机制，让模型在试错中自主优化搜索策略。当第一次搜索结果无关时，就会修正查询词重新搜索。

研究人员利用

Qwen2.5的4个不同模型（7B&32B， base&Instruct）在多跳问答数据上进行了实验，模型只在MuSiQue上训练，然后在多个数据集上评测。

（1）在 HotpotQA、2Wiki、MuSiQue、Bamboogle 四个数据集上，ReSearch 大幅超越基线方法（如 Naive RAG、IRCoT）。

更关键的是，模型仅在 MuSiQue 上训练，却能在其他数据集上表现优异，证明了其强大的泛化能力。同时发现相比base模型，Instruct模型上表现更为优异。

picture.image

(2) 通过分析训练曲线，能清晰看到模型的进步：

ReSearch 的成功源于三个核心优势，

无需标注推理步骤，仅用最终答案作为反馈，避开了高昂的标注成本。
推理与搜索深度融合，搜索不再是独立工具，而是推理链的有机部分，让决策更灵活。
自然涌现高级能力，训练中自动学会反思、修正搜索策略，无需预设规则。

从时间节点上看，ReSearch跟Search-R1都是今年3月份的文章，思路跟做法都相近，这也凸显了当前智能化RAG的一个方向。更多想法可以参考Search-R1：让 LLM 学会 “边搜边想”，强化学习赋能检索增强推理

参考文献

1 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning