Search-R1：让 LLM 学会 “边搜边想”，强化学习赋能检索增强推理 - 文章 - 开发者社区

提纲

1 简介

2 Search-R1

2.1 融合搜索引起的RL框架：让检索成为推理的“自然步骤”


2.2 多轮交互流程：像人类一样“按需检索”


2.3 简单有效的奖励机制：用“结果”引导“过程”

3 实验

4 实验结论

5 讨论

参考文献

1 简介

在大语言模型的能力边界不断拓展的今天，一个关键挑战始终存在：如何让模型既能精准推理，又能高效利用外部知识？传统的检索增强生成（RAG）或工具调用方法往往局限于固定流程或依赖大量标注数据，难以让模型自主掌握 “何时搜?搜什么?如何用?” 的技巧。于是在今年游研究人员提出了Search-R1(Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning)，提出了一种全新的强化学习（RL）框架，让 LLM 学会在推理过程中 “自主调用搜索引擎”，实现了推理与检索的深度协同。通过实验发现，Search-R1在多个QA数据集上达到了20%（Qwen2.5-3B）跟41%(Qwen2.5-7B)的提升。

2 Search-R1

Search-R1 的核心思路是：将搜索引擎视为环境的一部分，通过 RL 训练 LLM 在推理过程中自主生成搜索查询、利用检索结果、迭代优化答案，最终实现 “推理+检索” 的无缝协同。相比传统的大模型框架，它在生成的response的过程中引入搜索引擎，由p(y|x)变成了p(y|x+search engine)。

picture.image

  
# 模型prompt如下  
Answer the given question. You must conduct reasoning inside <think> and </think> first every time you get new information.   
After reasoning, if you find you lack some knowledge, you can call a search engine by <search> query </search>, and it will return the top searched results between and . You can search as many times as you want.   
If you find no further external knowledge needed, you can directly provide the answer inside <answer> and </answer> without detailed illustrations.   
For example, <answer> xxx </answer>. Question: question.

2.1 融合搜索引起的RL框架：让检索成为推理的“自然步骤”

传统 RL 框架中，LLM 的输出仅依赖自身生成。而 Search-R1 将搜索引擎纳入环境，允许模型生成的轨迹中穿插推理步骤和检索操作。

模型生成推理内容时，若需外部知识，会用查询内容标记主动调用搜索引擎；
搜索引擎返回的结果会被包裹在...中，作为后续推理的上下文；
最终答案用...标记，形成 “推理 - 检索 - 再推理” 的闭环。

为避免检索内容干扰模型训练，Search-R1 提出检索 token 掩码机制。训练时仅对模型自身生成的 token（推理步骤、查询）计算损失，忽略检索到的外部内容，确保优化方向聚焦于 “如何有效调用检索” 而非 “记忆检索内容”。

2.2 多轮交互流程：像人类一样“按需检索”

Search-R1 的推理过程类似人类解决问题的逻辑，遇到不确定的信息时主动查资料，根据新信息调整思路，直到得出答案。这种设计让模型能根据推理进度动态调整检索策略，例如多轮问答中，每一步推理都可触发新的检索，避免 “一次检索定终身” 的局限。

模型先基于问题进行初步推理（用<|FunctionCallBegin|>...<|FunctionCallEnd|>标记）；
若发现知识缺口，生成搜索查询（...），调用搜索引擎；
结合检索结果（...）继续推理，必要时重复检索；
完成推理后输出最终答案（...）。

2.3 简单有效的奖励机制：用“结果”引导“过程”

不同于复杂的过程奖励，Search-R1 采用基于最终结果的奖励函数，仅根据答案的正确性（精确匹配EM分数）给予奖励。这种设计的优势在于：

无需标注 “检索质量” 等中间过程，降低数据依赖；
让模型自主学习 “哪些检索行为能导向正确答案”，更符合实际应用场景。

3 实验

研究人员采用了Qwen2.5的3B/7B两种模型参数规模，base/Instruct两种模型类型作为基底模型，设置了3个不同的control组跟Search-R1进行对比。

推理不引入搜索引擎
推理时引入传统RAG
SFT但不引入搜索引擎

4 实验结论

Search-R1 性能碾压基线，提升幅度显著。

Qwen2.5-7B在 7 个数据集上平均准确率比最佳 RAG 基线高 41%，在多轮 QA 任务（如 Bamboogle）上提升尤为明显（从 20.8%→43.2%）；Qwen2.5-3B平均提升 20%，证明该框架在中小模型上同样有效；即使与 R1相比，Search-R1 因引入外部知识，在知识密集型任务上优势显著（如 NQ 任务从 29.7%→48.0%）。

picture.image

通过消融实验验证了检索token掩码策略，不同RL方法跟模型类型的影响。

检索 token 掩码：有无掩码的性能差距达 8.8%（平均准确率 43.1% vs 34.3%），证明其对训练稳定性的重要性；

picture.image

RL 方法选择：PPO 比 GRPO 训练更稳定（GRPO 易出现 “奖励崩塌”），但最终性能接近；

picture.image

模型类型影响：指令微调模型（Instruct）初期收敛更快，但经过充分训练后，基础模型（Base）可达到相近性能，说明 RL 能弥补指令微调的优势。

模型学会了 “聪明检索”

通过分析训练过程发现，模型的行为会随训练优化。早期阶段：减少冗余表达，专注核心推理。后期阶段：有效检索次数增加，响应长度因融入检索内容而变长，且准确率同步提升。

picture.image

5 讨论

Search-R1 的突破在于：用 RL 打通了 “推理-检索” 的协同链路，让 LLM 从 “被动使用检索结果” 变为 “主动规划检索策略”。其核心优势是：

无需大量标注的交互轨迹，仅用最终答案即可训练；
检索与推理深度融合，适应动态知识需求；
兼容不同 RL 算法和模型规模，实用性强。

相比传统RAG，需要把检索内容喂LLM嘴里，Search-R1更加智能化，主要选择何时去搜索+如何搜索+如何使用搜索内容，缓解了以前的很多遗留问题，也是一种更加合理的形态。

参考文献

1 Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

https://arxiv.org/pdf/2503.09516