提纲
1 简介
2 Search-R1
2.1 融合搜索引起的RL框架:让检索成为推理的“自然步骤”
2.2 多轮交互流程:像人类一样“按需检索”
2.3 简单有效的奖励机制:用“结果”引导“过程”
3 实验
4 实验结论
5 讨论
参考文献
1 简介
在大语言模型的能力边界不断拓展的今天,一个关键挑战始终存在:如何让模型既能精准推理,又能高效利用外部知识?传统的检索增强生成(RAG)或工具调用方法往往局限于固定流程或依赖大量标注数据,难以让模型自主掌握 “何时搜?搜什么?如何用?” 的技巧。于是在今年游研究人员提出了Search-R1(Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning),提出了一种全新的强化学习(RL)框架,让 LLM 学会在推理过程中 “自主调用搜索引擎”,实现了推理与检索的深度协同。通过实验发现,Search-R1在多个QA数据集上达到了20%(Qwen2.5-3B)跟41%(Qwen2.5-7B)的提升。
2 Search-R1
Search-R1 的核心思路是:将搜索引擎视为环境的一部分,通过 RL 训练 LLM 在推理过程中自主生成搜索查询、利用检索结果、迭代优化答案,最终实现 “推理+检索” 的无缝协同。相比传统的大模型框架,它在生成的response的过程中引入搜索引擎,由p(y|x)变成了p(y|x+search engine)。
# 模型prompt如下
Answer the given question. You must conduct reasoning inside <think> and </think> first every time you get new information.
After reasoning, if you find you lack some knowledge, you can call a search engine by <search> query </search>, and it will return the top searched results between and . You can search as many times as you want.
If you find no further external knowledge needed, you can directly provide the answer inside <answer> and </answer> without detailed illustrations.
For example, <answer> xxx </answer>. Question: question.
2.1 融合搜索引起的RL框架:让检索成为推理的“自然步骤”
传统 RL 框架中,LLM 的输出仅依赖自身生成。而 Search-R1 将搜索引擎纳入环境,允许模型生成的轨迹中穿插推理步骤和检索操作。
-
模型生成推理内容时,若需外部知识,会用查询内容标记主动调用搜索引擎;
-
搜索引擎返回的结果会被包裹在...中,作为后续推理的上下文;
-
最终答案用...标记,形成 “推理 - 检索 - 再推理” 的闭环。
为避免检索内容干扰模型训练,Search-R1 提出检索 token 掩码机制。训练时仅对模型自身生成的 token(推理步骤、查询)计算损失,忽略检索到的外部内容,确保优化方向聚焦于 “如何有效调用检索” 而非 “记忆检索内容”。
2.2 多轮交互流程:像人类一样“按需检索”
Search-R1 的推理过程类似人类解决问题的逻辑,遇到不确定的信息时主动查资料,根据新信息调整思路,直到得出答案。这种设计让模型能根据推理进度动态调整检索策略,例如多轮问答中,每一步推理都可触发新的检索,避免 “一次检索定终身” 的局限。
-
模型先基于问题进行初步推理(用<|FunctionCallBegin|>...<|FunctionCallEnd|>标记);
-
若发现知识缺口,生成搜索查询(...),调用搜索引擎;
-
结合检索结果(...)继续推理,必要时重复检索;
-
完成推理后输出最终答案(...)。
2.3 简单有效的奖励机制:用“结果”引导“过程”
不同于复杂的过程奖励,Search-R1 采用基于最终结果的奖励函数,仅根据答案的正确性(精确匹配EM分数)给予奖励。这种设计的优势在于:
-
无需标注 “检索质量” 等中间过程,降低数据依赖;
-
让模型自主学习 “哪些检索行为能导向正确答案”,更符合实际应用场景。
3 实验
研究人员采用了Qwen2.5的3B/7B两种模型参数规模,base/Instruct两种模型类型作为基底模型,设置了3个不同的control组跟Search-R1进行对比。
-
推理不引入搜索引擎
-
推理时引入传统RAG
-
SFT但不引入搜索引擎
4 实验结论
Search-R1 性能碾压基线,提升幅度显著。
Qwen2.5-7B在 7 个数据集上平均准确率比最佳 RAG 基线高 41%,在多轮 QA 任务(如 Bamboogle)上提升尤为明显(从 20.8%→43.2%);Qwen2.5-3B平均提升 20%,证明该框架在中小模型上同样有效;即使与 R1相比,Search-R1 因引入外部知识,在知识密集型任务上优势显著(如 NQ 任务从 29.7%→48.0%)。
通过消融实验验证了检索token掩码策略,不同RL方法跟模型类型的影响。
- 检索 token 掩码:有无掩码的性能差距达 8.8%(平均准确率 43.1% vs 34.3%),证明其对训练稳定性的重要性;
- RL 方法选择:PPO 比 GRPO 训练更稳定(GRPO 易出现 “奖励崩塌”),但最终性能接近;
-
模型类型影响:指令微调模型(Instruct)初期收敛更快,但经过充分训练后,基础模型(Base)可达到相近性能,说明 RL 能弥补指令微调的优势。
模型学会了 “聪明检索”
通过分析训练过程发现,模型的行为会随训练优化。早期阶段:减少冗余表达,专注核心推理。后期阶段:有效检索次数增加,响应长度因融入检索内容而变长,且准确率同步提升。
5 讨论
Search-R1 的突破在于:用 RL 打通了 “推理-检索” 的协同链路,让 LLM 从 “被动使用检索结果” 变为 “主动规划检索策略”。其核心优势是:
-
无需大量标注的交互轨迹,仅用最终答案即可训练;
-
检索与推理深度融合,适应动态知识需求;
-
兼容不同 RL 算法和模型规模,实用性强。
相比传统RAG,需要把检索内容喂LLM嘴里,Search-R1更加智能化,主要选择何时去搜索+如何搜索+如何使用搜索内容,缓解了以前的很多遗留问题,也是一种更加合理的形态。
参考文献
1 Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning