Search-R1:让 LLM 学会 “边搜边想”,强化学习赋能检索增强推理

大模型向量数据库云通信

提纲

1 简介

2 Search-R1

2.1 融合搜索引起的RL框架:让检索成为推理的“自然步骤”


2.2 多轮交互流程:像人类一样“按需检索”


2.3 简单有效的奖励机制:用“结果”引导“过程”

3 实验

4 实验结论

5 讨论

参考文献

1 简介

在大语言模型的能力边界不断拓展的今天,一个关键挑战始终存在:如何让模型既能精准推理,又能高效利用外部知识?传统的检索增强生成(RAG)或工具调用方法往往局限于固定流程或依赖大量标注数据,难以让模型自主掌握 “何时搜?搜什么?如何用?” 的技巧。于是在今年游研究人员提出了Search-R1(Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning),提出了一种全新的强化学习(RL)框架,让 LLM 学会在推理过程中 “自主调用搜索引擎”,实现了推理与检索的深度协同。通过实验发现,Search-R1在多个QA数据集上达到了20%(Qwen2.5-3B)跟41%(Qwen2.5-7B)的提升。

2 Search-R1

Search-R1 的核心思路是:将搜索引擎视为环境的一部分,通过 RL 训练 LLM 在推理过程中自主生成搜索查询、利用检索结果、迭代优化答案,最终实现 “推理+检索” 的无缝协同。相比传统的大模型框架,它在生成的response的过程中引入搜索引擎,由p(y|x)变成了p(y|x+search engine)。

picture.image

  
# 模型prompt如下  
Answer the given question. You must conduct reasoning inside <think> and </think> first every time you get new information.   
After reasoning, if you find you lack some knowledge, you can call a search engine by <search> query </search>, and it will return the top searched results between and . You can search as many times as you want.   
If you find no further external knowledge needed, you can directly provide the answer inside <answer> and </answer> without detailed illustrations.   
For example, <answer> xxx </answer>. Question: question.

2.1 融合搜索引起的RL框架:让检索成为推理的“自然步骤”

传统 RL 框架中,LLM 的输出仅依赖自身生成。而 Search-R1 将搜索引擎纳入环境,允许模型生成的轨迹中穿插推理步骤和检索操作。
  • 模型生成推理内容时,若需外部知识,会用查询内容标记主动调用搜索引擎;

  • 搜索引擎返回的结果会被包裹在...中,作为后续推理的上下文;

  • 最终答案用...标记,形成 “推理 - 检索 - 再推理” 的闭环。

    为避免检索内容干扰模型训练,Search-R1 提出检索 token 掩码机制。训练时仅对模型自身生成的 token(推理步骤、查询)计算损失,忽略检索到的外部内容,确保优化方向聚焦于 “如何有效调用检索” 而非 “记忆检索内容”。

    2.2 多轮交互流程:像人类一样“按需检索”


Search-R1 的推理过程类似人类解决问题的逻辑,遇到不确定的信息时主动查资料,根据新信息调整思路,直到得出答案。这种设计让模型能根据推理进度动态调整检索策略,例如多轮问答中,每一步推理都可触发新的检索,避免 “一次检索定终身” 的局限。
  • 模型先基于问题进行初步推理(用<|FunctionCallBegin|>...<|FunctionCallEnd|>标记);

  • 若发现知识缺口,生成搜索查询(...),调用搜索引擎;

  • 结合检索结果(...)继续推理,必要时重复检索;

  • 完成推理后输出最终答案(...)。

    2.3 简单有效的奖励机制:用“结果”引导“过程”


不同于复杂的过程奖励,Search-R1 采用基于最终结果的奖励函数,仅根据答案的正确性(精确匹配EM分数)给予奖励。这种设计的优势在于:
  • 无需标注 “检索质量” 等中间过程,降低数据依赖;

  • 让模型自主学习 “哪些检索行为能导向正确答案”,更符合实际应用场景。

    3 实验


研究人员采用了Qwen2.5的3B/7B两种模型参数规模,base/Instruct两种模型类型作为基底模型,设置了3个不同的control组跟Search-R1进行对比。

  • 推理不引入搜索引擎

  • 推理时引入传统RAG

  • SFT但不引入搜索引擎

    4 实验结论


Search-R1 性能碾压基线,提升幅度显著。

Qwen2.5-7B在 7 个数据集上平均准确率比最佳 RAG 基线高 41%,在多轮 QA 任务(如 Bamboogle)上提升尤为明显(从 20.8%→43.2%);Qwen2.5-3B平均提升 20%,证明该框架在中小模型上同样有效;即使与 R1相比,Search-R1 因引入外部知识,在知识密集型任务上优势显著(如 NQ 任务从 29.7%→48.0%)。

picture.image

通过消融实验验证了检索token掩码策略,不同RL方法跟模型类型的影响。
  • 检索 token 掩码:有无掩码的性能差距达 8.8%(平均准确率 43.1% vs 34.3%),证明其对训练稳定性的重要性;

picture.image

  • RL 方法选择:PPO 比 GRPO 训练更稳定(GRPO 易出现 “奖励崩塌”),但最终性能接近;

picture.image

  • 模型类型影响:指令微调模型(Instruct)初期收敛更快,但经过充分训练后,基础模型(Base)可达到相近性能,说明 RL 能弥补指令微调的优势。

    模型学会了 “聪明检索”

    通过分析训练过程发现,模型的行为会随训练优化。早期阶段:减少冗余表达,专注核心推理。后期阶段:有效检索次数增加,响应长度因融入检索内容而变长,且准确率同步提升。

picture.image

5 讨论

Search-R1 的突破在于:用 RL 打通了 “推理-检索” 的协同链路,让 LLM 从 “被动使用检索结果” 变为 “主动规划检索策略”。其核心优势是:
  • 无需大量标注的交互轨迹,仅用最终答案即可训练;

  • 检索与推理深度融合,适应动态知识需求;

  • 兼容不同 RL 算法和模型规模,实用性强。

    相比传统RAG,需要把检索内容喂LLM嘴里,Search-R1更加智能化,主要选择何时去搜索+如何搜索+如何使用搜索内容,缓解了以前的很多遗留问题,也是一种更加合理的形态。

参考文献

1 Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

https://arxiv.org/pdf/2503.09516

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论