ReSearch: 用强化学习让LLM 学会边推理边搜索

大模型向量数据库机器学习

提纲

1 简介

2 背景

3 Research

3.1 强化学习


3.2 推理链设计


3.3 奖励机制

4 实验

5 讨论

参考文献

1 简介

在大语言模型(LLM)飞速发展的今天,“推理能力” 和 “工具使用能力” 已成为衡量模型智能的核心指标。然而,面对需要多步检索的复杂问题时,LLM 往往难以自主规划搜索步骤,要么依赖人工设计的提示词,要么因缺乏有效反馈而陷入低效推理。基于此,研究人员

提出了一种创新框架Research,让 LLM 通过强化学习自主学会 “边推理边搜索”,无需任何推理步骤的标注数据,就在多跳问答任务中实现了显著性能提升。

(友情提醒一下:Research跟Search-R1相近,看到前一篇博客并且很赶时间的朋友可以不用看这一篇了。Search-R1:让 LLM 学会 “边搜边想”,强化学习赋能检索增强推理

2 背景

近年来,LLM 在推理任务中展现出惊人进步,从OpenAI-o1到 DeepSeek-R1,通过 思维链(CoT)”等技术,模型能逐步拆解问题并推导答案。但在需要外部知识的复杂任务中,推理与搜索的结合仍存在瓶颈:
  • 依赖人工设计,现有多步检索(如 RAG)多依赖手动提示或固定规则(如 “每步必搜”),缺乏灵活性,难以适配不同问题复杂度。

  • 标注成本高昂,若要为 LLM 标注 “何时搜索、搜什么” 的推理步骤,需大量人力,且难以覆盖多样化场景。

  • 反馈机制缺失,模型无法从最终答案的正确性中学习如何优化中间搜索步骤,导致瞎搜或漏搜等问题频发。

    3 Research: 让推理跟搜索无缝协作


ReSearch的核心思路很简单,不教模型该怎么搜,而是让它从结果中学习 “如何搜得更好”。

picture.image

3.1 强化学习

ReSearch 采用GRPO算法,无需单独训练评价模型,而是通过一组推理结果的相对优劣来优化策略。


损失mark机制: 在计算损失过程,仅对模型生成的 “思考文本” 和 “搜索查询” 计算损失,这就需要mask掉检索结果(避免模型死记硬背检索内容)。

3.2 推理链设计

在 ReSearch 中,推理链不再是单纯的文本思考,而是融合了思考过程、搜索查询、检索结果的闭环。文中特定了base跟Instruct模型分别定制了对应的prompt模版。
  • 思考文本: 用 标记,记录模型的推理过程。
  • 搜索查询: 用 标记,由思考过程触发,记录需要检索的query。
  • 检索结果: 用 标记,由搜索工具返回,记录搜索的结果,作为后续推理的依据。
  • 最终结果: 用标记,记录推理的最终结果

这种结构让模型能根据思考决定 “何时搜、搜什么”,再根据检索结果调整推理方向,形成 “推理→搜索→再推理” 的动态循环。

3.3 奖励机制

ReSearch 无需标注推理步骤,仅通过最终答案质量和格式规范性给予奖励。

这种 “结果导向” 的奖励机制,让模型在试错中自主优化搜索策略。当第一次搜索结果无关时,就会修正查询词重新搜索。

  • 答案奖励,用预测答案与真实答案的 F1 分数衡量,分数越高奖励越高。

  • 格式奖励,若答案格式正确但答案错误,给予少量奖励(0.1),鼓励模型遵守输出规范。

    4 实验


研究人员利用

Qwen2.5的4个不同模型(7B&32B, base&Instruct)在多跳问答数据上进行了实验,模型只在MuSiQue上训练,然后在多个数据集上评测。

(1)在 HotpotQA、2Wiki、MuSiQue、Bamboogle 四个数据集上,ReSearch 大幅超越基线方法(如 Naive RAG、IRCoT)。

更关键的是,模型仅在 MuSiQue 上训练,却能在其他数据集上表现优异,证明了其强大的泛化能力。同时发现相比base模型,Instruct模型上表现更为优异。

  • Qwen2.5-7B-Instruct: 平均Exact Match(EM)提升 15.8%,LLM-as-a-Judge评分提升 17.6%。
  • Qwen2.5-32B-Instruct: 平均Exact Match(EM)提升 14.82%,LLM-as-a-Judge评分提升 15.46%

picture.image

(2) 通过分析训练曲线,能清晰看到模型的进步:
  • 搜索次数增加,从初始的平均 1-2 次搜索,逐步增加到 3-4 次,说明模型学会了用多步搜索应对复杂问题。

  • 响应长度变长,推理文本的 token 数增加,表明模型在更深入地拆解问题。

  • 奖励稳步上升,训练和验证奖励在 20 步内快速提升,随后逐渐收敛,证明强化学习有效引导了策略优化。

    5 讨论


ReSearch 的成功源于三个核心优势,

  • 无需标注推理步骤,仅用最终答案作为反馈,避开了高昂的标注成本。

  • 推理与搜索深度融合,搜索不再是独立工具,而是推理链的有机部分,让决策更灵活。

  • 自然涌现高级能力,训练中自动学会反思、修正搜索策略,无需预设规则。

    从时间节点上看,ReSearch跟Search-R1都是今年3月份的文章,思路跟做法都相近,这也凸显了当前智能化RAG的一个方向。更多想法可以参考Search-R1:让 LLM 学会 “边搜边想”,强化学习赋能检索增强推理

参考文献

1 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

https://arxiv.org/abs/2503.19470

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论