提纲
1 简介
2 背景
3 Research
3.1 强化学习
3.2 推理链设计
3.3 奖励机制
4 实验
5 讨论
参考文献
1 简介
在大语言模型(LLM)飞速发展的今天,“推理能力” 和 “工具使用能力” 已成为衡量模型智能的核心指标。然而,面对需要多步检索的复杂问题时,LLM 往往难以自主规划搜索步骤,要么依赖人工设计的提示词,要么因缺乏有效反馈而陷入低效推理。基于此,研究人员
提出了一种创新框架Research,让 LLM 通过强化学习自主学会 “边推理边搜索”,无需任何推理步骤的标注数据,就在多跳问答任务中实现了显著性能提升。
(友情提醒一下:Research跟Search-R1相近,看到前一篇博客并且很赶时间的朋友可以不用看这一篇了。Search-R1:让 LLM 学会 “边搜边想”,强化学习赋能检索增强推理)
2 背景
近年来,LLM 在推理任务中展现出惊人进步,从OpenAI-o1到 DeepSeek-R1,通过 思维链(CoT)”等技术,模型能逐步拆解问题并推导答案。但在需要外部知识的复杂任务中,推理与搜索的结合仍存在瓶颈:
-
依赖人工设计,现有多步检索(如 RAG)多依赖手动提示或固定规则(如 “每步必搜”),缺乏灵活性,难以适配不同问题复杂度。
-
标注成本高昂,若要为 LLM 标注 “何时搜索、搜什么” 的推理步骤,需大量人力,且难以覆盖多样化场景。
-
反馈机制缺失,模型无法从最终答案的正确性中学习如何优化中间搜索步骤,导致瞎搜或漏搜等问题频发。
3 Research: 让推理跟搜索无缝协作
ReSearch的核心思路很简单,不教模型该怎么搜,而是让它从结果中学习 “如何搜得更好”。
3.1 强化学习
ReSearch 采用GRPO算法,无需单独训练评价模型,而是通过一组推理结果的相对优劣来优化策略。
损失mark机制: 在计算损失过程,仅对模型生成的 “思考文本” 和 “搜索查询” 计算损失,这就需要mask掉检索结果(避免模型死记硬背检索内容)。
3.2 推理链设计
在 ReSearch 中,推理链不再是单纯的文本思考,而是融合了思考过程、搜索查询、检索结果的闭环。文中特定了base跟Instruct模型分别定制了对应的prompt模版。
- 思考文本: 用 标记,记录模型的推理过程。
- 搜索查询: 用 标记,由思考过程触发,记录需要检索的query。
- 检索结果: 用 标记,由搜索工具返回,记录搜索的结果,作为后续推理的依据。
- 最终结果: 用标记,记录推理的最终结果
这种结构让模型能根据思考决定 “何时搜、搜什么”,再根据检索结果调整推理方向,形成 “推理→搜索→再推理” 的动态循环。
3.3 奖励机制
ReSearch 无需标注推理步骤,仅通过最终答案质量和格式规范性给予奖励。
这种 “结果导向” 的奖励机制,让模型在试错中自主优化搜索策略。当第一次搜索结果无关时,就会修正查询词重新搜索。
-
答案奖励,用预测答案与真实答案的 F1 分数衡量,分数越高奖励越高。
-
格式奖励,若答案格式正确但答案错误,给予少量奖励(0.1),鼓励模型遵守输出规范。
4 实验
研究人员利用
Qwen2.5的4个不同模型(7B&32B, base&Instruct)在多跳问答数据上进行了实验,模型只在MuSiQue上训练,然后在多个数据集上评测。
(1)在 HotpotQA、2Wiki、MuSiQue、Bamboogle 四个数据集上,ReSearch 大幅超越基线方法(如 Naive RAG、IRCoT)。
更关键的是,模型仅在 MuSiQue 上训练,却能在其他数据集上表现优异,证明了其强大的泛化能力。同时发现相比base模型,Instruct模型上表现更为优异。
- Qwen2.5-7B-Instruct: 平均Exact Match(EM)提升 15.8%,LLM-as-a-Judge评分提升 17.6%。
- Qwen2.5-32B-Instruct: 平均Exact Match(EM)提升 14.82%,LLM-as-a-Judge评分提升 15.46%
(2) 通过分析训练曲线,能清晰看到模型的进步:
-
搜索次数增加,从初始的平均 1-2 次搜索,逐步增加到 3-4 次,说明模型学会了用多步搜索应对复杂问题。
-
响应长度变长,推理文本的 token 数增加,表明模型在更深入地拆解问题。
-
奖励稳步上升,训练和验证奖励在 20 步内快速提升,随后逐渐收敛,证明强化学习有效引导了策略优化。
5 讨论
ReSearch 的成功源于三个核心优势,
-
无需标注推理步骤,仅用最终答案作为反馈,避开了高昂的标注成本。
-
推理与搜索深度融合,搜索不再是独立工具,而是推理链的有机部分,让决策更灵活。
-
自然涌现高级能力,训练中自动学会反思、修正搜索策略,无需预设规则。
从时间节点上看,ReSearch跟Search-R1都是今年3月份的文章,思路跟做法都相近,这也凸显了当前智能化RAG的一个方向。更多想法可以参考Search-R1:让 LLM 学会 “边搜边想”,强化学习赋能检索增强推理
参考文献
1 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning