© 作者 | 孙爽,宋华彤,蒋锦昊
机构 | 中国人民大学
研究方向 | 大语言模型
本文介绍了面向深度搜索任务的两个工作:(1)R1-Searcher++ 通过强化学习实现大模型对内部与外部知识的动态获取;(2)SimpleDeepSearcher 仅依赖871条高质量数据进行监督微调即实现推理搜索能力的显著提升。
摘要:
大语言模型 (LLM) 虽然功能强大,但其静态的知识库使其容易产生幻觉。检索增强生成 (RAG) 技术通过引入外部信息来缓解这一问题,但现有方法往往成本高昂、泛化能力差。之前我们提出了R1-Searcher ,来激发模型在推理时的自主检索能力,但是经过强化学习(RL)训练后,模型会过度依赖外部搜索引擎。进一步的,我们提出了R1-Searcher-plus ,旨在训练 LLM 以自适应地利用内部和外部知识源,提高检索效率和利用率。R1-Searcher++ 采用两阶段训练策略:首先是监督微调 (SFT) 冷启动阶段,用于初步的格式学习;随后是基于强化学习 (RL) 的动态知识获取阶段。RL 阶段利用基于结果的监督来鼓励探索,设置了鼓励内部知识利用的群组奖励机制 ,和持续吸收检索到的信息的记忆机制 ,在探索的同时持续丰富模型的内部知识。通过有效利用内部知识和外部搜索引擎实现高效的检索和推理。实验证明,R1-Searcher++ 在性能上超越了先前的 RAG 和推理方法,并显著提高了检索效率。
论文题目 :R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
论文链接 : https://arxiv.org/abs/2505.17005
开源链接 :
背景介绍
现有的RAG方法存在时间开销大,依赖基座模型能力,依赖搜索引擎等问题。实际上,人类尝试解决事实性问题时,首先会调用内部知识,仅在意识到信息不足时才会求助搜索引擎。同时,获取外部搜索信息后,人类会将其记忆以便后续使用。对于LLMs而言,在大规模数据上的广泛预训练已赋予它们丰富的内部知识。因此,为模型配备根据需求在内部和外部知识源之间动态切换的能力至关重要。此外,还应鼓励模型将训练过程中遇到的知识内化,逐步丰富内部知识并持续向更高智能进化。
本文提出 R1-Searcher++,这是一种旨在训练大型语言模型自适应利用内部和外部知识的新型框架。我们采用两阶段训练策略:SFT 冷启动 和 动态知识获取强化学习(RL)。第一阶段,通过拒绝采样收集符合格式要求的数据,使用 SFT 进行冷启动训练;第二阶段,基于强化学习(RL)的结果监督进一步训练模型,通过精心设计的奖励机制,引导模型充分调用内部知识,在不确定时调用外部搜索机制。此外,我们引入记忆机制,使模型能够将检索内容转换为内部知识并长期记忆,持续丰富其内部知识库。通过自主探索和及时记忆,该机制使模型能够有效平衡内部推理与外部检索。
核心亮点
- 一个新颖的训练框架 :引入 R1-Searcher++,通过两阶段训练策略(SFT 冷启动和 RL 动态知识获取),教会 LLM 自适应地利用内部和外部知识。
- 动态知识获取机制 :鼓励模型积极利用其内部知识,同时高效地记忆外部信息,通过探索和记忆实现动态的知识获取。
- 显著的性能提升与效率 :实验表明,R1-Searcher++ 不仅优于现有的 RAG 方法,而且与传统的基于 RL 的方法相比,显著减少了检索次数,同时也可以泛化到联网检索
R1-Searcher++ 框架
图注:R1-Searcher++ 整体框架图。左侧展示了数据采样、SFT 冷启动以及一个推理路径示例。右侧详细描述了 RL 训练时的行为。
SFT 冷启动
在第一阶段,目标是让 LLM 初步具备在推理过程中自主执行外部检索并有效利用内部知识的能力。我们使用拒绝采样方法合成高质量的训练实例,确保模型学习以特定格式响应,并能够自适应地利用外部检索器和内部知识。特别地,我们引入了特殊标记 <internal>
, <external>
和 <document>
来格式化 LLM 的推理过程。如果模型决定使用内部知识,则将相关内容包含在 <internal>
标签内;如果需要外部搜索,则使用 <external>
标签发出查询,检索到的文档则用 <document>
标签整合到推理路径中。在 SFT 阶段,损失函数的设计会屏蔽掉外部文档的内容,因为它们被视为环境观察而非模型生成的内容。
动态知识获取的RL训练框架
1. 内部知识利用鼓励 (Internal Knowledge Utilization Encouragement)
在 RL 过程中,奖励函数用于提供监督信号,以调整和优化模型的行为。我们设计了以下奖励组件:
- **格式奖励 (
)**
: 对模型的输出格式进行严格约束。例如,调用外部检索器时查询必须用
<external>
标签包裹,最终答案必须用
\boxed{}
包裹,且内容不能乱码。满足则奖励为0,否则为-2。
- **答案奖励 (
)** : 使用覆盖精确匹配 (CEM) 指标评估最终答案的正确性。为防止模型通过生成冗长答案发生hacking,答案长度超过10个词将被视为不正确。正确且符合长度要求的答案奖励为1,否则为0。
- **组奖励 (
)** : 该奖励旨在鼓励模型减少对外部检索的依赖,提高推理效率。它基于对同一问题的多个正确响应中调用检索器次数的标准差来计算,并给予调用次数最少的正确响应更高的奖励。同时设置了一个上限
以维持训练稳定性。
总奖励 是这三个子奖励的总和:
2. 外部知识记忆化 (External Knowledge Memorization)
标准的 RL 训练依赖于模型的自我探索和环境反馈。由于检索器检索到的知识是完全正确的,模型应该像人类一样,在训练过程中记忆这些信息,将其转化为内部知识。这使得模型将来能够直接利用获取的知识,而无需重复检索,从而实现检索信息的有效重用。
为了实现这一点,我们微调了一个独立的“重写模型”,在 RL 训练过程中,我们选择 LLM 生成的正确响应,提取其中的检索文档,然后将其作为重写模型的背景知识,重写推理路径(不调用外部检索器),使检索文档转化为符合模型内部知识使用的模式。在验证了这些新推理路径的正确性后,我们选择正确的实例构建记忆数据集
。用于记忆的相应损失函数
。同时为避免
主导策略模型的训练并导致模型忽略外部检索,我们用一个预定义系数
对其进行加权。最终的优化目标函数如下:
其中
是 RL 算法(如 REINFORCE++)的目标函数,经过修改以屏蔽检索到的文档。通过这种方式,模型在训练过程中不仅进行自我探索,还不断丰富其内部知识。
实验结果与分析
表1:R1-Searcher++ 与基线模型在问答基准上的性能比较
主要实验观察:
- 在多跳问答任务上取得显著性能提升
- 平衡内部知识与外部知识的利用
- 保持泛化能力
分析实验
我们从多方面对R1-Searcher++框架进行了分析,详细请参见论文。
消融分析
图注:在需要联网的Bamboogle和Musique 数据集上的消融研究。
联网泛化
图注:在 Bamboogle 和 Frames 数据集上的在线搜索泛化实验结果。证明了模型对在线搜索场景的强大适应能力,以及在推理过程中有效平衡内部知识和外部检索的能力
训练日志分析
图注:R1-Searcher 和 R1-Searcher++ 在 RL 训练过程中检索次数和奖励变化曲线。揭示了R1-Seaercher++的动态知识获取能力。
案例研究
图注:一个定性案例,展示了 R1-Searcher++ (右) 与 R1-Searcher (中) 和未经训练的 Qwen-7B-Inst (左) 在回答“花旗银行成立那年美国总统是谁?” (答案:詹姆斯·麦迪逊) 时的推理过程。
摘要
检索增强生成(Retrieval-augmented generation, RAG)系统推动了大型语言模型(LLMs)在需要多步推理和迭代信息检索的复杂深度搜索场景中的发展。然而,现有方法面临关键性限制:要么缺乏高质量的训练轨迹,要么在模拟环境中存在分布不匹配的问题,或者在实际部署中计算成本过高。本文提出了 SimpleDeepSearcher ,这是一个轻量但高效 的框架,通过策略性数据工程而非复杂的训练范式来弥合这些差距。我们的方法通过在真实网页搜索环境中模拟用户交互来合成高质量训练数据,并结合多准则筛选策略以优化输入输出两侧的数据多样性与质量。在跨多个领域的五个基准测试上的实验表明,仅使用 871 条精心筛选的样本进行监督微调(SFT)就能显著优于基于强化学习(RL)的基线方法 。我们的工作通过系统性地解决数据稀缺瓶颈,确立了 SFT 作为一种可行路径,为构建高效的深度搜索系统提供了实用启示。
论文题目 : SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis
论文链接 : https://arxiv.org/pdf/2505.16834
开源链接 : https://github.com/RUCAIBox/SimpleDeepSearcher
主要贡献
- 提出了一个基于真实网络环境的数据合成框架 ,能够模拟真实用户的搜索行为,生成多轮推理与搜索轨迹。
- 设计了多准则的数据筛选策略 ,通过正交的筛选维度同时优化输入问题的选择和输出响应的过滤。
- 实验结果表明 ,仅使用 871 条训练样本进行 SFT,就可以在 in-domain 与 out-of-domain 的基准任务中超越多个现有的基线方法(尤其是基于 RL 的方法)。
整体框架
- 真实网页环境中的数据合成 :基于真实、开放的网页环境,模拟真实用户搜索行为,生成多轮推理轨迹,而非依赖静态的检索知识库。
- 关注多样性的查询采样策略 :基于领域异质性、关键词多样性和知识单元复杂度,对开放领域 QA 数据集进行系统过滤,构建复杂查询数据集合。
- 多维度回复筛选机制 :在格式标准化、推理路径控制、问题难度与搜索有效性四个维度上筛选回复,仅保留最优推理与搜索轨迹用于训练。
- 可扩展性 : 训练集中同样可以混合其他类型的数据(如纯推理数据),数据合成与筛选的策略可以为其他的训练方法如强化学习复用。
实验分析
整体表现
- 泛化性强 :在五个基准数据集上全面优于所有基线方法,包括in-domain(2Wiki、MuSiQue)与 out-of-domain(Bamboogle、FRAMES、GAIA)的评测基准,展现出模型强大的泛化性。
- 在不同 backbone 和参数规模的模型上均有性能提升 :在 Qwen2.5-7B-Instruct、Qwen2.5-32B-Instruct、DeepSeek-R1-Distill-Qwen-2.5-32B 和 QwQ-32B 上均表现出显著提升,展示出蒸馏与自蒸馏策略的有效性,与所筛选数据的适应性。
- 数据效率高 :SimpleDeepSearcher 在大多数评估指标上持续优于基于强化学习的方法,如 R1-Searcher 和 DeepResearcher。这些方法依赖复杂的强化学习算法,在大规模数据集上进行训练。相比之下,我们的方法仅依赖 871 条训练样本进行监督微调(SFT)。这表明,我们的框架在实现强劲性能的同时,保持了极高的数据效率,为提升深度搜索能力提供了一种简单但高效的实现方法。
消融分析
图注:在Bamboogle和GAIA上开展消融分析验证各个模块的有效性。
后SFT阶段强化学习的效果分析
图注:进一步分析了在监督微调之后应用强化学习的优势与局限。采用 DPO 和 REINFORCE++ 来执行离线和在线强化学习。
分阶段分析(Stage-wise Analysis)
图注:分析训练过程是如何提升各子任务性能的,包括迭代搜索、规划和摘要生成。各个组件均有显著提升,其中搜索组件的增益最为明显。这表明训练能够有效提升模型生成更连贯的推理与搜索轨迹的能力。
回复冗余分析
图注:分析微调如何影响模型的冗余推理与搜索行为。包含三个指标:反思性词语“alternatively”的使用频率;推理链的平均长度;搜索调用次数。结果表明,训练后的模型推理与搜索更加高效。
总结模型的影响
图注:对比分析推理过程中使用不同总结模型的影响。
引入推理数据的影响分析
图注:分析引入复杂推理数据对模型的影响。结果表明模型性能进一步提升。此外进一步分析表明,引入复杂推理数据有助于模型学会根据不同任务需求自适应调整推理与搜索策略。
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
图片
长按关注,更多精彩
图片
点个在看你最好看