IKEA：通过强化学习提高LLM检索规划效率（开源）

发布时间：2025年05月12日

picture.image

如遇无法添加，请+ vx: iamxxn886

注明：IKEA

为什么要提出IKEA?

随着可验证奖励系统的大规模强化学习（RL）技术突破，以Deepseek R1为代表的推理模型性能显著提升。这类模型能通过推理激活预训练知识来处理知识密集型任务，但受限于预训练语料的局限性和世界知识的动态性，仍存在幻觉问题。

当前主流解决方案是赋予模型调用搜索引擎的能力，将其训练为搜索智能体 ，使其在强化学习中逐步掌握任务分解与知识检索能力。

然而该方法存在明显缺陷：

其一，过度依赖LLM的工具调用功能，却未能充分发挥其作为内置知识库（LLM-as-KB）的潜力，导致大量冗余检索——即便答案已编码在模型参数中仍进行外部搜索。
其二，检索器性能局限会引入噪声，造成知识冲突，常见如错误检索结果覆盖正确参数知识。
其三，频繁的搜索引擎调用会打断生成过程，导致显著推理延迟。这引出了核心研究命题：如何训练能智能融合参数知识（内部）与检索知识（外部）的高效自适应搜索智能体？

理想的搜索智能体 需具备三大知识行为：

知识边界划分：将问题拆解为原子问题并判断各子问题是否在其知识边界内；
内部知识调用：对边界内问题激活相关参数知识辅助解答；
外部知识检索：对边界外问题生成精准搜索指令并获取所需知识。

关键在于智能决策检索时机——现有方法或依赖泛化性差的外部分类器 ，或采用复杂的数据工程 实现自主决策，但尚未充分探索如何通过强化学习实现最优检索时机的自主判断。

为此，提出强化内外知识协同推理智能体IKEA。明确要求模型先界定知识边界并优先调用参数知识，仅当确认知识不足时才触发外部检索。

什么是IKEA？

自适应搜索智能体(Reinforced Internal-External Knowledge Synergistic REasoning Agent，IKEA)设计了两大核心组件：

面向知识协同的边界感知奖励函数
精心构建的平衡训练数据集（含等量的可内部解答与需外部检索的问题）。

奖励机制对参数知识充足的问题鼓励答案正确性并抑制冗余检索，对边界外问题则激励精准检索，以此提升模型的自我认知能力。

在单跳与多跳知识推理任务上，IKEA不仅全面超越基线方法，在分布外数据也展现强大泛化能力。相比传统强化学习方案Search-R1，IKEA能在提升性能的同时大幅降低检索次数 ，充分验证了方法的优越性。

picture.image

如上图中部所示，典型的LLM搜索智能体会在动作标记中依次生成推理思路、搜索查询和最终答案。

顶部展示LLM智能体的多轮强化学习训练框架（含可验证奖励机制）
中部为Search-R1模块
底部为IKEA模块。

Search-R1和IKEA属于特殊类型的LLM智能体。

为规范交互动作的解析，定义了三类结构化标签：

<THINK>[推理内容]</THINK>用于思维过程
<SEARCH>[搜索查询]</SEARCH>用于检索操作
<ANSWER>[最终答案]</ANSWER>用于结果输出

虽然 <THINK>标签内容不直接参与环境交互，但它作为模型生成的思维痕迹，仍属于动作序列的组成部分。

智能体在每轮交互中，需先在 <THINK>标签内完成状态分析，再选择生成 <SEARCH>或 <ANSWER>标签进行实际操作。

当触发 <SEARCH>时，模型生成的查询语句会驱动检索器从语料库获取相关知识，这些知识会被封装在 <CONTEXT>[检索结果]</CONTEXT>标签中，作为观察信息反馈给智能体。

<CONTEXT>内容属于环境反馈而非模型生成，因此在训练时会进行屏蔽处理。当 <ANSWER>标签被激活时，意味着任务进入终局阶段，模型输出的答案将终结整个交互流程，我们称此完整过程为一个"推演"。

2.1 IEKA：强化型内外知识协同推理智能体

现有搜索智能体往往过度依赖大语言模型（LLM）的任务分解能力：将查询拆解为子问题后，反复检索相关文档辅助推理。这种模式既浪费了LLM本身作为知识库的潜力，导致大量冗余检索，又可能因错误外部知识覆盖正确内部知识而产生有害冲突。

为此，需要IKEA——能智能划定知识边界，边界内充分调用模型参数知识，边界外精准启动检索机制。

picture.image

IKEA智能体通过三重创新实现这一目标（如上图）：

智能提示模板：引导模型自主决策何时调用内部知识，何时启动外部检索

边界感知奖励机制：包含答案准确性奖励(r_ans)和知识边界奖励(r_kb)，通过强化学习驱使模型明确认知自身能力边界

平衡训练数据集：按1:1比例混合模型擅长的问题(Q_easy)与薄弱问题(Q_hard)，避免训练后出现"全盘检索"或"拒绝检索"的极端倾向

奖励函数设计精要：

格式错误直接扣分(R=-1)
答案正确时(r_ans=1)，奖励随检索次数减少而线性增加，最高达r_kb+
答案错误时(r_ans=0)，零检索得0分，启动检索则获象征性奖励r_kb-
通过设定r_kb-≪r_kb+，确保模型优先信任自身知识

数据构建采用上下文学习法：对每个问题采样N次答案，至少一次正确则标记为Q_easy（模型已掌握），否则为Q_hard（需辅助）。如表1所示，这种均衡设计使Qwen2.5系列模型在保持精确匹配率(EM)的同时，显著优化了检索效率(RT)。

效果如何

3.1 整体效果

picture.image

上图分别呈现了实验结果与训练日志。简单任务主要依赖模型已有知识，而困难任务往往需要突破知识边界。

传统基线方法难以协调内外知识：

"Direct"纯靠内部知识
"RAG"和迭代检索的"Iter-Retgen"则依赖外部知识

外部知识显著提升LLM在知识密集型任务的表现，暴露出模型内部知识储备的不足。但持续检索会引发冲突与延迟，自适应方法IR-COT（自主决定检索时机）和FLARE（基于低置信词元触发检索）试图解决该问题。

IR-COT虽提升困难任务表现，却因知识冲突损害简单任务；

FLARE因检索次数过少，效果与"Direct"相当，证明词元概率并非理想检索触发器。

关键结论在于：必须动态协同运用内外知识——够用则内，不足则外。但未经调优的模型缺乏自主判断能力。

强化学习基线成功激活了模型单独运用内外知识的能力 。仅用内部知识的R1通过强化知识表达，在简单任务上表现突出，但对困难任务提升有限，印证外部知识的必要性。

能生成搜索查询的Search-R1以更少检索次数超越迭代检索等方法，证明强化学习可增强外部知识获取的规划能力。但两者都未能实现内外知识的有机融合。

IKEA实现了内外知识的自适应协同。在多轮决策中，模型可自由选择知识来源。通过知识边界感知奖励机制：当内外知识均有效时，鼓励优先使用内部知识以减少检索；内部知识不足时，则触发检索获取外部知识。

IKEA较R1性能提升超10%（主要来自困难任务），较Search-R1** 大幅减少检索次数** ，表明模型通过自我探索学会了划定知识边界——边界内充分调用参数化知识，边界外有效利用检索知识。这不仅规避了知识冲突，更提升了整体效率。值得注意的是，其在分布外数据集同样表现优异，证明这种知识获取策略具备良好泛化性。

IKEA训练方法具有普适性。

基于指令调优模型（Qwen2.5-7B-Instruct）的IKEA起点较高；
从零开始的IKEA-Zero（Qwen2.5-3B-Base）虽初期奖励较低，但最终都能达到相近水平，证实强化学习可实现无冷启动的协同推理。

更大模型（7B vs 3B）收敛更快且效果更优。

picture.image

检索次数与响应长度的变化曲线揭示：初期通过增加检索探索知识边界，后期逐步优化消除冗余。特别是IKEA-Zero的响应长度持续精简，反映出其对无效冗余的持续优化。

3.2 消融实验

以Qwen2.5-3B-Instruct模型为基础开展消融实验，全面验证了所提方法的优越性。

3.1 奖励机制的设计影响

picture.image

上图展示了不同奖励方案下的训练数据对比，包含有效搜索量、响应长度及训练奖励的变化趋势。

picture.image

上表则呈现了最终测试结果。

当移除知识边界感知奖励时，有效检索次数和响应长度持续攀升，远超基准模型。这是由于训练初期，检索行为比调用内部知识更容易获得奖励，梯度更新自然偏向抑制后者，最终形成"检索至上"的决策偏好，与Search-R1策略如出一辙。
在仅保留正向奖励时，模型检索频率和响应长度骤减——因为奖励机制过度鼓励依赖内部知识，导致模型错误地将R1策略泛化到所有问题。

3.2 数据集难度的影响分析

picture.image

上图清晰呈现了不同难度训练数据集的动态变化：有效搜索次数、响应长度和训练奖励的演变曲线。

picture.image

通过对比简单、混合、困难三种难度数据集的训练过程（如上表），发现一个稳定规律：

无论是有效搜索次数还是响应长度，困难数据集的表现均优于混合数据集，而混合数据集又优于简单数据集。

这是因为模型会智能地根据问题难度选择知识调用方式——对熟悉领域使用参数化知识，对陌生领域则启用检索机制。

使用简单数据集训练时，模型的检索频率和响应长度会持续衰减，最终完全适配训练数据的难度特征。经过难度调整的IKEA模型（无论是简化版还是困难版），其精确匹配率都明显逊色于原始模型。

其中简化版的检索频次骤降，而困难版则检索激增。

这一现象说明：过度依赖单一知识类型会制约模型潜能，只有让参数化记忆与检索知识珠联璧合，才能实现最优的推理效果。

论文原文: https://arxiv.org/abs/2505.07596
Github: https://github.com/hzy312/knowledge-r1
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886