IKEA:通过强化学习提高LLM检索规划效率(开源)

大模型向量数据库机器学习
IKEA:通过强化学习提高LLM检索规划效率(开源)

发布时间:2025年05月12日

picture.image

如遇无法添加,请+ vx: iamxxn886

注明:IKEA


  1. 为什么要提出IKEA?

随着可验证奖励系统的大规模强化学习(RL)技术突破,以Deepseek R1为代表的推理模型性能显著提升。这类模型能通过推理激活预训练知识来处理知识密集型任务,但受限于预训练语料的局限性和世界知识的动态性,仍存在幻觉问题。

当前主流解决方案是赋予模型调用搜索引擎的能力,将其训练为搜索智能体 ,使其在强化学习中逐步掌握任务分解与知识检索能力。

然而该方法存在明显缺陷:

  • 其一,过度依赖LLM的工具调用功能,却未能充分发挥其作为内置知识库(LLM-as-KB)的潜力,导致大量冗余检索——即便答案已编码在模型参数中仍进行外部搜索。
  • 其二,检索器性能局限会引入噪声,造成知识冲突,常见如错误检索结果覆盖正确参数知识。
  • 其三,频繁的搜索引擎调用会打断生成过程,导致显著推理延迟。这引出了核心研究命题:如何训练能智能融合参数知识(内部)与检索知识(外部)的高效自适应搜索智能体?

理想的搜索智能体 需具备三大知识行为:

  • 知识边界划分:将问题拆解为原子问题并判断各子问题是否在其知识边界内;
  • 内部知识调用:对边界内问题激活相关参数知识辅助解答;
  • 外部知识检索:对边界外问题生成精准搜索指令并获取所需知识。

关键在于智能决策检索时机——现有方法或依赖泛化性差的外部分类器 ,或采用复杂的数据工程 实现自主决策,但尚未充分探索如何通过强化学习实现最优检索时机的自主判断。

为此,提出强化内外知识协同推理智能体IKEA。明确要求模型先界定知识边界并优先调用参数知识,仅当确认知识不足时才触发外部检索。

  1. 什么是IKEA?

自适应搜索智能体(Reinforced Internal-External Knowledge Synergistic REasoning Agent,IKEA)设计了两大核心组件:

  • 面向知识协同的边界感知奖励函数
  • 精心构建的平衡训练数据集(含等量的可内部解答与需外部检索的问题)。

奖励机制对参数知识充足的问题鼓励答案正确性并抑制冗余检索,对边界外问题则激励精准检索,以此提升模型的自我认知能力。

在单跳与多跳知识推理任务上,IKEA不仅全面超越基线方法,在分布外数据也展现强大泛化能力。相比传统强化学习方案Search-R1,IKEA能在提升性能的同时大幅降低检索次数 ,充分验证了方法的优越性。

picture.image

如上图中部所示,典型的LLM搜索智能体会在动作标记中依次生成推理思路、搜索查询和最终答案。

  • 顶部展示LLM智能体的多轮强化学习训练框架(含可验证奖励机制)
  • 中部为Search-R1模块
  • 底部为IKEA模块。

Search-R1和IKEA属于特殊类型的LLM智能体。

为规范交互动作的解析,定义了三类结构化标签:

  • <THINK>[推理内容]</THINK>用于思维过程
  • <SEARCH>[搜索查询]</SEARCH>用于检索操作
  • <ANSWER>[最终答案]</ANSWER>用于结果输出

虽然 <THINK>标签内容不直接参与环境交互,但它作为模型生成的思维痕迹,仍属于动作序列的组成部分。

智能体在每轮交互中,需先在 <THINK>标签内完成状态分析,再选择生成 <SEARCH><ANSWER>标签进行实际操作。

当触发 <SEARCH>时,模型生成的查询语句会驱动检索器从语料库获取相关知识,这些知识会被封装在 <CONTEXT>[检索结果]</CONTEXT>标签中,作为观察信息反馈给智能体。

<CONTEXT>内容属于环境反馈而非模型生成,因此在训练时会进行屏蔽处理。当 <ANSWER>标签被激活时,意味着任务进入终局阶段,模型输出的答案将终结整个交互流程,我们称此完整过程为一个"推演"。

2.1 IEKA:强化型内外知识协同推理智能体

现有搜索智能体往往过度依赖大语言模型(LLM)的任务分解能力:将查询拆解为子问题后,反复检索相关文档辅助推理。这种模式既浪费了LLM本身作为知识库的潜力,导致大量冗余检索,又可能因错误外部知识覆盖正确内部知识而产生有害冲突。

为此,需要IKEA——能智能划定知识边界,边界内充分调用模型参数知识,边界外精准启动检索机制。

picture.image

IKEA智能体通过三重创新实现这一目标(如上图):

  1. 智能提示模板:引导模型自主决策何时调用内部知识,何时启动外部检索
  1. 边界感知奖励机制:包含答案准确性奖励(r_ans)和知识边界奖励(r_kb),通过强化学习驱使模型明确认知自身能力边界
  1. 平衡训练数据集:按1:1比例混合模型擅长的问题(Q_easy)与薄弱问题(Q_hard),避免训练后出现"全盘检索"或"拒绝检索"的极端倾向

奖励函数设计精要:

  • 格式错误直接扣分(R=-1)
  • 答案正确时(r_ans=1),奖励随检索次数减少而线性增加,最高达r_kb+
  • 答案错误时(r_ans=0),零检索得0分,启动检索则获象征性奖励r_kb-
  • 通过设定r_kb-≪r_kb+,确保模型优先信任自身知识

数据构建采用上下文学习法:对每个问题采样N次答案,至少一次正确则标记为Q_easy(模型已掌握),否则为Q_hard(需辅助)。如表1所示,这种均衡设计使Qwen2.5系列模型在保持精确匹配率(EM)的同时,显著优化了检索效率(RT)。

  1. 效果如何

3.1 整体效果

picture.image

上图分别呈现了实验结果与训练日志。简单任务主要依赖模型已有知识,而困难任务往往需要突破知识边界。

传统基线方法难以协调内外知识:

  • "Direct"纯靠内部知识
  • "RAG"和迭代检索的"Iter-Retgen"则依赖外部知识

外部知识显著提升LLM在知识密集型任务的表现,暴露出模型内部知识储备的不足。但持续检索会引发冲突与延迟,自适应方法IR-COT(自主决定检索时机)和FLARE(基于低置信词元触发检索)试图解决该问题。

IR-COT虽提升困难任务表现,却因知识冲突损害简单任务;

FLARE因检索次数过少,效果与"Direct"相当,证明词元概率并非理想检索触发器。

关键结论在于:必须动态协同运用内外知识——够用则内,不足则外。但未经调优的模型缺乏自主判断能力。

强化学习基线成功激活了模型单独运用内外知识的能力 。仅用内部知识的R1通过强化知识表达,在简单任务上表现突出,但对困难任务提升有限,印证外部知识的必要性。

能生成搜索查询的Search-R1以更少检索次数超越迭代检索等方法,证明强化学习可增强外部知识获取的规划能力。但两者都未能实现内外知识的有机融合。

IKEA实现了内外知识的自适应协同。在多轮决策中,模型可自由选择知识来源。通过知识边界感知奖励机制:当内外知识均有效时,鼓励优先使用内部知识以减少检索;内部知识不足时,则触发检索获取外部知识。

IKEA较R1性能提升超10%(主要来自困难任务),较Search-R1** 大幅减少检索次数** ,表明模型通过自我探索学会了划定知识边界——边界内充分调用参数化知识,边界外有效利用检索知识。这不仅规避了知识冲突,更提升了整体效率。值得注意的是,其在分布外数据集同样表现优异,证明这种知识获取策略具备良好泛化性。

IKEA训练方法具有普适性。

  • 基于指令调优模型(Qwen2.5-7B-Instruct)的IKEA起点较高;
  • 从零开始的IKEA-Zero(Qwen2.5-3B-Base)虽初期奖励较低,但最终都能达到相近水平,证实强化学习可实现无冷启动的协同推理。

更大模型(7B vs 3B)收敛更快且效果更优。

picture.image

检索次数与响应长度的变化曲线揭示:初期通过增加检索探索知识边界,后期逐步优化消除冗余。特别是IKEA-Zero的响应长度持续精简,反映出其对无效冗余的持续优化。

3.2 消融实验

以Qwen2.5-3B-Instruct模型为基础开展消融实验,全面验证了所提方法的优越性。

3.1 奖励机制的设计影响

picture.image

picture.image

picture.image

上图展示了不同奖励方案下的训练数据对比,包含有效搜索量、响应长度及训练奖励的变化趋势。

picture.image

上表则呈现了最终测试结果。

  • 当移除知识边界感知奖励时,有效检索次数和响应长度持续攀升,远超基准模型。这是由于训练初期,检索行为比调用内部知识更容易获得奖励,梯度更新自然偏向抑制后者,最终形成"检索至上"的决策偏好,与Search-R1策略如出一辙。
  • 在仅保留正向奖励时,模型检索频率和响应长度骤减——因为奖励机制过度鼓励依赖内部知识,导致模型错误地将R1策略泛化到所有问题。

3.2 数据集难度的影响分析

picture.image

picture.image

picture.image

上图清晰呈现了不同难度训练数据集的动态变化:有效搜索次数、响应长度和训练奖励的演变曲线。

picture.image

通过对比简单、混合、困难三种难度数据集的训练过程(如上表),发现一个稳定规律:

无论是有效搜索次数还是响应长度,困难数据集的表现均优于混合数据集,而混合数据集又优于简单数据集。

这是因为模型会智能地根据问题难度选择知识调用方式——对熟悉领域使用参数化知识,对陌生领域则启用检索机制。

使用简单数据集训练时,模型的检索频率和响应长度会持续衰减,最终完全适配训练数据的难度特征。经过难度调整的IKEA模型(无论是简化版还是困难版),其精确匹配率都明显逊色于原始模型。

其中简化版的检索频次骤降,而困难版则检索激增。

这一现象说明:过度依赖单一知识类型会制约模型潜能,只有让参数化记忆与检索知识珠联璧合,才能实现最优的推理效果。


0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 EMR 基于 Proton 的存算分离实践
EMR 团队针对这些挑战自研了 Proton 加速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍 Proton 技术能力和最佳实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论