从Kimi-Researcher视角解析强化学习怎么用于Deep Research
最近月之暗面发布了Kimi-Researcher,这是一个基于强化学习训练的自主智能体,在"人类的终极考试"(HLE)中拿到了26.9%的Pass@1分数。更有意思的是,这个模型最初只有8.6%的分数,通过端到端强化学习训练后直接提升到26.9%,这个提升幅度相当惊人。
让人好奇的是,强化学习到底是怎么应用到智能体训练中的?有哪些技术难点?又是如何解决的?
官方项目地址: https://moonshotai.github.io/Kimi-Researcher/ ,更多细节内容,大家可以阅读原文
传统智能体开发的局限性
在聊强化学习之前,先看看传统智能体开发面临的问题:
基于工作流的系统 :就像流水线一样,不同的智能体负责不同的任务,通过预设的工作流来协调。虽然效果不错,但问题是和特定的模型版本绑得太紧,模型一更新或者环境一变化,就得重新调整工作流。
基于监督学习的模仿学习 :让模型学习人类的操作示例。但问题来了,标注数据太难搞了,特别是那些需要多轮交互的复杂任务。而且数据和工具版本绑定,工具一升级,模型的泛化能力就会打折扣。
端到端强化学习的优势
端到端强化学习就不一样了,它是整体训练一个模型:给个任务,智能体自己去探索各种策略,做对了给奖励,做错了给惩罚,然后从整个执行过程中学习。
这种方法的好处很明显:
-
能自然处理长期推理任务
-
适应不断变化的工具和环境
-
所有技能(规划、感知、工具使用)一起学习,不需要人工设计规则
核心技术挑战与解决方案
Kimi-Researcher 是一个自主智能体和思维模型,旨在通过多步骤的规划、推理和工具使用来解决复杂问题。它使用了三种主要工具:一个并行的实时搜索工具;一个用于交互式网页任务的基于文本的浏览器工具;以及一个用于自动化代码执行的编码工具。
具体来说,给定状态观察 (s_t)
(例如, (s_0)
包括系统指令、工具声明和用户查询),Kimi-Researcher 会生成思维 (think_t)
和动作 (action_t)
。动作可以是调用工具,也可以指示终止整个过程 (trajectory)
。Kimi-Researcher 的详细行为流程如下:
1. 动态环境适应
挑战 :即使是同样的问题,在不同时间可能有不同的答案。比如今天搜"某公司股价"和明天搜结果肯定不一样。
解决 :使用结果奖励(outcome rewards)机制,在动态训练环境中提供稳定的偏好信号。不管环境怎么变,只要最终结果正确就给奖励。
2. 长序列任务处理
挑战 :Kimi-Researcher在单次执行中可能运行70多次搜索,上下文能达到几十万Token。这对内存管理和模型能力都是巨大考验。
解决 :
- 上下文管理机制 :设计了智能的信息保留和丢弃策略,能把单次执行扩展到50次以上的迭代
- 回合级部分轨迹生成 :对于那些特别长的任务,先保存到缓冲区,后续用更新的模型权重继续执行
3. 训练数据稀缺
挑战 :高质量的智能体问答强化学习数据集非常稀少,人工标注成本太高。
解决 :开发了完全自动化的数据合成流水线,包括:
- 工具导向任务 :设计必须使用特定工具才能解决的任务
- 推理密集型任务 :包括数学代码推理和困难搜索场景
- 严格的质量控制 :通过Pass@N检查确保只保留有挑战性的问题
首先,开发了一套具有挑战性、以工具为中心的任务,旨在促使智能体更好地学习工具的使用。这些提示词经过精心构造,使得解决任务必须调用特定工具——采用朴素方法是不可行的或效率低得多。通过在任务设计中嵌入工具依赖,智能体学会的不仅是何时调用工具,还包括如何在复杂的真实世界场景中有效地组织工具的使用。(参见图 3,图中展示了使用这些训练数据时的工具调用频率。)其次,策划并合成推理密集型任务,以强化智能体的核心认知能力及其整合推理与工具使用的能力。这一部分进一步细分为:
- 数学与代码推理: 针对逻辑推理、算法问题解决和顺序计算的任务。Kimi-Researcher 不仅使用思维链(Chain-of-Thought),还能结合工具集来解决这类问题。
- 困难搜索: 智能体必须在上下文限制内迭代地搜索、整合信息并进行推理,以得出有效答案的场景。案例研究(Case Studies)表明,这些困难搜索任务能促进更深层次规划和鲁棒的、工具增强型推理策略的涌现。
4. 训练效率优化
挑战 :多轮推理和大量工具使用会拖慢训练速度,导致GPU利用率不足。
解决 :构建了大规模强化学习基础设施:
-
完全异步的轨迹生成系统 :消除资源空闲时间
-
鲁棒的沙箱环境 :统一的架构在保持隔离性的同时减少开销
-
动态资源分配 :基于Kubernetes的混合云架构
强化学习训练的核心要点
REINFORCE算法优化
Kimi-Researcher主要使用REINFORCE算法,但做了几个关键优化:
对策略训练(On-policy Training):严格生成基于模型自身概率分布的数据,禁用了一些强制工具调用格式的机制。
负样本控制 :负样本会导致Token概率下降,增加熵崩溃风险。通过策略性丢弃部分负样本,让模型能在更长的训练周期内持续改进。
奖励机制设计 :
- 格式奖励:工具调用格式错误或超出限制就扣分
- 正确性奖励:答案和标准答案比较给分
- Gamma衰减:鼓励模型找更短、更高效的解决路径
Kimi-Researcher 通过端到端强化学习进行训练,可以观察到代理在不同领域中的表现持续提升。图 2-a展示了 Kimi-Researcher 在整个强化学习过程中的整体训练准确率。图2-b展示了模型在多个内部数据集上的表现。
数据合成策略
训练数据分为两个互补方向:
工具中心任务 :精心设计的任务,必须调用特定工具才能解决,让智能体学会何时以及如何有效组合工具使用。
推理密集型任务 :
- 数学与代码推理:逻辑推理、算法问题
- 困难搜索:需要迭代搜索、整合信息并推理的场景
关键是确保准确的标准答案(Ground Truth),引入了鲁棒的GT提取方法,配合严格的过滤机制。
涌现的智能能力
训练过程中,Kimi-Researcher展现出了一些有趣的涌现能力:
自我修正能力 :遇到冲突信息时,会通过迭代式假设细化和自我修正来解决不一致。比如在处理《聊斋志异》问题时,发现白话翻译和原文中对话数量不符,主动进行多源验证,最终确定以原文为准。
谨慎验证习惯 :即使是看似简单的问题,也会刻意进行额外搜索和交叉验证。在回答南美国家问题时,不满足于初步推断,继续搜索验证胡安·阿拉内戈的信息,直到获得足够权威的确认。
实际效果如何?
从数据来看,效果确实不错:
- HLE测试中Pass@1达到26.9%,Pass@4达到40.17%
- xbench-DeepSearch子任务中69%的Pass@1分数
- 在多轮搜索推理基准测试中表现优异
更重要的是,通过上下文管理训练的模型使用了30%更多的迭代次数,能获取更多信息并达到更高性能。
总结
从Kimi-Researcher的案例可以看出,强化学习在智能体训练中的应用已经相当成熟:
- 端到端训练 比传统的模块化方法更有优势,能整体优化所有技能
- 数据合成 解决了高质量训练数据稀缺的问题
- 基础设施优化 是大规模强化学习训练的关键
- 奖励机制设计 需要平衡多个目标,既要保证正确性,又要提高效率
这种训练方式最大的价值在于,它能让智能体自然地学会复杂的推理和工具使用能力,而不需要人工设计复杂的规则和工作流。从8.6%到26.9%的提升幅度也说明,强化学习在智能体训练中确实有巨大潜力。
笔者最近看到一个帖子,也讨论针对DeepResearch强化学习训练的思路:
从这些讨论中可以看出,DeepResearch类型模型训练的核心突破在于找到合适的奖励信号,其中LLM作为判断器的应用是关键创新 。对于没有明确验证指标的开放域任务,使用LLM作为奖励判断器成为可行且唯一能规模化的解决方案 ,正如Kimi-Researcher使用o3-mini来评估开放域问题正确性所证实的那样。但技术路线上存在分歧:对于可验证任务(代码、数学、选择题),使用生成模型作为判断器被认为是"愚蠢的",因为有更准确的验证方法,而DeepSeek R1提到的奖励欺骗问题主要也出现在这类容易验证的任务上。为解决奖励欺骗,Bytedance在Seed 1.5 Thinking中预训练了推理验证器,这可能解释了为什么Kimi-Researcher的判断器方法能够成功。
在实际应用中,让模型进行50次搜索而不需要大量脚手架是相当困难的,因此建议采用三步训练流程:首先训练一个好的推理模型,然后将其训练成专注于结果和推理格式的DeepResearch模型,最后进行风格化训练来生成报告 。虽然有观点认为基于判断器的方法是当前推理模型幻觉严重的原因,但也有反驳认为DeepResearch模型的幻觉问题并不严重。为提升泛化能力,专家建议不要只依赖判断器,而要混合编程和数学数据进行训练。 未来发展方向上,奖励机制需要变得更加复杂和精确,但不需要完全指定的奖励——可以验证特定文档是否被检索到或特定事实是否在报告中生成。强化学习还可能涌现出一些人类通过提示词难以有效决定的行为,比如更有效的信息源可靠性判断方法,这为智能体的进一步发展提供了广阔空间。
添加微信,备注” LLM “进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/ 作者:致Great
/ 作者:欢迎转载,标注来源即可