强化学习如何让DeepResearch变得更聪明？深度解析Kimi-Researcher的训练秘密 - 文章 - 开发者社区

从Kimi-Researcher视角解析强化学习怎么用于Deep Research

最近月之暗面发布了Kimi-Researcher，这是一个基于强化学习训练的自主智能体，在"人类的终极考试"(HLE)中拿到了26.9%的Pass@1分数。更有意思的是，这个模型最初只有8.6%的分数，通过端到端强化学习训练后直接提升到26.9%，这个提升幅度相当惊人。 picture.image

让人好奇的是，强化学习到底是怎么应用到智能体训练中的？有哪些技术难点？又是如何解决的？

官方项目地址： https://moonshotai.github.io/Kimi-Researcher/ ，更多细节内容，大家可以阅读原文

传统智能体开发的局限性

在聊强化学习之前，先看看传统智能体开发面临的问题：

基于工作流的系统 ：就像流水线一样，不同的智能体负责不同的任务，通过预设的工作流来协调。虽然效果不错，但问题是和特定的模型版本绑得太紧，模型一更新或者环境一变化，就得重新调整工作流。

基于监督学习的模仿学习 ：让模型学习人类的操作示例。但问题来了，标注数据太难搞了，特别是那些需要多轮交互的复杂任务。而且数据和工具版本绑定，工具一升级，模型的泛化能力就会打折扣。

端到端强化学习的优势

端到端强化学习就不一样了，它是整体训练一个模型：给个任务，智能体自己去探索各种策略，做对了给奖励，做错了给惩罚，然后从整个执行过程中学习。

这种方法的好处很明显：

能自然处理长期推理任务
适应不断变化的工具和环境
所有技能（规划、感知、工具使用）一起学习，不需要人工设计规则

核心技术挑战与解决方案

Kimi-Researcher 是一个自主智能体和思维模型，旨在通过多步骤的规划、推理和工具使用来解决复杂问题。它使用了三种主要工具：一个并行的实时搜索工具；一个用于交互式网页任务的基于文本的浏览器工具；以及一个用于自动化代码执行的编码工具。

具体来说，给定状态观察 (s_t)（例如， (s_0) 包括系统指令、工具声明和用户查询），Kimi-Researcher 会生成思维 (think_t) 和动作 (action_t)。动作可以是调用工具，也可以指示终止整个过程 （trajectory）。Kimi-Researcher 的详细行为流程如下： picture.image

1. 动态环境适应

挑战：即使是同样的问题，在不同时间可能有不同的答案。比如今天搜"某公司股价"和明天搜结果肯定不一样。

解决：使用结果奖励(outcome rewards)机制，在动态训练环境中提供稳定的偏好信号。不管环境怎么变，只要最终结果正确就给奖励。

2. 长序列任务处理

挑战：Kimi-Researcher在单次执行中可能运行70多次搜索，上下文能达到几十万Token。这对内存管理和模型能力都是巨大考验。

解决：

上下文管理机制 ：设计了智能的信息保留和丢弃策略，能把单次执行扩展到50次以上的迭代
回合级部分轨迹生成 ：对于那些特别长的任务，先保存到缓冲区，后续用更新的模型权重继续执行

3. 训练数据稀缺

挑战：高质量的智能体问答强化学习数据集非常稀少，人工标注成本太高。

解决：开发了完全自动化的数据合成流水线，包括：

工具导向任务 ：设计必须使用特定工具才能解决的任务
推理密集型任务 ：包括数学代码推理和困难搜索场景
严格的质量控制 ：通过Pass@N检查确保只保留有挑战性的问题

首先，开发了一套具有挑战性、以工具为中心的任务，旨在促使智能体更好地学习工具的使用。这些提示词经过精心构造，使得解决任务必须调用特定工具——采用朴素方法是不可行的或效率低得多。通过在任务设计中嵌入工具依赖，智能体学会的不仅是何时调用工具，还包括如何在复杂的真实世界场景中有效地组织工具的使用。（参见图 3，图中展示了使用这些训练数据时的工具调用频率。） picture.image 其次，策划并合成推理密集型任务，以强化智能体的核心认知能力及其整合推理与工具使用的能力。这一部分进一步细分为：

数学与代码推理：针对逻辑推理、算法问题解决和顺序计算的任务。Kimi-Researcher 不仅使用思维链（Chain-of-Thought），还能结合工具集来解决这类问题。
困难搜索：智能体必须在上下文限制内迭代地搜索、整合信息并进行推理，以得出有效答案的场景。案例研究（Case Studies）表明，这些困难搜索任务能促进更深层次规划和鲁棒的、工具增强型推理策略的涌现。

4. 训练效率优化

挑战：多轮推理和大量工具使用会拖慢训练速度，导致GPU利用率不足。

解决：构建了大规模强化学习基础设施：

完全异步的轨迹生成系统 ：消除资源空闲时间
鲁棒的沙箱环境 ：统一的架构在保持隔离性的同时减少开销
动态资源分配 ：基于Kubernetes的混合云架构

强化学习训练的核心要点

REINFORCE算法优化

Kimi-Researcher主要使用REINFORCE算法，但做了几个关键优化：

对策略训练(On-policy Training)：严格生成基于模型自身概率分布的数据，禁用了一些强制工具调用格式的机制。

负样本控制 ：负样本会导致Token概率下降，增加熵崩溃风险。通过策略性丢弃部分负样本，让模型能在更长的训练周期内持续改进。

奖励机制设计 ：

格式奖励：工具调用格式错误或超出限制就扣分
正确性奖励：答案和标准答案比较给分
Gamma衰减：鼓励模型找更短、更高效的解决路径

picture.image Kimi-Researcher 通过端到端强化学习进行训练,可以观察到代理在不同领域中的表现持续提升。图 2-a展示了 Kimi-Researcher 在整个强化学习过程中的整体训练准确率。图2-b展示了模型在多个内部数据集上的表现。

数据合成策略

训练数据分为两个互补方向：

工具中心任务 ：精心设计的任务，必须调用特定工具才能解决，让智能体学会何时以及如何有效组合工具使用。

推理密集型任务 ：

数学与代码推理：逻辑推理、算法问题
困难搜索：需要迭代搜索、整合信息并推理的场景

关键是确保准确的标准答案(Ground Truth)，引入了鲁棒的GT提取方法，配合严格的过滤机制。

涌现的智能能力

训练过程中，Kimi-Researcher展现出了一些有趣的涌现能力：

自我修正能力 ：遇到冲突信息时，会通过迭代式假设细化和自我修正来解决不一致。比如在处理《聊斋志异》问题时，发现白话翻译和原文中对话数量不符，主动进行多源验证，最终确定以原文为准。

谨慎验证习惯 ：即使是看似简单的问题，也会刻意进行额外搜索和交叉验证。在回答南美国家问题时，不满足于初步推断，继续搜索验证胡安·阿拉内戈的信息，直到获得足够权威的确认。

实际效果如何？

从数据来看，效果确实不错：

HLE测试中Pass@1达到26.9%，Pass@4达到40.17%
xbench-DeepSearch子任务中69%的Pass@1分数
在多轮搜索推理基准测试中表现优异

更重要的是，通过上下文管理训练的模型使用了30%更多的迭代次数，能获取更多信息并达到更高性能。 picture.image

总结

从Kimi-Researcher的案例可以看出，强化学习在智能体训练中的应用已经相当成熟：

端到端训练 比传统的模块化方法更有优势，能整体优化所有技能
数据合成 解决了高质量训练数据稀缺的问题
基础设施优化 是大规模强化学习训练的关键
奖励机制设计 需要平衡多个目标，既要保证正确性，又要提高效率

这种训练方式最大的价值在于，它能让智能体自然地学会复杂的推理和工具使用能力，而不需要人工设计复杂的规则和工作流。从8.6%到26.9%的提升幅度也说明，强化学习在智能体训练中确实有巨大潜力。

笔者最近看到一个帖子，也讨论针对DeepResearch强化学习训练的思路：

picture.image

从这些讨论中可以看出，DeepResearch类型模型训练的核心突破在于找到合适的奖励信号，其中LLM作为判断器的应用是关键创新 。对于没有明确验证指标的开放域任务，使用LLM作为奖励判断器成为可行且唯一能规模化的解决方案 ，正如Kimi-Researcher使用o3-mini来评估开放域问题正确性所证实的那样。但技术路线上存在分歧：对于可验证任务（代码、数学、选择题），使用生成模型作为判断器被认为是"愚蠢的"，因为有更准确的验证方法，而DeepSeek R1提到的奖励欺骗问题主要也出现在这类容易验证的任务上。为解决奖励欺骗，Bytedance在Seed 1.5 Thinking中预训练了推理验证器，这可能解释了为什么Kimi-Researcher的判断器方法能够成功。

在实际应用中，让模型进行50次搜索而不需要大量脚手架是相当困难的，因此建议采用三步训练流程：首先训练一个好的推理模型，然后将其训练成专注于结果和推理格式的DeepResearch模型，最后进行风格化训练来生成报告 。虽然有观点认为基于判断器的方法是当前推理模型幻觉严重的原因，但也有反驳认为DeepResearch模型的幻觉问题并不严重。为提升泛化能力，专家建议不要只依赖判断器，而要混合编程和数学数据进行训练。 未来发展方向上，奖励机制需要变得更加复杂和精确，但不需要完全指定的奖励——可以验证特定文档是否被检索到或特定事实是否在报告中生成。强化学习还可能涌现出一些人类通过提示词难以有效决定的行为，比如更有效的信息源可靠性判断方法，这为智能体的进一步发展提供了广阔空间。

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：致Great

/ 作者：欢迎转载，标注来源即可