强化学习如何让DeepResearch变得更聪明?深度解析Kimi-Researcher的训练秘密

大模型向量数据库机器学习

从Kimi-Researcher视角解析强化学习怎么用于Deep Research

最近月之暗面发布了Kimi-Researcher,这是一个基于强化学习训练的自主智能体,在"人类的终极考试"(HLE)中拿到了26.9%的Pass@1分数。更有意思的是,这个模型最初只有8.6%的分数,通过端到端强化学习训练后直接提升到26.9%,这个提升幅度相当惊人。picture.image

让人好奇的是,强化学习到底是怎么应用到智能体训练中的?有哪些技术难点?又是如何解决的?

官方项目地址: https://moonshotai.github.io/Kimi-Researcher/ ,更多细节内容,大家可以阅读原文

传统智能体开发的局限性

在聊强化学习之前,先看看传统智能体开发面临的问题:

基于工作流的系统 :就像流水线一样,不同的智能体负责不同的任务,通过预设的工作流来协调。虽然效果不错,但问题是和特定的模型版本绑得太紧,模型一更新或者环境一变化,就得重新调整工作流。

基于监督学习的模仿学习 :让模型学习人类的操作示例。但问题来了,标注数据太难搞了,特别是那些需要多轮交互的复杂任务。而且数据和工具版本绑定,工具一升级,模型的泛化能力就会打折扣。

端到端强化学习的优势

端到端强化学习就不一样了,它是整体训练一个模型:给个任务,智能体自己去探索各种策略,做对了给奖励,做错了给惩罚,然后从整个执行过程中学习。

这种方法的好处很明显:

  • 能自然处理长期推理任务

  • 适应不断变化的工具和环境

  • 所有技能(规划、感知、工具使用)一起学习,不需要人工设计规则

    核心技术挑战与解决方案


Kimi-Researcher 是一个自主智能体和思维模型,旨在通过多步骤的规划、推理和工具使用来解决复杂问题。它使用了三种主要工具:一个并行的实时搜索工具;一个用于交互式网页任务的基于文本的浏览器工具;以及一个用于自动化代码执行的编码工具。

具体来说,给定状态观察 (s_t)(例如, (s_0) 包括系统指令、工具声明和用户查询),Kimi-Researcher 会生成思维 (think_t) 和动作 (action_t)。动作可以是调用工具,也可以指示终止整个过程 (trajectory)。Kimi-Researcher 的详细行为流程如下:picture.image

1. 动态环境适应

挑战 :即使是同样的问题,在不同时间可能有不同的答案。比如今天搜"某公司股价"和明天搜结果肯定不一样。

解决 :使用结果奖励(outcome rewards)机制,在动态训练环境中提供稳定的偏好信号。不管环境怎么变,只要最终结果正确就给奖励。

2. 长序列任务处理

挑战 :Kimi-Researcher在单次执行中可能运行70多次搜索,上下文能达到几十万Token。这对内存管理和模型能力都是巨大考验。

解决

  • 上下文管理机制 :设计了智能的信息保留和丢弃策略,能把单次执行扩展到50次以上的迭代
  • 回合级部分轨迹生成 :对于那些特别长的任务,先保存到缓冲区,后续用更新的模型权重继续执行

3. 训练数据稀缺

挑战 :高质量的智能体问答强化学习数据集非常稀少,人工标注成本太高。

解决 :开发了完全自动化的数据合成流水线,包括:

  • 工具导向任务 :设计必须使用特定工具才能解决的任务
  • 推理密集型任务 :包括数学代码推理和困难搜索场景
  • 严格的质量控制 :通过Pass@N检查确保只保留有挑战性的问题

首先,开发了一套具有挑战性、以工具为中心的任务,旨在促使智能体更好地学习工具的使用。这些提示词经过精心构造,使得解决任务必须调用特定工具——采用朴素方法是不可行的或效率低得多。通过在任务设计中嵌入工具依赖,智能体学会的不仅是何时调用工具,还包括如何在复杂的真实世界场景中有效地组织工具的使用。(参见图 3,图中展示了使用这些训练数据时的工具调用频率。)picture.image其次,策划并合成推理密集型任务,以强化智能体的核心认知能力及其整合推理与工具使用的能力。这一部分进一步细分为:

  • 数学与代码推理: 针对逻辑推理、算法问题解决和顺序计算的任务。Kimi-Researcher 不仅使用思维链(Chain-of-Thought),还能结合工具集来解决这类问题。
  • 困难搜索: 智能体必须在上下文限制内迭代地搜索、整合信息并进行推理,以得出有效答案的场景。案例研究(Case Studies)表明,这些困难搜索任务能促进更深层次规划和鲁棒的、工具增强型推理策略的涌现。

4. 训练效率优化

挑战 :多轮推理和大量工具使用会拖慢训练速度,导致GPU利用率不足。

解决 :构建了大规模强化学习基础设施:

  • 完全异步的轨迹生成系统 :消除资源空闲时间

  • 鲁棒的沙箱环境 :统一的架构在保持隔离性的同时减少开销

  • 动态资源分配 :基于Kubernetes的混合云架构picture.image

    强化学习训练的核心要点


REINFORCE算法优化

Kimi-Researcher主要使用REINFORCE算法,但做了几个关键优化:

对策略训练(On-policy Training):严格生成基于模型自身概率分布的数据,禁用了一些强制工具调用格式的机制。

负样本控制 :负样本会导致Token概率下降,增加熵崩溃风险。通过策略性丢弃部分负样本,让模型能在更长的训练周期内持续改进。

奖励机制设计

  • 格式奖励:工具调用格式错误或超出限制就扣分
  • 正确性奖励:答案和标准答案比较给分
  • Gamma衰减:鼓励模型找更短、更高效的解决路径

picture.imageKimi-Researcher 通过端到端强化学习进行训练,可以观察到代理在不同领域中的表现持续提升。图 2-a展示了 Kimi-Researcher 在整个强化学习过程中的整体训练准确率。图2-b展示了模型在多个内部数据集上的表现。

数据合成策略

训练数据分为两个互补方向:

工具中心任务 :精心设计的任务,必须调用特定工具才能解决,让智能体学会何时以及如何有效组合工具使用。

推理密集型任务

  • 数学与代码推理:逻辑推理、算法问题
  • 困难搜索:需要迭代搜索、整合信息并推理的场景

关键是确保准确的标准答案(Ground Truth),引入了鲁棒的GT提取方法,配合严格的过滤机制。

涌现的智能能力

训练过程中,Kimi-Researcher展现出了一些有趣的涌现能力:

自我修正能力 :遇到冲突信息时,会通过迭代式假设细化和自我修正来解决不一致。比如在处理《聊斋志异》问题时,发现白话翻译和原文中对话数量不符,主动进行多源验证,最终确定以原文为准。

谨慎验证习惯 :即使是看似简单的问题,也会刻意进行额外搜索和交叉验证。在回答南美国家问题时,不满足于初步推断,继续搜索验证胡安·阿拉内戈的信息,直到获得足够权威的确认。

实际效果如何?

从数据来看,效果确实不错:

  • HLE测试中Pass@1达到26.9%,Pass@4达到40.17%
  • xbench-DeepSearch子任务中69%的Pass@1分数
  • 在多轮搜索推理基准测试中表现优异

更重要的是,通过上下文管理训练的模型使用了30%更多的迭代次数,能获取更多信息并达到更高性能。picture.image

总结

从Kimi-Researcher的案例可以看出,强化学习在智能体训练中的应用已经相当成熟:

  1. 端到端训练 比传统的模块化方法更有优势,能整体优化所有技能
  2. 数据合成 解决了高质量训练数据稀缺的问题
  3. 基础设施优化 是大规模强化学习训练的关键
  4. 奖励机制设计 需要平衡多个目标,既要保证正确性,又要提高效率

这种训练方式最大的价值在于,它能让智能体自然地学会复杂的推理和工具使用能力,而不需要人工设计复杂的规则和工作流。从8.6%到26.9%的提升幅度也说明,强化学习在智能体训练中确实有巨大潜力。

笔者最近看到一个帖子,也讨论针对DeepResearch强化学习训练的思路:

picture.image

从这些讨论中可以看出,DeepResearch类型模型训练的核心突破在于找到合适的奖励信号,其中LLM作为判断器的应用是关键创新 。对于没有明确验证指标的开放域任务,使用LLM作为奖励判断器成为可行且唯一能规模化的解决方案 ,正如Kimi-Researcher使用o3-mini来评估开放域问题正确性所证实的那样。但技术路线上存在分歧:对于可验证任务(代码、数学、选择题),使用生成模型作为判断器被认为是"愚蠢的",因为有更准确的验证方法,而DeepSeek R1提到的奖励欺骗问题主要也出现在这类容易验证的任务上。为解决奖励欺骗,Bytedance在Seed 1.5 Thinking中预训练了推理验证器,这可能解释了为什么Kimi-Researcher的判断器方法能够成功。

在实际应用中,让模型进行50次搜索而不需要大量脚手架是相当困难的,因此建议采用三步训练流程:首先训练一个好的推理模型,然后将其训练成专注于结果和推理格式的DeepResearch模型,最后进行风格化训练来生成报告 。虽然有观点认为基于判断器的方法是当前推理模型幻觉严重的原因,但也有反驳认为DeepResearch模型的幻觉问题并不严重。为提升泛化能力,专家建议不要只依赖判断器,而要混合编程和数学数据进行训练。 未来发展方向上,奖励机制需要变得更加复杂和精确,但不需要完全指定的奖励——可以验证特定文档是否被检索到或特定事实是否在报告中生成。强化学习还可能涌现出一些人类通过提示词难以有效决定的行为,比如更有效的信息源可靠性判断方法,这为智能体的进一步发展提供了广阔空间。

picture.image

添加微信,备注” LLM “进入大模型技术交流群

picture.image

picture.image

如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢

/ 作者:致Great

/ 作者:欢迎转载,标注来源即可

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论