- 引言 =====
Kimi K2 是一个拥有 1.04 万亿总参数和 320 亿激活参数的混合专家(MoE)大型语言模型,旨在推动“Agentic Intelligence”(智能体智能)的发展。智能体智能是指模型在复杂动态环境中自主感知、规划、推理和行动的能力。报告指出,这种方法使 AI 智能体能够超越静态人类生成数据的局限性,并通过自身的探索和利用获得超越人的能力。
核心贡献:
- MuonClip 优化器 :引入 MuonClip 优化器,通过 QK-Clip 技术解决了 Muon 优化器在扩展训练中的不稳定性问题,实现了 15.5 万亿 token 的零损失峰值预训练。
- 大规模智能体数据合成 :开发了通过模拟和真实环境系统生成工具使用演示的pipeline,构建多样化的工具、智能体、任务和轨迹,以大规模创建高保真、可验证的智能体交互。
- 通用强化学习框架 :设计了一个结合可验证奖励(RLVR)和自批判评分奖励机制的通用强化学习框架,使模型不仅能从外部定义任务中学习,还能通过评估自身输出来提高能力,将对齐从静态领域扩展到开放式领域。
更详细的要点精读可以关注公众号"小窗幽记机器学习"的另一篇文章:《 万字长文精读Kimi K2技术要点 》。
- 预训练:优化效率与数据增强 ================
Kimi K2 的预训练阶段注重token 效率 ,即每个 token 在训练中实现多少性能提升。
2.1 MuonClip:稳定的权重裁剪训练
- 问题 :Muon 优化器在扩展训练时容易出现训练不稳定性,特别是注意力 Logits 爆炸,导致损失峰值甚至发散。现有缓解策略(如 Logit 软裁剪、QK-Norm)不足以解决 Multi-head Latent Attention (MLA) 的问题。
- 解决方案 :提出 QK-Clip,一种新颖的权重裁剪机制,通过在更新后重新缩放查询(Query)和键(Key)投影权重来限制注意力 Logits 的增长。QK-Clip 采用逐头(per-head)缩放,以最大限度地减少对模型训练的干预。
- 效果 :Kimi K2 使用 MuonClip 预训练了 15.5 万亿 token,“没有出现单个损失峰值”,验证了 MuonClip 在大规模语言模型训练中对注意力动态的鲁棒和可伸缩控制。
2.2 预训练数据:通过复述提高 Token 利用率
- 策略 :Kimi K2 在 Kimi K1.5 的基础上,引入了合成数据生成策略,通过精心设计的复述pipeline来增加高质量 token 的数量,同时避免显著过拟合。
- 知识数据复述:多样化风格和视角提示 :使用各种提示引导大型语言模型以不同风格和视角复述原文,同时保持事实完整性。
- 分块自回归生成 :将文本分段,单独复述,然后拼接回完整段落,以保持全局连贯性并避免信息丢失。
- 忠实度验证 :比较复述内容与原文的语义对齐,作为初步质量控制。
- 效果 :实验表明,复述数据比简单重复原始数据能更有效提高 SimpleQA 准确性,例如,复述 10 次训练 1 个 epoch 的准确率(28.94%)高于原始数据重复 10 个 epoch 的准确率(23.76%)。
- 数学数据复述 :将高质量数学文档重写为“学习笔记”风格,并翻译多语种数学材料以增加多样性。
- 总体语料库 :Kimi K2 的预训练语料库包含 15.5 万亿 token 的高质量数据,涵盖网络文本、代码、数学和知识四个主要领域。
2.3 模型架构
- Kimi K2 是一个 1.04 万亿参数的 MoE Transformer 模型,激活参数为 320 亿。
- 采用 Multi-head Latent Attention (MLA) 作为注意力机制,隐藏维度为 7168,MoE 专家隐藏维度为 2048。
- 稀疏性扩展 :将专家数量增加到 384 个(DeepSeek-V3 为 256 个),每转发激活 8 个专家,实现了更高的稀疏性(48)。研究表明,在固定激活参数数量下,增加专家总数(即增加稀疏性)能持续降低训练和验证损失,从而提高模型性能。
- 注意力头数量优化 :将注意力头数量从 DeepSeek-V3 的 128 个减少到 64 个。虽然这会带来 0.5% 到 1.2% 的验证损失的轻微增加,但它能显著降低长上下文推理的计算开销(例如,128k 序列长度下,推理 FLOPs 增加 83%),对于智能体应用至关重要。
2.4 训练基础设施
- 计算集群 :在配备 NVIDIA H800 GPU 的集群上进行训练。
- 并行策略 :采用 16 路pipeline并行(PP)与虚拟阶段、16 路专家并行(EP)以及 ZeRO-1 数据并行相结合的灵活策略,支持在 32 的倍数节点上进行训练。
- 激活内存优化 :采用选择性重计算、敏感激活的 FP8 存储和激活 CPU 卸载等技术,以确保激活内存符合 GPU 限制。
- EP 通信与计算重叠 :采用 EP = 16 的最小 EP 并行化策略,确保在 1F1B 阶段 EP 通信与计算完全重叠。
2.5 训练方案
- 使用 MuonClip 优化器和 WSD 学习率调度,总共处理了 15.5 万亿 token。
- 全局批次大小保持在 67M token。
- 预训练后期进行了退火阶段和长上下文激活阶段,将上下文窗口扩展到 128k。
- 后训练:智能体能力与强化学习 =================
后训练是 Kimi K2 获得其核心智能体能力的关键阶段。
3.1 监督微调 (SFT)
- 优化器 :沿用 Muon 优化器进行微调。
- 数据集构建 :构建了跨领域的大规模指令微调数据集,强调提示多样性和高质量响应,结合人工标注、提示工程和验证流程。
- 大规模智能体数据合成 :
-
工具规范生成:从真实世界工具和 LLM 合成工具构建大型工具库(3000+真实 MCP 工具,20000+合成工具)。
-
智能体和任务生成:为每个工具集生成使用该工具集的智能体及相应任务。
-
轨迹生成:为每个智能体和任务生成智能体通过调用工具完成任务的轨迹。
-
目标 :训练模型自主使用工具、与外部环境交互并迭代细化行动。
-
多智能体pipeline :结合用户模拟(LLM 生成的用户角色)、工具执行环境(复杂的工具模拟器,功能上等同于世界模型)和质量评估与过滤(LLM 判官评估轨迹,仅保留满足成功标准的轨迹)。
-
混合方法 :结合大规模模拟与真实执行沙盒(尤其在编码和软件工程任务中),确保数据多样性和真实性。
3.2 强化学习 (RL)
- RL 被认为比 SFT 具有更好的 token 效率和泛化能力。K2 在 K1.5 的基础上进一步扩展了 RL 的任务多样性和训练 FLOPs。
- 可验证奖励 Gym :
- 数学、STEM 和逻辑任务:收集高质量的 QA 对,确保多样性覆盖和适中难度。
- 复杂指令遵循:通过混合验证框架(确定性代码解释器和 LLM-as-judge 评估)和可扩展课程生成pipeline来处理显式和隐式要求。
- 忠实度:训练一个句子级忠实度判官模型作为奖励模型,以提高整体忠实度性能。
- 编码与软件工程:收集竞赛级编程问题和 GitHub 上的拉取请求和问题,构建基于 Kubernetes 的沙盒基础设施,支持数万个并发沙盒实例。
- 安全:从人工策划的种子提示开始,通过自动化提示演化pipeline(攻击模型、目标模型、判官模型)模拟复杂的越狱尝试。
- 超越验证:自批判评分奖励
- 目的 :将模型对齐到更细微的人类偏好,如帮助性、创造力、推理深度、事实性和安全性。
- 机制 :模型评估自身输出以生成偏好信号,通过“自批判评分奖励”机制进行操作。
- 自批判策略优化 :K2 角色模型生成响应,K2 评判模型通过对核心评分、规定性评分和人工标注评分的组合进行两两评估来对结果进行排名。
- 闭环评判模型改进 :在 RL 训练期间,评判模型通过可验证信号进行改进,将可验证任务的性能提升融入到对缺乏明确奖励信号的复杂任务的判断中。
- RL 算法增强 :
- 预算控制:对每个样本强制执行最大 token 预算,并对超出预算的响应进行惩罚,以提高模型在非推理领域的 token 效率。
- PTX 损失:引入辅助 PTX 损失,将手选高质量样本集成到 RL 目标中,以防止在联合 RL 训练中遗忘有价值的数据。
- 温度衰减:在训练初期采用高采样温度促进探索,后期逐步衰减温度以收敛到稳定高质量的输出。
3.3 RL 基础设施
- 协同架构 :采用训练和推理引擎位于同一工作节点上的混合协同架构。
- 高效引擎切换 :开发分布式检查点引擎,管理参数状态,实现小于 30 秒的参数更新,将训练引擎和推理引擎完全解耦。
- 高效系统启动 :通过检查点引擎集体从磁盘读取检查点,然后更新未初始化的推理引擎状态,实现快速启动并增强鲁棒性。
- 智能体回放优化 :针对长时程、多轮智能体任务的特点,部署专用服务处理重环境交互,采用大量并发回放来分摊延迟,并使用部分回放技术暂停和恢复长尾未完成任务。
- 评估结果 =======
Kimi K2 进行了全面的后训练和预训练评估,并进行了安全评估。
4.1 后训练评估 (Kimi-K2-Instruct)
- 智能体与竞技编程 :在 SWE-bench Verified (65.8%)、SWE-bench Multilingual (47.3%) 和 LiveCodeBench v6 (53.7%) 等任务上表现出色,达到开源模型 SOTA,并显著缩小与 Claude 4 Opus/Sonnet 等闭源模型的差距。
- 智能体工具使用 :在 τ2-Bench (66.1% Pass@1) 和 ACEBench (76.5%) 等多轮工具使用基准上设立新标准,大幅超越所有基线。
- 通用能力 :在 MMLU (89.5%)、MMLU-Redux (92.7%)、IFEval (89.8%) 和 GPQA-Diamond (75.1%) 等知识、数学、指令遵循和长上下文任务上表现强劲且平衡,超越开源同行并与顶尖闭源模型竞争。
- 开放式评估 :在 LMSYS Arena 排行榜(2025 年 7 月 17 日)上,Kimi-K2-Instruct 排名开源模型第一,总排名第五,显示出在开放式任务中生成高质量响应的强大实力。
4.2 预训练评估 (Kimi-K2-Base)
- 通用语言理解 :在 12 个英语语言基准中的 10 个上取得 SOTA 性能,包括 MMLU (87.79%)、MMLU-Pro (69.17%)、SuperGPQA (44.67%) 等。
- 编码能力 :在所有编码基准上均取得领先性能,例如 CRUXEval-I-cot (74.00%)、LiveCodeBench v6 (26.29%) 和 EvalPlus (80.33%)。
- 数学推理 :在 MATH (70.22%)、GSM8K (92.12%) 和 GSM8K-Platinum (94.21%) 等三个数学基准上领先。
- 中文理解 :在所有中文语言基准上均达到 SOTA,包括 C-Eval (92.50%)、CMMLU (90.90%) 和 CSimpleQA (77.57%)。
4.3 安全评估
- 与 DeepSeek-V3、DeepSeek-R1 和 Qwen3 等开源 LLM 进行了红队评估,涵盖有害内容、隐私内容和安全内容以及提示注入、迭代越狱等攻击策略。
- 结果 :在 Base64 策略下通过率普遍接近 100%,但在 Crescendo 策略下通过率普遍下降。Kimi K2 在某些复杂场景(如 Harmful–Iterative Jailbreak)下的通过率相对较高。
- 局限性 :评估结果存在一定主观性;某些插件类型涉及 API 滥用或外部工具调用,对基础 LLM 的相关性有限。
- 局限性 ======
- 在处理困难推理任务或不明确的工具定义时,模型可能生成过多 token,导致输出截断或不完整的工具调用。
- 如果非必要地启用工具使用,某些任务的性能可能会下降。
- 在构建完整的软件项目时,一次性提示的成功率不如在智能体编码框架下使用 K2。
- 结论 =====
Kimi K2 是一个专为智能体智能设计的 1 万亿参数开源 MoE 模型。它利用 token 高效的 MuonClip 优化器和 15.5 万亿 token 的高质量数据集,实现了稳定、可扩展的预训练。后训练结合了大规模合成工具使用数据和统一的强化学习框架(包含可验证奖励和自批判反馈)。Kimi K2 在智能体和推理基准上树立了新的 SOTA,成为迄今为止最强大的开源大型语言模型(特指当初发布之际)。