Image
Image
作者推出了 DeepSeek-V3.2,该模型在保持高计算效率的同时,实现了卓越的推理能力与Agent(agent)性能。DeepSeek-V3.2 的关键技术突破如下:
-
- DeepSeek Sparse注意力(DeepSeek Sparse Attention, DSA):作者提出 DSA,一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。
-
- 可扩展的强化学习框架:通过实施稳健的强化学习协议并扩展后训练阶段的计算资源,DeepSeek-V3.2 的性能可与 GPT-5 相媲美。尤为突出的是,作者的高算力版本 DeepSeek-V3.2-Speciale 超越了 GPT-5,在推理能力上达到与 Gemini-3.0-Pro 相当的水平,在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得金牌级表现。
-
- 大规模Agent任务合成流水线:为将推理能力融入工具使用场景,作者开发了一种新型合成流水线,可系统化地大规模生成训练数据。该方法支持可扩展的Agent后训练,显著提升了模型在复杂交互环境中的泛化能力与指令遵循鲁棒性。
-
引言
推理模型(DeepSeek-AI, 2025;OpenAI, 2024a)的发布标志着大语言模型(Large Language Models, LLMs)演进过程中的一个关键转折点,推动了可验证领域整体性能的显著提升。自这一里程碑事件以来,LLMs 的能力迅速发展。然而,近几个月来,一种显著的分化趋势逐渐显现:尽管开源社区(MiniMax, 2025;MoonShot, 2025;ZhiPu-AI, 2025)持续取得进展,但闭源专有模型(Anthropic, 2025b;DeepMind, 2025a;OpenAI, 2025)的性能提升速度却呈现出更为陡峭的增长态势。因此,闭源模型与开源模型之间的性能差距不仅未趋于收敛,反而有进一步扩大的趋势,专有系统在复杂任务中的表现日益展现出显著优势。
通过作者的分析,作者识别出三个关键缺陷,这些缺陷限制了开源模型在复杂任务中的能力。首先,在架构层面,主流模型对原始 attention机制的依赖严重制约了长序列处理的效率。这种低效性对可扩展部署和有效的后训练(post-training)构成了重大障碍。其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了其在高难度任务上的表现。最后,在人工智能 Agent (AI agents)的背景下,与专有模型相比,开源模型在泛化能力和指令遵循能力方面存在显著滞后,从而影响了其在实际部署中的有效性。
为解决这些关键局限性,作者首先提出 DSA(Dynamic Sparse Attention),一种高效注意力机制,旨在显著降低计算复杂度。该架构有效缓解了效率 Bottleneck ,在长序列场景下仍能保持模型性能。其次,作者设计了一种稳定且可扩展的强化学习(Reinforcement Learning, RL)协议,使模型在后训练阶段能够实现大幅计算资源扩展。值得注意的是,该框架分配的后训练计算预算超过预训练成本的 10%,从而解锁了High-Level能力。第三,作者提出一种新型流水线,以促进工具使用场景下的通用推理能力。首先,作者实施冷启动阶段,采用 DeepSeek-V3的方法论,将推理与工具使用统一于单一轨迹(trajectory)中。随后,作者推进至大规模Agent任务合成阶段,生成超过 1,800 种不同环境以及 85,000 个复杂 Prompt (prompt)。这些大规模合成数据驱动强化学习过程,显著提升了模型在Agent场景下的泛化能力与指令遵循能力。
DeepSeek-V3.2 在多个推理基准测试中达到了与 Kimi-k2-thinking 和 GPT-5 相当的性能。此外,DeepSeek-V3.2 显著提升了开源模型的Agent(agent)能力,在 EvalSys 引入的长尾Agent任务上展现出卓越的性能。DeepSeek-V3.2 在Agent应用场景中展现出极高的成本效益,显著缩小了开源模型与前沿闭源模型之间的性能差距,同时成本大幅降低。值得注意的是,为推动开源模型在推理领域的边界,作者放宽了长度限制,从而开发出 DeepSeek-V3.2-Speciale。结果表明,DeepSeek-V3.2-Speciale 的性能已与领先的闭源系统 Gemini-3.0-Pro持平,在 IOI 2025、ICPC 世界总决赛 2025、IMO 2025 和 CMO 2025 等竞赛中均取得金牌级表现。
- DeepSeek-V3.2 架构
2.1. DeepSeek Sparse注意力
DeepSeek-V3.2 采用了与 DeepSeek-V3.2-Exp 完全相同的架构。与 DeepSeek-V3.1 的最后一个版本 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 唯一的架构改进是通过持续训练引入了 DeepSeek Sparse注意力(DeepSeek Sparse Attention, DSA)。
DSA的原型。DSA的原型主要由两个组件构成:Lightning Indexer和细粒度 Token 选择机制(fine-grained token selection mechanism)。
Lightning indexer计算 Query Token
与前序 Token
之间的索引得分
,以确定 Query Token 选择哪些 Token :
其中,
表示Indexer heads的数量;
和
由 Query Token
生成;
由前序 Token
生成。出于吞吐量考虑,作者选择 ReLU 作为激活函数。由于Lightning Indexer的Head数较少,且可实现为 FP8 精度,其计算效率极为出色。
Image
给定每个 Query Token
的索引得分
,作者的细粒度 Token 选择机制仅检索对应于 top-
索引得分的键值条目
。随后,通过在 Query Token
与Sparse选择的Key-value条目
之间应用 attention mechanism,计算注意力输出
:
在 MLA 基础上实例化 DSA。为考虑从 DeepSeekV3.1-Terminus 模型进行持续训练,作者基于 MLA对 DeepSeek-V3.2 实例化 DSA。在 Kernel 层面,为提升计算效率,每个 key-value 条目必须被多个 query 共享。因此,作者基于 MLA 的 MQA模式实现 DSA,其中每个潜在向量(即 MLA 的 key-value 条目)将被 Query token 的所有 query head 共享。基于 MLA 的 DSA 架构如图2 所示。作者还提供了 DeepSeek-V3.2 的开源实现,以明确无误地说明具体细节。
2.1.1. 继续预训练
从 DeepSeek-V3.1-Terminus 的基础预训练权重(其上下文长度已扩展至 128K)出发,作者进行了持续预训练(continued pre-training),随后进行后训练(post-training),以构建 DeepSeekV3.2。
DeepSeek-V3.2 的持续预训练包含两个训练阶段。在两个阶段中,训练数据的分布均与 DeepSeek-V3.1-Terminus 所使用的 128K 长上下文扩展数据完全一致。
Dense预热阶段 。作者首先使用一个简短的预热阶段来初始化Lightning Indexer。在此阶段,作者保持Dense注意力机制,并冻结除 Lightning Indexer外的所有模型参数。为了使Indexer的输出与主注意力分布对齐,对于第
个 Query token,作者首先通过对所有注意力头的注意力分数进行求和,来聚合主注意力分数。该求和结果在序列维度上进行 L1 归一化,以生成目标分布
。基于
,作者将 KL 散度损失设置为Indexer的训练目标:
为了进行Warm-up,作者使用
的学习率。作者仅对indexer训练 1000 步,每步包含 16 个长度为 128K Token 的序列,总计训练了 21 亿个 Token 。
Sparse训练阶段 。在Indexer预热之后,作者引入细粒度的 Token 选择机制,并优化所有模型参数,以使模型适应DSA的Sparse模式。在此阶段,作者仍保持对Indexer输出与主注意力分布的一致性对齐,但仅针对所选 Token 集合
进行。
值得注意的是,作者将Indexer(indexer)的输入从计算图中分离,以实现独立优化。Indexer的训练信号仅来自
,而主模型的优化则仅依据语言建模损失(language modeling loss)。在这一Sparse训练阶段,作者采用
的学习率,并为每个 Query (query) token 选择 2048 个键值(key-value) token。主模型与Indexer均训练 15000 步,每步包含 480 个长度为 128K token 的序列,总计训练了 943.7B 个 token。
2.2. 平衡性评估
标准基准
2025年9月,作者在一系列基准测试中评估了 DeepSeek-V3.2-Exp 的表现,这些基准测试聚焦于多样化的能力,并与 DeepSeek-V3.1-Terminus 进行对比,结果显示二者性能相近。尽管 DeepSeek
在长序列上的计算效率显著提升,但在短上下文和长上下文任务中,其性能与 DeepSeek-V3.1-Terminus 相比并未出现明显下降。
人类偏好
由于直接的人类偏好评估 inherently 易受偏见影响,作者采用 ChatbotArena 作为间接评估框架,以近似用户对新开发的基础模型的偏好。DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2-Exp 采用相同的后训练策略,且在 2025 年 11 月 10 日的评估中获得的 Elo 分数非常接近。这些结果表明,尽管引入了Sparse attention 机制,新基础模型的性能仍与前代版本相当。
在 DeepSeek-V3.2-Exp 发布后,多个独立的长上下文评估使用此前未见过的测试集进行了测试。一个具有代表性的基准是
,在推理模式下,DeepSeek-V3.2-Exp 的得分比 DeepSeek-V3.1-Terminus 高出四分。在 Fiction.liveBench 评估中,DeepSeek-V3.2-Exp 在多个指标上均持续优于 DeepSeek-V3.1-Terminus。这些证据表明,DeepSeek-V3.2-Exp 的基础预训练权重在长上下文任务上并未出现性能退化。
2.3. 推理成本
DSA 将主模型的核心 attention 复杂度从
降低至
,其中
为所选 token 的数量。尽管Lightning Indexer仍具有
的复杂度,但其计算量相较于 DeepSeek-V3.1-Terminus 中的 MLA 显著减少。结合作者优化的实现,DSA 在长上下文场景下实现了显著的端到端加速。
Image
图3 展示了 DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2 在序列中不同 token 位置下的 token 成本变化情况。这些成本基于在 H800 GPU 上实际部署的服务进行基准测试估算,GPU 租赁价格为每 GPU 小时 2 美元。需要注意的是,在短序列预填充(prefilling)阶段,作者特别实现了一种 Mask MHA(masked MHA)模式以模拟 DSA,该模式在短上下文条件下可实现更高的效率。
- Post-Training
在持续预训练之后,作者进行后训练以生成最终的 DeepSeek-V3.2。DeepSeek-V3.2 的后训练阶段同样采用与Sparse持续预训练阶段相同的方式使用Sparse attention。对于 DeepSeek-V3.2,作者保持与 DeepSeek-V3.2-Exp 相同的后训练流程,其中包括专家蒸馏(specialist distillation)和混合强化学习(mixed RL)训练。
专用模型蒸馏
针对每个任务,作者首先开发一个专门针对该特定领域的专用模型,所有专用模型均从同一预训练的 DeepSeek-V3.2 基础预训练权重(base checkpoint)进行微调。除了写作任务和通用问答任务外,DeepSeek-V3-2还涵盖了六个专用领域:数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索,所有领域均支持思考模式(thinking mode)与非思考模式(non-thinking mode)。每个专用模型均通过大规模强化学习(Reinforcement Learning, RL)计算进行训练。此外,作者采用不同的模型分别生成长链思维推理(思考模式)的训练数据与直接响应生成(非思考模式)的训练数据。在专用模型准备就绪后,它们被用于生成最终预训练权重所需的目标领域数据。实验结果表明,基于蒸馏数据训练的模型性能仅略低于专用领域专用模型,且通过后续的强化学习训练,性能差距可被有效消除。
混合强化学习
对于 DeepSeek-V3.2 的混合强化学习(Mixed RL)训练,作者仍然采用分组相对策略优化(Group Relative Policy Optimization, GRPO)作为强化学习训练算法。对于 DeepSeek-V3.2-Exp,作者将推理、Agent以及人类对齐(human alignment)训练整合到一个统一的强化学习阶段中。该方法在不同领域之间实现了性能的高效平衡,同时避免了多阶段训练范式中常见的灾难性遗忘(catastrophic forgetting)问题。
对于推理与Agent任务,作者采用基于规则的 Reward 机制,包括结果 Reward (outcome reward)、长度惩罚(length penalty)以及语言一致性 Reward (language consistency reward)。对于通用任务,作者采用生成式 Reward 模型(generative reward model),其中每个 Prompt (prompt)都具有独立的评估标准(rubrics)。
DeepSeek-V3.2 与 DeepSeek-V3.2-Special
DeepSeek-V3.2 通过从专家数据中提炼推理、Agent(agent)以及人类对齐(human alignment)数据,并经过数千步的持续强化学习(RL)训练,最终达到最终预训练权重。为了探究扩展性思维(extended thinking)的潜力,作者还开发了一个实验性变体——DeepSeek-V3.2-Special。该模型仅在推理数据上进行训练,并在 RL 训练过程中降低了长度惩罚(length penalty)。此外,作者引入了 DeepSeekMath-V2(Shao et al., 2025)的数据集和 Reward 机制,以增强其在数学证明方面的能力。
作者希望重点强调第3.1节中关于如何构建稳定的方法以扩展强化学习(Reinforcement Learning, RL)计算资源的努力,以及第3.2节中如何将思考(thinking)机制融入 Agent (agentic)任务的实践。
3.1. 扩展GRPO
作者首先回顾GRPO的目标。GRPO通过在每道问题
下从旧策略
采样得到的一组回复
上最大化以下目标函数,来优化策略模型
:
where
重要性采样比(importance sampling ratio)表示当前策略与旧策略之间的比率。
和
分别是控制裁剪范围和
惩罚强度的超参数。
表示输出
的优势值,该值通过在每组内对回报进行归一化来估计。具体而言,使用一组 Reward 模型对每组中的每个输出
评分,得到对应的输出 Reward
,从而获得
个 Reward 值
。输出
的优势值通过从该输出的 Reward
中减去组内平均 Reward 得到,即
。
接下来,作者概述一些额外的策略,这些策略能够稳定强化学习(Reinforcement Learning, RL)的扩展性,直接基于GRPO算法进行构建。
给定
从旧策略
中采样得到,作者对 K3 估计器进行修正,利用当前策略
与旧策略
之间的重要性采样比率,获得一个无偏的 KL 估计。
由于这一调整的直接结果,该KL估计器的梯度变为无偏,从而消除了系统性估计误差,有助于实现稳定的收敛。这与原始的K3估计器形成鲜明对比,尤其是在采样token在当前策略下的概率远低于参考策略时,即
的情况下。在此类情形下,K3估计器的梯度会为这些token分配过大且无界的权重,以最大化其似然,导致噪声较大的梯度更新,这些噪声在后续迭代中不断累积,降低样本质量,并引发不稳定的训练动态。在实际应用中,作者发现不同领域对KL正则化的强度需求各不相同。对于某些领域(如数学),采用较弱的KL惩罚甚至完全省略KL正则化,反而能够提升性能。
为了提高强化学习(RL)系统的效率,作者通常生成大量rollout数据,随后将其划分为多个小批量(mini-batch),用于多次梯度更新步骤。这一做法本质上引入了离策略(off-policy)行为。此外,用于高效数据生成的推理框架通常经过高度优化,其具体实现细节可能与训练框架存在差异。这种训练与推理之间的不一致性进一步加剧了离策略程度。为稳定训练过程并提升对离策略更新的容忍度,作者对那些导致显著策略偏差的负向序列进行 Mask 处理,该偏差通过数据采样策略
与当前策略
之间的KL散度来衡量。更具体地,作者在GRPO损失中引入一个二值 Mask
:
where
其中,
是一个超参数,用于控制策略差异的阈值。需要注意的是,这里的
指的是推理框架直接返回的采样概率,因此旧策略与当前策略之间的 KL 散度同时考虑了上述两种偏离策略(off-policyness)的来源。此外,值得注意的是,作者仅对优势值为负的序列进行 Mask 处理。直观上,模型从自身错误中学习所能获得的收益最大,而高度偏离策略的负样本可能具有破坏性,可能误导或 destabilize(使不稳定)优化过程。作者通过实验观察发现,这种 Off-Policy Sequence Masking 操作在某些原本容易出现不稳定的训练场景中,能够有效提升训练的稳定性。
保持路由(Keep Routing)的混合专家(Mixture-of-Experts, MoE)模型通过在推理过程中仅激活部分专家模块来提升计算效率。然而,推理与训练框架之间的差异,以及策略更新的影响,可能导致相同输入在推理和训练过程中出现不一致的专家路由。这种不一致性会引发活跃参数子空间的突变,从而 destabilize 优化过程,并加剧离策略(off-policy)问题。为缓解这一问题,作者保留推理框架中采样时使用的专家路由路径,并在训练过程中强制采用相同的路由路径,确保相同的专家参数被优化。该“保持路由”(Keep Routing)操作被证明对 MoE 模型的强化学习(RL)训练稳定性至关重要,自 DeepSeek-V3-0324 起已被纳入作者的 RL 训练流水线。
Top-p 和 top-∇⋅k 采样是广泛使用的采样策略,用于提升大语言模型(Large Language Models, LLMs)生成响应的质量。在强化学习(RL)训练中采用这些策略同样具有优势,因为它们可以避免采样到概率极低的词元(tokens),这些词元本可能被用作优化目标。尽管这种截断操作能够保持样本质量,但会导致旧策略
与新策略
的动作空间不一致,违反了重要性采样(importance sampling)的基本原则,从而引发训练不稳定问题。为解决这一问题,作者在从
采样时保留截断 Mask (truncation mask),并在训练过程中将该 Mask 应用于
,确保两个策略共享相同的动作子空间。实验结果表明,将 top-p 采样与 Keep Sampling Mask 策略相结合,能够在 RL 训练过程中有效保持语言一致性。
3.2. 工具使用中的思考
3.2.1 思考上下文管理
DeepSeek-R1 已证明,引入思维过程能够显著提升模型解决复杂问题的能力。基于这一洞察,作者旨在将思维能力融入工具调用(tool-calling)场景中。
Image
作者观察到,复制 DeepSeek-R1 的策略——在第二轮消息到达时丢弃推理内容——会导致显著的 token 低效。这种方法迫使模型在每次后续的工具调用中都重新对整个问题进行冗余的推理。为缓解这一问题,作者设计了一种专为工具调用场景优化的上下文管理机制,如图4 所示:
- • 仅当引入新的用户消息时,历史推理内容才会被丢弃。如果仅追加与工具相关的消息(例如工具输出),则推理内容在整个交互过程中将被保留。
- • 当移除推理轨迹(reasoning traces)时,工具调用及其结果的历史记录仍保留在上下文中。
值得注意的是,某些 Agent 框架(如 Roo Code 或 Terminus)通过用户消息模拟工具交互。由于上述上下文管理规则的限制,这些框架可能无法充分受益于作者增强的推理持久性。因此,作者建议在使用此类架构时,采用非思考模型以获得最佳性能。
3.2.2 冷启动
在具备推理数据(非 Agent 型)和非推理 Agent 型数据的前提下,一种直接的整合两种能力的策略是通过精心设计的 Prompt (prompt)。作者认为,模型具备充分的能力来准确遵循明确的指令,从而能够在推理过程中无缝地融入工具执行。
Image
为了展示冷启动机制的运行过程,作者如附录表6–8所示,对训练数据进行了选择性采样。需要注意的是,不同的任务 Prompt (task prompt)对应不同的系统 Prompt (system prompt)。表6展示了与竞赛编程(competitive programming) Prompt 相对应的一个推理数据示例。该示例使用系统 Prompt 明确要求模型在给出最终答案之前进行推理,并使用特殊 Token <reasoning> 来标注推理路径。表7展示了非推理型Agent(non-reasoning agentic)数据的 Prompt ,其中系统 Prompt 包含了工具调用(toolcall)的引导信息。表8则展示了作者设计的系统 Prompt ,用于指导模型在其推理过程中整合多个工具调用。
在这种方式下,尽管工具使用模式中的推理可能缺乏鲁棒性,但模型偶尔仍能生成期望的轨迹,从而为后续的强化学习阶段提供了基础。
3.2.3 大规模Agent任务
Image
多样化的强化学习(Reinforcement Learning, RL)任务对于提升模型的鲁棒性至关重要。对于搜索、代码工程和代码理解等任务,作者采用真实世界中的工具,包括实际的网络搜索API、编程工具以及Jupyter Notebooks。尽管这些RL环境是真实的,但所使用的 Prompt (prompt)要么从互联网来源提取,要么通过合成方式生成,而非来自实际用户交互。对于其他任务,环境和 Prompt 均为合成构建。作者所使用的 Agent (agent)任务详见表1。
Search Agent 作者采用基于 DeepSeek-V3.2 的多Agent流水线,生成多样化且高质量的训练数据。作者首先从大规模网络语料库中采样跨多个领域的信息丰富型长尾实体。随后,一个问题构建 Agent (question-construction agent)利用可配置深度与广度参数的搜索工具对每个实体进行探索,将发现的信息整合为问答对(QA pairs)。多个配置异构的答案生成 Agent (answer-generation agents,采用不同预训练权重、系统 Prompt 等配置)为每个提出的 QA 对生成多样化的候选回答。一个具备搜索能力的验证 Agent (verification agent)通过多轮验证,对所有答案进行校验,仅保留真实答案正确且所有候选答案均可被证实错误的样本。这些数据覆盖多种语言、领域和难度 Level 。为进一步补充可验证样本,并更真实地反映实际使用场景,作者还从现有的有益强化学习(helpful RL)数据集中引入经过筛选的实例,这些实例中搜索工具能提供可量化的增益。随后,作者制定多维度的详细评估标准,并采用生成式 Reward 模型(generative reward model)根据这些标准对回答进行评分。该混合方法实现了对事实可靠性与实际帮助性的联合优化。
Code Agent 作者通过从 GitHub 中挖掘数百万个 issue-Pull Request(PR)对,构建了大规模可执行的软件问题修复环境。该数据集经过严格的启发式规则过滤和基于大语言模型(LLM)的判断,以确保高质量,要求每条记录包含合理的 issue 描述、相关的黄金 Patch (gold patch)以及用于验证的测试 Patch (test patch)。一个由 DeepSeek-V3.2 驱动的自动化环境搭建 Agent (environment-setup agent)被用于为这些配对构建可执行环境。该 Agent 负责包安装、依赖项解析以及测试执行。测试结果以标准的 JUnit 格式输出,确保在不同编程语言和测试框架之间具有一致的解析能力。只有当应用黄金 Patch 后产生非零数量的“错误转为通过”(false-to-positive, F2P)测试用例(表明问题已修复),且“通过转为失败”(pass-to-fail, P2F)测试用例数量为零(表明无回归)时,才认为环境构建成功。通过这一流程,作者成功构建了数以万计可复现的 issue 修复环境,覆盖了 Python、Java、JavaScript、TypeScript、C、
、Go 和 PHP 等多种编程语言。
Code Interpreter Agent 作者利用 Jupyter Notebook 作为代码解释器来解决复杂的推理任务。为了实现这一目标,作者精心整理了一系列涵盖数学、逻辑和数据科学的多样化问题,每个问题都要求模型利用代码执行能力来得出解决方案。
为了扩展强化学习(RL)中的Agent环境与任务规模,作者采用了一个自动环境生成Agent,该Agent生成了1,827个面向任务的环境。这些任务难以求解但易于验证。合成流程主要包含环境与工具集构建、任务合成以及解决方案生成三个阶段。具体而言,该流程按以下步骤进行。
-
- 给定一个任务类别(例如,规划旅行行程),并配备有bash和搜索工具的沙箱环境,Agent首先利用这些工具从互联网上生成或检索相关数据,并将其存储在沙箱数据库中。
-
- 该Agent随后合成一组特定任务的工具,每个工具均以函数形式实现。
-
- 为了创建既具有挑战性又可自动验证的任务,Agent最初基于当前数据库提出一个简单任务,同时提供其解决方案和用 Python 实现的验证函数。解决方案函数被限制只能调用工具函数或执行逻辑计算,不能调用其他函数或直接访问数据库,从而确保任务只能通过工具接口求解。此外,解决方案函数产生的结果必须由验证函数进行验证。如果解决方案未通过验证,Agent将不断修改解决方案或验证函数,直至解决方案的输出通过验证。随后,Agent迭代提升任务难度,并更新相应的解决方案和验证函数。在这一迭代过程中,若当前工具集不足以解决任务,Agent将扩充工具集。
按照此工作流程,作者获得了数千个 <environment, tools, task, verifier>元组。随后,作者使用 DeepSeek-V3.2 在该数据集上进行强化学习(RL),并仅保留 pass
不为零的实例,最终得到 1,827 个环境及其对应的任务(总计 4,417 个)。下图展示了一个合成的行程规划示例。该示例表明,尽管在庞大的组合空间中搜索满足所有约束条件的行程计划具有挑战性,但验证给定候选解是否满足这些约束则相对简单。
- 评估
4.1 主要结果
作者在 MMLU-Pro、GPQA Diamond、Human Last Exam (HLE) Text-only、LiveCodeBench、Codeforces、Aider-Polyglot、AIME、HMMT、HMMT Nov 2025、IMOAnswerBench、Terminal Bench 2.0、SWE-Verified、SWE Multilingual、BrowseComp、BrowseCompZh、
-bench、MCP-Universe、MCP-Mark以及 Tool-Decathlon上评估模型。工具使用类基准测试采用标准函数调用格式进行评估,模型配置为思维模式(thinking mode)。对于 MCP-Universe和 MCP-Mark,作者使用内部环境对所有模型进行评估,因为搜索(search)和 Playwright 环境可能与官方设置略有差异。作者设置温度(temperature)为 1.0,上下文窗口(context window)为 128K tokens。对于 AIME、HMMT、IMOAnswerBench 和 HLE 等数学相关任务,作者采用如下模板进行评估:
"{question}\nPlease reason step by step, and put your final answer within \boxed{}."
在 HLE 任务中,作者还使用官方模板对 DeepSeekV3.2-Thinking 进行了额外评估,得到得分为 23.9。
Image
DeepSeek-V3.2 在推理任务上的表现与 GPT-5-high 相当,但略逊于 Gemini-3.0-Pro。与 K2-Thinking 相比,DeepSeek-V3.2 在取得相当分数的同时,输出的 token 数量显著减少,如表3 所示。这些性能提升可归因于在强化学习(RL)训练中分配了更多的计算资源。在最近几个月中,作者观察到性能的持续提升与延长的 RL 训练预算呈正相关,当前 RL 训练预算已超过预训练成本的
。作者推测,若进一步增加计算资源的投入,推理能力有望得到进一步提升。值得注意的是,本文所呈现的 DeepSeek-V3.2 性能受限于长度约束的 Reward 模型;在移除该限制后,作者观察到模型性能进一步提升,具体细节见第 4.2 节。
在代码 Agent 评估中,DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 上均显著优于开源大语言模型(LLM),展现出其在真实世界编码工作流中的潜力。关于 Terminal Bench 2.0,如前所述,作者针对“思考模式”(thinking mode)设计的上下文管理策略目前与 Terminus 不兼容,因此报告的 46.4 分是基于 Claude Code 框架获得的。作者还以非思考模式(non-thinking mode)对 DeepSeek-V3.2 与 Terminus 进行了评估,取得了 39.3 的分数。对于 SWE-bench Verified,主要分数是通过作者内部框架获得的。在其他设置下的鲁棒性测试——包括 Claude Code 和 RooCode 框架,以及非思考模式——也得到了一致的结果,分数范围在 72 到 74 之间。
在搜索 Agent 的评估中,作者使用标准的商业搜索API来评估DeepSeek-V3-2。由于DeepSeek-V3.2支持的最大上下文长度仅为128K,约有
以上的测试用例超过了该限制。为解决此问题,作者采用一种上下文管理方法来获取最终得分。作为参考,不使用上下文管理时的得分为51.4。更多细节详见第4.4节。
Image
在工具使用基准测试中,DeepSeek-V3.2 显著缩小了开源模型与闭源模型之间的性能差距,尽管其表现仍低于前沿模型。对于
-bench,作者采用模型自身作为用户 Agent (user agent),最终获得类别得分分别为 63.8(Airline)、81.1(Retail)和 96.2(Telecom)。在 MCP 基准测试中,作者采用函数调用(function calling)格式,并将工具输出置于 Token 为 ’tool’ 角色的消息中,而非 ’user’ 角色。
在测试过程中,作者观察到 DeepSeek-V3.2 频繁进行冗余的ego验证,生成过长的轨迹(trajectory)。这一倾向在 MCP-Mark GitHub 和 Playwright 评估等任务中尤其明显,常导致上下文长度超过 128K 的限制,从而严重影响 DeepSeek-V3.2 的最终性能。然而,引入上下文管理策略(context management strategies)可进一步提升其表现。作者将此识别为未来工作的方向,也是用户使用时需考虑的实践问题。尽管 DeepSeek-V3.2 存在上述问题,其性能仍显著优于现有开源模型。值得注意的是,这些基准测试所使用的环境与工具集在强化学习(RL)训练过程中并未出现,因此观察到的性能提升表明,DeepSeek-V3.2 具备将推理策略泛化至域外(out-of-domain)Agent场景的能力。 Agent 场景下非思考型模型(non-thinking model)的评估结果见附录表9。
4.2 DeepSeek-V3.2-Speciale 的结果
然而,DeepSeek-V3.2-Speciale 的 token 效率仍显著低于 Gemini-3.0-Pro。为降低部署成本和延迟,作者在官方 DeepSeek-V3.2 的训练过程中施加了更严格的 token 约束,旨在优化性能与成本之间的权衡。作者相信,token 效率仍是未来研究的关键方向。
4.3. 合成 Agent 任务
在本节中,作者通过消融实验研究了合成Agent任务的影响。作者重点关注两个问题:
- • 第一,合成任务对强化学习而言是否具备足够的挑战性?
- • 第二,这些合成任务的泛化能力如何,即它们能否迁移到不同的下游任务或真实世界环境中?
Image
为回答第一个问题,作者从通用合成Agent任务中随机抽取50个实例,评估用于合成的模型以及前沿闭源大语言模型(LLM)。如表5所示,DeepSeek-V3.2-Exp的准确率仅为
,而前沿闭源模型的最高准确率也仅为
。这些结果表明,合成数据中包含的Agent任务对DeepSeek-V3.2-Exp和前沿闭源模型均具有相当的挑战性。
为了探究在合成数据上进行强化学习(Reinforcement Learning, RL)是否能够泛化到不同任务或真实世界环境,作者对 DeepSeek-V3.2 的 SFT 预训练权重(记为 DeepSeek-V3.2-SFT)应用 RL。为排除长链思维(Chain-of-Thought, CoT)及其他 RL 数据的影响,作者仅在非思考模式下对合成 Agent 任务(agentic tasks)进行 RL 训练。随后,作者将该模型与 DeepSeek-V3.2-SFT 以及 DeepSeek-V3.2-Exp 进行对比,其中 DeepSeek-V3.2-Exp 仅在搜索和代码环境中通过 RL 进行训练。
Image
如图5 所示,在 Tau2Bench、MCP-Mark 和 MCP-Universe 基准测试上,大规模在合成数据上进行 RL 训练显著优于 DeepSeek-V3.2-SFT。相比之下,将 RL 限制在代码和搜索场景中并未带来这些基准测试上的性能提升,进一步凸显了合成数据在 RL 训练中的潜力。
4.4. 搜索 Agent 的上下文管理
即使在扩展的上下文窗口(如
)下,基于搜索的 Agent 工作流在实际应用中仍经常遭遇最大长度限制,导致推理过程被过早截断。这一 Bottleneck 限制了测试时计算资源潜力的充分发挥。为解决该问题,作者提出一种上下文管理机制,采用简单的策略在测试时扩展 Token 预算,当 Token 使用量超过上下文窗口长度的
时触发。这些策略包括:
-
- Summary,对溢出的轨迹进行摘要,并重新启动推理过程;
-
- Discard-75%,丢弃轨迹中前
的工具调用历史以释放空间; 3. 3. Discard-all,通过丢弃所有先前的工具调用历史来重置上下文(类似于 Anthropic, 2025a 提出的新上下文工具)。
作为对比,作者还实现了一个并行扩展 Baseline 方法——Parallel-fewest-step,该方法采样
条独立轨迹,并选择步骤数最少的轨迹作为最终结果。
Image
作者在 BrowseComp 基准测试上评估了这些策略。如图6所示,在不同计算预算下,上下文管理通过允许模型在测试时扩展计算资源,为执行额外的推理步骤提供了更多空间,从而带来显著的性能提升。例如,Summary 将平均执行步数从140提升至364,性能从53.4提升至60.2。然而,其整体效率相对较低。尽管实现简单,Discard-all 在效率和可扩展性方面均表现良好,取得了67.6的得分,与并行扩展(parallel scaling)相当,同时使用的步数显著更少。
总之,测试时的计算资源可以通过上下文管理进行串行扩展,或通过并行方式扩展,两者都能有效提升模型的问题求解能力。然而,不同的策略在效率和可扩展性方面表现各异。因此,在评估模型性能时,必须考虑实际的计算成本。同时,如何找到串行与并行扩展的最佳组合以同时最大化效率和可扩展性,仍是未来研究的关键方向。
- 结论、局限性与未来工作
在本工作中,作者提出了 DeepSeek-V3.2,一个能够有效弥合计算效率与先进推理能力之间差距的框架。通过引入 DSA(Dynamic Sparse Attention),在不牺牲长上下文性能的前提下,解决了关键的计算复杂度问题。通过增加计算预算,DeepSeek-V3.2 在推理基准测试中实现了与 GPT-5 相当的性能。
最后,作者集成的大规模Agent任务合成流水线(agentic task synthesis pipeline)显著提升了工具使用能力,为开放的大语言模型(LLM)构建鲁棒且可泛化的Agent开辟了新可能。此外,DeepSeek-V3.2-Speciale 在国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中斩获金牌,标志着开放 LLM 的一个重要里程碑。
尽管取得了这些成果,作者仍承认与前沿闭源模型(如 Gemini-3.0-Pro)相比存在一些局限性:
-
- 首先,由于总的训练浮点运算量(FLOPs)较少,DeepSeek-V3.2 的世界知识广度仍落后于领先的专有模型。 作者计划在未来的迭代中通过扩大预训练计算规模来弥补这一知识差距 。
-
- 其次,分词效率(token efficiency)仍是挑战;DeepSeek-V3.2 通常需要更长的生成轨迹(即更多 token)才能达到 Gemini-3.0-Pro 等模型的输出质量。 未来工作将聚焦于优化模型推理链的智能密度,以提升效率 。
-
- 第三,解决复杂任务的能力仍不及前沿模型,这促使作者 进一步优化基础模型架构及后训练流程 。
参考
[1]. DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
