DeepSeek-V3.2技术报告解读：开源大模型的逆袭之战——如何用10%算力追平GPT-5 - 文章 - 开发者社区

picture.image

新模型技术报告已同步发布：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源DeepSeek-V3.2

  
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2  
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

  
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale  
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

一、研究背景：开源与闭源的差距正在拉大

任务定义与研究动机

近几个月来，AI领域出现了一个令人担忧的趋势：尽管开源社区在不断进步，但闭源模型（如GPT-5、Gemini-3.0-Pro）的性能提升速度明显更快，开源与闭源之间的差距不是在缩小，而是在扩大 。

DeepSeek团队通过分析发现，开源模型存在三个关键缺陷：

架构效率瓶颈 ：传统的注意力机制在处理长序列时效率极低，限制了模型的部署和训练
训练资源不足 ：开源模型在后训练（post-training）阶段的计算投入严重不足
智能体能力落后 ：在实际部署的AI Agent场景中，开源模型的泛化能力和指令遵循能力明显弱于闭源模型

核心贡献

DeepSeek-V3.2的三大突破：

DeepSeek Sparse Attention (DSA)：一种高效的稀疏注意力机制，将计算复杂度从 $\mathcal{O}(L^2)$ 降低到 $\mathcal{O}(Lk)$ ，同时保持长文本性能
可扩展的强化学习框架 ：后训练计算预算超过预训练成本的10%，使DeepSeek-V3.2达到GPT-5的水平
大规模智能体任务合成管线 ：生成1,800+环境和85,000+复杂提示，显著提升工具使用能力

更令人惊讶的是，高算力版本DeepSeek-V3.2-Speciale在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中均达到金牌水平 ，性能与Gemini-3.0-Pro持平。

picture.image

二、相关工作

推理模型的里程碑

推理模型（如DeepSeek-R1、OpenAI o1）的发布标志着大语言模型的重要转折点，在可验证领域实现了性能飞跃。然而，近几个月闭源模型（Anthropic Claude、Google Gemini、OpenAI GPT）的发展速度明显快于开源社区（MiniMax、MoonShot、ZhiPu-AI等）。

注意力机制的演进

传统的全注意力机制（Vanilla Attention）在长序列处理上存在瓶颈。虽然已有一些稀疏注意力方案，但DeepSeek-V3.2的DSA通过闪电索引器（Lightning Indexer）和细粒度token选择机制 实现了更优的效率-性能平衡。

强化学习在后训练中的应用

现有开源模型普遍在后训练阶段投入不足。DeepSeek-V3.2采用GRPO（Group Relative Policy Optimization）算法，并通过一系列创新（无偏KL估计、离策略序列掩码等）实现了稳定的大规模RL训练。

三、核心技术突破

3.1 DeepSeek Sparse Attention (DSA)

DSA是DeepSeek-V3.2的架构核心，包含两个关键组件：

（1）闪电索引器（Lightning Indexer）

索引器通过计算查询token $\mathbf{h}\_t$ 与前序token $\mathbf{h}\_s$ 之间的索引分数来决定选择哪些token：

$I\_{t,s} = \sum\_{j=1}^{H^I} w\_{t,j}^I \cdot \text{ReLU}({\mathbf{q}}\_{t,j}^I \cdot {\mathbf{k}}\_s^I)$ 其中 $H^I$ 是索引头的数量，ReLU激活函数的选择是为了提升吞吐量。索引器使用FP8精度，计算效率极高。

（2）细粒度Token选择机制

基于索引分数，只检索top-k个key-value条目，然后计算注意力输出：

${\mathbf{u}}\_t = \text{Attn}({\mathbf{h}}\_t, \{{\mathbf{c}}\_s | I\_{t,s} \in \text{Top-k}(I\_{t,:})\})$

picture.image

持续预训练策略

DSA的训练分两阶段：

密集预热阶段 ：冻结主模型参数，仅训练索引器1000步（21亿tokens），通过KL散度对齐索引器与主注意力分布：

$\mathcal{L}^I = \sum\_t \mathbb{D}\_{\text{KL}}(p\_{t,:} \parallel \text{Softmax}(I\_{t,:}))$ 2. 稀疏训练阶段 ：引入token选择机制，训练15000步（9437亿tokens），学习率 $7.3 \times 10^{-6}$ ，每个查询选择2048个key-value tokens

3.2 可扩展的强化学习框架

DeepSeek-V3.2采用GRPO算法，并引入多项创新确保训练稳定性：

（1）无偏KL估计

传统K3估计器在 $\pi\_\theta \ll \pi\_{\text{ref}}$ 时会产生有偏梯度。新方法使用重要性采样比修正：

$\mathbb{D}\_{\text{KL}}(\pi\_\theta(o\_{i,t}) \parallel \pi\_{\text{ref}}(o\_{i,t})) = \frac{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}{\pi\_{\text{old}}(o\_{i,t}|q,o\_{i,<t})} \left(\frac{\pi\_{\text{ref}}(o\_{i,t}|q,o\_{i,<t})}{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}="" -="" \log\frac{\pi\_{\text{ref}}(o\_{i,t}|q,o\_{i,<t})}{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}="" 1\right)=""$ ="" （2）离策略序列掩码（Off-Policy Sequence Masking）

对负优势且策略偏离过大的样本进行掩码，阈值由 $\delta$ 控制：

$M\_{i,t} = \begin{cases} 0 & \text{if } \widehat{A}\_{i,t} < 0 \text{ and } \frac{1}{|o\_i|}\sum\_{t=1}^{|o\_i|}\log\frac{\pi\_{\text{old}}(o\_{i,t}|q,o\_{i,\delta \\ 1 & \text{otherwise} \end{cases}$ （3）保持路由（Keep Routing）

对于MoE模型，保留推理时的专家路由路径，在训练时强制使用相同路由，避免参数子空间突变。

（4）保持采样掩码（Keep Sampling Mask）

保留top-p/top-k采样时的截断掩码，确保新旧策略共享相同的动作子空间。

3.3 工具使用中的思考链整合

（1）思考上下文管理

针对工具调用场景，设计了特殊的上下文管理策略：

只有在新用户消息到来时才丢弃历史推理内容
如果只是工具输出追加，则保留推理轨迹
工具调用历史始终保留

picture.image （2）冷启动机制

通过精心设计的提示词，将推理能力与工具使用无缝结合。不同任务类型对应不同的系统提示词，引导模型在推理过程中执行多次工具调用（见附录表6-8）。

（3）大规模智能体任务合成

构建了四类智能体任务：

| 任务类型 | 任务数量 | 环境类型 | 提示词来源 | | --- | --- | --- | --- | | 代码智能体 | 24,667 | 真实 | 提取 | | 搜索智能体 | 50,275 | 真实 | 合成 | | 通用智能体 | 4,417 | 合成 | 合成 | | 代码解释器 | 5,908 | 真实 | 提取 |

通用智能体合成示例 ：一个自动环境合成智能体生成1,827个任务导向环境，例如旅行规划任务（需要在大组合空间中搜索满足所有约束的方案，但验证给定方案是否满足约束相对简单）。

四、实验效果

4.1 主要基准测试结果

在32个基准测试中，DeepSeek-V3.2在推理、代码、数学、智能体等多个维度达到GPT-5水平 ：

推理任务 ：

MMLU-Pro: 85.0（GPT-5: 87.5）
GPQA Diamond: 82.4（GPT-5: 85.7）
HLE文本题: 25.1（GPT-5: 26.3）

代码任务 ：

LiveCodeBench: 83.3（GPT-5: 84.5）
Codeforces评分: 2386（GPT-5: 2537）

数学任务 ：

AIME 2025: 93.1%（GPT-5: 94.6%）
HMMT Feb 2025: 92.5%（GPT-5: 88.3%）
HMMT Nov 2025: 90.2%（GPT-5: 89.2%）

代码智能体 ：

SWE-Verified解决率: 73.1%（领先多数开源模型）
Terminal Bench 2.0: 46.4%（开源最佳）

搜索智能体 ：

BrowseComp: 51.4%（无上下文管理）→ 67.6%（有上下文管理）
BrowseCompZh: 65.0%

工具使用 ：

τ²-Bench: 80.3（大幅领先开源模型）
MCP-Universe成功率: 45.9%
Tool-Decathlon: 35.2

picture.image

4.2 DeepSeek-V3.2-Speciale：冲击金牌

通过放松长度约束并增加计算预算，Speciale版本在顶级竞赛中达到金牌水平 ：

| 竞赛 | 成绩 | 奖牌等级 | | --- | --- | --- | | IMO 2025 | 35/42 | 金牌 | | CMO 2025 | 102/126 | 金牌 | | IOI 2025 | 492/600（第10名） | 金牌 | | ICPC World Final 2025 | 10/12（第2名） | 金牌 |

在多个基准上，Speciale甚至超越Gemini-3.0-Pro：

HMMT Feb 2025: 99.2% vs 97.5%
LiveCodeBench: 88.7% vs 90.7%
Codeforces: 2701 vs 2708

![表3：推理模型性能与效率对比]

但代价是token效率较低 ：例如AIME任务Speciale需要23k tokens，而Gemini仅需15k。

4.3 合成任务的有效性验证

挑战性验证 ：随机抽取50个合成任务测试：

DeepSeek-V3.2-Exp: 12% Pass@1
Claude-4.5-Sonnet: 34% Pass@1
GPT-5: 62% Pass@1

证明合成任务确实具有挑战性。

泛化能力验证 ：仅在合成任务上进行RL训练，在真实基准上取得显著提升：

picture.image

4.4 上下文管理的威力

针对搜索智能体经常超出128K上下文限制的问题，设计了三种策略：

Summary ：总结溢出轨迹后重启
Discard-75%：丢弃前75%的工具调用历史
Discard-all ：重置上下文（类似Anthropic的new context工具）

结果显示，简单的Discard-all策略将BrowseComp性能从53.4%提升至67.6%，与并行扩展效果相当但步数更少。

picture.image

4.5 推理成本分析

DSA显著降低长文本推理成本。在H800集群上（租赁价格2美元/GPU小时），随着token位置增加，DeepSeek-V3.2的成本增长远低于V3.1-Terminus。

五、论文总结：开源追赶闭源的范式

DeepSeek-V3.2的成功表明：

架构效率是开源模型竞争力的关键 ：DSA证明稀疏注意力可以兼顾效率与性能
后训练计算预算值得大幅提升 ：10%的投入带来质的飞跃，仍有继续扩展空间
合成数据在智能体训练中潜力巨大 ：精心设计的合成任务可以有效提升泛化能力
测试时计算扩展不可忽视 ：上下文管理等策略可显著提升实际性能

这项工作不仅缩小了开源与闭源的差距，更重要的是为开源社区提供了一条可行的追赶路径 ：通过架构创新降低成本，通过增加后训练投入提升能力，通过数据合成突破瓶颈。DeepSeek-V3.2证明，开源大模型完全有可能在保持成本优势的同时，达到与顶尖闭源模型相媲美的性能水平。

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：致Great

/ 作者：欢迎转载，标注来源即可