DeepSeek-V3.2技术报告解读:开源大模型的逆袭之战——如何用10%算力追平GPT-5

大模型机器学习算法

picture.image

新模型技术报告已同步发布:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源DeepSeek-V3.2

  
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2  
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2  

DeepSeek-V3.2-Speciale

  
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale  
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale  

一、研究背景:开源与闭源的差距正在拉大

任务定义与研究动机

近几个月来,AI领域出现了一个令人担忧的趋势:尽管开源社区在不断进步,但闭源模型(如GPT-5、Gemini-3.0-Pro)的性能提升速度明显更快,开源与闭源之间的差距不是在缩小,而是在扩大

DeepSeek团队通过分析发现,开源模型存在三个关键缺陷:

  1. 架构效率瓶颈 :传统的注意力机制在处理长序列时效率极低,限制了模型的部署和训练
  2. 训练资源不足 :开源模型在后训练(post-training)阶段的计算投入严重不足
  3. 智能体能力落后 :在实际部署的AI Agent场景中,开源模型的泛化能力和指令遵循能力明显弱于闭源模型

核心贡献

DeepSeek-V3.2的三大突破:

  • DeepSeek Sparse Attention (DSA):一种高效的稀疏注意力机制,将计算复杂度从O(L2)\mathcal{O}(L^2)降低到O(Lk)\mathcal{O}(Lk),同时保持长文本性能
  • 可扩展的强化学习框架 :后训练计算预算超过预训练成本的10%,使DeepSeek-V3.2达到GPT-5的水平
  • 大规模智能体任务合成管线 :生成1,800+环境和85,000+复杂提示,显著提升工具使用能力

更令人惊讶的是,高算力版本DeepSeek-V3.2-Speciale在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中均达到金牌水平 ,性能与Gemini-3.0-Pro持平。

picture.image

二、相关工作

推理模型的里程碑

推理模型(如DeepSeek-R1、OpenAI o1)的发布标志着大语言模型的重要转折点,在可验证领域实现了性能飞跃。然而,近几个月闭源模型(Anthropic Claude、Google Gemini、OpenAI GPT)的发展速度明显快于开源社区(MiniMax、MoonShot、ZhiPu-AI等)。

注意力机制的演进

传统的全注意力机制(Vanilla Attention)在长序列处理上存在瓶颈。虽然已有一些稀疏注意力方案,但DeepSeek-V3.2的DSA通过闪电索引器(Lightning Indexer)和细粒度token选择机制 实现了更优的效率-性能平衡。

强化学习在后训练中的应用

现有开源模型普遍在后训练阶段投入不足。DeepSeek-V3.2采用GRPO(Group Relative Policy Optimization)算法,并通过一系列创新(无偏KL估计、离策略序列掩码等)实现了稳定的大规模RL训练。

三、核心技术突破

3.1 DeepSeek Sparse Attention (DSA)

DSA是DeepSeek-V3.2的架构核心,包含两个关键组件:

(1)闪电索引器(Lightning Indexer)

索引器通过计算查询token h_t\mathbf{h}\_t 与前序token h_s\mathbf{h}\_s 之间的索引分数来决定选择哪些token:

I_t,s=_j=1HIw_t,jIReLU(q_t,jIk_sI)I\_{t,s} = \sum\_{j=1}^{H^I} w\_{t,j}^I \cdot \text{ReLU}({\mathbf{q}}\_{t,j}^I \cdot {\mathbf{k}}\_s^I) 其中HIH^I是索引头的数量,ReLU激活函数的选择是为了提升吞吐量。索引器使用FP8精度,计算效率极高。

(2)细粒度Token选择机制

基于索引分数,只检索top-k个key-value条目,然后计算注意力输出:

u_t=Attn(h_t,{c_sI_t,sTop-k(I_t,:)}){\mathbf{u}}\_t = \text{Attn}({\mathbf{h}}\_t, \{{\mathbf{c}}\_s | I\_{t,s} \in \text{Top-k}(I\_{t,:})\})

picture.image

持续预训练策略

DSA的训练分两阶段:

  1. 密集预热阶段 :冻结主模型参数,仅训练索引器1000步(21亿tokens),通过KL散度对齐索引器与主注意力分布:

LI=_tD_KL(p_t,:Softmax(I_t,:))\mathcal{L}^I = \sum\_t \mathbb{D}\_{\text{KL}}(p\_{t,:} \parallel \text{Softmax}(I\_{t,:})) 2. 稀疏训练阶段 :引入token选择机制,训练15000步(9437亿tokens),学习率7.3×1067.3 \times 10^{-6},每个查询选择2048个key-value tokens

3.2 可扩展的强化学习框架

DeepSeek-V3.2采用GRPO算法,并引入多项创新确保训练稳定性:

(1)无偏KL估计

传统K3估计器在π_θπ_ref\pi\_\theta \ll \pi\_{\text{ref}}时会产生有偏梯度。新方法使用重要性采样比修正:

D_KL(π_θ(o_i,t)π_ref(o_i,t))=π_θ(o_i,tq,o_i,<t)π_old(o_i,tq,o_i,<t)(π_ref(o_i,tq,o_i,<t)π_θ(o_i,tq,o_i,<t)=""=""logπ_ref(o_i,tq,o_i,<t)π_θ(o_i,tq,o_i,<t)=""1)=""\mathbb{D}\_{\text{KL}}(\pi\_\theta(o\_{i,t}) \parallel \pi\_{\text{ref}}(o\_{i,t})) = \frac{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}{\pi\_{\text{old}}(o\_{i,t}|q,o\_{i,<t})} \left(\frac{\pi\_{\text{ref}}(o\_{i,t}|q,o\_{i,<t})}{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}="" -="" \log\frac{\pi\_{\text{ref}}(o\_{i,t}|q,o\_{i,<t})}{\pi\_\theta(o\_{i,t}|q,o\_{i,<t})}="" 1\right)="" ="" (2)离策略序列掩码(Off-Policy Sequence Masking)

对负优势且策略偏离过大的样本进行掩码,阈值由δ\delta控制:

M\_{i,t} = \begin{cases} 0 & \text{if } \widehat{A}\_{i,t} < 0 \text{ and } \frac{1}{|o\_i|}\sum\_{t=1}^{|o\_i|}\log\frac{\pi\_{\text{old}}(o\_{i,t}|q,o\_{i,\delta \\ 1 & \text{otherwise} \end{cases} (3)保持路由(Keep Routing)

对于MoE模型,保留推理时的专家路由路径,在训练时强制使用相同路由,避免参数子空间突变。

(4)保持采样掩码(Keep Sampling Mask)

保留top-p/top-k采样时的截断掩码,确保新旧策略共享相同的动作子空间。

3.3 工具使用中的思考链整合

(1)思考上下文管理

针对工具调用场景,设计了特殊的上下文管理策略:

  • 只有在新用户消息到来时才丢弃历史推理内容
  • 如果只是工具输出追加,则保留推理轨迹
  • 工具调用历史始终保留

picture.image (2)冷启动机制

通过精心设计的提示词,将推理能力与工具使用无缝结合。不同任务类型对应不同的系统提示词,引导模型在推理过程中执行多次工具调用(见附录表6-8)。

(3)大规模智能体任务合成

构建了四类智能体任务:

| 任务类型 | 任务数量 | 环境类型 | 提示词来源 | | --- | --- | --- | --- | | 代码智能体 | 24,667 | 真实 | 提取 | | 搜索智能体 | 50,275 | 真实 | 合成 | | 通用智能体 | 4,417 | 合成 | 合成 | | 代码解释器 | 5,908 | 真实 | 提取 |

通用智能体合成示例 :一个自动环境合成智能体生成1,827个任务导向环境,例如旅行规划任务(需要在大组合空间中搜索满足所有约束的方案,但验证给定方案是否满足约束相对简单)。

四、实验效果

4.1 主要基准测试结果

在32个基准测试中,DeepSeek-V3.2在推理、代码、数学、智能体等多个维度达到GPT-5水平

推理任务

  • MMLU-Pro: 85.0(GPT-5: 87.5)
  • GPQA Diamond: 82.4(GPT-5: 85.7)
  • HLE文本题: 25.1(GPT-5: 26.3)

代码任务

  • LiveCodeBench: 83.3(GPT-5: 84.5)
  • Codeforces评分: 2386(GPT-5: 2537)

数学任务

  • AIME 2025: 93.1%(GPT-5: 94.6%)
  • HMMT Feb 2025: 92.5%(GPT-5: 88.3%)
  • HMMT Nov 2025: 90.2%(GPT-5: 89.2%)

代码智能体

  • SWE-Verified解决率: 73.1%(领先多数开源模型)
  • Terminal Bench 2.0: 46.4%(开源最佳)

搜索智能体

  • BrowseComp: 51.4%(无上下文管理)→ 67.6%(有上下文管理)
  • BrowseCompZh: 65.0%

工具使用

  • τ²-Bench: 80.3(大幅领先开源模型)
  • MCP-Universe成功率: 45.9%
  • Tool-Decathlon: 35.2

picture.image

4.2 DeepSeek-V3.2-Speciale:冲击金牌

通过放松长度约束并增加计算预算,Speciale版本在顶级竞赛中达到金牌水平

| 竞赛 | 成绩 | 奖牌等级 | | --- | --- | --- | | IMO 2025 | 35/42 | 金牌 | | CMO 2025 | 102/126 | 金牌 | | IOI 2025 | 492/600(第10名) | 金牌 | | ICPC World Final 2025 | 10/12(第2名) | 金牌 |

在多个基准上,Speciale甚至超越Gemini-3.0-Pro:

  • HMMT Feb 2025: 99.2% vs 97.5%
  • LiveCodeBench: 88.7% vs 90.7%
  • Codeforces: 2701 vs 2708

![表3:推理模型性能与效率对比]

但代价是token效率较低 :例如AIME任务Speciale需要23k tokens,而Gemini仅需15k。

4.3 合成任务的有效性验证

挑战性验证 :随机抽取50个合成任务测试:

  • DeepSeek-V3.2-Exp: 12% Pass@1
  • Claude-4.5-Sonnet: 34% Pass@1
  • GPT-5: 62% Pass@1

证明合成任务确实具有挑战性。

泛化能力验证 :仅在合成任务上进行RL训练,在真实基准上取得显著提升:

picture.image

4.4 上下文管理的威力

针对搜索智能体经常超出128K上下文限制的问题,设计了三种策略:

  1. Summary :总结溢出轨迹后重启
  2. Discard-75%:丢弃前75%的工具调用历史
  3. Discard-all :重置上下文(类似Anthropic的new context工具)

结果显示,简单的Discard-all策略将BrowseComp性能从53.4%提升至67.6%,与并行扩展效果相当但步数更少。

picture.image

4.5 推理成本分析

DSA显著降低长文本推理成本。在H800集群上(租赁价格2美元/GPU小时),随着token位置增加,DeepSeek-V3.2的成本增长远低于V3.1-Terminus。

picture.image 五、论文总结:开源追赶闭源的范式

DeepSeek-V3.2的成功表明:

  • 架构效率是开源模型竞争力的关键 :DSA证明稀疏注意力可以兼顾效率与性能
  • 后训练计算预算值得大幅提升 :10%的投入带来质的飞跃,仍有继续扩展空间
  • 合成数据在智能体训练中潜力巨大 :精心设计的合成任务可以有效提升泛化能力
  • 测试时计算扩展不可忽视 :上下文管理等策略可显著提升实际性能

这项工作不仅缩小了开源与闭源的差距,更重要的是为开源社区提供了一条可行的追赶路径 :通过架构创新降低成本,通过增加后训练投入提升能力,通过数据合成突破瓶颈。DeepSeek-V3.2证明,开源大模型完全有可能在保持成本优势的同时,达到与顶尖闭源模型相媲美的性能水平。

picture.image

添加微信,备注” LLM “进入大模型技术交流群

picture.image

picture.image

如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢

/ 作者:致Great

/ 作者:欢迎转载,标注来源即可

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论