刚刚！DeepSeek-V3.2 悄悄地发布了！性能直逼GPT-5，Agent能力封神，还送出超友好开源大礼 - 文章 - 开发者社区

picture.image

12月1日，DeepSeek-AI 悄然上线了他们的全新一代大规模语言模型 DeepSeek-V3.2，并在全球最重要的开源平台 Hugging Face 和 ModelScope 上同步开源。

我们推出了DeepSeek-V3.2 ，这是一个在高计算效率与卓越推理和代理性能之间取得平衡的模型。我们的方法基于三个关键技术突破：

DeepSeek 稀疏注意力（DSA）：

我们引入了 DSA，这是一种高效的注意力机制，它显著降低了计算复杂性，同时保持了模型性能，特别针对长上下文场景进行了优化。 2. 可扩展的强化学习框架：

通过实施强大的 RL 协议并扩展后训练计算， DeepSeek-V3.2 的表现与 GPT-5 相当。值得注意的是，我们的高计算变体 DeepSeek-V3.2-Speciale

超越了 GPT-5 ，并在推理能力上与 Gemini-3.0-Pro 相当。

成就：🥇 2025年国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）金牌表现。

大规模代理任务合成管道：

为了将 推理融入工具使用 场景，我们开发了一种新颖的合成管道，系统地生成大规模训练数据。这促进了可扩展的代理后训练，提高了在复杂交互环境中的合规性和泛化能力。

picture.image

聊天模板

DeepSeek-V3.2 在其聊天模板中相比之前的版本引入了重大更新。主要变化涉及工具调用格式的修订以及“使用工具思考”功能的引入。

为了帮助社区理解和适应这个新模板，我们提供了一个专门的 encoding 文件夹，其中包含 Python 脚本和测试用例，演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串，以及如何解析模型的文本输出。

下面是一个简短的例子：


 
  `import transformers# encoding/encoding_dsv32.pyfrom encoding_dsv32 import encode_messages, parse_message_from_completion_texttokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)# messages -> stringprompt = encode_messages(messages, **encode_config)# Output: "<｜begin▁of▁sentence｜><｜User｜>hello<｜Assistant｜></think>Hello! I am DeepSeek.<｜end▁of▁sentence｜><｜User｜>1+1=?<｜Assistant｜><think>"# string -> tokenstokens = tokenizer.encode(prompt)# Output: [0, 128803, 33310, 128804, 128799, 19923, 3, 342, 1030, 22651, 4374, 1465, 16, 1, 128803, 19, 13, 19, 127252, 128804, 128798]`

重要说明：

本次发布不包含Jinja格式的聊天模板。请参阅上述Python代码。
代码中包含的输出解析函数仅设计用于处理格式良好的字符串。它不会尝试纠正或从模型偶尔生成的错误格式输出中恢复。在没有强大的错误处理机制的情况下，不适合生产使用。
在聊天模板中引入了一个名为 developer 的新角色。此角色专用于搜索代理场景，并且不用于其他任务。官方API不接受分配给 developer 的消息。

如何本地运行

DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 的模型结构与 DeepSeek-V3.2-Exp 相同。有关本地运行该模型的更多信息，请访问 DeepSeek-V3.2-Exp 仓库。

使用建议：

对于本地部署，我们建议将采样参数设置为 temperature = 1.0, top\_p = 0.95 。
请注意，DeepSeek-V3.2-Speciale 变体专门设计用于深度推理任务，不支持工具调用功能。