刚刚!DeepSeek-V3.2 悄悄地发布了!性能直逼GPT-5,Agent能力封神,还送出超友好开源大礼

大模型机器学习算法

picture.image

12月1日,DeepSeek-AI 悄然上线了他们的全新一代大规模语言模型 DeepSeek-V3.2,并在全球最重要的开源平台 Hugging FaceModelScope 上同步开源。

我们推出了DeepSeek-V3.2 ,这是一个在高计算效率与卓越推理和代理性能之间取得平衡的模型。我们的方法基于三个关键技术突破:

  1. DeepSeek 稀疏注意力(DSA):

我们引入了 DSA,这是一种高效的注意力机制,它显著降低了计算复杂性,同时保持了模型性能,特别针对长上下文场景进行了优化。 2. 可扩展的强化学习框架:

通过实施强大的 RL 协议并扩展后训练计算, DeepSeek-V3.2 的表现与 GPT-5 相当。值得注意的是,我们的高计算变体 DeepSeek-V3.2-Speciale

超越了 GPT-5 ,并在推理能力上与 Gemini-3.0-Pro 相当。

  • 成就:🥇 2025年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)金牌表现。
  • 大规模代理任务合成管道:

为了将 推理融入工具使用 场景,我们开发了一种新颖的合成管道,系统地生成大规模训练数据。这促进了可扩展的代理后训练,提高了在复杂交互环境中的合规性和泛化能力。

picture.image

聊天模板

DeepSeek-V3.2 在其聊天模板中相比之前的版本引入了重大更新。主要变化涉及工具调用格式的修订以及“使用工具思考”功能的引入。

为了帮助社区理解和适应这个新模板,我们提供了一个专门的 encoding 文件夹,其中包含 Python 脚本和测试用例,演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。

下面是一个简短的例子:


 
  `import transformers# encoding/encoding_dsv32.pyfrom encoding_dsv32 import encode_messages, parse_message_from_completion_texttokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)# messages -> stringprompt = encode_messages(messages, **encode_config)# Output: "<|begin▁of▁sentence|><|User|>hello<|Assistant|></think>Hello! I am DeepSeek.<|end▁of▁sentence|><|User|>1+1=?<|Assistant|><think>"# string -> tokenstokens = tokenizer.encode(prompt)# Output: [0, 128803, 33310, 128804, 128799, 19923, 3, 342, 1030, 22651, 4374, 1465, 16, 1, 128803, 19, 13, 19, 127252, 128804, 128798]`


 
 
 
 


 

重要说明:

  1. 本次发布不包含Jinja格式的聊天模板。请参阅上述Python代码。
  2. 代码中包含的输出解析函数仅设计用于处理格式良好的字符串。它不会尝试纠正或从模型偶尔生成的错误格式输出中恢复。在没有强大的错误处理机制的情况下,不适合生产使用。
  3. 在聊天模板中引入了一个名为 developer 的新角色。此角色专用于搜索代理场景,并且不用于其他任务。官方API不接受分配给 developer 的消息。

如何本地运行

DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 的模型结构与 DeepSeek-V3.2-Exp 相同。有关本地运行该模型的更多信息,请访问 DeepSeek-V3.2-Exp 仓库。

使用建议:

  1. 对于本地部署,我们建议将采样参数设置为 temperature = 1.0, top\_p = 0.95
  2. 请注意,DeepSeek-V3.2-Speciale 变体专门设计用于深度推理任务,不支持工具调用功能。
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
TRAE 的思考:AI 时代程序员的认知进化
在 AI 浪潮下,传统的古法编程模式正在被颠覆和变革,对开发者的认知和协作模式提出了新的挑战。本次分享将深入探讨 AI Coding 的演进趋势,从 AI 辅助编程到 AI 主导的全新协作模式,以及它如何重塑人与 AI 之间的关系,同时也将分享下 TRAE 的核心理念、技术实现,演进实践中的踩坑心得、以及我们对未来的展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论