最近吃的太好了，要不然DeepSeek V3.1不能被喷成这样！附V3.1的一些细节。 - 文章 - 开发者社区

大家好，我是刘聪NLP。

也许是最近开源模型太多（Qwen3、K2、Step3、GLM4.5等等），也许是大家等R2时间太久，DeepSeek 开源V3.1模型，竟然能被狂喷，这点我是没有想到的。

picture.image

如果说是APP、客户端，那没办法，毕竟DS的显卡资源有限，我反正能理解。

API的话，就真不至于，因为DeepSeek-V3.1模型本身就开源，完全可以自己部署之前版本，或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。

然后从昨晚到今天，也是看了不少帖子，褒贬不一。

跟不少人交流了一下使用体验，还是那句话，不同人在不同任务下，体感很不同。

我昨天反正第一时间做了评测，在我的任务上没有什么提高，

但是好友袋鼠帝在Tool Use上体验是变好的，比V3稳定很多。

看了牙医、崔思莫的评测，说Coder上好了不少。

我觉得虽然V3.1没达到我们的预期，但我们还是要对神保持敬仰，毕竟也没说是R2、V3.5，只是升了0.1个版本。

反正我觉得核心还是现在开源大模型很多，Qwen3-2507、GLM4.5、K2、Step3等等，大家已经变得比较挑剔了，我们已经不是2024年的我们了。

我们这两个月吃的太好。

当然还有就是我们对DeepSeek的期望太高了，也是等R2等的比较久了~

说回V3.1本身，Base模型已经开源，但是Model Card还没写，不过通过Config文件和从测试，可以发现一些内容，分享给大家~

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

模型是混合推理模型，这个应该是肯定得了，跟昨天模型还没开源时，猜测一致。相当于把v3和r1合到了一起，跟初代Qwen3是一样的。

picture.image

但是，我比较好奇，DS在训练混合模型的时候是否有一些技巧，通过Qwen3-2507将推理和非推理分开来看，混合推理还是存在一些问题的。

但直觉中，混合推理的模型，应该是非推理效果会好，推理会差一点，有趋中情况，但是我也没想通为啥Qwen3的非推理单独训练上限更好，猜测是因为混合训练不充分。

所以这里就比较好奇DS在这个部分有什么奇技淫巧。

除了混合推理之外，V3.1的special token还多了search标记。

picture.image

我理解，加入search标记，应该是让模型在联网搜索时，不是一次性检索，而是可以边思考边检索，就是豆包的变向边搜一样。

在生成的内容的过程中，会触发搜索机制，从外部获取更多的信息，以便于更好地回答。

不过，目前在客户端，并没有体现，联网搜索，依然是一次性搜索，不知道是不是还在适配，还是说后面会推出新的功能。

picture.image

不过，前段时间，DS在招搜索工程师，应该是要发力DeepResearch这一块，不过暂时在整个产品上还没有体现。

除了search标记，tool use部分也做了更新，变得更加简洁，<｜tool call begin｜> + 函数名 + <｜tool sep｜> + 参数字符串 + <｜tool call end｜>，参数直接作为字符串传递。

所以在tool部分，v3.1应该也是专门训练过，不过具体如何还需要自行测试，袋鼠帝说调用更稳定~

picture.image

通过测试还发现一点，也是我昨天帖子里提到的，think里的内容，中英混杂会很多，之前R1只有在数学、代码会出现中英混杂现象，而现在正常文本推理中也会出现。

找到一篇相关paper，The Impact of Language Mixing on Bilingual LLM Reasoning，结论是语言混杂可以增强推理能力。

但我觉得，感觉中英混杂可能也跟V3.1训练不充分有关，当然纯YY，这个问题后面有机会，再好好聊聊。

picture.image

我前面说了，从直觉上，混合推理的模型，推理会差一点，V3.1体现在think内容相较于R1变短，如果按照test-time scaling来说，那整体效果变差似乎也是合理的。

当然，大部分人在说V3.1提升主要是Code，当然我之前测试的两个例子R1和V3.1效果都不好，

但是在aider上，71.6%超过R1的71.4%，同时还是非推理模型第一，费用更低。

picture.image

并且很多人表示，V3.1过了他们的一些测试。符合他们的预期，也是在code上更好提高一些，

毕竟K2、Qwen3-coder现在代码能力提高的不是一星半点，但等一波横测~

不可否认，改成V3.1这种混合模型，就不需要分开部署两个模型，成本就会降低，同时现在V3.1也更稳定。

我们不能忽略在系统层面的优化。

最后我想说，V3.1，仅提高0.1个版本，也是DS的一次尝试，尝试混合推理、尝试一些其他的小改进。

很多人说也许没有R2了，但我觉得不好说，毕竟Qwen3新版本还是拆开的，那么就有一定的实验结论，起码暂时可能混合推理没法达到分开效果的极限。

当然如果DS有黑科技另说，但我更倾向会分开。

就说这么多吧，这篇是有感而发，再加上看到资料的一些汇总。

最后想说，吃过山珍海味，别看不上粗茶淡饭！

大家有啥想法，欢迎评论区讨论！

PS：都看到这里，来个点赞、在看、关注吧。您的支持是我坚持的最大动力！

欢迎多多关注公众号「刘聪NLP」，加入交流群，交个朋友吧，一起学习，一起进步！