大家好,我是刘聪NLP。
也许是最近开源模型太多(Qwen3、K2、Step3、GLM4.5等等),也许是大家等R2时间太久,DeepSeek 开源V3.1模型,竟然能被狂喷,这点我是没有想到的。
如果说是APP、客户端,那没办法,毕竟DS的显卡资源有限,我反正能理解。
API的话,就真不至于,因为DeepSeek-V3.1模型本身就开源,完全可以自己部署之前版本,或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。
然后从昨晚到今天,也是看了不少帖子,褒贬不一。
跟不少人交流了一下使用体验,还是那句话,不同人在不同任务下,体感很不同。
我昨天反正第一时间做了评测,在我的任务上没有什么提高,
但是好友袋鼠帝在Tool Use上体验是变好的,比V3稳定很多。
看了牙医、崔思莫的评测,说Coder上好了不少。
我觉得虽然V3.1没达到我们的预期,但我们还是要对神保持敬仰,毕竟也没说是R2、V3.5,只是升了0.1个版本。
反正我觉得核心还是现在开源大模型很多,Qwen3-2507、GLM4.5、K2、Step3等等,大家已经变得比较挑剔了,我们已经不是2024年的我们了。
我们这两个月吃的太好。
当然还有就是我们对DeepSeek的期望太高了,也是等R2等的比较久了~
说回V3.1本身,Base模型已经开源,但是Model Card还没写,不过通过Config文件和从测试,可以发现一些内容,分享给大家~
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
模型是混合推理模型,这个应该是肯定得了,跟昨天模型还没开源时,猜测一致。相当于把v3和r1合到了一起,跟初代Qwen3是一样的。
但是,我比较好奇,DS在训练混合模型的时候是否有一些技巧,通过Qwen3-2507将推理和非推理分开来看,混合推理还是存在一些问题的。
但直觉中,混合推理的模型,应该是非推理效果会好,推理会差一点,有趋中情况,但是我也没想通为啥Qwen3的非推理单独训练上限更好,猜测是因为混合训练不充分。
所以这里就比较好奇DS在这个部分有什么奇技淫巧。
除了混合推理之外,V3.1的special token还多了search标记。
我理解,加入search标记,应该是让模型在联网搜索时,不是一次性检索,而是可以边思考边检索,就是豆包的变向边搜一样。
在生成的内容的过程中,会触发搜索机制,从外部获取更多的信息,以便于更好地回答。
不过,目前在客户端,并没有体现,联网搜索,依然是一次性搜索,不知道是不是还在适配,还是说后面会推出新的功能。
不过,前段时间,DS在招搜索工程师,应该是要发力DeepResearch这一块,不过暂时在整个产品上还没有体现。
除了search标记,tool use部分也做了更新,变得更加简洁,<|tool call begin|> + 函数名 + <|tool sep|> + 参数字符串 + <|tool call end|>,参数直接作为字符串传递。
所以在tool部分,v3.1应该也是专门训练过,不过具体如何还需要自行测试,袋鼠帝说调用更稳定~
通过测试还发现一点,也是我昨天帖子里提到的,think里的内容,中英混杂会很多,之前R1只有在数学、代码会出现中英混杂现象,而现在正常文本推理中也会出现。
找到一篇相关paper,The Impact of Language Mixing on Bilingual LLM Reasoning,结论是语言混杂可以增强推理能力。
但我觉得,感觉中英混杂可能也跟V3.1训练不充分有关,当然纯YY,这个问题后面有机会,再好好聊聊。
我前面说了,从直觉上,混合推理的模型,推理会差一点,V3.1体现在think内容相较于R1变短,如果按照test-time scaling来说,那整体效果变差似乎也是合理的。
当然,大部分人在说V3.1提升主要是Code,当然我之前测试的两个例子R1和V3.1效果都不好,
但是在aider上,71.6%超过R1的71.4%,同时还是非推理模型第一,费用更低。
并且很多人表示,V3.1过了他们的一些测试。符合他们的预期,也是在code上更好提高一些,
毕竟K2、Qwen3-coder现在代码能力提高的不是一星半点,但等一波横测~
不可否认,改成V3.1这种混合模型,就不需要分开部署两个模型,成本就会降低,同时现在V3.1也更稳定。
我们不能忽略在系统层面的优化。
最后我想说,V3.1,仅提高0.1个版本,也是DS的一次尝试,尝试混合推理、尝试一些其他的小改进。
很多人说也许没有R2了,但我觉得不好说,毕竟Qwen3新版本还是拆开的,那么就有一定的实验结论,起码暂时可能混合推理没法达到分开效果的极限。
当然如果DS有黑科技另说,但我更倾向会分开。
就说这么多吧,这篇是有感而发,再加上看到资料的一些汇总。
最后想说,吃过山珍海味,别看不上粗茶淡饭!
大家有啥想法,欢迎评论区讨论!
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!