最近吃的太好了,要不然DeepSeek V3.1不能被喷成这样!附V3.1的一些细节。

大模型向量数据库云存储

大家好,我是刘聪NLP。

也许是最近开源模型太多(Qwen3、K2、Step3、GLM4.5等等),也许是大家等R2时间太久,DeepSeek 开源V3.1模型,竟然能被狂喷,这点我是没有想到的。

picture.image

如果说是APP、客户端,那没办法,毕竟DS的显卡资源有限,我反正能理解。

API的话,就真不至于,因为DeepSeek-V3.1模型本身就开源,完全可以自己部署之前版本,或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。

然后从昨晚到今天,也是看了不少帖子,褒贬不一。

跟不少人交流了一下使用体验,还是那句话,不同人在不同任务下,体感很不同。

我昨天反正第一时间做了评测,在我的任务上没有什么提高,

但是好友袋鼠帝在Tool Use上体验是变好的,比V3稳定很多。

看了牙医、崔思莫的评测,说Coder上好了不少。

我觉得虽然V3.1没达到我们的预期,但我们还是要对神保持敬仰,毕竟也没说是R2、V3.5,只是升了0.1个版本。

反正我觉得核心还是现在开源大模型很多,Qwen3-2507、GLM4.5、K2、Step3等等,大家已经变得比较挑剔了,我们已经不是2024年的我们了。

我们这两个月吃的太好。

当然还有就是我们对DeepSeek的期望太高了,也是等R2等的比较久了~

说回V3.1本身,Base模型已经开源,但是Model Card还没写,不过通过Config文件和从测试,可以发现一些内容,分享给大家~

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

模型是混合推理模型,这个应该是肯定得了,跟昨天模型还没开源时,猜测一致。相当于把v3和r1合到了一起,跟初代Qwen3是一样的。

picture.image

但是,我比较好奇,DS在训练混合模型的时候是否有一些技巧,通过Qwen3-2507将推理和非推理分开来看,混合推理还是存在一些问题的。

但直觉中,混合推理的模型,应该是非推理效果会好,推理会差一点,有趋中情况,但是我也没想通为啥Qwen3的非推理单独训练上限更好,猜测是因为混合训练不充分。

所以这里就比较好奇DS在这个部分有什么奇技淫巧。

除了混合推理之外,V3.1的special token还多了search标记。

picture.image

我理解,加入search标记,应该是让模型在联网搜索时,不是一次性检索,而是可以边思考边检索,就是豆包的变向边搜一样。

在生成的内容的过程中,会触发搜索机制,从外部获取更多的信息,以便于更好地回答。

不过,目前在客户端,并没有体现,联网搜索,依然是一次性搜索,不知道是不是还在适配,还是说后面会推出新的功能。

picture.image

不过,前段时间,DS在招搜索工程师,应该是要发力DeepResearch这一块,不过暂时在整个产品上还没有体现。

除了search标记,tool use部分也做了更新,变得更加简洁,<|tool call begin|> + 函数名 + <|tool sep|> + 参数字符串 + <|tool call end|>,参数直接作为字符串传递。

所以在tool部分,v3.1应该也是专门训练过,不过具体如何还需要自行测试,袋鼠帝说调用更稳定~

picture.image

通过测试还发现一点,也是我昨天帖子里提到的,think里的内容,中英混杂会很多,之前R1只有在数学、代码会出现中英混杂现象,而现在正常文本推理中也会出现。

找到一篇相关paper,The Impact of Language Mixing on Bilingual LLM Reasoning,结论是语言混杂可以增强推理能力。

但我觉得,感觉中英混杂可能也跟V3.1训练不充分有关,当然纯YY,这个问题后面有机会,再好好聊聊。

picture.image

我前面说了,从直觉上,混合推理的模型,推理会差一点,V3.1体现在think内容相较于R1变短,如果按照test-time scaling来说,那整体效果变差似乎也是合理的。

当然,大部分人在说V3.1提升主要是Code,当然我之前测试的两个例子R1和V3.1效果都不好,

但是在aider上,71.6%超过R1的71.4%,同时还是非推理模型第一,费用更低。

picture.image

并且很多人表示,V3.1过了他们的一些测试。符合他们的预期,也是在code上更好提高一些,

毕竟K2、Qwen3-coder现在代码能力提高的不是一星半点,但等一波横测~

不可否认,改成V3.1这种混合模型,就不需要分开部署两个模型,成本就会降低,同时现在V3.1也更稳定。

我们不能忽略在系统层面的优化。

最后我想说,V3.1,仅提高0.1个版本,也是DS的一次尝试,尝试混合推理、尝试一些其他的小改进。

很多人说也许没有R2了,但我觉得不好说,毕竟Qwen3新版本还是拆开的,那么就有一定的实验结论,起码暂时可能混合推理没法达到分开效果的极限。

当然如果DS有黑科技另说,但我更倾向会分开。

就说这么多吧,这篇是有感而发,再加上看到资料的一些汇总。

最后想说,吃过山珍海味,别看不上粗茶淡饭!

大家有啥想法,欢迎评论区讨论!

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
亿万用户下高可用融合直播的应用实践
直播融合 CDN 调度系统承担了公司内所有直播流量的接入工作,对高并发高带宽场景支持友好,有完善的体系进行容灾降级、质量优化、成本优化。本次演讲将带大家了解直播融合 CDN 调度系统的整体架构及在抖音上的应用。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论