昨天下班时间,DeepSeek发布了实验两个月时间的V3.2正式版。
这个时间点发正式版,过年前看来不会有大动静了。相较于年初的R1高光时刻,也才不到一年光景。
果然是“大模型一月,人间一年”。
01
核心亮点
麦金叔看下来这次的发布,其核心有两点。
第一,算法的确是强,通过新研究的DSA稀疏注意力机制,大幅提高了长文本处理的效率。
第二,缩短了开源模型与闭源模型的差距,可以让其他有资源的厂家做进一步的特殊训练。
具体的参数指标,打榜结果,我就不放了。想要了解的,网上随便搜都能看到。
02
留给我们的思考
有句俗话叫“小归小,玩技巧”(dddd),在国内这个算力被阉割的环境下,能取得如此成就,靠的是聪明的头脑和不服就干的精神。
我们都知道“要想富,先修路”。国内四通八达的高速路和纵横交错的高铁网,才让我们的物流有了次日达的“速度”。而AI大模型的发展,算力是基石。算法再强,头脑再聪明,也弄不过人家马斯克的“大力出奇迹”。
不过留给我们的发展空间,不会因为短暂的挫折而打断,因为漂亮国也有“电力短板”,也并没有“遥遥领先”。
另外一面GPU一统天下的局面也并没有形成。谷歌的Gemini 3 Pro充分证明了GPU+TPU也能搞成。国产芯片也在快速成长。当算力也成为更加稳固和庞大的基础设施时,国产模型应该就能遍地开花。能“卷”过咱们的,并不多。
英雄只是暂时憋屈,不是就此落幕。中国的以应用反哺AI的模式,还有很大的想象空间。
总结
根据官方发布的内容,这次的大模型,可以玩一玩,但不建议作为上线应用的唯一选择。一个是Think模式下的适配并没有做到全兼容,应用使用势必要花精力去调。另一个复杂任务的agent模式下,消耗的tokens偏多,成本就高。
如果你对AI的发展感兴趣,欢迎一键三连。有任何问题可以添加好友(二维码可以找前面文章的末尾),我们共同探讨。
