作者: 神们自己
知乎: https://www.zhihu.com/question/10871098957/answer/95825097954
简单写几个个人观点,临表涕零不知所云,见谅。
1、r1基本复现了openai半年前的成果,这一点已经被多方验证,包括openai的人也有发声。开源界的一系列实验表明rl确实能自我推理出思维链。原来openai传了一年的草莓、q*就是这个。
2、500万美金训练成本有待进一步验证,但fp8甚至fp4是大势所趋。25年应该会看到更多模型从fp16转fp8/fp4。
3、蒸馏数据是公开的秘密,但很多表现不是蒸馏能解释的。比如v3的中文能力,很多用词和表达方式非常接地气,如果不细看甚至让我产生了一种“文学不存在了”的幻觉。估计用了新的语料或者合成方法做的预训练。在我看来这比蒸馏更重要,可惜重视的人似乎不多。
4、一个奇怪的问题是r1的思维链被人发现有“根据openai的规范”之类的文字。这当然是因为蒸馏,但问题是,有各种方法很容易地把语料里的openai字样替换掉,替换成deepseek不就行了。为什么ds会犯这种低级错误?据说r1只训了3周,难道真的是有人想做个小实验没想到一不小心成了?这个问题很快不见了,因为去掉openai字样不用重训模型,system prompt里加个要求就行。
5、r1只是reasoner的初级阶段,但reasoner模型和此前的模型有质的区别。之前的模型就像一个学渣每天填鸭刷题,其实大部分半懂不懂,知其然而不知其所以然,只是凭借超强的记忆力,居然很多题也能凭经验蒙混过关,不过稍一拷问就要抓瞎。r1就像这个学渣偷看了隔壁学霸的答案,虽然学霸故意把解题过程遮住,但是学渣每日对着答案苦思,试图反推解题步骤,竟也成功复现了部分题的思路,知其然更知其所以然,从此功力大涨。这个故事励志的部分在于,原来学渣靠努力,也有追上学霸的希望。不那么励志的部分在于,学霸不会做的题,学渣还是不会做。
rl解决了此前一个关键问题:为什么预训练+sft,把世界上能看的书都看了一遍,智力却没有质的飞跃?就好比,为什么我初中就学了三定律,却不能变成牛顿?为什么我看完三体倒背如流,却不能变成大刘?
下一个更关键的问题是:就算rl能让ai逼近牛顿,但它能否超越牛顿?能不能解决人类顶尖科学家一辈子也解决不了的问题?学霸也不会做的题,学渣靠苦思冥想就会做吗?没有答案的问题,还能借助rl得到过程吗?
6、下一步可能的范式:让模型自己出题自己做,自己检查做的对不对。比如,模型出了1万亿道题(题云?),做出了其中1亿道,自己检查后发现只有100万道能验证是对的。那么解出这100万道题的思维链就成了新的训练数据。用这些数据训练后得到的2.0模型,能够解出更难的题,思维链更长。如此迭代实现自我进化,最终当思维链长到比人类顶尖科学家几十年每天苦思冥想的内心戏连到一起都要长的时候,也许ai就真超过人类了。
至少对于数理化计算机这类任务,ai要做的不是和人类对齐,而是和宇宙对齐。因为所有数据都是在宇宙这个计算机内部折腾,然后收集它给出的反馈。最终的结果,可能是一群ai就一个科学问题切磋得热火朝天,你能看到每个模型的所有思维链,可是几乎看不懂,因为ai为了高效传输信息用自己发明的黑话压缩了思维链。ai不是新工具而是新物种,agent的下一步是ai社会。
7、有人说sft不存在了。不可能的,最多是人类标注的sft不存在了。那么取而代之的是什么呢?ai标注的sft。没错,模型rl得到的思维链做sft训练新模型,大模型的思维链训练小模型。一年多前我说人类数据是ai的药引子,没想到这么快就实现了。
上一代模型是个靠经验猜题的学渣,但其实我们大部分人在大部分工作中都是学渣。比如,我让r1写一段极其简单的常用代码,它纠结了10分钟,探索各种边界情况,最后也拿不出一个完美的解法。而claude只用了几秒钟,就给出了一个足以应付大部分日常情况的大路学渣解法。ai编程领域现在有实用价值的只有claude和r1,但claude不是reasoner模型!我们日常写的代码,说白了都是别人写过的东西缝合一下,经验还是很有用的。
8、r1的思维链很初级,经常陷入转圈圈到处碰壁的牛角尖。我觉得是不是可以用另一个ai线程来监控正在生成的思维链(双思维链),实时提醒“你是不是想多了”。另外,有实验表明r1对于数学证明题不是太行。可能是因为rl生成思维链的时候主要看结果,而证明题的结果只有true/false,过程可以纯靠糊弄。这些都是细节问题,估计在r2可以解决。
9、ai进化之路上的每个大突破,回过头看都感觉出乎意料的简单。比如在gpt之前,都觉得agi难如登天,根本无从下手,谁能想到单凭纯文字预测下一个token就能得到智能?预训练得到的模型就是个只会文字接龙的书呆子,谁能想到一个简单的sft就能让书呆子变成聊天万事通?谁能想到单凭rl,就能让聊天机器人变成推理者?如果后面的突破还是这么“简单”,那么agi/asi真的近在眼前了。
10、借用牛顿的名言:我们只是捡到了几块漂亮的贝壳,而真正的ai大海,我们还没有发现呢!前途仿佛一片光明,只是天空中飘着两朵乌云。openai做出o1至少已经半年多了,领先幅度也没有预期的那么大。50系显卡出炉,英伟达和台积电都没有交出令人再次惊艳的产品。到底是这些巨头遥遥领先故意留力,还是真的不给力?以我谨慎乐观的性格看,rl之后绝非一片坦途。
11、传统vc的思路已经跟不上ai时代的格局了。还在说什么壁垒壁垒,你看openai有壁垒吗?最多半年。那么deepseek有壁垒吗?人家开源了。传统商业是占山为王思维,高筑墙广积粮。ai是大航海时代,地球是平的,人人有机会,个个没把握。看不懂就别投,你不投有的是人投。去口口的壁垒,去口口的PMF,deepseek有pmf吗?出圈了就有,没出圈就继续烧量化的钱。
12、所以我们到底赢了没有?赢了,但是赢的还不够多。基本上每个谈论deepseek的人,无论懂不懂行,都是一片欢呼,一片乐观。这叫小赢,不叫大赢。那么大赢是什么呢?等到你们疯狂地冲进deepseek的机房、疯狂地砸烂几十亿的服务器的时候,等到海对面的人也同样疯狂地冲击openai的时候,就像你们从教科书上读到的,工业革命时期的英国工人砸烂蒸汽机那样,大的就来了。
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群(3群也满了,等开4群吧),交个朋友吧,一起学习,一起进步!