模型昨天开源,已经发过了,今天简单聊聊技术报告有几个有意思的地方。
- 啊哈时刻
训练过程中,模型突然出现了一个有意思的"顿悟"模型会突然停下来说"等等,等等,等等", 然后用拟人化的语气说"这是一个我可以标记的顿悟时刻",接着主动重新评估和思考解决问题的方法。
这种行为完全是自发形成的,不是人为设计的。
- 思考时间会自主进化
模型在训练过程中自然学会了延长思考时间, 从最初的简短回答,逐渐发展到生成数百到数千个推理token。
更长的思考可以帮助模型解决更复杂的问题。
- 意外的蒸馏发现
直接从大模型蒸馏到小模型效果更好, 比如7B的蒸馏模型就可以超过GPT-4和Claude 3.5在数学基准测试上的表现。这说明大模型发现的推理模式可以有效地"教会"小模型。
- 模型自我进化
Zero模型从基础模型开始,无需SFT,使用简单的prompt模板,训着训着自己就学会了思考。
- 失败的尝试
a. 过程奖励模型
想通过奖励每个推理步骤来提升模型, 但发现很难定义什么是"好的推理步骤", 模型会学会"欺骗"奖励系统
b. 蒙特卡洛树搜索(MCTS):
尝试像AlphaGo那样用MCTS来提升推理,但发现语言生成的搜索空间太大了,容易陷入局部最优解。
最后配个吃瓜图,昨天Sam表示,请降低对我们的预期,下个月不会达到AGI。第一条评论是,我们在DeepSeek R1已经看到了AGI的影子。