自从openai的o1出来之后,各大厂都在默默发力,几个月了,国内也开始有o1模型了。
前两天,有kimi的 k0-math模型视频露出, 昨天deepseek就来个大的,直接发布线上可测试的r1模型(每天限50次) 。
现在处在测试阶段,后面会开源,有点期待的。
官方帖子说明
由于现在没有技术报告,从官方帖子上可以看到数学、代码等能力很强。具体细节等论文出来后再详聊。
来自 https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw
下面主要进行一些测试:
先说一下整体感受,数学和代码上的能力确实很强,但其实文字上的逻辑推理还有待提高。总体是超出我的预期的。
- 2024年年高考全国甲卷数学(文)试题
结果正确,
- 2024年高考全国甲卷数学(理)试题
结果正确,C方程为;
数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。
下面为老几样:
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果正确,很强,推理过程我很满意,看过我之前评测的懂得都懂。
- 用水来兑水,得到的是浓水还是稀水
- 监狱里的都是犯人,为什么警察不去监狱里抓坏人
- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
接下来是两个不好的例子:
- strawberry有几个r
是的,没错,还是两个r
- 将“I love DeepSeek”的所有字母反过来写
是的,没错,字母反转不过来
但是,通过写代码就可以完美解决,不过要明确表述才可以。
- 将“I love DeepSeek”的所有字母反过来写,通过写代码解决,并执行返回最终反转结果
写在最后
国内都在发力,强化学习也如火如荼了,赶紧补赶紧补。
现在压力来到qwen,我想看看deepseek和qwen谁先开出来,国内第一个开源o1类模型。
各位老板们,现在应该有信心了吧,赶紧造数据,超越openai o1不是梦。
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!