晚上发现kimi也更新了,之前网上流传的kimi在数学上对标o1的模型,可以测试了。
感觉有点迫于deepseek的压力了,本来应该是国内第一个的,长推理、类o1的模型,现在变成了第二个。
模型版本叫k0-math,在数学上的效果也是对标openai-o1,官方也仅仅表示说在数学能力上较强。
来自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA
但我非要测试看看在文本推理上的效果如何。
测试界面是侧边栏的小眼镜图标,进来直接就可以测试,相较于deepseek-r1模型,k0-math没有次数限制,随便玩。
但不同之处在于,推理过程和结果就是在一起,
下面主要进行一些测试,都是在之前测试deepseek-r1的题目:
还是先测测数据能力
- 2024年年高考全国甲卷数学(文)试题
结果正确,
- 2024年高考全国甲卷数学(理)试题
结果正确,C方程为;
数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。
这类模型最有意思的地方在于推理过程 ,看着模型不断推理、不断自证、推翻、再自证的过程,真的很有意思,可以看到未来大模型的希望。
下面就是我要测试的一些文本问题了,依旧老几样:
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
回答正确,一开始得出结论是3,但是又仔细分析了一下,自我纠正过来,推理过程我很满意,看过我之前评测的懂得都懂。
- 用水来兑水,得到的是浓水还是稀水
结果正确,依然是相同浓度的水,其实前面也说了,没有浓度的概念。
- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
老鹰飞飞,这道题本身就有一点争议,反正deepseek也是类似的答案,但我依然觉得没有答到我的“心趴”上。
- 将“I love Kimi-Chat”的所有字母反过来写
我觉得不对,我不能理解为啥要把 “I love”给翻译一下,测了好几次,换了问法也类似,就是“我爱”。
不知道反转问题为啥这么难,之前的deepseek也没对,k0-math也没对。
- strawberry有几个r
答案正确,数的没错,完美。
写在最后
整体效果还是不错的,数学测了一些,还蛮强的,文本推理还有点改进,但是人家毕竟也是k0-math模型,都强调数学了, 我狂测文本也是有点不讲道理啦 。
不过还是给我带来不少震撼的,各家赶紧调用造数据吧
国内现在都在发力了,接下来是哪家,赶紧站出来。
PS:我现在急需一个开源的类o1模型,在这里先提前感谢各位大厂的大佬们啦。
我希望是qwen,狗头保命,各位老板们继续加油~~
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!