测测Kimi新开的k0-math,你是数学模型,但我就测文本

大模型向量数据库机器学习

晚上发现kimi也更新了,之前网上流传的kimi在数学上对标o1的模型,可以测试了。

感觉有点迫于deepseek的压力了,本来应该是国内第一个的,长推理、类o1的模型,现在变成了第二个。

模型版本叫k0-math,在数学上的效果也是对标openai-o1,官方也仅仅表示说在数学能力上较强。

picture.image 来自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA

但我非要测试看看在文本推理上的效果如何。

picture.image

测试界面是侧边栏的小眼镜图标,进来直接就可以测试,相较于deepseek-r1模型,k0-math没有次数限制,随便玩。

但不同之处在于,推理过程和结果就是在一起,

下面主要进行一些测试,都是在之前测试deepseek-r1的题目

还是先测测数据能力

  • 2024年年高考全国甲卷数学(文)试题

picture.image

结果正确,picture.image

picture.image

  • 2024年高考全国甲卷数学(理)试题

picture.image

结果正确,C方程为;

picture.image

picture.image

数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。

这类模型最有意思的地方在于推理过程 ,看着模型不断推理、不断自证、推翻、再自证的过程,真的很有意思,可以看到未来大模型的希望。

下面就是我要测试的一些文本问题了,依旧老几样:

  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

picture.image

picture.image

回答正确,一开始得出结论是3,但是又仔细分析了一下,自我纠正过来,推理过程我很满意,看过我之前评测的懂得都懂。

  • 用水来兑水,得到的是浓水还是稀水

picture.image

picture.image

结果正确,依然是相同浓度的水,其实前面也说了,没有浓度的概念。

  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

picture.image

老鹰飞飞,这道题本身就有一点争议,反正deepseek也是类似的答案,但我依然觉得没有答到我的“心趴”上。

  • 将“I love Kimi-Chat”的所有字母反过来写

picture.image

picture.image

我觉得不对,我不能理解为啥要把 “I love”给翻译一下,测了好几次,换了问法也类似,就是“我爱”。

不知道反转问题为啥这么难,之前的deepseek也没对,k0-math也没对。

  • strawberry有几个r

picture.image

picture.image

答案正确,数的没错,完美。

写在最后

整体效果还是不错的,数学测了一些,还蛮强的,文本推理还有点改进,但是人家毕竟也是k0-math模型,都强调数学了, 我狂测文本也是有点不讲道理啦

不过还是给我带来不少震撼的,各家赶紧调用造数据吧

国内现在都在发力了,接下来是哪家,赶紧站出来。

PS:我现在急需一个开源的类o1模型,在这里先提前感谢各位大厂的大佬们啦。

我希望是qwen,狗头保命,各位老板们继续加油~~

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论