大家好,我是刘聪NLP。
谷歌,不,是谷哥!
昨天大家应该都被Gemini3.0刷屏了吧,强,确实很强!
网上有很多有意思的例子,可以看WaytoAGI发起的网友众测:
https://waytoagi.feishu.cn/wiki/FtI5wHbPpifvHHkcCzRcwvI0nbg
这篇主要是测试了Gemini3.0的视觉理解能力,看看哪些方面还存在不足。
看过我过往的测试,应该有印象,我一般从十多个角度进行测试,
测完之后,我的整体感觉,
- 无法准确理解时钟问题
- 世界知识的位置识别还有欠缺,这个应该是跟拍照角度和训练数据有关,昨天的R1V4通过联网检索对比,是可以回答正确,“上海金茂大厦”
- 图像空间逻辑还有欠缺;
- 目标对比上还有不足,但较2.5有很大提高
- 网页复刻是神级别的存在了,网上有很多case了
- OCR识别、表格识别、理解计算、图片排序、空间变换都更精进了一层;
- 看图猜成语也无敌,相较于国内的视觉理解模型提高大一层。
但目前来看,是多模态理解最强无疑了~ 下面是实测截图如下。
时钟识别
正向时钟,
翻转时钟,
世界知识-定位
真实位置为“上海金茂大厦”
当然,其他一些位置是可以识别对的,我是故意找了一个有名,但其实网上图片信息占比可能少一些的。
空间逻辑
对空间逻辑推理进行测试,答案为A。
目标对比
人可以准确找到,是真正的按照行列找到呦! 同时在思维链中,也没有问题,不是蒙的,是真的理解了。
当然,不开心的小恐龙是世界难题,哈哈哈哈,至今还没有可以对的。
找茬的话简单的没有问题,但是究极15处差异,细节很细的时候,确实回答不对。
感兴趣的可以去找一下,看看能不能找到。
其他很好的场景,简单放几个测试例子。
手写体识别
表格识别
猜成语,国内模型都不行~
最后,
谷歌依旧是你谷哥呀!
我觉得目前应该是是视觉理解的Top1了,我很多的Case,
已经基本上难不倒了。
还有,Nona Banana2也要出了,
卷起来,持续测试ing~
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!
