Gemini3.0末班车!冷静来看有哪些方面还存在不足~

大模型图像处理机器学习

大家好,我是刘聪NLP。

谷歌,不,是谷哥!

昨天大家应该都被Gemini3.0刷屏了吧,强,确实很强!

网上有很多有意思的例子,可以看WaytoAGI发起的网友众测:

https://waytoagi.feishu.cn/wiki/FtI5wHbPpifvHHkcCzRcwvI0nbg

这篇主要是测试了Gemini3.0的视觉理解能力,看看哪些方面还存在不足。

看过我过往的测试,应该有印象,我一般从十多个角度进行测试,

测完之后,我的整体感觉,

  • 无法准确理解时钟问题
  • 世界知识的位置识别还有欠缺,这个应该是跟拍照角度和训练数据有关,昨天的R1V4通过联网检索对比,是可以回答正确,“上海金茂大厦”
  • 图像空间逻辑还有欠缺;
  • 目标对比上还有不足,但较2.5有很大提高
  • 网页复刻是神级别的存在了,网上有很多case了
  • OCR识别、表格识别、理解计算、图片排序、空间变换都更精进了一层;
  • 看图猜成语也无敌,相较于国内的视觉理解模型提高大一层。

但目前来看,是多模态理解最强无疑了~ 下面是实测截图如下。

时钟识别

正向时钟,

picture.image

翻转时钟,

picture.image

世界知识-定位

真实位置为“上海金茂大厦”

picture.image

当然,其他一些位置是可以识别对的,我是故意找了一个有名,但其实网上图片信息占比可能少一些的。

空间逻辑

对空间逻辑推理进行测试,答案为A。

picture.image

picture.image

目标对比

人可以准确找到,是真正的按照行列找到呦! 同时在思维链中,也没有问题,不是蒙的,是真的理解了。

picture.image

picture.image

当然,不开心的小恐龙是世界难题,哈哈哈哈,至今还没有可以对的。

找茬的话简单的没有问题,但是究极15处差异,细节很细的时候,确实回答不对。

感兴趣的可以去找一下,看看能不能找到。

picture.image

其他很好的场景,简单放几个测试例子。

手写体识别

picture.image

表格识别

picture.image

猜成语,国内模型都不行~

picture.image

最后,

谷歌依旧是你谷哥呀!

我觉得目前应该是是视觉理解的Top1了,我很多的Case,

已经基本上难不倒了。

还有,Nona Banana2也要出了,

卷起来,持续测试ing~

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论