Gemini3.0末班车！冷静来看有哪些方面还存在不足~ - 文章 - 开发者社区

大家好，我是刘聪NLP。

谷歌，不，是谷哥！

昨天大家应该都被Gemini3.0刷屏了吧，强，确实很强！

网上有很多有意思的例子，可以看WaytoAGI发起的网友众测：

这篇主要是测试了Gemini3.0的视觉理解能力，看看哪些方面还存在不足。

看过我过往的测试，应该有印象，我一般从十多个角度进行测试，

测完之后，我的整体感觉，

但目前来看，是多模态理解最强无疑了~ 下面是实测截图如下。

正向时钟，

picture.image

翻转时钟，

picture.image

真实位置为“上海金茂大厦”

picture.image

当然，其他一些位置是可以识别对的，我是故意找了一个有名，但其实网上图片信息占比可能少一些的。

对空间逻辑推理进行测试，答案为A。

picture.image

人可以准确找到，是真正的按照行列找到呦！同时在思维链中，也没有问题，不是蒙的，是真的理解了。

picture.image

当然，不开心的小恐龙是世界难题，哈哈哈哈，至今还没有可以对的。

找茬的话简单的没有问题，但是究极15处差异，细节很细的时候，确实回答不对。

感兴趣的可以去找一下，看看能不能找到。

picture.image

其他很好的场景，简单放几个测试例子。

手写体识别

picture.image

表格识别

picture.image

猜成语，国内模型都不行~

picture.image

最后，

谷歌依旧是你谷哥呀！

我觉得目前应该是是视觉理解的Top1了，我很多的Case，

已经基本上难不倒了。

还有，Nona Banana2也要出了，

卷起来，持续测试ing~

PS：都看到这里，来个点赞、在看、关注吧。您的支持是我坚持的最大动力！

欢迎多多关注公众号「刘聪NLP」，加入交流群，交个朋友吧，一起学习，一起进步！