全球顶尖的视觉大模型,竟然都不会看手表时间?是否可以成为新的验证码
测试图片:
- 实测 cogvlm2:
- Q: 显示是几点?
- CogVLM2: 显示的时间是1:35。
- Q: 时针在哪里?
- CogVLM2: 时针在“7”和“8”之间。
- Q:分针在哪里?
- CogVLM2: 分针在6和9之间。
- 实测MiniCPM-Llama3-V-2_5
- Q: 显示是几点?
- MiniCPMV: 手表上显示的时间大约是10点10分。这是手表广告中常见的展示时间,因为它在表盘上创造了一个视觉上令人愉悦的对称布局。
- Q: 时针在哪里?
- MiniCPMV: 时针指向大约10点20分。要确定确切的时间,需要考虑分针和秒针的位置。然而,仅根据时针的位置,我们可以推断时间大约在10点到10点半之间。
- Q:分针在哪里?
- MiniCPMV: 在图片中,分针位于表盘的6点钟位置附近。由于图片的分辨率和角度,无法准确确定分针的确切位置,但它明显位于6点钟标记的上方。
- 网友热议评论:
- 刚刚尝试了 GPT-4o,它似乎只是猜测。尝试了 4 次,结果还差得远。
- 这很有趣,考虑到与视觉模型能够完成的许多其他任务相比,这是一项微不足道的任务,并且模拟时钟将包含在任何数十万个训练集中。> 大概是因为在互联网上有时钟图片的地方往往没有解释如何阅读时钟的文字。而一些技术主题将得到解释。
- 还通过 Huggingface spaces尝试了各种开源视觉模型。还尝试询问更具体的问题,例如“时针指向哪里?,分针指向哪里”等,看看他们是否可以解决这个问题,尝试了GPT4o、Claude Opus、Gemini 1.5 Pro、Reka Core 、Microsoft Copilot、Idefics2等
- 不过,这非常容易训练;仅仅因为没有人包含此类数据并不意味着他们不能。
今天比较忙,先这样了。撤了撤了。欢迎关注,日更~
