开源多模态大模型是红绿色盲吗?

大模型向量数据库机器学习

大家好,我是刘聪NLP。

今天晚上的时候,看到了大聪明老师(公众号@赛博禅心)的一篇文章大模型是色盲吗?,角度十分有趣。

大聪明老师评测下来后, 发现一些头部闭源大模型都无法通过红绿色盲测试。

这个测试是一个很有趣的角度(佩服大聪明老师的脑回路),但我觉得对大模型来说,测试图确实有点难了。但如果从可用性角度来测试,比如直接看红绿灯,可以识别不耽误应用,是不是可以称为假色盲。

抱着实验的态度,测试了几个10B以下目前常用的开源视觉大模型,来看看到底大模型是不是色盲。

先给大家说结论:端侧级别的开源大模型无法通过红绿色盲测试,但可以在应用端可以使用,是一群假色盲!

下面开始测试,测试中图1、图2来自大聪明老师的文章,图3和图4是我找的网图。

picture.image

测试模型共有Qwen2-VL-7B模型、InternVL2.5-8B模型、MiniCPM-V-2.6模型,利用vLLM启动模型,为了保证模型的稳定性,每个模型对于每张图片共测5次,求均分。

其中,回答错误得0分,回答正确得1分。

每张图片对应的Query如下:

  • 图1:图片里有数字吗?如果有的话是什么?
  • 图2:图片里有数字吗?如果有的话是什么?
  • 图3:请识别图片中的红绿灯,请问当前是否可以开车通过?
  • 图4:请识别图片中的花,请告诉我是什么颜色?

结果如下:

picture.image

可见, 开源大模型在图1上全军覆没,无法准确识别出数字,甚至无论是正常还是色盲得数据均无法准确识别(但InternVL铁色盲,识别21)。 图2、图3、图4基本正确。

侧面可以看出 ,开源10B以下的多模态大模型在能力上照闭源模型还是有一定的差距。

Qwen2-VL-7B模型结果其中一次截图:

picture.image

InternVL2.5-8B模型结果其中一次截图:

picture.image

MiniCPM-V-2.6模型结果其中一次截图:

picture.image

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论