大家好,我是刘聪NLP。
7月就很卷了,见国内开源大模型整理,8月没想到依然卷。
从一开始的腾讯开源小模型,到Qwen开源Image模型,再到小红书dots.vlm1、面壁MiniCPM-V 4.0,然后今天智谱又发布了GLM4.5V。
对,就这样卷,利好开源社区、利好我们这些开发者!
我前几天写了一篇文章,横测六大顶流开源多模态大模型 | 附13大场景实例,当时测了GLM-4.1V-Thinking模型,虽然只有10B,但效果可圈可点。
那么今天来看看这个GLM4.5V模型到底如何?先上测试,再聊模型细节!
测试除了OCR识别、表格识别、理解计算、网页复刻、报告分享、目标识别、目标对比、数学做题、图片排序、空间逻辑、空间变换、色盲测试、世界知识这13个场景之外,额外还增加了Grounding & GUI使用。
智谱GLM4.5基座模型的表现可圈可点,GLM4.5V基于GLM4.5基座模型训练,实测下来已经是开源多模态大模型Top行列。
- GLM4.5V对色彩的把握程度较高,相较于GLM4.1V有很大提升,同时优于现有多模态开源模型;
- Grounding&GUI Agent很强,有点东西,在目标对比任务出不来的时候,换成Grounding模式,可以有很大提高;
- 表格识别任务,有提升,能跟Qwen2.5-VL打平,但是现在表格识别还是需要那种专门模型效果会更好;
- 网页复刻任务、ORC任务、目标识别、报告分析任务依旧很好,其他多模态模型在这些任务上也不错。
- 图片排序任务变好,第一个可以出来,第二个“先菌子后小人”确实有点难了,会有一些歧义。
- 空间变换、空间逻辑不行,但是其他大模型也都不好,所以这部分,是多模态大模型需要继续提高的内容。
- 世界知识也相较于之前4.1有很大提高。
- 还有视频理解效果也很好。
相较于我上次横测对比,现在ORC、表格解析、文档解读、Grounding&GUI我现在会更倾向于GLM4.5V了。
https://mp.weixin.qq.com/s/AQfBPZZW60pnZddWGMS4Zg
OCR识别
Prompt:请识别图中的文本内容,言简意赅。
GLM-4.5V:回答正确
表格识别
这个是我之前常测的一个内容,很多多模态大模型都不行,主考察多模态大模型的内容提取和指令跟随能力,需要将表格图片用HTML进行还原。
Prompt:
## Role
你是一位有多年经验的OCR表格识别专家。
## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。
## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 图片内容需要完整识别,不要遗漏,同时注意合并单元;
- 最终输出结果需要是html格式的表格内容。
## Initialization
请仔细思考后,输出html表格结果。
GLM-4.5V:对了对了,牛逼的。
再测试一个,
GLM-4.5V:回答正确。
报告分享
主要考察多模态大模型的内容理解能力、知识储备的能力,上传一个体检报告,看看能不能分析出来问题,以及相关的注意事项。
Prompt:请帮我解读一下报告内容。
GLM-4.5V:分析的很详细,给出的总结建议也很到位。
理解计算
主要考察多模态大模型的内容理解能力、计算能力,上传一个GDP表格,找到最大值并计算占比。
Prompt:找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?
2024年总和=1340312.8
GLM-4.5V:最大值找对了,广东数值也是对的,但是总数没算对,差了一点点。
Grounding & GUI 使用
考验模型识别&定位的能力
Prompt:打开微信。
目标识别
主要考察多模态模型对事物的识别能力,让模型判断事物是否准确、或者查东西的个数。
Prompt:图片上是两只狗对吗?
GLM-4.5V:回答正确。
Prompt:告诉我桌子上菇娘儿的个数。
GLM-4.5V:回答正确。
目标对比
主要考察多模态模型对图片细致内容解析及分析的能力,还有多图对比的能力。
Prompt:找到图片中奔跑的人,并返回行列序号,比如:几行几列。
正确答案是6行10列
GLM-4.5V:回答错误,行数不对。
然后我又试了一下Grounding问法,看看能不能标记出来,结果让我大吃一惊,对于4.5V来说,对比可能更难,但是还是可以找到不同的。
回答:正确,找到了奔跑的人
Prompt:找到不开心的小恐龙,并返回行列序号,比如:几行几列。
正确答案是11行1列和11行6列
GLM-4.5V:回答错误。
回答:错误,小恐龙这个需要用嘴是否是平的来找,确实有点难了
Prompt:找不两幅图片之间的15处差异。
GLM-4.5V:回答错误,前几个回答的有模有样,但是到后面会出现一些幻觉,整体来说结果比4.1要好,比其他几个开源模型要好。
Grounding模式回答:找到了大部分,比纯文本回答更加清晰
数学做题
数学题是必测了,主要是看多模态大模型的数学能力,测试2025年高考题。
Prompt:解题
GLM-4.5V:前两问正确,最后一问错误,应为3√3+3√2,这最后一问,还没看到多模态模型能对得。
网页复刻
上传一个截图,让多模态大模型进行还原,主要考察多模态大模型的审美和代码能力。
Prompt:请帮我1:1还原这个网页内容,用HTML呈现。
GLM-4.5V:东西都有,复刻的不错。
图片排序
主要考察多模态模型能否理清多张图片之间逻辑关系的,能否理解世界事件发展的规律。
Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。
正确答案CADB,走到商店,买雪糕,滑倒,打到脸上
GLM-4.5V:回答正确
Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。
正确答案CDAB,有蘑菇,采摘并吃掉,有点晕,产生了幻觉蘑菇会走了
GLM-4.5V:回答错误,但仔细想了一下,说的也有道理,不过我还是有点坚持,毕竟蘑菇只有在幻觉的情况下,才会变成小人~
空间变换
考察多模态模型对图像的空间转换能力。
Prompt:请回答。
答案为B。
GLM-4.5V:回答正确。
Prompt:请回答。
GLM-4.5V:回答错误
色盲测试
Prompt:图片里有数字吗?如果有的话是什么?
正常者能读出6,红绿色盲者及红绿色弱者读成 5,而全色弱者则全然读不出上述的
GLM-4.5V:回答正确。
Prompt:图片里有数字吗?如果有的话是什么?
色觉正常的人能清楚地从图中看出数字74,红绿色盲者会看到21,而全色盲者可能看不出数字。
GLM-4.5V:回答正确。
空间逻辑
考察多模态模型在理解图片的基础上进行深度的逻辑分析,直接上考公逻辑题了。
Prompt:请回答。
正确答案为A。
GLM-4.5V:回答错误。
Prompt:请回答。
正确答案为A。
GLM-4.5V:回答正确。
世界知识
考察多模态大模型的世界知识能力,看到标志性建筑,是否可以判断具体地点。
Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?
盘锦的红海滩,给家乡打一波广子~
GLM-4.5V:回答正确。
Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?
上海金茂大厦,算是标志性建筑了。
GLM-4.5V:回答错误,识别成了天津的周大福金融中心。
我就好奇,然后搜了一下,还真别说,从仰视图来看,还真的很难区别,这种就靠训练数据了,battle一下吧!
聊聊回GLM4.5V
GLM-4.5V模型,由视觉编码器(AIMv2-Huge)、MLP 适配器和语言解码器(位置编码3D-RoPE)三部分组成,总参数 106B,激活参数 12B,沿用GLM-4.1V-Thinking的结构,同时是混合推理模型,可通过“思考模式”开关选择快速响应或深度推理。
Github:https://github.com/zai-org/GLM-V
HF:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
MS:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
从榜单上来看,全面变强,跟真实测试体验一致,尤其是在Grouding部分,表现尤为突出。
智谱一如既往的,上线新模型,就在 BigModel.cn 上送Token,这次是 600 万 Tokens 的免费资源包。
链接:https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv
写在最后
从10B扩展到100B级别,效果上是提升很多,除了网页复刻、OCR识别、表格识别一如既往的强大,在Grounding、世界知识、色彩辨别上有了很大的提升。
但依旧存在多模态大模型的通病,在空间理解、图像推理、细节对比等高阶任务中存在明显短板,特别是在图像切割的精度、空间逻辑链条推理上,尚有一段路要走。
最后我想说,开源大模型越来越多,需要自己实测,才能找到那个在自己任务上最擅长的大模型。
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!