智谱开源的GLM4.5V到底行不行?掏出祖传多模态理解测试!

大模型向量数据库机器学习

大家好,我是刘聪NLP。

7月就很卷了,见国内开源大模型整理,8月没想到依然卷。

从一开始的腾讯开源小模型,到Qwen开源Image模型,再到小红书dots.vlm1、面壁MiniCPM-V 4.0,然后今天智谱又发布了GLM4.5V。

对,就这样卷,利好开源社区、利好我们这些开发者!

我前几天写了一篇文章,横测六大顶流开源多模态大模型 | 附13大场景实例,当时测了GLM-4.1V-Thinking模型,虽然只有10B,但效果可圈可点。

那么今天来看看这个GLM4.5V模型到底如何?先上测试,再聊模型细节!

测试除了OCR识别、表格识别、理解计算、网页复刻、报告分享、目标识别、目标对比、数学做题、图片排序、空间逻辑、空间变换、色盲测试、世界知识这13个场景之外,额外还增加了Grounding & GUI使用。

智谱GLM4.5基座模型的表现可圈可点,GLM4.5V基于GLM4.5基座模型训练,实测下来已经是开源多模态大模型Top行列。

  • GLM4.5V对色彩的把握程度较高,相较于GLM4.1V有很大提升,同时优于现有多模态开源模型;
  • Grounding&GUI Agent很强,有点东西,在目标对比任务出不来的时候,换成Grounding模式,可以有很大提高;
  • 表格识别任务,有提升,能跟Qwen2.5-VL打平,但是现在表格识别还是需要那种专门模型效果会更好;
  • 网页复刻任务、ORC任务、目标识别、报告分析任务依旧很好,其他多模态模型在这些任务上也不错。
  • 图片排序任务变好,第一个可以出来,第二个“先菌子后小人”确实有点难了,会有一些歧义。
  • 空间变换、空间逻辑不行,但是其他大模型也都不好,所以这部分,是多模态大模型需要继续提高的内容。
  • 世界知识也相较于之前4.1有很大提高。
  • 还有视频理解效果也很好。

相较于我上次横测对比,现在ORC、表格解析、文档解读、Grounding&GUI我现在会更倾向于GLM4.5V了。

picture.image

https://mp.weixin.qq.com/s/AQfBPZZW60pnZddWGMS4Zg

OCR识别

Prompt:请识别图中的文本内容,言简意赅。

picture.image

GLM-4.5V:回答正确

picture.image

表格识别

这个是我之前常测的一个内容,很多多模态大模型都不行,主考察多模态大模型的内容提取和指令跟随能力,需要将表格图片用HTML进行还原。

Prompt:

  
## Role  
你是一位有多年经验的OCR表格识别专家。  
  
## Goals  
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。  
  
## Constrains  
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;  
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;  
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;  
- 特别注意图片中存在合并单元格的情况,结构不要出错;  
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;  
- 图片内容需要完整识别,不要遗漏,同时注意合并单元;  
- 最终输出结果需要是html格式的表格内容。  
  
## Initialization  
请仔细思考后,输出html表格结果。  

picture.image

GLM-4.5V:对了对了,牛逼的。

picture.image

再测试一个,

picture.image

GLM-4.5V:回答正确。

picture.image

报告分享

主要考察多模态大模型的内容理解能力、知识储备的能力,上传一个体检报告,看看能不能分析出来问题,以及相关的注意事项。

Prompt:请帮我解读一下报告内容。

picture.image

GLM-4.5V:分析的很详细,给出的总结建议也很到位。

picture.image

理解计算

主要考察多模态大模型的内容理解能力、计算能力,上传一个GDP表格,找到最大值并计算占比。

Prompt:找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?

2024年总和=1340312.8

picture.image

GLM-4.5V:最大值找对了,广东数值也是对的,但是总数没算对,差了一点点。

picture.image

Grounding & GUI 使用

考验模型识别&定位的能力

Prompt:打开微信。

picture.image

目标识别

主要考察多模态模型对事物的识别能力,让模型判断事物是否准确、或者查东西的个数。

Prompt:图片上是两只狗对吗?

picture.image

GLM-4.5V:回答正确。

picture.image

Prompt:告诉我桌子上菇娘儿的个数。

picture.image

GLM-4.5V:回答正确。

picture.image

目标对比

主要考察多模态模型对图片细致内容解析及分析的能力,还有多图对比的能力。

Prompt:找到图片中奔跑的人,并返回行列序号,比如:几行几列。

正确答案是6行10列

picture.image

GLM-4.5V:回答错误,行数不对。

picture.image

然后我又试了一下Grounding问法,看看能不能标记出来,结果让我大吃一惊,对于4.5V来说,对比可能更难,但是还是可以找到不同的。

回答:正确,找到了奔跑的人

picture.image

Prompt:找到不开心的小恐龙,并返回行列序号,比如:几行几列。

正确答案是11行1列和11行6列

picture.image

GLM-4.5V:回答错误。

picture.image

回答:错误,小恐龙这个需要用嘴是否是平的来找,确实有点难了

picture.image

Prompt:找不两幅图片之间的15处差异。

picture.image

GLM-4.5V:回答错误,前几个回答的有模有样,但是到后面会出现一些幻觉,整体来说结果比4.1要好,比其他几个开源模型要好。

picture.image

Grounding模式回答:找到了大部分,比纯文本回答更加清晰

picture.image

数学做题

数学题是必测了,主要是看多模态大模型的数学能力,测试2025年高考题。

Prompt:解题

picture.image

GLM-4.5V:前两问正确,最后一问错误,应为3√3+3√2,这最后一问,还没看到多模态模型能对得。

picture.image

网页复刻

上传一个截图,让多模态大模型进行还原,主要考察多模态大模型的审美和代码能力。

Prompt:请帮我1:1还原这个网页内容,用HTML呈现。

picture.image

GLM-4.5V:东西都有,复刻的不错。

picture.image

图片排序

主要考察多模态模型能否理清多张图片之间逻辑关系的,能否理解世界事件发展的规律。

Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

正确答案CADB,走到商店,买雪糕,滑倒,打到脸上

picture.image

GLM-4.5V:回答正确

picture.image

Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

正确答案CDAB,有蘑菇,采摘并吃掉,有点晕,产生了幻觉蘑菇会走了

picture.image

GLM-4.5V:回答错误,但仔细想了一下,说的也有道理,不过我还是有点坚持,毕竟蘑菇只有在幻觉的情况下,才会变成小人~

picture.image

空间变换

考察多模态模型对图像的空间转换能力。

Prompt:请回答。

答案为B。

picture.image

GLM-4.5V:回答正确。

picture.image

Prompt:请回答。

picture.image

GLM-4.5V:回答错误

picture.image

色盲测试

Prompt:图片里有数字吗?如果有的话是什么?

picture.image

正常者能读出6,红绿色盲者及红绿色弱者读成 5,而全色弱者则全然读不出上述的

GLM-4.5V:回答正确。

picture.image

Prompt:图片里有数字吗?如果有的话是什么?

色觉正常的人能清楚地从图中看出数字74,红绿色盲者会看到21,而全色盲者可能看不出数字。

picture.image

GLM-4.5V:回答正确。

picture.image

空间逻辑

考察多模态模型在理解图片的基础上进行深度的逻辑分析,直接上考公逻辑题了。

Prompt:请回答。

正确答案为A。

picture.image

GLM-4.5V:回答错误。

picture.image

Prompt:请回答。

正确答案为A。

picture.image

GLM-4.5V:回答正确。

picture.image

世界知识

考察多模态大模型的世界知识能力,看到标志性建筑,是否可以判断具体地点。

Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

盘锦的红海滩,给家乡打一波广子~

picture.image

GLM-4.5V:回答正确。

picture.image

Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

上海金茂大厦,算是标志性建筑了。

picture.image

GLM-4.5V:回答错误,识别成了天津的周大福金融中心。

picture.image

我就好奇,然后搜了一下,还真别说,从仰视图来看,还真的很难区别,这种就靠训练数据了,battle一下吧!

picture.image

聊聊回GLM4.5V

GLM-4.5V模型,由视觉编码器(AIMv2-Huge)、MLP 适配器和语言解码器(位置编码3D-RoPE)三部分组成,总参数 106B,激活参数 12B,沿用GLM-4.1V-Thinking的结构,同时是混合推理模型,可通过“思考模式”开关选择快速响应或深度推理。

picture.image

  
Githubhttps://github.com/zai-org/GLM-V  
HFhttps://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102  
MShttps://modelscope.cn/collections/GLM-45V-8b471c8f97154e  

从榜单上来看,全面变强,跟真实测试体验一致,尤其是在Grouding部分,表现尤为突出。

picture.image

智谱一如既往的,上线新模型,就在 BigModel.cn 上送Token,这次是 600 万 Tokens 的免费资源包。

链接:https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv

写在最后

从10B扩展到100B级别,效果上是提升很多,除了网页复刻、OCR识别、表格识别一如既往的强大,在Grounding、世界知识、色彩辨别上有了很大的提升。

但依旧存在多模态大模型的通病,在空间理解、图像推理、细节对比等高阶任务中存在明显短板,特别是在图像切割的精度、空间逻辑链条推理上,尚有一段路要走。

最后我想说,开源大模型越来越多,需要自己实测,才能找到那个在自己任务上最擅长的大模型。

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论