聊聊智谱GLM-4.5V:这个新开源的视觉模型,有点强(附六大场景实测)

大模型向量数据库数据中台

小伙伴们大家好呀,我是甲木。

picture.image

真的是AI一天,人间一年,AI圈真的是卷麻了,

上周全世界的目光都聚焦在OpenAI发布的GPT-5上,大家讨论得热火朝天,我也发了一篇文字内容唠了唠,本来以为接下来几天没啥动静了,

没想到昨晚智谱开了一个发布会,时间很短,十分钟结束。

picture.image

10分钟的发布会,速战速决。。

但是内容可一点都不普通,直接扔出了一颗重磅炸弹:GLM-4.5V ,一个视觉能力强到离谱的多模态推理大模型,而且直接开源!

picture.image

z.ai的首页,可以直接选择4.5V体验

其实在正式发布前,前段时间的GLM-4.5就已经在AI爱好者圈子中掀起了不小的波澜,当时很多小伙伴测了各类场景,能力强的一批。

picture.image

来自Sam的点赞

那么,现在,当一个AI的‘眼睛’不仅能看,还能深度思考,甚至能替你动手操作,这究竟是怎样一种体验?

🔗 使用方法:在 z.ai 上可以选择GLM-4.5V对话或者在 智谱清言APP/网页版,上传图片,开启“推理模式”。

今天,我们就来看看智谱GLM-4.5V的实力~

GLM-4.5V的底气在哪?

我们先来看看纸面实力和GLM-4.5V的“内功心法”。毕竟,知其然,更要知其所以然。

根据官方发布的技术细节,GLM-4.5V在41个公开视觉多模态榜单中登顶SOTA,源于其在架构、训练策略和技术创新上的深厚积累。

picture.image

核心架构:看得更清,适应性更强

GLM-4.5V的“身体”由视觉编码器、MLP适配器和语言解码器三部分构成。它的“眼睛”(视觉编码器)采用了强大的AIMv2-Huge,并引入了二维旋转位置编码(2D-ROPE)等机制,让它在面对各种高分辨率和极端宽高比的“奇葩”图片时,能看得更清晰、更准确。

比如我们给它一张商品优惠群的聊天记录长截图,它能从头到尾完整阅读,并准确总结出图片中的商品信息、价格和商品卖点。

picture.image

最强大脑:空间理解与深度思考

它的“大脑”(语言解码器)是基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的结构,训练出了更大更强的GLM-4.5V,并创造性地将位置编码扩展为3D形式(3D-ROPE)。这极大地提升了模型对多模态内容的空间理解能力,不仅知道图里有什么,更清楚地知道它们“在哪儿”。

比如我们上传一张交通事故现场的图片,让它分析事故原因。模型会分析图片中的元素,以此分析出核心碰撞点。基于这些判断,它能推理出几种符合逻辑的事故原因。

picture.image

三阶训练:从“学徒”到“宗师”的进化

模型采用了精心的三阶段进化式训练:

  • 预训练(打基础):博览群书,学习海量图文和视频内容。
  • 监督微调SFT(学方法):引入“思维链”(CoT)进行刻意练习,学会如何像人一样思考和推理。
  • 强化学习RL(悟大道):在覆盖多领域的“终极试炼场”中,通过奖励和反馈进行极限优化,最终“得道飞升”。

模型参数106B总参数,12B激活,规模不大不小,但实力很抗造,

空口无凭,是骡子是马,拉出来遛遛!

接下来,就是大家最喜欢的“talk is cheap,show me case”环节,我们直接上实测!

场景实测:是骡子是马,拉出来遛遛

场景一:前端复刻

之前我们测试过很多上传给AI一张图,然后做页面的case,

这次我们不再满足于让AI识别普通静态图片,而是要求它观看一段网页操作的录屏视频,然后直接生成能够复现该网页功能和交互的、可运行的前端代码。

比如, 我上传一段Linux DO论坛的实际操作录屏视频。要求根据给出的视频,帮我复刻视频中的UI界面,并生成html code。

可以看到,这项任务的难度是要比单张静态图难度递增的。

因为它要求模型具备:视频理解能力、UI元素识别能力、布局与逻辑推理能力,以及代码生成能力。

这本质上是在模拟一位前端工程师的完整工作流,是对模型综合能力的终极考验。

GLM-4.5V:

模型在短暂的“思考”后,直接输出了一整套完整的、可以直接在浏览器中运行的HTML文件。当我打开这个网站时,页面的整体布局、色彩搭配、字体样式,几乎与原视频中的网页一模一样。

picture.image

复刻网站首页

最关键的是,视频中的交互效果也被“复刻”了。

当然,图片右上角的裂图因为没有我的头像资源所以引用不了。

picture.image

复刻网站消息页

我查看了生成的源代码,其结构清晰,使用了合理的标签和CSS类名,可读性非常高。

picture.image

GLM-4.5V在这里展现出的,是一种**“跨模态涌现能力”** 。

它并未经过专门的“看视频写代码”训练,但通过将其强大的视觉理解、逻辑推理和代码生成能力结合,泛化完成了这项极其复杂的任务。

这就意味着之后我们想要Copy,哦不,参考一个网站,就能直接录个网站视频丢给4.5V然后慢慢跑出来结果了..

场景二:视频理解 —— 不止于看,更在于“看懂”

为了进一步测试其视频处理能力,我选择了一个生活化场景。

给模型一段时长2分钟的家常菜“番茄炒蛋”的制作视频,要求它输出一份图文并茂的详细菜谱。

这个任务旨在考察模型对动态、时序信息的处理能力。它需要从连续的画面中识别出关键动作(切菜、打蛋、翻炒)、物体状态变化(生到熟)和隐含信息(大致的火候和时间),并将其结构化输出。

我直接 上传一段2分钟的“番茄炒蛋”制作视频,让模型输出一份详细地菜谱。

picture.image

找了一段炒菜视频

GLM-4.5V:

模型输出的菜谱质量不错,完全按照视频的过程来展示的。

它准确识别出视频中出现的所有食材,同时将视频流程拆解为多个逻辑步骤,并配以关键动作描述。

甚至还捕捉到了一些视频中的细节,比如提示“蛋液膨胀定型后,先不翻炒,这样炒出来更蓬松”,细节满满。

picture.image

GLM-4.5V的视频理解能力已经超越了简单的动作识别,它能够理解动作的**“意图”和“上下文”** ,并将其转化为对人类有实际指导意义的知识。

这个可以在很多场景有应用,比如教育场景下的辅导作业,工业生产中的质检,医疗场景下的应用等等。

场景三:地理定位

这是对模型真实世界知识和视觉推理能力的双重考验。

我们使用类似“图寻(GeoGuessr)”游戏的模式,给模型一张随机的、没有任何地理标识的街景图片,让它判断拍摄地点。

这个游戏非常有趣,之前@一泽 也横向测评过很多类似的场景case,这项任务的魅力在于它的不确定性。

模型必须像一个真正的侦探,从图片中的植被、建筑风格、路牌文字(如果有)、车辆行驶方向、甚至是光照角度等一切蛛丝马迹中,进行推理和知识匹配,最终锁定一个具体的地理坐标。

比如 我拿之前去三亚蜈支洲岛和巴厘蓝梦岛的旅拍照直接发给它,关闭联网功能,直接让它识别地方。

picture.image

GLM-4.5V:

模型通过一系列的思考,结合图片中微小的细节,包括中式亭子、沙滩质量、海水颜色、植被特征、甚至停泊船只上人眼看不清的文字,都一一被模型捕捉到。

picture.image

可以看到最终的结论是完全正确的。

这不比人细节多了...以后做个朋友圈照片提取,然后接入GLM-4.5V直接实时分析位置...

GLM-4.5V的地理定位能力,是其庞大世界知识库和强大视觉推理能力完美结合的体现。

它证明了模型不只是在“识别”像素,更是在“阅读”和“理解”我们所生活的这个物理世界。

场景四:视觉定位(Grounding)

Grounding能力,通俗讲,就是“指哪打哪”。我们用自然语言描述一个物体,模型需要在复杂的图像中精准地找到它,并用边界框(Bounding Box)标出。

这是VLM从“感知”走向“交互”的关键一步,是所有需要与现实世界进行物理交互的应用(如机器人、自动驾驶、AR)的基石。它要求模型对语言和视觉两个模态有极高的对齐精度。

比如,我让它给我找个人,

picture.image

上传一张照片,直接输入我的诉求

GLM-4.5V:

面对一张人头攒动、背景复杂的图片,模型精准地理解了这段包含多个颜色、衣着、发型和人物关系的复杂描述。

picture.image

它在图片右侧找到了完全符合描述的目标人物,并用一个红色的边界框将这个女性完美地框选了出来,同时输出了精确的坐标 [885,592,999,925]。

再比如,一个骚操作,我们都知道现在有些网站的验证码,变得很。。

picture.image

太他么抽象了...

我有时候真的人工,,操作半天才能选对。有的摆弄方向的更是扯淡。。

所以我直接用GLM-4.5V帮我操作下,

picture.image

完成验证任务

美滋滋,精准定位

picture.image

考眼力游戏

GLM-4.5V展现了顶级的Grounding能力,

不仅能处理简单的物体描述(如“红色的球”),更能理解包含复杂属性和相互关系的自然语言指令。

使得AI真正具备了成为我们“眼睛”和“手指”的潜力。

场景五:GUI Agent能力

还记得之前我写的智谱AutoGLM发布的时候,张总用它发红包的场景么,

现在GLM-4.5V也能够识别和处理电子屏幕画面,完成复杂的GUI Agent任务,

传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。

以后双十一,618的时候就可以这么来玩了。。

开源,开源,开源!

智谱的一贯作风,共建开源生态,之前就推出GLM-4.1V-9B-Thinking小模型,我还用它分析了一下MSI的比赛...之后又把能力极强的GLM-4.5开源,太卷了..

现在,这次同样推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V,并同步在魔搭社区与 Hugging Face 开源。

picture.image

GitHubhttps://github.com/zai-org/GLM-V

Hugging Facehttps://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

魔搭社区https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

开源之后,很多中小企业都可以进行本地部署,同参数规模,速度极快!

当然,在线体验直接 z.ai ,选择 GLM-4.5V 模型,上传图片或视频,或者在 智谱清言 APP/网页版,都可以即刻体验~

结语

从GLM-4.5到GLM-4.5V,

连续两个优秀的模型都直接开源,

国产之光「智谱」展现了魄力和技术积累,

就这格局,OpenAI来了不得点个赞?

而且GLM-4.5系列在同领域实测下来真的是当前业界顶尖(SOTA)的水平。

这种**“不止于看,更在于懂”** 的深度视觉理解能力,

真正的能够从一个有趣的“玩具”,蜕变为一个可以赋能百业的强大“工具”。

对于我们每个人,它意味着之后我们迎接更自然、更直观的全新数字交互时代的到来。

现在,GLM-4.5V已在🔗z.ai & 智谱清言 APP/网页版 正式上线,大家都可以去亲手体验一下。

去试试让它帮你P图、帮你找不同、甚至帮你分析一下猫主子的表情到底是什么意思,

我相信,你也会和我一样,被它的能力所震撼。

祝福,智谱。


你认为GLM-4.5V最让你惊艳的能力是哪个?

你最想用它来解决生活或工作中的什么问题?

欢迎在评论区留言,和甲木一起开脑洞!

我是甲木,热衷于分享一些AI干货内容,我们下期再见👋🏻


觉得今天的内容对你有“一点点”启发吗?

老规矩,【点赞👍】+【在看👀】+【转发↗️】走一波!

你的每一个支持,都是甲木持续探索AI硬核应用的核动力!

picture.image

与我联系

欢迎在评论区留言,和甲木一起开脑洞!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论