聊聊智谱GLM-4.5V：这个新开源的视觉模型，有点强（附六大场景实测） - 文章 - 开发者社区

小伙伴们大家好呀，我是甲木。

picture.image

真的是AI一天，人间一年，AI圈真的是卷麻了，

上周全世界的目光都聚焦在OpenAI发布的GPT-5上，大家讨论得热火朝天，我也发了一篇文字内容唠了唠，本来以为接下来几天没啥动静了，

没想到昨晚智谱开了一个发布会，时间很短，十分钟结束。

picture.image

10分钟的发布会，速战速决。。

但是内容可一点都不普通，直接扔出了一颗重磅炸弹：GLM-4.5V ，一个视觉能力强到离谱的多模态推理大模型，而且直接开源！

picture.image

z.ai的首页，可以直接选择4.5V体验

其实在正式发布前，前段时间的GLM-4.5就已经在AI爱好者圈子中掀起了不小的波澜，当时很多小伙伴测了各类场景，能力强的一批。

picture.image

来自Sam的点赞

那么，现在，当一个AI的‘眼睛’不仅能看，还能深度思考，甚至能替你动手操作，这究竟是怎样一种体验？

🔗 使用方法：在 z.ai 上可以选择GLM-4.5V对话或者在智谱清言APP/网页版，上传图片，开启“推理模式”。

今天，我们就来看看智谱GLM-4.5V的实力~

GLM-4.5V的底气在哪？

我们先来看看纸面实力和GLM-4.5V的“内功心法”。毕竟，知其然，更要知其所以然。

根据官方发布的技术细节，GLM-4.5V在41个公开视觉多模态榜单中登顶SOTA，源于其在架构、训练策略和技术创新上的深厚积累。

picture.image

核心架构：看得更清，适应性更强

GLM-4.5V的“身体”由视觉编码器、MLP适配器和语言解码器三部分构成。它的“眼睛”（视觉编码器）采用了强大的AIMv2-Huge，并引入了二维旋转位置编码（2D-ROPE）等机制，让它在面对各种高分辨率和极端宽高比的“奇葩”图片时，能看得更清晰、更准确。

比如我们给它一张商品优惠群的聊天记录长截图，它能从头到尾完整阅读，并准确总结出图片中的商品信息、价格和商品卖点。

picture.image

最强大脑：空间理解与深度思考

它的“大脑”（语言解码器）是基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air，沿用GLM-4.1V-Thinking的结构，训练出了更大更强的GLM-4.5V，并创造性地将位置编码扩展为3D形式（3D-ROPE）。这极大地提升了模型对多模态内容的空间理解能力，不仅知道图里有什么，更清楚地知道它们“在哪儿”。

比如我们上传一张交通事故现场的图片，让它分析事故原因。模型会分析图片中的元素，以此分析出核心碰撞点。基于这些判断，它能推理出几种符合逻辑的事故原因。

picture.image

三阶训练：从“学徒”到“宗师”的进化

模型采用了精心的三阶段进化式训练：

预训练（打基础）：博览群书，学习海量图文和视频内容。
监督微调SFT（学方法）：引入“思维链”（CoT）进行刻意练习，学会如何像人一样思考和推理。
强化学习RL（悟大道）：在覆盖多领域的“终极试炼场”中，通过奖励和反馈进行极限优化，最终“得道飞升”。

模型参数106B总参数，12B激活，规模不大不小，但实力很抗造，

空口无凭，是骡子是马，拉出来遛遛！

接下来，就是大家最喜欢的“talk is cheap,show me case”环节，我们直接上实测！

场景实测：是骡子是马，拉出来遛遛

场景一：前端复刻

之前我们测试过很多上传给AI一张图，然后做页面的case，

这次我们不再满足于让AI识别普通静态图片，而是要求它观看一段网页操作的录屏视频，然后直接生成能够复现该网页功能和交互的、可运行的前端代码。

比如， 我上传一段Linux DO论坛的实际操作录屏视频。要求根据给出的视频，帮我复刻视频中的UI界面，并生成html code。

可以看到，这项任务的难度是要比单张静态图难度递增的。

因为它要求模型具备：视频理解能力、UI元素识别能力、布局与逻辑推理能力，以及代码生成能力。

这本质上是在模拟一位前端工程师的完整工作流，是对模型综合能力的终极考验。

GLM-4.5V：

模型在短暂的“思考”后，直接输出了一整套完整的、可以直接在浏览器中运行的HTML文件。当我打开这个网站时，页面的整体布局、色彩搭配、字体样式，几乎与原视频中的网页一模一样。

picture.image

复刻网站首页

最关键的是，视频中的交互效果也被“复刻”了。

当然，图片右上角的裂图因为没有我的头像资源所以引用不了。

picture.image

复刻网站消息页

我查看了生成的源代码，其结构清晰，使用了合理的标签和CSS类名，可读性非常高。

picture.image

GLM-4.5V在这里展现出的，是一种**“跨模态涌现能力”** 。

它并未经过专门的“看视频写代码”训练，但通过将其强大的视觉理解、逻辑推理和代码生成能力结合，泛化完成了这项极其复杂的任务。

这就意味着之后我们想要Copy，哦不，参考一个网站，就能直接录个网站视频丢给4.5V然后慢慢跑出来结果了..

场景二：视频理解 —— 不止于看，更在于“看懂”

为了进一步测试其视频处理能力，我选择了一个生活化场景。

给模型一段时长2分钟的家常菜“番茄炒蛋”的制作视频，要求它输出一份图文并茂的详细菜谱。

这个任务旨在考察模型对动态、时序信息的处理能力。它需要从连续的画面中识别出关键动作（切菜、打蛋、翻炒）、物体状态变化（生到熟）和隐含信息（大致的火候和时间），并将其结构化输出。

我直接 上传一段2分钟的“番茄炒蛋”制作视频，让模型输出一份详细地菜谱。

picture.image

找了一段炒菜视频

GLM-4.5V：

模型输出的菜谱质量不错，完全按照视频的过程来展示的。

它准确识别出视频中出现的所有食材，同时将视频流程拆解为多个逻辑步骤，并配以关键动作描述。

甚至还捕捉到了一些视频中的细节，比如提示“蛋液膨胀定型后，先不翻炒，这样炒出来更蓬松”，细节满满。

picture.image

GLM-4.5V的视频理解能力已经超越了简单的动作识别，它能够理解动作的**“意图”和“上下文”** ，并将其转化为对人类有实际指导意义的知识。

这个可以在很多场景有应用，比如教育场景下的辅导作业，工业生产中的质检，医疗场景下的应用等等。

场景三：地理定位

这是对模型真实世界知识和视觉推理能力的双重考验。

我们使用类似“图寻（GeoGuessr）”游戏的模式，给模型一张随机的、没有任何地理标识的街景图片，让它判断拍摄地点。

这个游戏非常有趣，之前@一泽也横向测评过很多类似的场景case，这项任务的魅力在于它的不确定性。

模型必须像一个真正的侦探，从图片中的植被、建筑风格、路牌文字（如果有）、车辆行驶方向、甚至是光照角度等一切蛛丝马迹中，进行推理和知识匹配，最终锁定一个具体的地理坐标。

比如 我拿之前去三亚蜈支洲岛和巴厘蓝梦岛的旅拍照直接发给它，关闭联网功能，直接让它识别地方。

picture.image

GLM-4.5V：

模型通过一系列的思考，结合图片中微小的细节，包括中式亭子、沙滩质量、海水颜色、植被特征、甚至停泊船只上人眼看不清的文字，都一一被模型捕捉到。

picture.image

可以看到最终的结论是完全正确的。

这不比人细节多了...以后做个朋友圈照片提取，然后接入GLM-4.5V直接实时分析位置...

GLM-4.5V的地理定位能力，是其庞大世界知识库和强大视觉推理能力完美结合的体现。

它证明了模型不只是在“识别”像素，更是在“阅读”和“理解”我们所生活的这个物理世界。

场景四：视觉定位（Grounding）

Grounding能力，通俗讲，就是“指哪打哪”。我们用自然语言描述一个物体，模型需要在复杂的图像中精准地找到它，并用边界框（Bounding Box）标出。

这是VLM从“感知”走向“交互”的关键一步，是所有需要与现实世界进行物理交互的应用（如机器人、自动驾驶、AR）的基石。它要求模型对语言和视觉两个模态有极高的对齐精度。

比如，我让它给我找个人，

picture.image

上传一张照片，直接输入我的诉求

GLM-4.5V：

面对一张人头攒动、背景复杂的图片，模型精准地理解了这段包含多个颜色、衣着、发型和人物关系的复杂描述。

picture.image

它在图片右侧找到了完全符合描述的目标人物，并用一个红色的边界框将这个女性完美地框选了出来，同时输出了精确的坐标 [885,592,999,925]。

再比如，一个骚操作，我们都知道现在有些网站的验证码，变得很。。

picture.image

太他么抽象了...

我有时候真的人工，，操作半天才能选对。有的摆弄方向的更是扯淡。。

所以我直接用GLM-4.5V帮我操作下，

picture.image

完成验证任务

美滋滋，精准定位

picture.image

考眼力游戏

GLM-4.5V展现了顶级的Grounding能力，

不仅能处理简单的物体描述（如“红色的球”），更能理解包含复杂属性和相互关系的自然语言指令。

使得AI真正具备了成为我们“眼睛”和“手指”的潜力。

场景五：GUI Agent能力

还记得之前我写的智谱AutoGLM发布的时候，张总用它发红包的场景么，

现在GLM-4.5V也能够识别和处理电子屏幕画面，完成复杂的GUI Agent任务，

传入一张陈列了数十个商品的电商页面，让它识别商品图中的折扣价格与标题中的原价，并且计算出折扣比例。

以后双十一，618的时候就可以这么来玩了。。

开源，开源，开源！

智谱的一贯作风，共建开源生态，之前就推出GLM-4.1V-9B-Thinking小模型，我还用它分析了一下MSI的比赛...之后又把能力极强的GLM-4.5开源，太卷了..

现在，这次同样推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V，并同步在魔搭社区与 Hugging Face 开源。

picture.image

GitHub ：https://github.com/zai-org/GLM-V

Hugging Face ：https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

魔搭社区 ：https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

开源之后，很多中小企业都可以进行本地部署，同参数规模，速度极快！

当然，在线体验直接 z.ai ，选择 GLM-4.5V 模型，上传图片或视频，或者在智谱清言 APP/网页版，都可以即刻体验~

结语

从GLM-4.5到GLM-4.5V，

连续两个优秀的模型都直接开源，

国产之光「智谱」展现了魄力和技术积累，

就这格局，OpenAI来了不得点个赞？

而且GLM-4.5系列在同领域实测下来真的是当前业界顶尖（SOTA）的水平。

这种**“不止于看，更在于懂”** 的深度视觉理解能力，

真正的能够从一个有趣的“玩具”，蜕变为一个可以赋能百业的强大“工具”。

对于我们每个人，它意味着之后我们迎接更自然、更直观的全新数字交互时代的到来。

现在，GLM-4.5V已在🔗z.ai & 智谱清言 APP/网页版 正式上线，大家都可以去亲手体验一下。

去试试让它帮你P图、帮你找不同、甚至帮你分析一下猫主子的表情到底是什么意思，

我相信，你也会和我一样，被它的能力所震撼。

祝福，智谱。

你认为GLM-4.5V最让你惊艳的能力是哪个？

你最想用它来解决生活或工作中的什么问题？

欢迎在评论区留言，和甲木一起开脑洞！

我是甲木，热衷于分享一些AI干货内容，我们下期再见👋🏻

觉得今天的内容对你有“一点点”启发吗？

老规矩，【点赞👍】+【在看👀】+【转发↗️】走一波！

你的每一个支持，都是甲木持续探索AI硬核应用的核动力！

picture.image

与我联系

欢迎在评论区留言，和甲木一起开脑洞！