小伙伴们大家好呀,我是甲木。
真的是AI一天,人间一年,AI圈真的是卷麻了,
上周全世界的目光都聚焦在OpenAI发布的GPT-5上,大家讨论得热火朝天,我也发了一篇文字内容唠了唠,本来以为接下来几天没啥动静了,
没想到昨晚智谱开了一个发布会,时间很短,十分钟结束。
10分钟的发布会,速战速决。。
但是内容可一点都不普通,直接扔出了一颗重磅炸弹:GLM-4.5V ,一个视觉能力强到离谱的多模态推理大模型,而且直接开源!
z.ai的首页,可以直接选择4.5V体验
其实在正式发布前,前段时间的GLM-4.5就已经在AI爱好者圈子中掀起了不小的波澜,当时很多小伙伴测了各类场景,能力强的一批。
来自Sam的点赞
那么,现在,当一个AI的‘眼睛’不仅能看,还能深度思考,甚至能替你动手操作,这究竟是怎样一种体验?
🔗 使用方法:在 z.ai 上可以选择GLM-4.5V对话或者在 智谱清言APP/网页版,上传图片,开启“推理模式”。
今天,我们就来看看智谱GLM-4.5V的实力~
GLM-4.5V的底气在哪?
我们先来看看纸面实力和GLM-4.5V的“内功心法”。毕竟,知其然,更要知其所以然。
根据官方发布的技术细节,GLM-4.5V在41个公开视觉多模态榜单中登顶SOTA,源于其在架构、训练策略和技术创新上的深厚积累。
核心架构:看得更清,适应性更强
GLM-4.5V的“身体”由视觉编码器、MLP适配器和语言解码器三部分构成。它的“眼睛”(视觉编码器)采用了强大的AIMv2-Huge,并引入了二维旋转位置编码(2D-ROPE)等机制,让它在面对各种高分辨率和极端宽高比的“奇葩”图片时,能看得更清晰、更准确。
比如我们给它一张商品优惠群的聊天记录长截图,它能从头到尾完整阅读,并准确总结出图片中的商品信息、价格和商品卖点。
最强大脑:空间理解与深度思考
它的“大脑”(语言解码器)是基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的结构,训练出了更大更强的GLM-4.5V,并创造性地将位置编码扩展为3D形式(3D-ROPE)。这极大地提升了模型对多模态内容的空间理解能力,不仅知道图里有什么,更清楚地知道它们“在哪儿”。
比如我们上传一张交通事故现场的图片,让它分析事故原因。模型会分析图片中的元素,以此分析出核心碰撞点。基于这些判断,它能推理出几种符合逻辑的事故原因。
三阶训练:从“学徒”到“宗师”的进化
模型采用了精心的三阶段进化式训练:
- 预训练(打基础):博览群书,学习海量图文和视频内容。
- 监督微调SFT(学方法):引入“思维链”(CoT)进行刻意练习,学会如何像人一样思考和推理。
- 强化学习RL(悟大道):在覆盖多领域的“终极试炼场”中,通过奖励和反馈进行极限优化,最终“得道飞升”。
模型参数106B总参数,12B激活,规模不大不小,但实力很抗造,
空口无凭,是骡子是马,拉出来遛遛!
接下来,就是大家最喜欢的“talk is cheap,show me case”环节,我们直接上实测!
场景实测:是骡子是马,拉出来遛遛
场景一:前端复刻
之前我们测试过很多上传给AI一张图,然后做页面的case,
这次我们不再满足于让AI识别普通静态图片,而是要求它观看一段网页操作的录屏视频,然后直接生成能够复现该网页功能和交互的、可运行的前端代码。
比如, 我上传一段Linux DO论坛的实际操作录屏视频。要求根据给出的视频,帮我复刻视频中的UI界面,并生成html code。
可以看到,这项任务的难度是要比单张静态图难度递增的。
因为它要求模型具备:视频理解能力、UI元素识别能力、布局与逻辑推理能力,以及代码生成能力。
这本质上是在模拟一位前端工程师的完整工作流,是对模型综合能力的终极考验。
GLM-4.5V:
模型在短暂的“思考”后,直接输出了一整套完整的、可以直接在浏览器中运行的HTML文件。当我打开这个网站时,页面的整体布局、色彩搭配、字体样式,几乎与原视频中的网页一模一样。
复刻网站首页
最关键的是,视频中的交互效果也被“复刻”了。
当然,图片右上角的裂图因为没有我的头像资源所以引用不了。
复刻网站消息页
我查看了生成的源代码,其结构清晰,使用了合理的标签和CSS类名,可读性非常高。
GLM-4.5V在这里展现出的,是一种**“跨模态涌现能力”** 。
它并未经过专门的“看视频写代码”训练,但通过将其强大的视觉理解、逻辑推理和代码生成能力结合,泛化完成了这项极其复杂的任务。
这就意味着之后我们想要Copy,哦不,参考一个网站,就能直接录个网站视频丢给4.5V然后慢慢跑出来结果了..
场景二:视频理解 —— 不止于看,更在于“看懂”
为了进一步测试其视频处理能力,我选择了一个生活化场景。
给模型一段时长2分钟的家常菜“番茄炒蛋”的制作视频,要求它输出一份图文并茂的详细菜谱。
这个任务旨在考察模型对动态、时序信息的处理能力。它需要从连续的画面中识别出关键动作(切菜、打蛋、翻炒)、物体状态变化(生到熟)和隐含信息(大致的火候和时间),并将其结构化输出。
我直接 上传一段2分钟的“番茄炒蛋”制作视频,让模型输出一份详细地菜谱。
找了一段炒菜视频
GLM-4.5V:
模型输出的菜谱质量不错,完全按照视频的过程来展示的。
它准确识别出视频中出现的所有食材,同时将视频流程拆解为多个逻辑步骤,并配以关键动作描述。
甚至还捕捉到了一些视频中的细节,比如提示“蛋液膨胀定型后,先不翻炒,这样炒出来更蓬松”,细节满满。
GLM-4.5V的视频理解能力已经超越了简单的动作识别,它能够理解动作的**“意图”和“上下文”** ,并将其转化为对人类有实际指导意义的知识。
这个可以在很多场景有应用,比如教育场景下的辅导作业,工业生产中的质检,医疗场景下的应用等等。
场景三:地理定位
这是对模型真实世界知识和视觉推理能力的双重考验。
我们使用类似“图寻(GeoGuessr)”游戏的模式,给模型一张随机的、没有任何地理标识的街景图片,让它判断拍摄地点。
这个游戏非常有趣,之前@一泽 也横向测评过很多类似的场景case,这项任务的魅力在于它的不确定性。
模型必须像一个真正的侦探,从图片中的植被、建筑风格、路牌文字(如果有)、车辆行驶方向、甚至是光照角度等一切蛛丝马迹中,进行推理和知识匹配,最终锁定一个具体的地理坐标。
比如 我拿之前去三亚蜈支洲岛和巴厘蓝梦岛的旅拍照直接发给它,关闭联网功能,直接让它识别地方。
GLM-4.5V:
模型通过一系列的思考,结合图片中微小的细节,包括中式亭子、沙滩质量、海水颜色、植被特征、甚至停泊船只上人眼看不清的文字,都一一被模型捕捉到。
可以看到最终的结论是完全正确的。
这不比人细节多了...以后做个朋友圈照片提取,然后接入GLM-4.5V直接实时分析位置...
GLM-4.5V的地理定位能力,是其庞大世界知识库和强大视觉推理能力完美结合的体现。
它证明了模型不只是在“识别”像素,更是在“阅读”和“理解”我们所生活的这个物理世界。
场景四:视觉定位(Grounding)
Grounding能力,通俗讲,就是“指哪打哪”。我们用自然语言描述一个物体,模型需要在复杂的图像中精准地找到它,并用边界框(Bounding Box)标出。
这是VLM从“感知”走向“交互”的关键一步,是所有需要与现实世界进行物理交互的应用(如机器人、自动驾驶、AR)的基石。它要求模型对语言和视觉两个模态有极高的对齐精度。
比如,我让它给我找个人,
上传一张照片,直接输入我的诉求
GLM-4.5V:
面对一张人头攒动、背景复杂的图片,模型精准地理解了这段包含多个颜色、衣着、发型和人物关系的复杂描述。
它在图片右侧找到了完全符合描述的目标人物,并用一个红色的边界框将这个女性完美地框选了出来,同时输出了精确的坐标 [885,592,999,925]。
再比如,一个骚操作,我们都知道现在有些网站的验证码,变得很。。
太他么抽象了...
我有时候真的人工,,操作半天才能选对。有的摆弄方向的更是扯淡。。
所以我直接用GLM-4.5V帮我操作下,
完成验证任务
美滋滋,精准定位
考眼力游戏
GLM-4.5V展现了顶级的Grounding能力,
不仅能处理简单的物体描述(如“红色的球”),更能理解包含复杂属性和相互关系的自然语言指令。
使得AI真正具备了成为我们“眼睛”和“手指”的潜力。
场景五:GUI Agent能力
还记得之前我写的智谱AutoGLM发布的时候,张总用它发红包的场景么,
现在GLM-4.5V也能够识别和处理电子屏幕画面,完成复杂的GUI Agent任务,
传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。
以后双十一,618的时候就可以这么来玩了。。
开源,开源,开源!
智谱的一贯作风,共建开源生态,之前就推出GLM-4.1V-9B-Thinking小模型,我还用它分析了一下MSI的比赛...之后又把能力极强的GLM-4.5开源,太卷了..
现在,这次同样推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V,并同步在魔搭社区与 Hugging Face 开源。
GitHub :https://github.com/zai-org/GLM-V
Hugging Face :https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区 :https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
开源之后,很多中小企业都可以进行本地部署,同参数规模,速度极快!
当然,在线体验直接 z.ai ,选择 GLM-4.5V 模型,上传图片或视频,或者在 智谱清言 APP/网页版,都可以即刻体验~
结语
从GLM-4.5到GLM-4.5V,
连续两个优秀的模型都直接开源,
国产之光「智谱」展现了魄力和技术积累,
就这格局,OpenAI来了不得点个赞?
而且GLM-4.5系列在同领域实测下来真的是当前业界顶尖(SOTA)的水平。
这种**“不止于看,更在于懂”** 的深度视觉理解能力,
真正的能够从一个有趣的“玩具”,蜕变为一个可以赋能百业的强大“工具”。
对于我们每个人,它意味着之后我们迎接更自然、更直观的全新数字交互时代的到来。
现在,GLM-4.5V已在🔗z.ai & 智谱清言 APP/网页版 正式上线,大家都可以去亲手体验一下。
去试试让它帮你P图、帮你找不同、甚至帮你分析一下猫主子的表情到底是什么意思,
我相信,你也会和我一样,被它的能力所震撼。
祝福,智谱。
你认为GLM-4.5V最让你惊艳的能力是哪个?
你最想用它来解决生活或工作中的什么问题?
欢迎在评论区留言,和甲木一起开脑洞!
我是甲木,热衷于分享一些AI干货内容,我们下期再见👋🏻
觉得今天的内容对你有“一点点”启发吗?
老规矩,【点赞👍】+【在看👀】+【转发↗️】走一波!
你的每一个支持,都是甲木持续探索AI硬核应用的核动力!
与我联系
欢迎在评论区留言,和甲木一起开脑洞!