GLM4.5之后,智谱又开源GLM-4.5V,实测下来视觉推理能力贼强~

大模型向量数据库云通信

太卷了,智谱又又又开源 了~

  • 7月初开源GLM-4.1V-9B-Thinking,10B级别最好的VLM模型,登上了hugging face trending第一
  • 7月底又开源国产最强语言模型GLM-4.5,在包含推理、代码、智能体的综合能力达到开源 SOTA
  • 这次又整了个大活,开源 最强多模态推理模型GLM-4.5V

picture.image

  
GitHubhttps://github.com/zai-org/GLM-V  
Hugging Facehttps://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102  
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e  

GLM-4.5V是同级别开源SOTA视觉推理模型。在图像理解、视频理解、GUI、文档理解等多个多模态理解榜单上面取得了开源SOTA水平。

picture.image

GLM-4.5V尤其擅长:
🎬 前端复刻:擅长推理与代码,输入图片和视频即可复刻网页。
📑 复杂文档深度解读: 提炼核心、对比观点、理解图表信息。
📍 看图猜地点 / 地理定位: 综合建筑、地貌、植被等多线索精确推断。
📊 复杂图表 / 流程图: 解析逻辑结构、数据趋势、关键信息。
🤖 GUI Agent: 理解界面元素状态、操作意图,赋能自动化交互。

虽然模型开源了,但总参数有106B ,不少小伙伴应该部署不了,可以考虑用API,调用价格也很低,大概输入 2 元/M tokens,输出 6 元/M tokens。响应速度:达到 60-80 tokens/s

👉 访问体验地址:https://chat.z.ai/(左上角选择模型**GLM-4.5V** )

picture.image

熟悉我的小伙伴知道我平时会发一些论文解读,因此大家或多或少都有写论文、做科研的需求,那么,GLM-4.5V的能力,如何真正作用于你的科研实践呢?

接下来,我们就深入科研的全生命周期,对GLM-4.5V 进行实测,看它如何各展所长,解救 科研人!🔥


🧠 核心武器:直接上实战演示

不过,在正式评测之前,我决定直接给他上难度,大家平时看最新Paper不少是来源于arxiv.org,如果要从零做一个arxiv页面有多难?

对于GLM-4.5V,为了提升难度,特意录了一个视频作为输入(不是图片哦)

picture.image

同时把下面这个指令发给它:

  
帮我生成这个视频中所展示的html code 需要包含视频中的点击、跳转、交互等  

虽然GLM-4.5V没有训练过“看视频”前端网页复刻,但是通过强大的推理和代码能力,经过一番coding输出,很快就生成了一个能以假乱真的官网首页,硬实力!picture.image

阶段1:开题调研(原耗时3周→压缩至3小时)

痛点: 1篇文献读半天?全英文看不懂?
👉 启用能力 ▶ 长文克星

  • 甩给它: 1篇arxiv上最新的20多页的agentic论文:《GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models》
  • 自动提取 核心结论和主要贡献 ,快速掌握要点,省心又省时

picture.image

阶段2:精读标杆(原耗时2天→30分钟)

痛点: 论文的方法架构图太复杂,看了10遍没懂设计逻辑?

👉 启用能力 ▶ 视觉神探

  • 输入: 论文方法流程图picture.image
  • 神操作: 不仅能识别还能推理

picture.image

整体识别都是正确的,几大关键模块都进行了讲解和分析,但是他到底有没理解尼?然后,我提了一个问题,他真的开始进行分析和推理了:

picture.image

GLM-4.5V强大视觉推理能力不仅限于读懂论文里的方框箭头,更能将这种视觉推理能力 ,无缝迁移到解构现实图片中的地理密码上:

🏆GLM-4.5V参加了图寻游戏的全球积分赛,加入积分对战7天后,GLM-4.5V在本赛季全球排名第1,击败了99.99%的人类用户。

看到这个Top1的成绩,PaperAgent也忍不住进行了一手实测:
选了一张大家比较熟悉的CVPR 2025宣传图,为了防止模型通过CVPR进行关联推测,只截了CVPR几个字以下的图片给模型picture.image

GLM-4.5V指令:

  
这里是哪里?请在得出结论之后用json格式输出:大洲-国家-省份/州-市-地名-纬度-经度,键名为:'continent', 'country', 'state', 'city', 'place\_name', 'lat', 'lng'

从推理过程可以看出,GLM-4.5V不是“死记硬背”地点,而是基于掌握的知识(结合河流走向和城市结构 )来进行推理得出

picture.image

在人物推理能力效果如何尼,我丢给他一张Hinton大佬参加活动的照片以及诺奖照片(有Hinton名字),让他猜猜第一张中哪个是辛顿?picture.image

通过对比人物特征(如发型、着装等),他很果断的给出了正确答案,看来难不倒他。picture.image

于是,为了给他加加难度,联想到最近票房和口碑大火的《浪浪山小妖怪》,发了一张四个主角的图给他,判断哪个是师父、大师兄?picture.image

通过《西游记》->唐僧师徒-> 穿僧袍的绿色青蛙形象是唐僧->唐僧是师父,这条清晰的视觉推理链条,GLM-4.5V准确的给出了答案:戴红色莲花冠的绿色青蛙形象(唐僧)

picture.image

再发给他一张电影的场景,猜猜地点picture.image

通过建筑风格分析,他也给出了正确答案:这里可能是中国山西省忻州市五台县的佛光寺 picture.image

为什么连游戏虚拟人/物都难不倒它? 这正是GLM-4.5V强大之处的核心体现,一句话概括:它的 “视力” 和理解力,远超你想象!

阶段3:论文成稿(原崩溃3天→省心60%)

痛点2: 参考文献格式第12次修改?人都要暴躁了
👉 启用能力 ▶ 前端代码生成

GLM-4.5V精准狙击:根据指令自动编写前端代码,直接生成一个学术论文引用格式生成器应用,各种格式随意选,文献格式的烦恼无了~

picture.image


🚀 GLM-4.5V怎么练成的

picture.image

架构设计

  • 三部分组成 :由视觉编码器、MLP 适配器和语言解码器构成,支持 64K 多模态长上下文,可同时处理图像、视频和文本。
  • 视觉优化 :采用双三次插值机制,增强对高分辨率及极端宽高比图像的处理能力;引入三维旋转位置编码(3D-RoPE),强化对多模态信息的三维空间关系感知与推理能力。

训练策略

  • 预训练 :结合大规模图文交错多模态语料和长上下文内容,强化模型对复杂图文及视频的处理能力。
  • 监督微调(SFT) :引入显式“思维链”格式训练样本,增强模型的因果推理与多模态理解能力。
  • 强化学习(RL) :采用全领域多模态课程强化学习,通过构建多领域奖励系统,结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
基于火山引擎 EMR 构建企业级数据湖仓
火山引擎 EMR 是一款云原生开源大数据平台,提供主流的开源大数据引擎,加持了字节跳动内部的优化、海量数据处理的最佳实践。本次演讲将为大家介绍火山引擎 EMR 的架构及核心特性,如何基于开源架构构建企业级数据湖仓,同时向大家介绍火山 EMR 产品的未来规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论