GLM-4.6V开源:从看懂图片到自动完成任务

大模型AI开放平台图像处理

picture.image

今天,我们正式上线并开源 GLM-4.6V 系列多模态大模型 ,包括:

  • GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版;

  • GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。

作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在 视觉理解精度上达到同参数规模 SOTA ,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型 ,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。

在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens,输出 3 元/百万 tokens。

同时,GLM-4.6V-Flash 免费供大家使用。

GLM-4.6V 即日起融入 GLM Coding Plan,针对用户 8 大类场景定向开发了专用 MCP 工具,模型可自主调用最匹配的接口。

picture.image

原生多模态工具调用

传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。

GLM-4.6V 从设计之初就围绕「图像即参数,结果即上下文」,构建了原生多模态工具调用能力:

  • 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。

  • 输出多模态 :对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。

模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。

典型应用场景

场景1:智能图文混排与内容创作

在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。

  • 复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。

  • 多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。

  • 图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。

这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。

案例:仅输入主题,生成图文资讯

场景2:视觉驱动的识图购物与导购 Agent

在电商购物场景中,GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

  • 意图识别与任务规划:上传一张街拍图并发出「搜同款」等指令时,模型识别出购物意图,并自主规划调用 image_search 等相关工具;

  • 异构数据清洗与对齐:在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上,模型自动完成信息清洗、字段归一化与结果对齐,过滤噪声和重复项;

  • 多模态导购结果生成:最终生成一张标准化 Markdown 导购表格,包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明,以及可直接跳转的购买链接。

案例:搜同款、比价、生成导购清单

场景3:前端复刻与多轮视觉交互开发

我们重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力,帮助开发者缩短「设计稿到可运行页面」的链路:

  • 像素级前端复刻:上传网页截图或设计稿后,模型可精准识别布局、组件与配色,生成高质量 HTML / CSS / JS 代码,实现接近像素级的页面还原。

  • 视觉交互调试:支持基于截图的多轮视觉交互,可以在生成的网页截图上圈选区域并发出自然语言指令(如「把这个按钮向左移一点,颜色改成深蓝」),模型自动定位并修正对应代码片段。

通过 GLM Coding Plan 的视觉 MCP 协议,这一能力可以集成进现有 IDE、设计工具或内部工程平台,大幅提升前端迭代效率。

案例:前端复刻与多轮修改

场景4:长上下文的文档与视频理解

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至 128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k 上下文约等于 150 页的复杂文档、200 页 PPT 或一小时视频,能够在单次推理中处理多个长文档或长视频。

在下列案例中,一次输入 4 家上市公司的财报,GLM-4.6V 可以跨文档统一抽取核心指标,并理解报表与图表中的隐性信号,自动汇总成一张对比分析表,在长窗口条件下依然保持关键信息不丢失。

案例:多文档对比阅读

上述能力同样适用于长视频内容的理解与定位:

在长视频理解场景下,GLM-4.6V 既能对整段内容进行全局梳理,又能结合时序线索做细粒度推理,精准定位关键时间点,例如自动完成一场足球比赛的进球事件与比分时间轴总结。

案例:球赛比分总结

同规模开源 SOTA

GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中,9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。

picture.image

开源与部署

为了让更多开发者和研究者快速上手,我们同步开放了模型权重、推理代码与在线调用能力。

开源资源

我们在主流社区提供 GLM-4.6V 的模型权重、推理代码与示例工程,便于快速集成:

已支持的推理框架包括 SGLang、vLLM、transformers、xLLM ,开发者可以在 GPU 与多种国产 NPU 环境下按需部署 GLM-4.6V 与 GLM-4.6V-Flash。

开放平台与在线调用

除了本地部署,我们也提供云端托管推理与 API,方便直接接入业务:

在线体验入口:

  • z.ai:选择 GLM-4.6V 模型,即刻体验多模态理解与工具调用能力;

  • 智谱清言 APP / 网页版 :上传图片或视频,开启「推理模式」,体验多模态推理与长上下文能力。

技术 blog:z.ai/blog/glm-4.6v

智谱多模态开源周今日开启,我们将持续开源更多前沿模型。拥抱多模态交互新范式,从 GLM-4.6V 开始。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论