GLM-4.6V开源：从看懂图片到自动完成任务 - 文章 - 开发者社区

picture.image

今天，我们正式上线并开源 GLM-4.6V 系列多模态大模型，包括：

GLM-4.6V（106B-A12B）：面向云端与高性能集群场景的基础版；
GLM-4.6V-Flash（9B）：面向本地部署与低延迟应用的轻量版。

作为 GLM 系列在多模态方向上的一次重要迭代，GLM-4.6V 将训练时上下文窗口提升到 128k tokens，在 视觉理解精度上达到同参数规模 SOTA ，并首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型 ，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

在性能优化之外，GLM-4.6V 系列相较于 GLM-4.5V 降价 50%，API 调用价格低至输入 1 元/百万 tokens，输出 3 元/百万 tokens。

同时，GLM-4.6V-Flash 免费供大家使用。

GLM-4.6V 即日起融入 GLM Coding Plan，针对用户 8 大类场景定向开发了专用 MCP 工具，模型可自主调用最匹配的接口。

picture.image

原生多模态工具调用

传统工具调用大多基于纯文本，在面对图像、视频、复杂文档等多模态内容时，需要多次中间转换，带来信息损失和工程复杂度。

GLM-4.6V 从设计之初就围绕「图像即参数，结果即上下文」，构建了原生多模态工具调用能力：

输入多模态：图像、截图、文档页面等可以直接作为工具参数，无需先转为文字描述再解析，减少链路损耗。
输出多模态：对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果，模型能够再次进行视觉理解，将其纳入后续推理链路。

模型原生支持基于视觉输入的工具调用，完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。

典型应用场景

场景1：智能图文混排与内容创作

在内容创作与知识分发场景中，GLM-4.6V 可以从多模态输入中，自动构建高质量图文输出：无论是直接输入图文混杂的论文、研报、PPT，还是只给出一个主题，模型都能生成结构清晰、图文并茂的社交媒体内容。

复杂图文理解：接收包含文本、图表、公式的文档，准确抽取结构化关键信息。
多模态工具调用：在生成内容过程中，自动调用检索/搜索类工具，为每一段落寻找候选图片，或从原文中截取关键配图。
图文混排输出与质量控制：对候选图片进行「视觉审核」，评估其与文字内容的相关性与质量，自动过滤无关或低质图片，输出可直接用于公众号、社交媒体或知识库的结构化图文结果。

这一流程中，多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。

案例：仅输入主题，生成图文资讯

场景2：视觉驱动的识图购物与导购 Agent

在电商购物场景中，GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

意图识别与任务规划：上传一张街拍图并发出「搜同款」等指令时，模型识别出购物意图，并自主规划调用 image_search 等相关工具；
异构数据清洗与对齐：在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上，模型自动完成信息清洗、字段归一化与结果对齐，过滤噪声和重复项；
多模态导购结果生成：最终生成一张标准化 Markdown 导购表格，包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明，以及可直接跳转的购买链接。

案例：搜同款、比价、生成导购清单

场景3：前端复刻与多轮视觉交互开发

我们重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力，帮助开发者缩短「设计稿到可运行页面」的链路：

像素级前端复刻：上传网页截图或设计稿后，模型可精准识别布局、组件与配色，生成高质量 HTML / CSS / JS 代码，实现接近像素级的页面还原。
视觉交互调试：支持基于截图的多轮视觉交互，可以在生成的网页截图上圈选区域并发出自然语言指令（如「把这个按钮向左移一点，颜色改成深蓝」），模型自动定位并修正对应代码片段。

通过 GLM Coding Plan 的视觉 MCP 协议，这一能力可以集成进现有 IDE、设计工具或内部工程平台，大幅提升前端迭代效率。

案例：前端复刻与多轮修改

场景4：长上下文的文档与视频理解

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至 128k，模型拥有了“过目不忘”的长记忆力。在实际应用中，128k 上下文约等于 150 页的复杂文档、200 页 PPT 或一小时视频，能够在单次推理中处理多个长文档或长视频。

在下列案例中，一次输入 4 家上市公司的财报，GLM-4.6V 可以跨文档统一抽取核心指标，并理解报表与图表中的隐性信号，自动汇总成一张对比分析表，在长窗口条件下依然保持关键信息不丢失。

案例：多文档对比阅读

上述能力同样适用于长视频内容的理解与定位：

在长视频理解场景下，GLM-4.6V 既能对整段内容进行全局梳理，又能结合时序线索做细粒度推理，精准定位关键时间点，例如自动完成一场足球比赛的进球事件与比分时间轴总结。

案例：球赛比分总结

同规模开源 SOTA

GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证，较上一代模型取得显著提升。在同等参数规模下，模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中，9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B，106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。

picture.image

开源与部署

为了让更多开发者和研究者快速上手，我们同步开放了模型权重、推理代码与在线调用能力。

开源资源

我们在主流社区提供 GLM-4.6V 的模型权重、推理代码与示例工程，便于快速集成：

GitHub：https://github.com/zai-org/GLM-V
Hugging Face：https://huggingface.co/collections/zai-org/glm-46v
魔搭社区：https://modelscope.cn/collections/GLM-46V-37fabc27818446

已支持的推理框架包括 SGLang、vLLM、transformers、xLLM ，开发者可以在 GPU 与多种国产 NPU 环境下按需部署 GLM-4.6V 与 GLM-4.6V-Flash。

开放平台与在线调用

除了本地部署，我们也提供云端托管推理与 API，方便直接接入业务：

开放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.6v
Coding Plan 视觉理解 MCP：https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

在线体验入口：

z.ai：选择 GLM-4.6V 模型，即刻体验多模态理解与工具调用能力；
智谱清言 APP / 网页版：上传图片或视频，开启「推理模式」，体验多模态推理与长上下文能力。

技术 blog：z.ai/blog/glm-4.6v

智谱多模态开源周今日开启，我们将持续开源更多前沿模型。拥抱多模态交互新范式，从 GLM-4.6V 开始。