今天,我们正式上线并开源 GLM-4.6V 系列多模态大模型 ,包括:
-
GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版;
-
GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。
作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在 视觉理解精度上达到同参数规模 SOTA ,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型 ,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens,输出 3 元/百万 tokens。
同时,GLM-4.6V-Flash 免费供大家使用。
GLM-4.6V 即日起融入 GLM Coding Plan,针对用户 8 大类场景定向开发了专用 MCP 工具,模型可自主调用最匹配的接口。
原生多模态工具调用
传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。
GLM-4.6V 从设计之初就围绕「图像即参数,结果即上下文」,构建了原生多模态工具调用能力:
-
输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。
-
输出多模态 :对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。
模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。
典型应用场景
场景1:智能图文混排与内容创作
在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。
-
复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。
-
多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。
-
图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。
这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。
案例:仅输入主题,生成图文资讯
场景2:视觉驱动的识图购物与导购 Agent
在电商购物场景中,GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。
-
意图识别与任务规划:上传一张街拍图并发出「搜同款」等指令时,模型识别出购物意图,并自主规划调用 image_search 等相关工具;
-
异构数据清洗与对齐:在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上,模型自动完成信息清洗、字段归一化与结果对齐,过滤噪声和重复项;
-
多模态导购结果生成:最终生成一张标准化 Markdown 导购表格,包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明,以及可直接跳转的购买链接。
案例:搜同款、比价、生成导购清单
场景3:前端复刻与多轮视觉交互开发
我们重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力,帮助开发者缩短「设计稿到可运行页面」的链路:
-
像素级前端复刻:上传网页截图或设计稿后,模型可精准识别布局、组件与配色,生成高质量 HTML / CSS / JS 代码,实现接近像素级的页面还原。
-
视觉交互调试:支持基于截图的多轮视觉交互,可以在生成的网页截图上圈选区域并发出自然语言指令(如「把这个按钮向左移一点,颜色改成深蓝」),模型自动定位并修正对应代码片段。
通过 GLM Coding Plan 的视觉 MCP 协议,这一能力可以集成进现有 IDE、设计工具或内部工程平台,大幅提升前端迭代效率。
案例:前端复刻与多轮修改
场景4:长上下文的文档与视频理解
GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至 128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k 上下文约等于 150 页的复杂文档、200 页 PPT 或一小时视频,能够在单次推理中处理多个长文档或长视频。
在下列案例中,一次输入 4 家上市公司的财报,GLM-4.6V 可以跨文档统一抽取核心指标,并理解报表与图表中的隐性信号,自动汇总成一张对比分析表,在长窗口条件下依然保持关键信息不丢失。
案例:多文档对比阅读
上述能力同样适用于长视频内容的理解与定位:
在长视频理解场景下,GLM-4.6V 既能对整段内容进行全局梳理,又能结合时序线索做细粒度推理,精准定位关键时间点,例如自动完成一场足球比赛的进球事件与比分时间轴总结。
案例:球赛比分总结
同规模开源 SOTA
GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中,9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。
开源与部署
为了让更多开发者和研究者快速上手,我们同步开放了模型权重、推理代码与在线调用能力。
开源资源
我们在主流社区提供 GLM-4.6V 的模型权重、推理代码与示例工程,便于快速集成:
-
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
-
魔搭社区:https://modelscope.cn/collections/GLM-46V-37fabc27818446
已支持的推理框架包括 SGLang、vLLM、transformers、xLLM ,开发者可以在 GPU 与多种国产 NPU 环境下按需部署 GLM-4.6V 与 GLM-4.6V-Flash。
开放平台与在线调用
除了本地部署,我们也提供云端托管推理与 API,方便直接接入业务:
-
Coding Plan 视觉理解 MCP:https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
在线体验入口:
-
z.ai:选择 GLM-4.6V 模型,即刻体验多模态理解与工具调用能力;
-
智谱清言 APP / 网页版 :上传图片或视频,开启「推理模式」,体验多模态推理与长上下文能力。
技术 blog:z.ai/blog/glm-4.6v
智谱多模态开源周今日开启,我们将持续开源更多前沿模型。拥抱多模态交互新范式,从 GLM-4.6V 开始。
