昨晚,智谱官宣新一代旗舰模型GLM-4.5
此模型在12 个评测基准考试中。综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一的成绩。而且,模型发布即开源。
我在官网(z.ai)内测体验了最新的模型,有点被惊到。
我不知道是不是我一直在忙于开发,不怎么在网页端使用,现在web端的模型能力已经应到到这个地步了吗??
照例我们先快速了解下本次模型发布的要点,然后看我的实测案例:
-
GLM-4.5 在推理、代码、智能体综合能力(平均分)达到开源模型 SOTA 水平;
-
GLM-4.5(355B)和 GLM-4.5-Air(106B)全面开源;
-
GLM-4.5 采用混合专家(MoE)架构,总参数量 355B、激活参数量 32B;
-
GLM-4.5 支持 thinking(推理增强)与 non-thinking(通用生成)两种工作模式,适配从对话生成到智能体任务的多类场景;
-
GLM-4.5 高速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens;生成速度高速版超过 100 tokens/秒。
-
GLM-4.5 API 已上线开放平台 BigModel.cn,可以一键兼容 Claude Code 框架。
-
非开发者用户可直接在 (chatglm.cn) 和 z.ai 免费体验满血版GLM-4.5
我非常乐衷于看到旗舰模型的发布,这通常代表着厂商在模型能力上取得了阶段性的突破和进展。因为关注的勤,看得多了,是骡子是马直接拉出来溜溜。
以下Case全部是我在官网进行的实测案例,现在模型已经发布,大家可以在官网尝试:
我打开网页映入眼帘有一个“全栈开发”选项,于是点进去,尝试了一个官方Case。
我原本以为这个Case只是让模型来根据故事做一个图文并茂的网页,但是结果出乎我的意料。
话先说前边:“全栈开发”是我最推荐大家去使用的功能。
因为我完全没有想到,他是真的直接完成并部署了一个前后端兼备可用的网站工具,现在你可以直接打开链接体验:https://e0faj672wcu0-deploy.space.z.ai
我们来看一下模型的部署过程,在任务提交,开始思考时。
我看到他开始列计划、然后开始一项一项的执行待办事项。我意识到这个模型似乎没有那么简单,于是开启了录屏。
这是他的执行过程,有没有觉得这个似曾相识?像是某个AI IDE的开发过程,但AI IDE通常是做了一大套的工程化,搭建出一个Agent来完成,让模型分步的思考、执行。
在他完成后,我发现测试生图会报错,于是我顺手告诉他“图片生成失败“,我让他修改后,他竟然直接出现了生图的功能。
这个时候我是很懵的,我还没有提供过任何生图接口和模型的API,他怎么就能实现生图功能了?
于是我在下方视频中在试图查看代码找到他添加的API key,还询问了他是接入的哪里的API,后续发现是预览图。。。
于是我把我bigModel平台的API key和开发文档的链接直接丢给了GLM-4.5,让他帮我加上,我要真实的创作。经过了他5分钟的努力,完成了整个功能的开发。
牛X的来了,我注意到右侧存储了我的创作历史,我很疑惑这怎么保存的,然而经过我的测试,发现这不是页面缓存而是真的存储在了数据库中。
然后在我分享出去给别人使用的时候,发现了更牛X的...
模型自己为网页添加了用户数据隔离功能,同一个用户只能看到自己的创作历史,不同用户看到的创作历史不同。
(录屏是手机微信打开,录像是电脑上的历史)
这是真的有点绝了...下边是完整的原始对话过程,可以点进链接查看:
https://chat.z.ai/s/5aab4b4c-0b8f-475f-8d3d-7af8578a8e77
真的很难以置信这是一个在官网使用GLM-4.5,直出的一个完整项目。这个功能非常适合有产品想法的人,快速开发出MVP版本来验证自己的想法,帮助你实现和完善自己的脑洞。
我写到一半,打开朋友圈已经看到有朋友做出了一个MVP验证工具。
然后我又尝试让GLM-4.5生成一个PPT,众所周知,各个博主都有一些祖传的测试案例。先上传统手艺:做一个介绍WayoAGI社区的PPT
使用网络检索工具充分搜索WaytoAGI社区的相关资料和介绍,做一个介绍WayoAGI社区的PPT
因为这个Case考验的是模型的检索、理解、规划、审美能力还有工具的能力,是一个综合、直观的结果呈现。
对话过程:https://chat.z.ai/s/451c8691-5f17-43ff-8771-803fa50cfcb6
PPT怎么风格是符合社区的彩虹风格,图片找的也是对的,更强的是,可以在页面中直接进行编辑。
看起来代码能力不错,那既然这样,就再上上强度。
我们前一阵子有做了一个用vibe coding开发的完整项目,整个项目功能很大,由于是通过很多轮开发出来的项目,再加上这个过程中有多次的报错、调试、打印日志、改逻辑排查问题等,所以就导致这个项目遗留了很多的无效代码,有很多的冗余逻辑。
我们甚至安排过专业的程序员开发来调整,开发看了直挠头互相串联的逻辑太多了,代码之间又比较跳跃,所以想排查问题也很难,根本无从下手。
那让GLM-4.5来试试,过程中发现官网还不支持html格式文件上传,于是把代码改为了txt后上传:
最终结果还是不错的。GLM-4.5通过追问,逐步了解项目逻辑以及代码外的交互关系细节。在保证项目能够正常运行的前提下,成功的把项目从3000行降到了1700行。
除了这些优化以外,它还告诉了我接下来的优化建议。
我还给GLM4.5来了一套高考试卷,看看它的逻辑推理能力。做的是2025年的全国卷(1)的数学题。
我本来想给他做一整套,但是因为大题有几道主观部分,不知道该怎么去评分,于是就给它做的选择和填空题。我直接就是一个大甩手,题目截图扔进去。
大家可以也可以去给他来一套试试看。我是一次性把所有题目都给它的,它第一次给到我的结果是,错了三个,但是因为它告诉我第四、五、十一题目的信息缺失。
所以我怀疑可能是在题目截图的时候哪里有疏漏,我就单独又给了它这几道题让它又单独做了一遍,全做对了。
所以最终的结果是,选择题只错了一道,错的还是第2题。
它错的这一道题还挺可惜的,后面比较难的大题都做对了,却倒在了简单的第二题,这就好像平日里兢兢业业什么都会学霸,却做错了一道非常简单的题。GLM4.5能把复杂的题全都做对,证明它的数学逻辑还是非常强的。
既然逻辑可以,那就来一次左右手互博,用GLM-4.5 vs 竞品模型来了一场五子棋对决:
我想下五子棋,生成棋盘
GLM-4.5先是用代码块给我生成了一个15*15的棋盘,然后询问我是否要写个可交互的前端网页来代替代码块的形式来下棋。
这种点击交互的下棋方式,在体验上确实要好于告诉模型下哪个点的形式,这里就显得GLM-4.5自主决策能力不错了。
因为大多数模型收到这个请求,会直接用markdown画一个令人无语的点阵图出来...
这里由于我担心它写完交互逻辑后,下棋的就是纯算法下棋而不再是GLM-4.5跟我下,我就跟他强调,要求它作为我的对手来与我下棋。另一个竞品模型的处理方式是用代码块点阵来处理的下棋。
最终我让两个ai下了几轮,结果如下:
我还让他做了一次经典的代码题,3D小球弹跳模拟。我所用的提示词如下:
编写一个 p5.js 脚本,模拟 100 个彩色小球在一个3D大球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹。大球体应缓慢旋转,并显示透明的轮廓线。请确保实现适当的碰撞检测,使小球保持在球体内部。
以下是GLM4.5、豆包、KIMI、deepseek(均在官网实测)的效果如下:
其他测试就不放了,GLM-4.5的模型能力已经有目共睹,在进行实测的时候发现,尽管 GLM-4.5 相比 Claude-4-Sonnet 仍有提升空间,但在大部分场景中可以实现平替的效果,特别在工具调用可靠性和任务完成度方面表现突出。
而且,而且,智谱还推出了“50块就能包月爽用GLM-4.5,调用量无上限”活动。
这简直比【疯狂星期四】还要疯狂,疯狂星期四还得每周V50,这个仅需每月V50元,就能畅快享用GLM-4.5,调用量无上限!
既能快,又能爽的事情不多,这次的GLM-4.5玩Claude Code算一个。
最后,我建议小伙伴们去z.ai的官网尝试一下,官网本身的工具支持让GLM-4.5的Agent能力发挥的很好,尤其是“全栈开发”能力和AI PPT,不仅强大,日常工作汇报也很好用。
以上,我是梦飞我们下次见~
既然看到这里了,如果你喜欢,请随手点个赞、在看、转发三连吧,感谢你的支持~
往期推荐