大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
今天要聊的是智谱AI刚发布的GLM-4.5,一个号称要统一推理、编程和智能体能力的全能型
大模型。
官方数据很亮眼,在多个基准测试中都能与GPT-4、Claude-4等顶级模型掰手腕。但作为一个眼见为实
的老程序员,我决定亲自上手测试,看看这个模型到底有几分真材实料。
先说结论 :
- 网页版全栈开发 :表现出色,一次性完成项目
- API集成体验 :与Claude Code配合时问题频出,效果大打折扣
- 技术架构有亮点 :MoE设计和训练方法值得关注
- 定位尴尬 :想做全能选手,但在专业场景下还有明显短板
接下来我会详细拆解测试过程,告诉你这个模型的真实水平到底如何。
GLM-4.5:智谱AI的技术野心
技术规格与架构设计
GLM-4.5系列包含两个版本:
- GLM-4.5 :3550亿总参数,320亿激活参数
- GLM-4.5-Air :1060亿总参数,120亿激活参数
两个模型都采用了混合专家(MoE)架构 ,这是当前大模型的主流选择。
但智谱的做法有个有趣的差异化:他们选择了窄而深
的设计思路,减少了隐藏维度和路由专家数量,但增加了层数。官方解释是更深的模型在推理能力上表现更好
。
双模式设计:thinking vs non-thinking
GLM-4.5支持两种工作模式:
- Thinking模式 :用于复杂推理和工具调用,类似OpenAI的o1
- Non-thinking模式 :快速响应,适合日常对话
这种设计理念不错,但实际效果如何,还得看实战表现。
基准测试数据分析
官方公布的对比数据确实让人眼前一亮。在12个基准测试中,GLM-4.5排名第3,GLM-4.5-Air排名第6。
特别是在智能体任务上,TAU-bench达到70.1分,BFCL v3达到77.8分,都接近Claude-4-Sonnet的水平。
但是,基准测试和实际应用场景往往存在差距。作为一个实战派,我更相信自己的测试结果。
实战测试:网页版的惊喜与API的失望
我分别用GLM-4.5的网页版全栈开发功能和Claude Code API集成两种方式进行了测试,结果差异巨大。
网页版测试:个人财务管理系统(成功案例)
我先让GLM-4.5开发一个个人财务管理系统:
我想做一个个人财务管理系统。功能要求:
1. 能添加收入和支出记录,包含金额、类别、日期、备注
2. 能按月份和类别统计,用图表展示
3. 能设置预算目标,显示剩余额度
4. 数据要持久化存储,刷新页面数据不丢失
5. 界面要现代化,支持手机端访问
请生成完整的前后端代码,包含数据库设计
结果令人惊喜 。GLM-4.5基本一次性完成了所有核心功能:
财务管理首页
统计图表
- 数据结构设计合理 :自动创建了合适的数据库表结构
- 功能逻辑完整 :分类验证、数据筛选、编辑删除都正常工作
- 界面设计现代 :虽然不算惊艳,但足够实用
- 部署顺利 :一键部署到了z.ai平台
你可以访问这个财务管理系统体验一下:
中间虽然也出现了一些小bug,但经过几轮调试都成功修复了。
这个案例展现了GLM-4.5网页版在全栈开发方面的真实实力。
Claude Code API测试:配置与环境搭建
接下来我测试GLM-4.5与Claude Code的API集成效果。
配置过程如下:
第一步是安装Claude Code,安装过程不再赘述,去看我之前的文章。
第二步是从智谱 https://bigmodel.cn/usercenter/proj-mgmt/apikeys 获取API Key:
命令行进入到你项目的目录下,然后配置环境变量:
# 设置智谱的API代理地址
export ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"
# 设置GLM API Key
export ANTHROPIC\_AUTH\_TOKEN="你的API Key"
Windows:
$env:ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"
$env:ANTHROPIC\_AUTH\_TOKEN="上面生成的API Key"
第三步,启动Claude Code
# 后面的参数可以在跑任务的时候畅通无阻,无需人工确认操作
claude --dangerously-skip-permissions
下面这里选择Yes即可:
启动成功后可以看到已经切换到GLM的地址:
后续就会自动使用GLM-4.5模型,智谱给你适配了,不用你设置模型。
配置本身没什么问题,智谱在API兼容性上做得还算不错。
Claude Code API测试:个人生活数据分析系统(失败案例)
接下来我提出了一个更复杂的需求:
创建一个个人生活数据分析系统:
1. 用Docker部署InfluxDB时序数据库
2. 写脚本监控我的:
- 电脑使用时间和应用分布
- 网络流量消耗情况
- GitHub提交记录
3. 制作实时仪表板,用图表展示我的数字生活轨迹
4. 每周生成个人数据报告
5. 界面参考Grafana风格,但更个性化
这次的体验就是灾难级的 。
先看下GLM-4.5生成的执行规划:
执行完毕后的状态:
问题一:需求理解偏差
我只是说界面风格参考Grafana,结果GLM-4.5直接给我启动了一个Grafana容器,但实际上根本用不到:
这说明它在需求理解上还是有问题的。
问题二:架构设计混乱
最开始生成的是静态HTML页面,根本无法展示动态数据:
问题三,代码冗余
当我指出一些问题后,它开始不断地新建各种测试脚本、修复脚本,结果一个简单的项目最后竟然达到了840M的大小 !
要知道,我们公司运行了好几年的项目都没这么大。
问题四:数据监控不准确
启动数据收集脚本:
但是页面根本没有调用后端API查询数据。
经过好几个小时的调试,差不多完成了80%的功能。但是有些数据收集怎么都不正确,我最终放弃了这个项目。
Claude Code API测试:程序员日常工作助手(差强人意)
不甘心的我又尝试了第三个项目:
创建一个程序员的日常工作助手:
1. 用Docker启动MySQL数据库
2. 后端功能:
- 每日工作日志记录
- 代码片段收藏夹
- 技术学习进度跟踪
- 简单的番茄钟计时器
3. 前端:简洁的仪表板界面
4. 数据导出功能:生成周报、月报
技术栈:Node.js + Express + MySQL + Vue.js
这次的结果只能说是无法忍受!
- 登录页面设计简直没眼看:
- 接口调试有问题 :登录接口经常返回401错误
- 前端布局混乱 :即使让它优化,效果依然不理想
登录成功后的页面效果:
实在太丑,又让它优化前端页面,调整后的效果:
网页版重新测试
不甘心的我,用GLM-4.5的网页版“全栈开发功能”重新实现了同样的程序员工作助手项目,结果让人刮目相看。
先看下网页版生成的效果:
生成的首页效果:
添加工作日志功能:
保存成功后的效果:
添加代码片段功能:
添加成功后的展示:
添加学习进度功能:
学习进度添加成功:
番茄钟功能:
- 界面设计更简洁舒服
- 功能逻辑更完整
- 一次性基本完成所有需求
你可以访问这个程序员工作助手系统体验一下:
测试结论:两个极端的表现
通过这三个项目的测试,我发现了GLM-4.5一个令人困惑的现象:
网页版全栈开发 :
- 个人财务管理系统:功能完整,界面现代,一次性成功
- 程序员工作助手:设计还不错,逻辑清晰,用户体验良好
Claude Code API集成 :
- 个人生活数据分析系统:需求理解偏差,架构混乱,最终放弃
- 程序员工作助手:界面简陋,功能缺陷,体验糟糕
同一个模型,不同的调用方式,效果竟然天差地别!
技术深度分析:问题出在哪里?
架构优势被实际问题掩盖
从技术角度看,GLM-4.5的架构设计有不少亮点:
- MoE架构优化 :采用loss-free balance routing和sigmoid gates
- 注意力机制改进 :使用了2.5倍的注意力头数量(96个头)
- 训练策略先进 :使用Muon优化器,支持更大batch size
但这些技术优势在实际使用中并没有完全体现出来。
问题根源分析
1. 上下文理解能力不稳定
在复杂项目中,GLM-4.5经常出现需求理解偏差,这可能与其训练数据的质量和多样性有关。
2. 代码生成的一致性问题
相同的需求,在网页版和API调用时生成的代码质量差异明显,说明模型的一致性还有待提升。
3. 错误修复能力有限
遇到复杂bug时,模型往往采用堆文件
的方式解决问题,而不是从根本上分析和修复。
与Claude-4的差距
在我之前的Claude-4测试中,虽然也会遇到问题,但Claude在以下方面明显更强:
- 需求理解更准确
- 代码结构更清晰
- 错误修复更有针对性
- 与开发工具的集成更稳定
综合评价:定位尴尬的“全能选手”
适用场景
GLM-4.5网页版全栈开发适合的场景 :
- 相对简单到中等复杂度的全栈项目开发
- 功能需求明确的小型应用
- 快速原型验证和演示
- 个人项目和学习练习
GLM-4.5 Claude Code API集成适合的场景 :
- 简单的代码片段生成(谨慎使用)
- 基本的逻辑处理(需要大量调试)
不建议使用GLM-4.5的场景 :
- 复杂的系统架构设计(特别是API方式)
- 需要精确数据监控的应用
- 高质量代码要求的生产环境
- 与第三方开发工具的深度集成(API方式存在严重问题)
结语:分裂的GLM-4.5
GLM-4.5给我最大的感受就是分裂
——网页版的出色表现和API集成的糟糕体验形成了鲜明对比。
网页版GLM-4.5 展现了智谱AI在全栈开发方面的真实实力,界面设计现代、功能逻辑完整、开发效率很高。如果你主要用于快速原型开发和中小型项目,网页版绝对值得一试。
API集成的GLM-4.5 则暴露了诸多问题:需求理解偏差、架构设计混乱、错误处理机制简单粗暴。这与其网页版的优秀表现形成了巨大反差。
你们觉得怎么样?有没有用过GLM-4.5网页版或者API的朋友,欢迎在评论区分享你们的体验。
最后,我建了一个AI编程交流群,如果感兴趣,可以后台加我微信进群。
点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~
「点赞、转发、在看」
和大家一起看