GLM-4.5实测:Claude Code集成惨败,网页版却意外惊艳

大模型向量数据库数据库

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

今天要聊的是智谱AI刚发布的GLM-4.5,一个号称要统一推理、编程和智能体能力的全能型大模型。

官方数据很亮眼,在多个基准测试中都能与GPT-4、Claude-4等顶级模型掰手腕。但作为一个眼见为实的老程序员,我决定亲自上手测试,看看这个模型到底有几分真材实料。

先说结论

  • 网页版全栈开发 :表现出色,一次性完成项目
  • API集成体验 :与Claude Code配合时问题频出,效果大打折扣
  • 技术架构有亮点 :MoE设计和训练方法值得关注
  • 定位尴尬 :想做全能选手,但在专业场景下还有明显短板

接下来我会详细拆解测试过程,告诉你这个模型的真实水平到底如何。

GLM-4.5:智谱AI的技术野心

技术规格与架构设计

GLM-4.5系列包含两个版本:

  • GLM-4.5 :3550亿总参数,320亿激活参数
  • GLM-4.5-Air :1060亿总参数,120亿激活参数

两个模型都采用了混合专家(MoE)架构 ,这是当前大模型的主流选择。

但智谱的做法有个有趣的差异化:他们选择了窄而深的设计思路,减少了隐藏维度和路由专家数量,但增加了层数。官方解释是更深的模型在推理能力上表现更好

双模式设计:thinking vs non-thinking

GLM-4.5支持两种工作模式:

  • Thinking模式 :用于复杂推理和工具调用,类似OpenAI的o1
  • Non-thinking模式 :快速响应,适合日常对话

这种设计理念不错,但实际效果如何,还得看实战表现。

基准测试数据分析

官方公布的对比数据确实让人眼前一亮。在12个基准测试中,GLM-4.5排名第3,GLM-4.5-Air排名第6。

picture.image

特别是在智能体任务上,TAU-bench达到70.1分,BFCL v3达到77.8分,都接近Claude-4-Sonnet的水平。

picture.image

但是,基准测试和实际应用场景往往存在差距。作为一个实战派,我更相信自己的测试结果。

实战测试:网页版的惊喜与API的失望

我分别用GLM-4.5的网页版全栈开发功能和Claude Code API集成两种方式进行了测试,结果差异巨大。

网页版测试:个人财务管理系统(成功案例)

我先让GLM-4.5开发一个个人财务管理系统:

  
我想做一个个人财务管理系统。功能要求:  
1. 能添加收入和支出记录,包含金额、类别、日期、备注  
2. 能按月份和类别统计,用图表展示  
3. 能设置预算目标,显示剩余额度  
4. 数据要持久化存储,刷新页面数据不丢失  
5. 界面要现代化,支持手机端访问  
请生成完整的前后端代码,包含数据库设计  

结果令人惊喜 。GLM-4.5基本一次性完成了所有核心功能:

picture.image

财务管理首页

picture.image

统计图表

  1. 数据结构设计合理 :自动创建了合适的数据库表结构
  2. 功能逻辑完整 :分类验证、数据筛选、编辑删除都正常工作
  3. 界面设计现代 :虽然不算惊艳,但足够实用
  4. 部署顺利 :一键部署到了z.ai平台

你可以访问这个财务管理系统体验一下:

https://b09db6wvtz20-deploy.space.z.ai

中间虽然也出现了一些小bug,但经过几轮调试都成功修复了。

这个案例展现了GLM-4.5网页版在全栈开发方面的真实实力。

Claude Code API测试:配置与环境搭建

接下来我测试GLM-4.5与Claude Code的API集成效果。

配置过程如下:

第一步是安装Claude Code,安装过程不再赘述,去看我之前的文章。

Claude Code真香,没钱慎用!

第二步是从智谱 https://bigmodel.cn/usercenter/proj-mgmt/apikeys 获取API Key:

picture.image

命令行进入到你项目的目录下,然后配置环境变量:

  
# 设置智谱的API代理地址  
export ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"  
# 设置GLM API Key  
export ANTHROPIC\_AUTH\_TOKEN="你的API Key"  

Windows:

  
$env:ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"  
$env:ANTHROPIC\_AUTH\_TOKEN="上面生成的API Key"  

第三步,启动Claude Code

  
# 后面的参数可以在跑任务的时候畅通无阻,无需人工确认操作  
claude --dangerously-skip-permissions  

下面这里选择Yes即可:

picture.image

启动成功后可以看到已经切换到GLM的地址:

picture.image

后续就会自动使用GLM-4.5模型,智谱给你适配了,不用你设置模型。

配置本身没什么问题,智谱在API兼容性上做得还算不错。

Claude Code API测试:个人生活数据分析系统(失败案例)

接下来我提出了一个更复杂的需求:

  
创建一个个人生活数据分析系统:  
1. 用Docker部署InfluxDB时序数据库  
2. 写脚本监控我的:  
   - 电脑使用时间和应用分布  
   - 网络流量消耗情况    
   - GitHub提交记录  
3. 制作实时仪表板,用图表展示我的数字生活轨迹  
4. 每周生成个人数据报告  
5. 界面参考Grafana风格,但更个性化  

这次的体验就是灾难级的

先看下GLM-4.5生成的执行规划:

picture.image

执行完毕后的状态:

picture.image

问题一:需求理解偏差

我只是说界面风格参考Grafana,结果GLM-4.5直接给我启动了一个Grafana容器,但实际上根本用不到:

picture.image

这说明它在需求理解上还是有问题的。

问题二:架构设计混乱

最开始生成的是静态HTML页面,根本无法展示动态数据:

picture.image

问题三,代码冗余

当我指出一些问题后,它开始不断地新建各种测试脚本、修复脚本,结果一个简单的项目最后竟然达到了840M的大小

picture.image

要知道,我们公司运行了好几年的项目都没这么大。

问题四:数据监控不准确

启动数据收集脚本:

picture.image

但是页面根本没有调用后端API查询数据。

经过好几个小时的调试,差不多完成了80%的功能。但是有些数据收集怎么都不正确,我最终放弃了这个项目。

Claude Code API测试:程序员日常工作助手(差强人意)

不甘心的我又尝试了第三个项目:

  
创建一个程序员的日常工作助手:  
1. 用Docker启动MySQL数据库  
2. 后端功能:  
   - 每日工作日志记录  
   - 代码片段收藏夹  
   - 技术学习进度跟踪  
   - 简单的番茄钟计时器  
3. 前端:简洁的仪表板界面  
4. 数据导出功能:生成周报、月报  
技术栈:Node.js + Express + MySQL + Vue.js  

这次的结果只能说是无法忍受!

  1. 登录页面设计简直没眼看:

picture.image

  1. 接口调试有问题 :登录接口经常返回401错误

picture.image

  1. 前端布局混乱 :即使让它优化,效果依然不理想

登录成功后的页面效果:

picture.image

实在太丑,又让它优化前端页面,调整后的效果:

picture.image

网页版重新测试

不甘心的我,用GLM-4.5的网页版“全栈开发功能”重新实现了同样的程序员工作助手项目,结果让人刮目相看。

先看下网页版生成的效果:

picture.image

生成的首页效果:

picture.image

添加工作日志功能:

picture.image

保存成功后的效果:

picture.image

添加代码片段功能:

picture.image

添加成功后的展示:

picture.image

添加学习进度功能:

picture.image

学习进度添加成功:

picture.image

番茄钟功能:

picture.image

  • 界面设计更简洁舒服
  • 功能逻辑更完整
  • 一次性基本完成所有需求

你可以访问这个程序员工作助手系统体验一下:

https://b09db6wvtz20-deploy.space.z.ai

测试结论:两个极端的表现

通过这三个项目的测试,我发现了GLM-4.5一个令人困惑的现象:

网页版全栈开发

  • 个人财务管理系统:功能完整,界面现代,一次性成功
  • 程序员工作助手:设计还不错,逻辑清晰,用户体验良好

Claude Code API集成

  • 个人生活数据分析系统:需求理解偏差,架构混乱,最终放弃
  • 程序员工作助手:界面简陋,功能缺陷,体验糟糕

同一个模型,不同的调用方式,效果竟然天差地别!

技术深度分析:问题出在哪里?

架构优势被实际问题掩盖

从技术角度看,GLM-4.5的架构设计有不少亮点:

  1. MoE架构优化 :采用loss-free balance routing和sigmoid gates
  2. 注意力机制改进 :使用了2.5倍的注意力头数量(96个头)
  3. 训练策略先进 :使用Muon优化器,支持更大batch size

但这些技术优势在实际使用中并没有完全体现出来。

问题根源分析

1. 上下文理解能力不稳定

在复杂项目中,GLM-4.5经常出现需求理解偏差,这可能与其训练数据的质量和多样性有关。

2. 代码生成的一致性问题

相同的需求,在网页版和API调用时生成的代码质量差异明显,说明模型的一致性还有待提升。

3. 错误修复能力有限

遇到复杂bug时,模型往往采用堆文件的方式解决问题,而不是从根本上分析和修复。

与Claude-4的差距

在我之前的Claude-4测试中,虽然也会遇到问题,但Claude在以下方面明显更强:

  1. 需求理解更准确
  2. 代码结构更清晰
  3. 错误修复更有针对性
  4. 与开发工具的集成更稳定

综合评价:定位尴尬的“全能选手”

适用场景

GLM-4.5网页版全栈开发适合的场景

  • 相对简单到中等复杂度的全栈项目开发
  • 功能需求明确的小型应用
  • 快速原型验证和演示
  • 个人项目和学习练习

GLM-4.5 Claude Code API集成适合的场景

  • 简单的代码片段生成(谨慎使用)
  • 基本的逻辑处理(需要大量调试)

不建议使用GLM-4.5的场景

  • 复杂的系统架构设计(特别是API方式)
  • 需要精确数据监控的应用
  • 高质量代码要求的生产环境
  • 与第三方开发工具的深度集成(API方式存在严重问题)

结语:分裂的GLM-4.5

GLM-4.5给我最大的感受就是分裂——网页版的出色表现和API集成的糟糕体验形成了鲜明对比。

网页版GLM-4.5 展现了智谱AI在全栈开发方面的真实实力,界面设计现代、功能逻辑完整、开发效率很高。如果你主要用于快速原型开发和中小型项目,网页版绝对值得一试。

API集成的GLM-4.5 则暴露了诸多问题:需求理解偏差、架构设计混乱、错误处理机制简单粗暴。这与其网页版的优秀表现形成了巨大反差。

你们觉得怎么样?有没有用过GLM-4.5网页版或者API的朋友,欢迎在评论区分享你们的体验。

最后,我建了一个AI编程交流群,如果感兴趣,可以后台加我微信进群。


点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~

「点赞、转发、在看」
和大家一起看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论