GLM-4.5实测：Claude Code集成惨败，网页版却意外惊艳 - 文章 - 开发者社区

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

今天要聊的是智谱AI刚发布的GLM-4.5，一个号称要统一推理、编程和智能体能力的全能型大模型。

官方数据很亮眼，在多个基准测试中都能与GPT-4、Claude-4等顶级模型掰手腕。但作为一个眼见为实的老程序员，我决定亲自上手测试，看看这个模型到底有几分真材实料。

先说结论 ：

网页版全栈开发 ：表现出色，一次性完成项目
API集成体验 ：与Claude Code配合时问题频出，效果大打折扣
技术架构有亮点 ：MoE设计和训练方法值得关注
定位尴尬 ：想做全能选手，但在专业场景下还有明显短板

接下来我会详细拆解测试过程，告诉你这个模型的真实水平到底如何。

GLM-4.5：智谱AI的技术野心

技术规格与架构设计

GLM-4.5系列包含两个版本：

GLM-4.5 ：3550亿总参数，320亿激活参数
GLM-4.5-Air ：1060亿总参数，120亿激活参数

两个模型都采用了混合专家(MoE)架构 ，这是当前大模型的主流选择。

但智谱的做法有个有趣的差异化：他们选择了窄而深的设计思路，减少了隐藏维度和路由专家数量，但增加了层数。官方解释是更深的模型在推理能力上表现更好。

双模式设计：thinking vs non-thinking

GLM-4.5支持两种工作模式：

Thinking模式 ：用于复杂推理和工具调用，类似OpenAI的o1
Non-thinking模式 ：快速响应，适合日常对话

这种设计理念不错，但实际效果如何，还得看实战表现。

基准测试数据分析

官方公布的对比数据确实让人眼前一亮。在12个基准测试中，GLM-4.5排名第3，GLM-4.5-Air排名第6。

picture.image

特别是在智能体任务上，TAU-bench达到70.1分，BFCL v3达到77.8分，都接近Claude-4-Sonnet的水平。

picture.image

但是，基准测试和实际应用场景往往存在差距。作为一个实战派，我更相信自己的测试结果。

实战测试：网页版的惊喜与API的失望

我分别用GLM-4.5的网页版全栈开发功能和Claude Code API集成两种方式进行了测试，结果差异巨大。

网页版测试：个人财务管理系统（成功案例）

我先让GLM-4.5开发一个个人财务管理系统：

  
我想做一个个人财务管理系统。功能要求：  
1. 能添加收入和支出记录，包含金额、类别、日期、备注  
2. 能按月份和类别统计，用图表展示  
3. 能设置预算目标，显示剩余额度  
4. 数据要持久化存储，刷新页面数据不丢失  
5. 界面要现代化，支持手机端访问  
请生成完整的前后端代码，包含数据库设计

结果令人惊喜 。GLM-4.5基本一次性完成了所有核心功能：

picture.image

财务管理首页

picture.image

统计图表

数据结构设计合理 ：自动创建了合适的数据库表结构
功能逻辑完整 ：分类验证、数据筛选、编辑删除都正常工作
界面设计现代 ：虽然不算惊艳，但足够实用
部署顺利 ：一键部署到了z.ai平台

你可以访问这个财务管理系统体验一下：

https://b09db6wvtz20-deploy.space.z.ai

中间虽然也出现了一些小bug，但经过几轮调试都成功修复了。

这个案例展现了GLM-4.5网页版在全栈开发方面的真实实力。

Claude Code API测试：配置与环境搭建

接下来我测试GLM-4.5与Claude Code的API集成效果。

配置过程如下：

第一步是安装Claude Code，安装过程不再赘述，去看我之前的文章。

Claude Code真香，没钱慎用！

第二步是从智谱 https://bigmodel.cn/usercenter/proj-mgmt/apikeys 获取API Key：

picture.image

命令行进入到你项目的目录下，然后配置环境变量：

  
# 设置智谱的API代理地址  
export ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"  
# 设置GLM API Key  
export ANTHROPIC\_AUTH\_TOKEN="你的API Key"

Windows：

  
$env:ANTHROPIC\_BASE\_URL="https://open.bigmodel.cn/api/anthropic"  
$env:ANTHROPIC\_AUTH\_TOKEN="上面生成的API Key"

第三步，启动Claude Code

  
# 后面的参数可以在跑任务的时候畅通无阻，无需人工确认操作  
claude --dangerously-skip-permissions

下面这里选择Yes即可：

picture.image

启动成功后可以看到已经切换到GLM的地址：

picture.image

后续就会自动使用GLM-4.5模型，智谱给你适配了，不用你设置模型。

配置本身没什么问题，智谱在API兼容性上做得还算不错。

Claude Code API测试：个人生活数据分析系统（失败案例）

接下来我提出了一个更复杂的需求：

  
创建一个个人生活数据分析系统：  
1. 用Docker部署InfluxDB时序数据库  
2. 写脚本监控我的：  
   - 电脑使用时间和应用分布  
   - 网络流量消耗情况    
   - GitHub提交记录  
3. 制作实时仪表板，用图表展示我的数字生活轨迹  
4. 每周生成个人数据报告  
5. 界面参考Grafana风格，但更个性化

这次的体验就是灾难级的 。

先看下GLM-4.5生成的执行规划：

picture.image

执行完毕后的状态：

picture.image

问题一：需求理解偏差

我只是说界面风格参考Grafana，结果GLM-4.5直接给我启动了一个Grafana容器，但实际上根本用不到：

picture.image

这说明它在需求理解上还是有问题的。

问题二：架构设计混乱

最开始生成的是静态HTML页面，根本无法展示动态数据：

picture.image

问题三，代码冗余

当我指出一些问题后，它开始不断地新建各种测试脚本、修复脚本，结果一个简单的项目最后竟然达到了840M的大小 ！

picture.image

要知道，我们公司运行了好几年的项目都没这么大。

问题四：数据监控不准确

启动数据收集脚本：

picture.image

但是页面根本没有调用后端API查询数据。

经过好几个小时的调试，差不多完成了80%的功能。但是有些数据收集怎么都不正确，我最终放弃了这个项目。

Claude Code API测试：程序员日常工作助手（差强人意）

不甘心的我又尝试了第三个项目：

  
创建一个程序员的日常工作助手：  
1. 用Docker启动MySQL数据库  
2. 后端功能：  
   - 每日工作日志记录  
   - 代码片段收藏夹  
   - 技术学习进度跟踪  
   - 简单的番茄钟计时器  
3. 前端：简洁的仪表板界面  
4. 数据导出功能：生成周报、月报  
技术栈：Node.js + Express + MySQL + Vue.js

这次的结果只能说是无法忍受！