经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。其在编程和复杂推理能力上实现重大突破,对标当下顶尖闭源模型。
基准测试表现亮眼
根据Z.ai团队发布的信息,GLM-4.7在编程、复杂推理和工具使用方面都有显著提升。在聊天、创意写作和角色扮演场景下的表现也有所增强。
根据官方公布的测试结果,GLM-4.7在多个关键基准测试中表现优异:
- LMArena代码竞技场(盲测) :在开源模型中排名第一,超越GPT-5.2
- LiveCodeBench V6 :得分84.8,超过Claude 4.5 Sonnet
- AIME 2025(数学) :表现优于Claude 4.5 Sonnet和GPT-5.1
- 人类终极考试(HLE) :得分42%,比GLM-4.6提升38%,接近GPT-5.1水平
- τ²-Bench :在真实世界交互中与Claude 4.5 Sonnet持平
在实际开发场景的对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。
技术规格与特性
GLM-4.7支持200K上下文长度,最大输出128K tokens,处理速度达到每秒55+ tokens。该模型还进一步优化了交织思维模式,并引入了保留思维和回合级思维。通过在执行动作之间进行思考并保持跨回合的一致性,使复杂任务更加稳定和可控。
定价策略
GLM-4.7已成为GLM Coding Plan的默认模型,该计划提供多种订阅选项,起价为每月3美元,兼容Claude Code、Cursor等10多种编程工具。
小结
基准测试数据亮眼,据部分内测网友反馈,真实编程水平确实有很大的提升,认为这可能又是一个“deepseek时刻”。同时,部分早期用户的实际测试反馈相对保守。有用户表示,在有限的测试中,GLM-4.7的表现并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不如Minimax M2.1。
智谱当前密集的模型发布动作,让用户直呼“接受不了,GLM-4.6还没熟悉,GLM-4.7就来了”。这其中原因或许和智谱想要成为中国大模型第一股有关。智谱AI刚刚宣布将于明年1月在香港进行IPO。有消息称,minimax也要在港股上市,相较于智谱来讲,minimax更加多元,海外市场影响力更强,拥有超过2.12亿个人用户,覆盖200多个国家和地区。海外市场贡献了超过70%的收入。从这个角度考虑,提升国际影响力,频繁动作就可以理解了。
关注公众号回复“进群”入群讨论。
