大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
说来惭愧,最近一周一直在忙项目交付,请假去医院都是带着电脑随时支援的状态,连文章都没时间更新。
虽然项目很赶,但昨天马斯克Grok 4的发布会,我还是忍不住摸了会儿鱼。一边假装在写代码,一边偷偷看完了整场发布会,然后趁着午休时间又研究了所有测试数据。
为什么Grok 4是个大事件?
昨天,马斯克的xAI正式发布了Grok 4和Grok 4 Heavy两个版本。同时推出了业界最贵的AI订阅服务——SuperGrok Heavy,每月300美元。
但定价不是重点,重点是性能数据。
在AI界最权威的Artificial Analysis Intelligence Index综合评测中,Grok 4拿到了73分,超过了:
- OpenAI o3:70分
- Google Gemini 2.5 Pro:70分
- Anthropic Claude 4 Opus:64分
这意味着什么?
这是xAI首次在综合评测中登顶。 要知道,xAI成立才2年,能在这么短时间内超越那些巨头,确实让人刮目相看。
为什么Grok 4这么强?
我仔细研究了测试数据,发现了几个关键突破:
1. 多智能体协作架构
Grok 4 Heavy采用了 多智能体协作
机制,马斯克形容它像一个 AI学习小组
——多个AI同时解决同一个问题,然后对比答案选择最优解。
这个思路其实很聪明。我们人类解决复杂问题时也是这样,会找几个专家一起讨论,而不是依赖单个人的判断。
但从我10年的开发经验来看,这个架构可能会带来一个问题: 成本
。 多智能体意味着要消耗更多计算资源,这也解释了为什么Heavy版本要300美元/月。
不过如果效果真的好,对于复杂项目来说这个成本是值得的。
2. 推理能力的质变
在“人类最后一场考试”(Humanity's Last Exam)中:
- Grok 4:25.4%(无工具辅助)
- Grok 4 Heavy:44.4%(有工具辅助)
- Google Gemini 2.5 Pro:21.6%
- OpenAI o3:21%
这个测试涵盖数学、物理、化学、逻辑学等高难度学科,被认为是测试AI是否达到人类专家水平的 最后一道防线
。
25.4%的成绩意味着在研究生级别的复杂推理任务上,Grok 4已经超越了人类平均水平。
更重要的是,当有工具辅助时,Grok 4 Heavy能达到44.4%,这个成绩已经接近很多领域的专家水平了。
3. 视觉推理的重大进步
在ARC-AGI-2测试中,Grok 4达到了15.9%,几乎是Claude Opus 4的两倍。
ARC-AGI-2是什么?
它测试的是AI能否像人类一样“举一反三”,能否从几个简单的例子中理解规律,然后应用到新场景。
这是最接近人类智能本质的测试, 被认为是通向AGI(通用人工智能)的关键指标。
Grok 4成为近三个月来唯一突破10%大关的模型,这个突破意义重大——它意味着AI开始具备真正的 理解
能力,而不只是模式匹配。
对我们编程人员的实际意义
说了这么多技术,你可能会问:这对我们写代码有什么帮助?
老实说,目前Grok 4的编程能力还算不上顶尖,主要优势还是在推理能力上。
在SWE-Bench编程基准测试中,Grok 4得到了72-75%的成绩,超过了Claude 3.5 Sonnet,但距离真正的编程神器还有差距。
不过,真正值得期待的是即将到来的变化:
- 8月:Grok 4 Code专门编程模型 - 这才是为编程优化的版本
- 9月:多模态智能体 - 能同时处理代码、文档、图片
- 10月:视频生成模型 - 可能会影响UI/UX工作流
另外,Cursor已经支持Grok4模型了,感兴趣的朋友可以体验一下。
定价策略分析:值不值?
说回定价,虽然300美元确实贵,但我们要理性分析:
三档价格对应三种用户:
- 免费版(Grok 3):试用和轻度用户
- SuperGrok(30美元/月):专业开发者和小团队
- SuperGrok Heavy(300美元/月):企业和重度用户
对于我们个人开发者来说,30美元的SuperGrok性价比还是很高的,毕竟功能直接对标ChatGPT Plus和Claude Pro。
300美元的Heavy版本主要价值在于:
- 多智能体协作能力
- 更高的使用限制
- 优先体验新功能
- 专门的技术支持
从商业策略角度看,马斯克这次定价很聪明
——用高价筛选出真正的重度用户,同时用免费版获取用户基数。这种策略在SaaS产品中很常见,说明xAI开始走向商业化成熟。
写在最后
说实话,这次马斯克确实让我刮目相看。从技术角度看,Grok 4的多项突破都是实打实的,不是营销噱头。
但我们也要保持理性。
基准测试是一回事,实际使用体验是另一回事。我见过太多在测试中表现优异,但实际使用中各种翻车的AI模型。
我的判断是:
- Grok 4的推理能力确实是突破性的,特别是多智能体协作机制
- 编程能力目前还不是最强的,但8月的专门编程模型值得期待
- 定价策略很合理,30美元档位会是大多数人的选择
觉得有用就点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~
「点赞、转发、在看」
和大家一起看