Grok 4一战封神！马斯克AI登顶榜首，Cursor已接入！ - 文章 - 开发者社区

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

说来惭愧，最近一周一直在忙项目交付，请假去医院都是带着电脑随时支援的状态，连文章都没时间更新。

虽然项目很赶，但昨天马斯克Grok 4的发布会，我还是忍不住摸了会儿鱼。一边假装在写代码，一边偷偷看完了整场发布会，然后趁着午休时间又研究了所有测试数据。

为什么Grok 4是个大事件？

昨天，马斯克的xAI正式发布了Grok 4和Grok 4 Heavy两个版本。同时推出了业界最贵的AI订阅服务——SuperGrok Heavy，每月300美元。

但定价不是重点，重点是性能数据。

在AI界最权威的Artificial Analysis Intelligence Index综合评测中，Grok 4拿到了73分，超过了：

OpenAI o3：70分
Google Gemini 2.5 Pro：70分
Anthropic Claude 4 Opus：64分

picture.image

这意味着什么？

这是xAI首次在综合评测中登顶。要知道，xAI成立才2年，能在这么短时间内超越那些巨头，确实让人刮目相看。

为什么Grok 4这么强？

我仔细研究了测试数据，发现了几个关键突破：

1. 多智能体协作架构

Grok 4 Heavy采用了 多智能体协作机制，马斯克形容它像一个 AI学习小组——多个AI同时解决同一个问题，然后对比答案选择最优解。

这个思路其实很聪明。我们人类解决复杂问题时也是这样，会找几个专家一起讨论，而不是依赖单个人的判断。

但从我10年的开发经验来看，这个架构可能会带来一个问题： 成本。多智能体意味着要消耗更多计算资源，这也解释了为什么Heavy版本要300美元/月。

不过如果效果真的好，对于复杂项目来说这个成本是值得的。

2. 推理能力的质变

在“人类最后一场考试”(Humanity's Last Exam)中：

Grok 4：25.4%（无工具辅助）
Grok 4 Heavy：44.4%（有工具辅助）
Google Gemini 2.5 Pro：21.6%
OpenAI o3：21%

picture.image

这个测试涵盖数学、物理、化学、逻辑学等高难度学科，被认为是测试AI是否达到人类专家水平的 最后一道防线。

25.4%的成绩意味着在研究生级别的复杂推理任务上，Grok 4已经超越了人类平均水平。

更重要的是，当有工具辅助时，Grok 4 Heavy能达到44.4%，这个成绩已经接近很多领域的专家水平了。

3. 视觉推理的重大进步

在ARC-AGI-2测试中，Grok 4达到了15.9%，几乎是Claude Opus 4的两倍。

picture.image

ARC-AGI-2是什么？它测试的是AI能否像人类一样“举一反三”，能否从几个简单的例子中理解规律，然后应用到新场景。

这是最接近人类智能本质的测试， 被认为是通向AGI（通用人工智能）的关键指标。

Grok 4成为近三个月来唯一突破10%大关的模型，这个突破意义重大——它意味着AI开始具备真正的 理解能力，而不只是模式匹配。

对我们编程人员的实际意义

说了这么多技术，你可能会问：这对我们写代码有什么帮助？

老实说，目前Grok 4的编程能力还算不上顶尖，主要优势还是在推理能力上。

在SWE-Bench编程基准测试中，Grok 4得到了72-75%的成绩，超过了Claude 3.5 Sonnet，但距离真正的编程神器还有差距。

不过，真正值得期待的是即将到来的变化：

picture.image

8月：Grok 4 Code专门编程模型 - 这才是为编程优化的版本
9月：多模态智能体 - 能同时处理代码、文档、图片
10月：视频生成模型 - 可能会影响UI/UX工作流

另外，Cursor已经支持Grok4模型了，感兴趣的朋友可以体验一下。

picture.image

定价策略分析：值不值？

说回定价，虽然300美元确实贵，但我们要理性分析：

picture.image

三档价格对应三种用户：

免费版（Grok 3）：试用和轻度用户
SuperGrok（30美元/月）：专业开发者和小团队
SuperGrok Heavy（300美元/月）：企业和重度用户

对于我们个人开发者来说，30美元的SuperGrok性价比还是很高的，毕竟功能直接对标ChatGPT Plus和Claude Pro。

300美元的Heavy版本主要价值在于：

多智能体协作能力
更高的使用限制
优先体验新功能
专门的技术支持

从商业策略角度看，马斯克这次定价很聪明——用高价筛选出真正的重度用户，同时用免费版获取用户基数。这种策略在SaaS产品中很常见，说明xAI开始走向商业化成熟。

写在最后

说实话，这次马斯克确实让我刮目相看。从技术角度看，Grok 4的多项突破都是实打实的，不是营销噱头。

但我们也要保持理性。 基准测试是一回事，实际使用体验是另一回事。我见过太多在测试中表现优异，但实际使用中各种翻车的AI模型。

我的判断是：

Grok 4的推理能力确实是突破性的，特别是多智能体协作机制
编程能力目前还不是最强的，但8月的专门编程模型值得期待
定价策略很合理，30美元档位会是大多数人的选择

觉得有用就点个关注呗，我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验～

「点赞、转发、在看」
和大家一起看