xAI的Grok3能碰瓷成功DeepSeek吗？ - 文章 - 开发者社区

昨天中午，马斯克带着另外3位(中间两位都是华人)，直播开了Grok 3的发布会。

picture.image

这个"地球最强"大模型，扔进池塘是不是溅起了水花，看看外媒的宣传力度就知道了。

Grok 3的评测

picture.image

强大的数学推理能力：

在AIME'24数学能力测试中，Grok 3得到了52分，明显超过DeepSeek-V3(39分)，展示了出色的数学推理和计算能力。

卓越的科学知识处理：

在科学知识评估(GPQA)中，Grok 3获得75分，领先其他大语言模型，具备深入的科学知识的理解与推理能力。

编程能力：

在编程能力测试中，Grok 3得到了57分，超越了DeepSeek-V3(40分)，展现了其强大的编程推理和开发能力，已经能用于复杂一点的编程任务。

高效的推理性能：

在AIME 2025性能测试中，Grok 3的Reasoning Beta版本获得93分，展现出卓越的推理能力和较快的计算速度，领先DeepSeek-R1和Memini-2 Flash Thinking。

综合推理优势：

在数学、科学、编程等多个推理维度上，Grok 3超越DeepSeek-R1，显示出其在多领域推理能力上的全面优势。

优越的聊天机器人性能：

在LMSYS聊天机器人竞技场中，Grok 3得分1400，领先GPT-4和Claude等主流大模型，表现出色的自然语言处理和对话生成能力。

picture.image

麦金叔总结

picture.image

以上成绩能说明Grok 3站到了第一梯队，不过咱就是说DeepSeek被当做对标模型，已经说明其江湖地位了。并且发布会也没有丝毫掩饰好成绩背后的原因。


20万张H100的训练规模，目前来看无人能及。咱不要说买这些卡花多少钱了，光耗电量就约等于30万个家庭的用电量，妥妥的能耗大户呀。








对比一下，GPT-4的训练规模大约是他的1/10。而春节爆火的DeepSeek，全部家当也才只有它数量的1%，而大多数型号还没它强。


两向一对比，被DeepSeek打下来的英伟达的股价，又得往上拉。大力出奇迹，投钱出结果，如此简单。






老黄在NVIDIA GTC 2024主题演讲中介绍，如果要训练一个有1.8万亿参数的GPT模型，用Hopper（H100）的话，需要约8000个GPU，耗电15兆瓦，用时90天，大约需要三个月。这大概说的就是GPT-4，而到2025年的GTC大会，估计要更新成xAI的工厂图了。

picture.image

如果你对AI的发展感兴趣，欢迎一键三连。有任何问题可以扫码添加好友，我们共同探讨

picture.image