昨天中午,马斯克带着另外3位(中间两位都是华人),直播开了Grok 3的发布会。
这个"地球最强"大模型,扔进池塘是不是溅起了水花,看看外媒的宣传力度就知道了。
1
Grok 3的评测
强大的数学推理能力:
在AIME'24数学能力测试中,Grok 3得到了52分,明显超过DeepSeek-V3(39分),展示了出色的数学推理和计算能力。
卓越的科学知识处理:
在科学知识评估(GPQA)中,Grok 3获得75分,领先其他大语言模型,具备深入的科学知识的理解与推理能力。
编程能力:
在编程能力测试中,Grok 3得到了57分,超越了DeepSeek-V3(40分),展现了其强大的编程推理和开发能力,已经能用于复杂一点的编程任务。
高效的推理性能:
在AIME 2025性能测试中,Grok 3的Reasoning Beta版本获得93分,展现出卓越的推理能力和较快的计算速度,领先DeepSeek-R1和Memini-2 Flash Thinking。
综合推理优势:
在数学、科学、编程等多个推理维度上,Grok 3超越DeepSeek-R1,显示出其在多领域推理能力上的全面优势。
优越的聊天机器人性能:
在LMSYS聊天机器人竞技场中,Grok 3得分1400,领先GPT-4和Claude等主流大模型,表现出色的自然语言处理和对话生成能力。
2
麦金叔总结
以上成绩能说明Grok 3站到了第一梯队,不过咱就是说DeepSeek被当做对标模型,已经说明其江湖地位了。并且发布会也没有丝毫掩饰好成绩背后的原因。
20万张H100的训练规模,目前来看无人能及。咱不要说买这些卡花多少钱了,光耗电量就约等于30万个家庭的用电量,妥妥的能耗大户呀。
对比一下,GPT-4的训练规模大约是他的1/10。而春节爆火的DeepSeek,全部家当也才只有它数量的1%,而大多数型号还没它强。
两向一对比,被DeepSeek打下来的英伟达的股价,又得往上拉。大力出奇迹,投钱出结果,如此简单。
老黄在NVIDIA GTC 2024主题演讲中介绍,如果要训练一个有1.8万亿参数的GPT模型,用Hopper(H100)的话,需要约8000个GPU,耗电15兆瓦,用时90天,大约需要三个月。这大概说的就是GPT-4,而到2025年的GTC大会,估计要更新成xAI的工厂图了。
如果你对AI的发展感兴趣,欢迎一键三连。有任何问题可以扫码添加好友,我们共同探讨