xAI的Grok3能碰瓷成功DeepSeek吗?

大模型向量数据库机器学习
昨天中午,马斯克带着另外3位(中间两位都是华人),直播开了Grok 3的发布会。

picture.image

这个"地球最强"大模型,扔进池塘是不是溅起了水花,看看外媒的宣传力度就知道了。

1

Grok 3的评测

picture.image

强大的数学推理能力:

在AIME'24数学能力测试中,Grok 3得到了52分,明显超过DeepSeek-V3(39分),展示了出色的数学推理和计算能力。

卓越的科学知识处理:

在科学知识评估(GPQA)中,Grok 3获得75分,领先其他大语言模型,具备深入的科学知识的理解与推理能力。

编程能力:

在编程能力测试中,Grok 3得到了57分,超越了DeepSeek-V3(40分),展现了其强大的编程推理和开发能力,已经能用于复杂一点的编程任务。

高效的推理性能:

在AIME 2025性能测试中,Grok 3的Reasoning Beta版本获得93分,展现出卓越的推理能力和较快的计算速度,领先DeepSeek-R1和Memini-2 Flash Thinking。

综合推理优势:

在数学、科学、编程等多个推理维度上,Grok 3超越DeepSeek-R1,显示出其在多领域推理能力上的全面优势。

优越的聊天机器人性能:

在LMSYS聊天机器人竞技场中,Grok 3得分1400,领先GPT-4和Claude等主流大模型,表现出色的自然语言处理和对话生成能力。

picture.image

2

麦金叔总结

picture.image

以上成绩能说明Grok 3站到了第一梯队,不过咱就是说DeepSeek被当做对标模型,已经说明其江湖地位了。并且发布会也没有丝毫掩饰好成绩背后的原因。


20万张H100的训练规模,目前来看无人能及。咱不要说买这些卡花多少钱了,光耗电量就约等于30万个家庭的用电量,妥妥的能耗大户呀。








对比一下,GPT-4的训练规模大约是他的1/10。而春节爆火的DeepSeek,全部家当也才只有它数量的1%,而大多数型号还没它强。


两向一对比,被DeepSeek打下来的英伟达的股价,又得往上拉。大力出奇迹,投钱出结果,如此简单。






老黄在NVIDIA GTC 2024主题演讲中介绍,如果要训练一个有1.8万亿参数的GPT模型,用Hopper(H100)的话,需要约8000个GPU,耗电15兆瓦,用时90天,大约需要三个月。这大概说的就是GPT-4,而到2025年的GTC大会,估计要更新成xAI的工厂图了。

picture.image

如果你对AI的发展感兴趣,欢迎一键三连。有任何问题可以扫码添加好友,我们共同探讨

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论