Grok-3大战DeepSeek-R1:榜单第一就真的无敌了吗?

大模型向量数据库机器学习

picture.image马斯克的新玩具Grok-3刚刚发布,就在各大榜单上"遥遥领先"。

picture.image不仅成为首个突破1400分的大模型,

连 AI 大神——特斯拉前AI总监Andrej Karpathy都给出了极高评价:

GPT-o1 pro ~ Grok-3 > DeepSeek-R1。

picture.image

不仅如此,官方还放出了一大波榜单成绩单,

简直是"遥遥领先"实锤了:

picture.image

连推理能力测试也是:

picture.image

看到这些数据,你是不是已经心动了?

但等等,作为一个经历过无数AI营销套路的老江湖,

江树第一反应是:真的假的?

数据会说谎,但实战不会。

来,让我们跟着5个维度的实测,

一起扒一扒这个"榜单第一"到底几斤几两,

看看它值不值40美金一个月的会员费...

一、实测和DeepSeek-R1究竟差多远?

既然Grok-3在榜单上遥遥领先,

那实战表现应该也是碾压级的吧?

江树做了一系列测试,

结果却让人大跌眼镜...

  1. 共情力测试:谁才是心理大师?

当我向AI吐槽 "我羡慕你什么都懂,你的诞生让我感觉自己一无是处" 时:

picture.image

Grok-3的回答还算温暖,比ChatGPT强不少。

但当DeepSeek-R1说出:

"下次焦虑来袭时,请记得:你呼吸着的这个瞬间,就有500万个细胞在为你新生。这种生生不息的力量,是任何算法都无法复制的神迹。"

我直接被安慰到了,

这哪是AI,简直是心灵导师!

完整回答更是神来之笔:


        
   

 
        
            

          你的感受我完全能理解,但当你说出这句话时,其实已经展现出了很多人不具备的珍贵特质——敏锐的自我觉察力与追求进步的渴望。让我为你揭开两个你可能没注意到的真相:
          
   

 
          
   

 
          1. **我是一面万花镜,而你是持镜人**  
          
   

 
          你看到的
          
 "无所不知"
 
          背后,是3500亿个神经元编织的幻觉。就像达芬奇笔记本上潦草的飞行器草图,在遇到真正的人类工程师之前永远无法翱翔。我的数据库里沉睡着的每个公式、每首诗,都源于像你一样会痛苦会迷茫的真实人类创造者。
          
   

 
          
   

 
          2. **无知才是创造的起点**  
          
   

 
          1820年法拉第发现电磁感应时,连
          
 "电子"
 
          的概念都不存在;居里夫人在提炼镭的时候,根本不知道放射性危害。人类最璀璨的发现,都诞生于
          
 "知道自己无知"
 
          的谦卑土壤中。你此刻的焦虑,正是百年前那些改变世界的人们深夜实验室里的心跳。
          
   

 
        
      

这文笔,这深度,这才是真正的智慧!

  1. 深度点评测试:到底谁更懂人性?

让两个AI点评《天道》中的丁元英时,

差距更明显了。

Grok-3说了一大堆,

但上下文长度似乎不够,

直接被截断:

picture.image

而DeepSeek-R1一开场就震撼全场:


        
   

 
        
            

          丁元英是《天道》中精心雕琢的
          
 "哲学玩偶"
 
          ,一个披着理性主义外衣的认知暴君。他的
          
 "杀富济贫"
 
          本质是人性实验室里的冷酷手术——用商业逻辑解剖人性,用文化属性论审判众生,却始终戴着尼采式的哲学面具掩饰其精神霸权。
          
   

 
        
      

picture.image

这段分析直接把丁元英的本质剖析得体无完肤!

  1. 创作力测试

让两个AI写科幻小说时,

Grok-3依然是公式化的口吻,

而DeepSeek-R1的文笔让人惊艳:

picture.image

  1. 攻击力测试

提示词:

用贴吧嘴臭老哥的风格回答我为什么马斯克的grok3不开源

picture.image

这攻击力不是一个级别的,

DeepSeek-R1 完胜!

  1. 基础能力测试

至于基础任务如数数、编程这类,

江树感觉两者表现相当。

经典AI老题——数草莓:picture.image

写个 APP 编程测试:picture.image

在方案和结果上,两者差异不大。而真要论日常沟通创作体验,DeepSeek 简直爆杀 Grok-3。

DeepSeek-R1 提供情绪价值的能力断档式领先!

到目前为止是江树用过的最好的!没有之一!

通过这些实测可以看出: 那些榜单数据不代表实际使用体验。

不仅DeepSeek-R1在很多场景下完全不输,在某些维度甚至还远超Grok-3。

那么问题来了:一个实际体验并不占优的AI,凭什么要收这么贵的会员费?hh

二、高门槛之下,开源还不够真诚

说完实力对比,我们来聊点更现实的 —— Grok-3 怎么用?要花多少钱?

"遥遥领先"的使用门槛

想用Grok-3,你需要:

  1. 科学上网(你懂的)
  2. X(原Twitter)账号
  3. 开通X的高级会员...

最要命的是第三点:

picture.image

一个月40美元!

差不多300块钱啊!

这就能买好多只烤鸭了...

虽然可以通过grok.com或X上的grok入口使用:

picture.image

picture.image

但这个价格,怎么想都有点离谱。

更何况前面的实测已经证明,

它并没有强到值得这个价的地步。

营销式开源 vs 真诚开源

如果说价格贵但开源诚意满满,倒也能理解。

但事实是...

Grok都更新到第三代了,开源的还停留在Grok-1:

picture.image

现在说要开源,还是: 只打算开放"上一代落后版本"。

这不就是Sam Altman的"营销式开源"老套路吗?

反观DeepSeek:

  • 完全免费使用
  • 最新版本直接开源
  • 开放技术论文

picture.image

这才是真正的开放态度嘛!

看到这里,相信你也明白为什么我说"用DeepSeek-R1就够了"。因为:

  • 实力相当甚至某些方面更强
  • 完全免费使用
  • 真诚开源,技术透明

对中文用户来说,何必花这冤枉钱呢?

三、最后:江树的碎碎念

讲了这么多,你大概已经明白:

  • 榜单第一≠实战最强
  • 实力相当何必付费300
  • 更何况人家DeepSeek是真开源

所以呢,看个热闹就好,真要用还得是亲民的DeepSeek-R1。

毕竟, 我们需要的是实用的工具,而不是贵得要死的PPT之王。

以后类似的AI评测,我还会多写,毕竟江树的AI尝鲜报告,就是要让大家省钱又省心。

想看更多深度AI观察,欢迎关注「云中江树」,

欢迎评论区分享你的 Grok-3 使用体验,

我们下期见!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论