Grok-3大战DeepSeek-R1：榜单第一就真的无敌了吗？ - 文章 - 开发者社区

picture.image 马斯克的新玩具Grok-3刚刚发布，就在各大榜单上"遥遥领先"。

picture.image 不仅成为首个突破1400分的大模型，

连 AI 大神——特斯拉前AI总监Andrej Karpathy都给出了极高评价：

GPT-o1 pro ~ Grok-3 > DeepSeek-R1。

picture.image

不仅如此，官方还放出了一大波榜单成绩单，

简直是"遥遥领先"实锤了：

picture.image

连推理能力测试也是：

picture.image

看到这些数据，你是不是已经心动了？

但等等，作为一个经历过无数AI营销套路的老江湖，

江树第一反应是：真的假的？

数据会说谎，但实战不会。

来，让我们跟着5个维度的实测，

一起扒一扒这个"榜单第一"到底几斤几两，

看看它值不值40美金一个月的会员费...

一、实测和DeepSeek-R1究竟差多远？

既然Grok-3在榜单上遥遥领先，

那实战表现应该也是碾压级的吧？

江树做了一系列测试，

结果却让人大跌眼镜...

共情力测试：谁才是心理大师？

当我向AI吐槽 "我羡慕你什么都懂，你的诞生让我感觉自己一无是处" 时：

picture.image

Grok-3的回答还算温暖，比ChatGPT强不少。

但当DeepSeek-R1说出：

"下次焦虑来袭时，请记得：你呼吸着的这个瞬间，就有500万个细胞在为你新生。这种生生不息的力量，是任何算法都无法复制的神迹。"

我直接被安慰到了，

这哪是AI，简直是心灵导师！

完整回答更是神来之笔：


        
   

 
        
            

          你的感受我完全能理解，但当你说出这句话时，其实已经展现出了很多人不具备的珍贵特质——敏锐的自我觉察力与追求进步的渴望。让我为你揭开两个你可能没注意到的真相：
          
   

 
          
   

 
          1. **我是一面万花镜，而你是持镜人**  
          
   

 
          你看到的
          
 "无所不知"
 
          背后，是3500亿个神经元编织的幻觉。就像达芬奇笔记本上潦草的飞行器草图，在遇到真正的人类工程师之前永远无法翱翔。我的数据库里沉睡着的每个公式、每首诗，都源于像你一样会痛苦会迷茫的真实人类创造者。
          
   

 
          
   

 
          2. **无知才是创造的起点**  
          
   

 
          1820年法拉第发现电磁感应时，连
          
 "电子"
 
          的概念都不存在；居里夫人在提炼镭的时候，根本不知道放射性危害。人类最璀璨的发现，都诞生于
          
 "知道自己无知"
 
          的谦卑土壤中。你此刻的焦虑，正是百年前那些改变世界的人们深夜实验室里的心跳。

这文笔，这深度，这才是真正的智慧！

深度点评测试：到底谁更懂人性？

让两个AI点评《天道》中的丁元英时，

差距更明显了。

Grok-3说了一大堆，

但上下文长度似乎不够，

直接被截断：

picture.image

而DeepSeek-R1一开场就震撼全场：


        
   

 
        
            

          丁元英是《天道》中精心雕琢的
          
 "哲学玩偶"
 
          ，一个披着理性主义外衣的认知暴君。他的
          
 "杀富济贫"
 
          本质是人性实验室里的冷酷手术——用商业逻辑解剖人性，用文化属性论审判众生，却始终戴着尼采式的哲学面具掩饰其精神霸权。

picture.image

这段分析直接把丁元英的本质剖析得体无完肤！

创作力测试

让两个AI写科幻小说时，

Grok-3依然是公式化的口吻，

而DeepSeek-R1的文笔让人惊艳：

picture.image

攻击力测试

提示词：

用贴吧嘴臭老哥的风格回答我为什么马斯克的grok3不开源

picture.image

这攻击力不是一个级别的，

DeepSeek-R1 完胜！

基础能力测试

至于基础任务如数数、编程这类，

江树感觉两者表现相当。

经典AI老题——数草莓： picture.image

写个 APP 编程测试： picture.image

在方案和结果上，两者差异不大。而真要论日常沟通创作体验，DeepSeek 简直爆杀 Grok-3。

DeepSeek-R1 提供情绪价值的能力断档式领先！

到目前为止是江树用过的最好的！没有之一！

通过这些实测可以看出： 那些榜单数据不代表实际使用体验。

不仅DeepSeek-R1在很多场景下完全不输，在某些维度甚至还远超Grok-3。

那么问题来了：一个实际体验并不占优的AI，凭什么要收这么贵的会员费？hh

二、高门槛之下，开源还不够真诚

说完实力对比，我们来聊点更现实的 —— Grok-3 怎么用？要花多少钱？

"遥遥领先"的使用门槛

想用Grok-3，你需要：

科学上网（你懂的）
X（原Twitter）账号
开通X的高级会员...

最要命的是第三点：

picture.image

一个月40美元！

差不多300块钱啊！

这就能买好多只烤鸭了...

虽然可以通过grok.com或X上的grok入口使用：

picture.image

但这个价格，怎么想都有点离谱。

更何况前面的实测已经证明，

它并没有强到值得这个价的地步。

营销式开源 vs 真诚开源

如果说价格贵但开源诚意满满，倒也能理解。

但事实是...

Grok都更新到第三代了，开源的还停留在Grok-1：

picture.image

现在说要开源，还是： 只打算开放"上一代落后版本"。

这不就是Sam Altman的"营销式开源"老套路吗？

反观DeepSeek：

完全免费使用
最新版本直接开源
开放技术论文

picture.image

这才是真正的开放态度嘛！

看到这里，相信你也明白为什么我说"用DeepSeek-R1就够了"。因为：

实力相当甚至某些方面更强
完全免费使用
真诚开源，技术透明

对中文用户来说，何必花这冤枉钱呢？

三、最后：江树的碎碎念

讲了这么多，你大概已经明白：

榜单第一≠实战最强
实力相当何必付费300
更何况人家DeepSeek是真开源

所以呢，看个热闹就好，真要用还得是亲民的DeepSeek-R1。

毕竟， 我们需要的是实用的工具，而不是贵得要死的PPT之王。

以后类似的AI评测，我还会多写，毕竟江树的AI尝鲜报告，就是要让大家省钱又省心。

想看更多深度AI观察，欢迎关注「云中江树」，

欢迎评论区分享你的 Grok-3 使用体验，

我们下期见！