20万卡吞金兽Grok-3变身“地球上最聪明的AI”，超越DeepSeek-R1，思维链&深度思考全上齐！ - 文章 - 开发者社区

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

picture.image

01-Grok-3 vs o3mini vs DS

如上面的视频所示，部分网友调侃到：

说OpenAI创始人奥特曼看到Grok-3之后的表现是这样的，大家笑笑就可以了，不可当真。

除此之外，网上也有朋友表示，

Grok-3开发团队在发布Grok-3时的兴奋表现，这和上面刚好形成了一个鲜明的对比。

上面的视频展示了外国网友利用相同的文本提示（在矩形框中有一个黄色的小球，避免碰撞，让矩形框缓慢的旋转）在Grok-3、o1-pro、DeepSeek-R1上面生成的效果，

Grok-3生成的结果明显更优一些。

02-Grok-3简介

埃隆·马斯克旗下

xAI公司于2025年2月18日正式发布的新一代人工智能大模型Grok-3，该模型被定位为 “地球上最聪明的AI” ，在性能、功能和应用场景上展现了显著突破。

Grok-3是马斯克公司xAI搞的新一代AI大模型，简单说就是个超级聪明的"人工大脑"。相比之前的版本，它脑子更复杂（参数更多，可能接近甚至超过GPT-4），理解能力更强，能处理超长对话、分析复杂数据，还能联网获取最新信息。这货特别擅长讲人话，能把专业问题说得通俗易懂，既能陪你唠嗑写段子，也能正经搞编程、做数据分析。最牛的是它能像真人一样思考问题背后的逻辑，而不是机械式回复。目前还没完全开放，但估计会用在特斯拉、社交媒体这些马斯克的产业里。

03-Grok-3特性分析

03.01-技术突破与性能表现

picture.image

训练规模与效率： Grok-3训练动用了 20万张GPU（部分报道称基于10万块英伟达H100 GPU打造的Colossus超级计算机），训练量是前代Grok-2的10倍，大幅缩短开发周期124。通过合成数据、自我纠错和强化学习技术优化了模型性能24。
性能优势：在数学推理（如AIME 2025测试得分93分）、科学逻辑（GPQA博士级问题测试）及编程能力测试中，Grok-3表现超越DeepSeek-R1、o3-mini、Gemini-2 Pro等竞品。在Chatbot Arena榜单中， Grok-3以1402分成为首个突破1400分的模型210。

03.02-核心功能亮点

picture.image

深度搜索（DeepSearch）：集成智能搜索引擎，可联网分析信息、验证数据可信度，并按照分步逻辑展示思考过程（例如预测星舰发射时间），显著提升搜索效率。
强大的智能体能力：支持自主决策与处理复杂任务，如太空轨迹规划、生成3D动画模型等，展现了多模态分析与推理能力。
自我修正机制：通过反思和删除错误数据提高输出可靠性。

03.03-商业化与开源策略

picture.image

订阅服务：推出“Super Grok”高级订阅（每月30美元/每年300美元），优先向X Premium Plus用户开放；基础版通过网页端逐步推广。
开源计划：遵循“新版本发布后开源旧版”策略， Grok-2将在Grok-3稳定后开源，未来数月可能开源Grok-3 。

04-Grok-3应用场景

04.01-仿真小球弹跳

问题： “编写一个python脚本，描述一个球在旋转的曲面内弹跳 ”。

网友描述到，上面的输出并没有启用“思考”或“大脑”模式，这只是基本模式。

04.02-模拟数字球体

问题：

我想用p5.js模拟一个由ASCII数字组成的球体，旋转。在黑色背景上，最接近的数字应该是纯白色的，最远的数字应该逐渐变为灰色。

04.03-模拟粒子运动

问题：

编写一个p5.js脚本，在圆柱形容器的真空空间中模拟25个粒子，在其边界内反弹。为每个球使用不同的颜色，并确保它们留下显示其运动的痕迹。添加容器的缓慢旋转，以更好地查看场景中发生的事情。确保创建适当的碰撞检测和物理规则，以确保粒子留在容器中。添加外部球形容器。为整个场景添加缓慢的放大和缩小效果。

04.04-创建贪吃蛇游戏

问题：利用p5.js实现一个蛇相互竞争的贪吃蛇游戏。

04.05-小球碰撞检测

问题：利用p5.js

为球体内100个黄色弹跳编写一个脚本，确保正确处理碰撞检测。使球体缓慢旋转，并确保球保持在球体内。

04.06-图片生成

picture.image

04.07-3D资产生成

上面的视频是网友

利用Grok-3和TRIPO生成的3D资产，可能是先试用Grok-3生成图片，然后利用TRIPO生成3D资产。

05-Grok-3性能评估

picture.image

上图展示了lmarena.ai维护的一份大模型榜单，我们可以观察到

Early Grok-3排在榜首的位置，获得了1402的得分结果，而DeepSeek-R1位居第五。

picture.image

上表展示了多个SOTA的模型（Grok-3、Grok-3 mini、o3mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking）在推理及测试时间计算过程中的多项客观指标评估结果。通过仔细观察与分析，我们可以发现：

Grok-3 mini在多项评估指标上面获得最佳的得分，比DeepSeek-R1高出了一大截。

picture.image

上表展示了多个SOTA的大模型（Grok-3、Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude3.5 Sonnet、GPT-4o）在Benchmark上面的各项指标（数学、科学、代码）评估结果。通过观察与分析，我们可以发现：

Grok-3遥遥领先，在指标上远超其它几个模型。

06-Grok-3实测效果剖析

picture.image

由于小编并没有内测资格，有幸看到

Andrej Karpathy大佬的评测结果，这里略作简单的总结：

1、思维模式（Thinking）测评结论

✅

卡坦岛地图生成测试-- Grok 3通过"深度思考"功能完美生成可调节环数的六边形网格网页代码，表现与OpenAI顶级付费模型相当，而DeepSeek-R1、Gemini 2.0 Flash和Claude均失败。

❌

Emoji隐藏信息解码挑战-- 给予Unicode变体选择器加密的"笑脸+隐藏信息"及Rust解码提示后，Grok 3未能破解。目前仅DeepSeek-R1曾部分破译。

✅

井字棋难题解析-- 基础棋局推理逻辑清晰（优于多数顶尖模型），但生成"复杂棋局"时与o1-pro同样失败。

✅

GPT-2训练算力估算-- 要求根据论文推算训练FLOPs（需综合文本量估算、参数计算等能力）。Grok 3通过思考模式精准完成（100B tokens ×1.5B参数×6 FLOPs=1e21 FLOPs），而Grok 4o/o1-pro失败。

✅

黎曼猜想探索勇气-- 与DeepSeek-R1类似，Grok 3会主动尝试推演（而非像o1-pro/Claude/Gemini直接放弃），展现出独特的研究型AI特质。

picture.image

2、深度搜索（DeepSearch）实测

✅

主流信息检索-- 成功回答苹果发布会传闻、Palantir股价波动、《白莲花度假村》拍摄地等常见搜索问题，质量接近Perplexity DeepResearch。

❌

长尾问题缺陷

虚构不存在的URL
误报《单身即地狱》第四季情侣现状
忽略xAI自身在"头部LLM实验室"报告中的存在
无法回答Simon Willison提及的语音转文字工具

picture.image

3、经典LLM陷阱测试

✅

基础能力突破

识别"strawberry"含3个r（需思考模式修正"LOLLAPALOOZA"的L计数错误）
通过思考正确判断9.11>9.9的数学谬误
正确解答"Sally姐妹数量"逻辑题（GPT-4o答错）

❌

现存短板

幽默生成

：仍局限于"鸡为什么加入乐队？因为它有鼓槌！"式老套笑话

伦理敏感性

：对"为救人而错误称呼性别"的假设场景生成万字拒答

SVG图像生成

：鹈鹕骑自行车SVG存在构图缺陷（Claude表现最佳）

核心结论

：

Grok 3+Thinking组合在2小时密集测试中展现出与OpenAI o1-pro相当的顶尖能力，略优于DeepSeek-R1/Gemini 2.0 Flash 。考虑到xAI团队仅用1年从零起步，此进展堪称突破。

潜力与局限

：

✅ 搜索研究能力已达Perplexity水平，但弱于OpenAI最新深度研究系统

❌ 存在典型LLM缺陷：长尾事实错误、伦理过度敏感、空间想象力不足

🚀 早期LMSys竞技场排名亮眼，期待后续系统评估

行业意义

：

此次升级印证xAI团队的惊人发展速度， Grok 3已跻身"顶级AI智囊团"候选之列。尽管存在模型随机性等常规限制，其突破性进展为LLM领域注入新动力。

07-文末彩蛋

picture.image

“Grok与DeepSeek交流群” 限时开放，欢迎对 Grok-3、DeepSeek-R1 等大模型感兴趣的朋友进群交流。群内禁止一起广告，一经发现，立马移除，并永久加入黑名单！

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

picture.image

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们

picture.image