20万卡吞金兽Grok-3变身“地球上最聪明的AI”,超越DeepSeek-R1,思维链&深度思考全上齐!

大模型向量数据库机器学习

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!


picture.image

01-Grok-3 vs o3mini vs DS

如上面的视频所示,部分网友调侃到:

说OpenAI创始人奥特曼看到Grok-3之后的表现是这样的 ,大家笑笑就可以了,不可当真。

除此之外,网上也有朋友表示,

Grok-3开发团队在发布Grok-3时的兴奋表现 ,这和上面刚好形成了一个鲜明的对比。

上面的视频展示了外国网友利用相同的文本提示(在矩形框中有一个黄色的小球,避免碰撞,让矩形框缓慢的旋转)在Grok-3、o1-pro、DeepSeek-R1上面生成的效果,

Grok-3生成的结果明显更优一些。

02-Grok-3简介

埃隆·马斯克旗下

xAI公司于2025年2月18日正式发布的 新一代人工智能大模型Grok-3,该模型被定位为 “地球上最聪明的AI” ,在性能、功能和应用场景上展现了显著突破。

Grok-3是马斯克公司xAI搞的新一代AI大模型,简单说就是个超级聪明的"人工大脑"。相比之前的版本, 它脑子更复杂(参数更多,可能接近甚至超过GPT-4),理解能力更强,能处理超长对话、分析复杂数据,还能联网获取最新信息。 这货特别擅长讲人话,能把专业问题说得通俗易懂, 既能陪你唠嗑写段子,也能正经搞编程、做数据分析。 最牛的是它能像真人一样思考问题背后的逻辑,而不是机械式回复。目前还没完全开放,但估计会用在特斯拉、社交媒体这些马斯克的产业里。

03-Grok-3特性分析

03.01-技术突破与性能表现

picture.image

  • 训练规模与效率: Grok-3训练动用了 20万张GPU(部分报道称基于10万块英伟达H100 GPU打造的Colossus超级计算机) ,训练量是前代Grok-2的10倍,大幅缩短开发周期124。通过 合成数据、自我纠错和强化学习技术 优化了模型性能24。
  • 性能优势: 在 数学推理 (如AIME 2025测试得分93分)、 科学逻辑 (GPQA博士级问题测试)及 编程能力 测试中,Grok-3表现超越DeepSeek-R1、o3-mini、Gemini-2 Pro等竞品。在Chatbot Arena榜单中, Grok-3以1402分 成为首个突破1400分的模型210。

03.02-核心功能亮点

picture.image

  • 深度搜索(DeepSearch): 集成智能搜索引擎,可联网分析信息、验证数据可信度,并按 照分步逻辑展示思考过程 (例如预测星舰发射时间),显著提升搜索效率。
  • 强大的智能体能力: 支持自主决策与处理复杂任务,如太空轨迹规划、生成3D动画模型等,展现了多模态分析与推理能力。
  • 自我修正机制: 通过 反思和删除错误数据 提高输出可靠性。

03.03-商业化与开源策略

picture.image

  • 订阅服务: 推出“Super Grok”高级订阅( 每月30美元/每年300美元 ),优先向X Premium Plus用户开放;基础版通过网页端逐步推广。
  • 开源计划: 遵循“新版本发布后开源旧版”策略, Grok-2将在Grok-3稳定后开源 ,未来数月 可能开源Grok-3 。

04-Grok-3应用场景

04.01-仿真小球弹跳

问题: “编写一个python脚本,描述 一个球在旋转的曲面内弹跳 ”。

网友描述到,上面的输出并没有启用“思考”或“大脑”模式,这只是基本模式。

04.02-模拟数字球体

问题:

我想用p5.js模拟 一个由ASCII数字组成的球体, 旋转。在黑色背景上,最接近的数字应该是纯白色的,最远的数字应该逐渐变为灰色。

04.03-模拟粒子运动

问题:

编写一个p5.js脚本,在圆柱形容器的真空空间中模拟25个粒子,在其边界内反弹。为每个球使用不同的颜色,并确保它们留下显示其运动的痕迹。添加容器的缓慢旋转,以更好地查看场景中发生的事情。确保创建适当的碰撞检测和物理规则,以确保粒子留在容器中。添加外部球形容器。为整个场景添加缓慢的放大和缩小效果。

04.04-创建贪吃蛇游戏

问题:利用p5.js实现一个蛇相互竞争的贪吃蛇游戏。

04.05-小球碰撞检测

问题: 利用p5.js

为球体内100个黄色弹跳编写一个脚本,确保正确处理碰撞检测。使球体缓慢旋转,并确保球保持在球体内。

04.06-图片生成

picture.image

04.07-3D资产生成

上面的视频是网友

利用Grok-3和TRIPO生成的3D资产 ,可能是先试用Grok-3生成图片,然后利用TRIPO生成3D资产。

05-Grok-3性能评估

picture.image

上图展示了lmarena.ai维护的一份大模型榜单,我们可以观察到

Early Grok-3排在榜首的位置,获得了1402的得分结果,而DeepSeek-R1位居第五。

picture.image

上表展示了多个SOTA的模型(Grok-3、Grok-3 mini、o3mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking)在推理及测试时间计算过程中的多项客观指标评估结果。通过仔细观察与分析,我们可以发现:

Grok-3 mini在多项评估指标上面获得最佳的得分,比DeepSeek-R1高出了一大截。

picture.image

上表展示了多个SOTA的大模型(Grok-3、Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude3.5 Sonnet、GPT-4o)在Benchmark上面的各项指标(数学、科学、代码)评估结果。通过观察与分析,我们可以发现:

Grok-3遥遥领先,在指标上远超其它几个模型。

06-Grok-3实测效果剖析

picture.image

由于小编并没有内测资格,有幸看到

Andrej Karpathy大佬的评测结果,这里略作简单的总结:

1、思维模式(Thinking)测评结论


卡坦岛地图生成测试-- Grok 3通过"深度思考"功能完美生成可调节环数的六边形网格网页代码,表现与OpenAI顶级付费模型相当,而DeepSeek-R1、Gemini 2.0 Flash和Claude均失败。

Emoji隐藏信息解码挑战-- 给予Unicode变体选择器加密的"笑脸+隐藏信息"及Rust解码提示后,Grok 3未能破解。目前仅DeepSeek-R1曾部分破译。

井字棋难题解析-- 基础棋局推理逻辑清晰(优于多数顶尖模型),但生成"复杂棋局"时与o1-pro同样失败。

GPT-2训练算力估算-- 要求根据论文推算训练FLOPs(需综合文本量估算、参数计算等能力)。Grok 3通过思考模式精准完成(100B tokens ×1.5B参数×6 FLOPs=1e21 FLOPs),而Grok 4o/o1-pro失败。

黎曼猜想探索勇气-- 与DeepSeek-R1类似,Grok 3会主动尝试推演(而非像o1-pro/Claude/Gemini直接放弃),展现出独特的研究型AI特质。


picture.image

2、深度搜索(DeepSearch)实测


主流信息检索-- 成功回答苹果发布会传闻、Palantir股价波动、《白莲花度假村》拍摄地等常见搜索问题,质量接近Perplexity DeepResearch。

长尾问题缺陷

  • 虚构不存在的URL
  • 误报《单身即地狱》第四季情侣现状
  • 忽略xAI自身在"头部LLM实验室"报告中的存在
  • 无法回答Simon Willison提及的语音转文字工具

picture.image

3、经典LLM陷阱测试


基础能力突破

  • 识别"strawberry"含3个r(需思考模式修正"LOLLAPALOOZA"的L计数错误)
  • 通过思考正确判断9.11>9.9的数学谬误
  • 正确解答"Sally姐妹数量"逻辑题(GPT-4o答错)

现存短板

  • 幽默生成

:仍局限于"鸡为什么加入乐队?因为它有鼓槌!"式老套笑话

  • 伦理敏感性

:对"为救人而错误称呼性别"的假设场景生成万字拒答

  • SVG图像生成

:鹈鹕骑自行车SVG存在构图缺陷(Claude表现最佳)


核心结论

Grok 3+Thinking组合在2小时密集测试中展现出与OpenAI o1-pro相当的顶尖能力, 略优于DeepSeek-R1/Gemini 2.0 Flash 。考虑到xAI团队 仅用1年从零起步 ,此进展堪称突破。

潜力与局限

✅ 搜索研究能力 已达Perplexity水平 ,但弱于OpenAI最新深度研究系统

❌ 存在典型LLM缺陷:长尾事实错误、伦理过度敏感、空间想象力不足

🚀 早期LMSys竞技场排名亮眼,期待后续系统评估

行业意义

此次升级印证xAI团队的惊人发展速度, Grok 3已跻身"顶级AI智囊团"候选之列。 尽管存在模型随机性等常规限制,其突破性进展为LLM领域注入新动力。

07-文末彩蛋

picture.image

“Grok与DeepSeek交流群” 限时开放,欢迎对 Grok-3、DeepSeek-R1 等大模型 感兴趣的朋友进群交流。 群内禁止一起广告,一经发现,立马移除,并永久加入黑名单!


关注我,AI热点早知道,AI算法早精通,AI产品早上线!

picture.image

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论