打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
01-Grok-3 vs o3mini vs DS
如上面的视频所示,部分网友调侃到:
说OpenAI创始人奥特曼看到Grok-3之后的表现是这样的 ,大家笑笑就可以了,不可当真。
除此之外,网上也有朋友表示,
Grok-3开发团队在发布Grok-3时的兴奋表现 ,这和上面刚好形成了一个鲜明的对比。
上面的视频展示了外国网友利用相同的文本提示(在矩形框中有一个黄色的小球,避免碰撞,让矩形框缓慢的旋转)在Grok-3、o1-pro、DeepSeek-R1上面生成的效果,
Grok-3生成的结果明显更优一些。
02-Grok-3简介
埃隆·马斯克旗下
xAI公司于2025年2月18日正式发布的 新一代人工智能大模型Grok-3,该模型被定位为 “地球上最聪明的AI” ,在性能、功能和应用场景上展现了显著突破。
Grok-3是马斯克公司xAI搞的新一代AI大模型,简单说就是个超级聪明的"人工大脑"。相比之前的版本, 它脑子更复杂(参数更多,可能接近甚至超过GPT-4),理解能力更强,能处理超长对话、分析复杂数据,还能联网获取最新信息。 这货特别擅长讲人话,能把专业问题说得通俗易懂, 既能陪你唠嗑写段子,也能正经搞编程、做数据分析。 最牛的是它能像真人一样思考问题背后的逻辑,而不是机械式回复。目前还没完全开放,但估计会用在特斯拉、社交媒体这些马斯克的产业里。
03-Grok-3特性分析
03.01-技术突破与性能表现
- 训练规模与效率: Grok-3训练动用了 20万张GPU(部分报道称基于10万块英伟达H100 GPU打造的Colossus超级计算机) ,训练量是前代Grok-2的10倍,大幅缩短开发周期124。通过 合成数据、自我纠错和强化学习技术 优化了模型性能24。
- 性能优势: 在 数学推理 (如AIME 2025测试得分93分)、 科学逻辑 (GPQA博士级问题测试)及 编程能力 测试中,Grok-3表现超越DeepSeek-R1、o3-mini、Gemini-2 Pro等竞品。在Chatbot Arena榜单中, Grok-3以1402分 成为首个突破1400分的模型210。
03.02-核心功能亮点
- 深度搜索(DeepSearch): 集成智能搜索引擎,可联网分析信息、验证数据可信度,并按 照分步逻辑展示思考过程 (例如预测星舰发射时间),显著提升搜索效率。
- 强大的智能体能力: 支持自主决策与处理复杂任务,如太空轨迹规划、生成3D动画模型等,展现了多模态分析与推理能力。
- 自我修正机制: 通过 反思和删除错误数据 提高输出可靠性。
03.03-商业化与开源策略
- 订阅服务: 推出“Super Grok”高级订阅( 每月30美元/每年300美元 ),优先向X Premium Plus用户开放;基础版通过网页端逐步推广。
- 开源计划: 遵循“新版本发布后开源旧版”策略, Grok-2将在Grok-3稳定后开源 ,未来数月 可能开源Grok-3 。
04-Grok-3应用场景
04.01-仿真小球弹跳
问题: “编写一个python脚本,描述 一个球在旋转的曲面内弹跳 ”。
网友描述到,上面的输出并没有启用“思考”或“大脑”模式,这只是基本模式。
04.02-模拟数字球体
问题:
我想用p5.js模拟 一个由ASCII数字组成的球体, 旋转。在黑色背景上,最接近的数字应该是纯白色的,最远的数字应该逐渐变为灰色。
04.03-模拟粒子运动
问题:
编写一个p5.js脚本,在圆柱形容器的真空空间中模拟25个粒子,在其边界内反弹。为每个球使用不同的颜色,并确保它们留下显示其运动的痕迹。添加容器的缓慢旋转,以更好地查看场景中发生的事情。确保创建适当的碰撞检测和物理规则,以确保粒子留在容器中。添加外部球形容器。为整个场景添加缓慢的放大和缩小效果。
04.04-创建贪吃蛇游戏
问题:利用p5.js实现一个蛇相互竞争的贪吃蛇游戏。
04.05-小球碰撞检测
问题: 利用p5.js
为球体内100个黄色弹跳编写一个脚本,确保正确处理碰撞检测。使球体缓慢旋转,并确保球保持在球体内。
04.06-图片生成
04.07-3D资产生成
上面的视频是网友
利用Grok-3和TRIPO生成的3D资产 ,可能是先试用Grok-3生成图片,然后利用TRIPO生成3D资产。
05-Grok-3性能评估
上图展示了lmarena.ai维护的一份大模型榜单,我们可以观察到
Early Grok-3排在榜首的位置,获得了1402的得分结果,而DeepSeek-R1位居第五。
上表展示了多个SOTA的模型(Grok-3、Grok-3 mini、o3mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking)在推理及测试时间计算过程中的多项客观指标评估结果。通过仔细观察与分析,我们可以发现:
Grok-3 mini在多项评估指标上面获得最佳的得分,比DeepSeek-R1高出了一大截。
上表展示了多个SOTA的大模型(Grok-3、Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude3.5 Sonnet、GPT-4o)在Benchmark上面的各项指标(数学、科学、代码)评估结果。通过观察与分析,我们可以发现:
Grok-3遥遥领先,在指标上远超其它几个模型。
06-Grok-3实测效果剖析
由于小编并没有内测资格,有幸看到
Andrej Karpathy大佬的评测结果,这里略作简单的总结:
1、思维模式(Thinking)测评结论
✅
卡坦岛地图生成测试-- Grok 3通过"深度思考"功能完美生成可调节环数的六边形网格网页代码,表现与OpenAI顶级付费模型相当,而DeepSeek-R1、Gemini 2.0 Flash和Claude均失败。
❌
Emoji隐藏信息解码挑战-- 给予Unicode变体选择器加密的"笑脸+隐藏信息"及Rust解码提示后,Grok 3未能破解。目前仅DeepSeek-R1曾部分破译。
✅
井字棋难题解析-- 基础棋局推理逻辑清晰(优于多数顶尖模型),但生成"复杂棋局"时与o1-pro同样失败。
✅
GPT-2训练算力估算-- 要求根据论文推算训练FLOPs(需综合文本量估算、参数计算等能力)。Grok 3通过思考模式精准完成(100B tokens ×1.5B参数×6 FLOPs=1e21 FLOPs),而Grok 4o/o1-pro失败。
✅
黎曼猜想探索勇气-- 与DeepSeek-R1类似,Grok 3会主动尝试推演(而非像o1-pro/Claude/Gemini直接放弃),展现出独特的研究型AI特质。
2、深度搜索(DeepSearch)实测
✅
主流信息检索-- 成功回答苹果发布会传闻、Palantir股价波动、《白莲花度假村》拍摄地等常见搜索问题,质量接近Perplexity DeepResearch。
❌
长尾问题缺陷
- 虚构不存在的URL
- 误报《单身即地狱》第四季情侣现状
- 忽略xAI自身在"头部LLM实验室"报告中的存在
- 无法回答Simon Willison提及的语音转文字工具
3、经典LLM陷阱测试
✅
基础能力突破
- 识别"strawberry"含3个r(需思考模式修正"LOLLAPALOOZA"的L计数错误)
- 通过思考正确判断9.11>9.9的数学谬误
- 正确解答"Sally姐妹数量"逻辑题(GPT-4o答错)
❌
现存短板
- 幽默生成
:仍局限于"鸡为什么加入乐队?因为它有鼓槌!"式老套笑话
- 伦理敏感性
:对"为救人而错误称呼性别"的假设场景生成万字拒答
- SVG图像生成
:鹈鹕骑自行车SVG存在构图缺陷(Claude表现最佳)
核心结论
:
Grok 3+Thinking组合在2小时密集测试中展现出与OpenAI o1-pro相当的顶尖能力, 略优于DeepSeek-R1/Gemini 2.0 Flash 。考虑到xAI团队 仅用1年从零起步 ,此进展堪称突破。
潜力与局限
:
✅ 搜索研究能力 已达Perplexity水平 ,但弱于OpenAI最新深度研究系统
❌ 存在典型LLM缺陷:长尾事实错误、伦理过度敏感、空间想象力不足
🚀 早期LMSys竞技场排名亮眼,期待后续系统评估
行业意义
:
此次升级印证xAI团队的惊人发展速度, Grok 3已跻身"顶级AI智囊团"候选之列。 尽管存在模型随机性等常规限制,其突破性进展为LLM领域注入新动力。
07-文末彩蛋
“Grok与DeepSeek交流群” 限时开放,欢迎对 Grok-3、DeepSeek-R1 等大模型 感兴趣的朋友进群交流。 群内禁止一起广告,一经发现,立马移除,并永久加入黑名单!
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!
若二维码失效:关注公众号--》交流分享--》联系我们