老大哥还在C！OpenAI全量发布O3和O4-mini！视觉推理来了！ - 文章 - 开发者社区

这两天一直在各个地方出差，没有来得及更新文章。

昨晚睡之前其实已经看到OpenAI的预告了，

但实在是没有精力来跟了，

刚刚起来一看..果然更了，OpenAI上线了满血版O3和O4mini，

picture.image

并且开源了Code类工具，我们来快速过一遍！

重要消息放前面：从今天起，ChatGPT Plus、Pro 和 Team 用户注意啦！你们的模型选择器里，将会看到 o3、o4-mini 和 o4-mini-high 这几个新选项，它们会取代之前的 o1、o3-mini 和 o3-mini-high。

甲木我自己的账号已经变了（激动地搓手手）！

picture.image

OpenAI界面

说实话，现在光聊模型参数提升了多少多少，感觉有点像数码圈天天喊“跑分又破纪录了！”，对咱们普通用户来说，感知可能没那么直接了。

毕竟，到了 o3、o4 这个级别，它们的“智力上限”已经不是我们随便问几个问题就能轻易触达的了。

但是！这次发布，有一个最重要的点 ，甲木我觉得是真正的大升级，是质变 ，必须划重点强调：

o3 和 o4-mini 是 O 系列中最新的视觉推理 (Visual reasoning) 模型，第一次能够在思维链中思考图像了！ （这个是核弹级的！）

好了，废话不多说，照例，甲木我一个一个来给大家捋清楚，争取给大家快速汇报一遍，跟上节奏！

一、新王登基，跑分还得看！

虽然咱说跑分不代表一切，但它毕竟是衡量模型硬实力的重要参考。这部分我们快速过一下 o3 和 o4-mini 在各个领域的表现，看看新模型到底“猛”在哪里。

1. 知识与推理能力

简单来说，从 o1 到 o3/o4-mini，一路走来，模型越来越大、越来越聪明，还能接入越来越多的外部工具。

o1 (初代): 基础不错，但数学、代码能力相对一般。
o3-mini (优化版小弟): 架构改进，数学和代码能力有提升。
o3 (完全体大哥): 模型更大，关键是 能用工具 ！

比如 AIME 2024 数学竞赛，o3 自己思考能拿 91.6%，一旦允许它用 Python 这个“计算器+草稿纸”，准确率直接飙到 95.2% ！工具的力量！

o4-mini (新锐小钢炮): 架构更先进，即使不用工具，数学竞赛也能拿到 93.4% (已经比 o3 裸跑强了)，用了 Python 更是冲到 98.7% ！简直逆天！

picture.image

榜单介绍

甲木小结: 在纯粹的数理逻辑和代码任务上，新模型（尤其 o4-mini）的“裸考”能力提升显著，而 o3 的强大则更多体现在能熟练运用工具来解决问题。

2. 多模态能力- 看图理解

用几个高难度的看图理解测试集（MMMU、MathVista、CharXiv-Reasoning，分别对应看图解数学题、看图找规律、看懂科研图表）来对比：

o1: 看图能力比较基础，尤其在理解复杂的科研图表方面比较吃力 (55.1%)。
o3:

全面碾压！ 各项得分大幅提升，尤其 MathVista (视觉数学推理) 冲到 87.5%，CharXiv-Reasoning (科研图表) 也飙到 75.4%。这说明 o3 在 深度理解和推理图像内容 方面有了质的飞跃！

picture.image

多模态

3. 代码能力

代码能力这块也是AI模型必争之地，我们来看看o3的表现..

picture.image

几个代码能力测试（模拟接外包、刷 LeetCode、改 Bug）的结果显示：

o3 依然是代码领域的王者 ，尤其是在模拟真实软件工程任务 (SWE-Lancer, SWE-Bench) 上表现突出，遥遥领先。
o4-mini 在某些基准上表现也很好 (SWE-Bench)，但在代码编辑 (Aider) 上似乎略逊于 o3 甚至 o3-mini？这点有点奇怪，可能是特定任务的优化方向不同。

4. 工具使用能力

多轮指令跟随 (记性+执行力): o3 表现更好，能更好地理解和记住复杂的、多轮的指令。
浏览器干活 (上网查资料):

普通模型能力一般。
o3 + 工具 (Python+联网): 表现惊艳！ 几乎能追上专门做深度研究的模型 (DeepResearch)。这说明 o3 在整合信息、利用工具进行复杂查询方面能力超强！

5. 幻觉率

一句话总结:

o3 更强，但也更“敢说”了，这意味着它在给出正确答案的同时，也更容易一本正经地胡说八道 (产生幻觉)！ 使用 o3 时，交叉验证、事实核查 变得比以往更加重要！不要盲目相信它的每一个结论！o4-mini 则需要对其输出更加谨慎。

二、视觉推理！

好了，前面铺垫了这么多，终于来到这次发布真正的“灵魂”所在！

还记得我们吐槽 o1 系列最大的痛点吗？—— 不能用工具！

像个武林高手被绑住了手脚，空有一身内力（推理能力），却无法施展十八般武艺（调用外部工具）。

联网不行，跑代码不行，分析文件不行... 用起来那叫一个难受！

现在，o3 和 o4-mini，彻底解放了！ 它们正在全面支持并整合之前的各类工具

这意味着什么？意味着 o3 和 o4-mini 更接近我们理想中的“代理型 AI (agentic AI)”了！

它们不再仅仅是被动回答问题的“知识库”，而是能主动获取信息、处理数据、执行任务的“智能助手”！

甲木大白话 - 从字典到全能秘书:

o1: 像一本超级牛的、会说话的活字典。你问它知识，它能答，但它不能帮你上网查最新消息，不能帮你算账，不能帮你画画。

o3/o4-mini: 像一个 装备齐全、技能点满的全能秘书 。她不仅知识渊博，还能随时上网查资料、用 Python 分析数据、帮你处理图片和文件、甚至画图、记住你的偏好... 你只需要下达指令，她就能调动各种工具帮你搞定！

当然，最重要的“核武器”还是——视觉推理！

这个能力，让 o3 和 o4-mini 首次实现了在思维链中思考图像！

这是什么概念？

picture.image

用我之前的例子看下，思维链可读图

以前的 AI 看图： 像个眼神超好的“图片识别员”。它能告诉你图片里有什么物体（猫、狗、车、人），能识别文字，能打标签。但它理解不了图片背后的逻辑、空间关系、或者需要结合常识才能看懂的“梗”。它是在识别，不是在推理。

现在的 o3/o4-mini 看图： 像个经验丰富的“侦探”或“分析师”。它不仅能看到图片表面有什么，还能：

理解图表和示意图 中的逻辑关系。
分析照片中的场景 ，推断地点、时间、甚至人物情绪。
结合图像和文本信息 进行复杂的推理。
在思考过程中“操作”图片 ，比如放大细节、旋转、甚至调用 Python 进行分析。

官方举了很多好玩的事例，

picture.image

大家可以去看下：

picture.image

时间原因，这次我来不及测试case，只能先行给大家预告一波OpenAI的本次更新了...

picture.image

https://openai.com/index/thinking-with-images/

视觉推理的革命性意义在哪里？

AI 真正开始“理解世界”了: 不再局限于文本符号，而是能直接从视觉信息中提取逻辑、进行推理。
开启全新的应用场景:

工业质检: AI 能看懂零件图纸，对比实物，判断瑕疵和装配错误。
建筑设计: AI 能分析草图，理解设计意图，甚至生成 3D 模型或施工建议。
自动驾驶: 车辆不仅能识别障碍物，更能理解复杂的交通场景和行人意图。
科学研究: AI 能分析显微镜图像、天文照片、实验数据图表，辅助科学家发现新规律。

人机交互方式的变革: 我们可以更自然地通过图像、图表、甚至手绘草图与 AI 交流复杂想法。

这就像 AI 从只能“听懂”语言，进化到既能听懂，又能“看懂”世界了！ 这绝对是本次发布最最激动人心的一点！（当然，这里特指推理模型~）

三、彩蛋：开源编程工具 Codex CLI

发布会最后，OpenAI 还送上了一个“甜点”——开源了 Codex CLI 。

picture.image

你可以把它理解为一个本地运行的 AI 编程小助手 。通过命令行界面，用自然语言告诉它你想干什么（构建、修复、解释代码），它就能帮你搞定。

发布会上那个用它实时读取摄像头画面、生成 ASCII 动态艺术字的演示，确实挺酷炫的，展示了它与本地环境交互的能力。

开源地址: https://github.com/openai/codex

对编程感兴趣的小伙伴可以去试试看。

结语

看着 OpenAI 这次掏出来的 o3 和 o4-mini，

尤其是那个视觉推理 能力...

我们还是要佩服老大哥OpenAI的实力的，

越来越期待未来两个月DeepSeek R2模型的发布了~

就像当年互联网的普及、智能手机的诞生一样，这种基础能力的范式能力进步 ，其影响往往是深远而广泛 的。

它可能会重塑很多行业的工作流程 ，可能会创造出我们现在难以想象的新应用 ，也可能会带来新的挑战和伦理问题 。

唯一可以确定的是：改变，正在发生，并且在加速。

我们能做的，就是保持好奇心 ，保持学习的热情 ，亲身去体验 ，去思考它对我们意味着什么 。

拥抱变化，而不是恐惧未知。

因为未来，已来。

好了，溜了溜了，我要滚去参加火山的活动去了。。有小伙伴在现场的可以面基哇！

我是「甲木」，这里每周为你分享AI应用、实用AI工具、AI方法和观点。

好了，今天的分享就到这里！信息量有点大，大家慢慢消化！

感觉这次 OpenAI 的发布怎么样？有没有被视觉推理震撼到？

别忘了给甲木点个【点赞👍】+【在看👀】+【转发↗️】，让更多人看到！

你的支持，是我持续输出硬核干货的不竭动力！

欢迎在评论区留下你的想法、疑问，或者你对这些新模型、新能力的期待！我们一起交流，共同成长！🤘

picture.image

与我联系

欢迎三连（点赞+评论+转发 ）！！

关于AI基石-提示词如何学习入门请参考LangGPT提示词[1]

参考资料

[1] LangGPT: http://langgpt.ai/