这两天一直在各个地方出差,没有来得及更新文章。
昨晚睡之前其实已经看到OpenAI的预告了,
但实在是没有精力来跟了,
刚刚起来一看..果然更了,OpenAI上线了满血版O3和O4mini,
并且开源了Code类工具,我们来快速过一遍!
重要消息放前面: 从今天起,ChatGPT Plus、Pro 和 Team 用户注意啦!你们的模型选择器里,将会看到 o3、o4-mini 和 o4-mini-high 这几个新选项,它们会取代之前的 o1、o3-mini 和 o3-mini-high。
甲木我自己的账号已经变了(激动地搓手手)!
OpenAI界面
说实话,现在光聊模型参数提升了多少多少,感觉有点像数码圈天天喊“跑分又破纪录了!”,对咱们普通用户来说,感知可能没那么直接了。
毕竟,到了 o3、o4 这个级别,它们的“智力上限”已经不是我们随便问几个问题就能轻易触达的了。
但是!这次发布,有一个最重要的点 ,甲木我觉得是真正的大升级,是质变 ,必须划重点强调:
o3 和 o4-mini 是 O 系列中最新的视觉推理 (Visual reasoning) 模型,第一次能够在思维链中思考图像了! (这个是核弹级的!)
好了,废话不多说,照例,甲木我一个一个来给大家捋清楚,争取给大家快速汇报一遍,跟上节奏!
一、新王登基,跑分还得看!
虽然咱说跑分不代表一切,但它毕竟是衡量模型硬实力的重要参考。这部分我们快速过一下 o3 和 o4-mini 在各个领域的表现,看看新模型到底“猛”在哪里。
1. 知识与推理能力
简单来说,从 o1 到 o3/o4-mini,一路走来,模型越来越大、越来越聪明,还能接入越来越多的外部工具。
- o1 (初代): 基础不错,但数学、代码能力相对一般。
- o3-mini (优化版小弟): 架构改进,数学和代码能力有提升。
- o3 (完全体大哥): 模型更大,关键是 能用工具 !
- 比如 AIME 2024 数学竞赛,o3 自己思考能拿 91.6%,一旦允许它用 Python 这个“计算器+草稿纸”,准确率直接飙到 95.2% !工具的力量!
- o4-mini (新锐小钢炮): 架构更先进,即使不用工具,数学竞赛也能拿到 93.4% (已经比 o3 裸跑强了),用了 Python 更是冲到 98.7% !简直逆天!
榜单介绍
甲木小结: 在纯粹的数理逻辑和代码任务上,新模型(尤其 o4-mini)的“裸考”能力提升显著,而 o3 的强大则更多体现在能熟练运用工具来解决问题。
2. 多模态能力- 看图理解
用几个高难度的看图理解测试集(MMMU、MathVista、CharXiv-Reasoning,分别对应看图解数学题、看图找规律、看懂科研图表)来对比:
- o1: 看图能力比较基础,尤其在理解复杂的科研图表方面比较吃力 (55.1%)。
- o3:
全面碾压! 各项得分大幅提升,尤其 MathVista (视觉数学推理) 冲到 87.5%,CharXiv-Reasoning (科研图表) 也飙到 75.4%。这说明 o3 在 深度理解和推理图像内容 方面有了质的飞跃!
多模态
3. 代码能力
代码能力这块也是AI模型必争之地,我们来看看o3的表现..
几个代码能力测试(模拟接外包、刷 LeetCode、改 Bug)的结果显示:
- o3 依然是代码领域的王者 ,尤其是在模拟真实软件工程任务 (SWE-Lancer, SWE-Bench) 上表现突出,遥遥领先。
- o4-mini 在某些基准上表现也很好 (SWE-Bench),但在代码编辑 (Aider) 上似乎略逊于 o3 甚至 o3-mini?这点有点奇怪,可能是特定任务的优化方向不同。
4. 工具使用能力
- 多轮指令跟随 (记性+执行力): o3 表现更好,能更好地理解和记住复杂的、多轮的指令。
- 浏览器干活 (上网查资料):
- 普通模型能力一般。
- o3 + 工具 (Python+联网): 表现惊艳! 几乎能追上专门做深度研究的模型 (DeepResearch)。这说明 o3 在整合信息、利用工具进行复杂查询方面能力超强!
5. 幻觉率
一句话总结:
o3 更强,但也更“敢说”了,这意味着它在给出正确答案的同时,也更容易一本正经地胡说八道 (产生幻觉)! 使用 o3 时,交叉验证、事实核查 变得比以往更加重要!不要盲目相信它的每一个结论!o4-mini 则需要对其输出更加谨慎。
二、视觉推理!
好了,前面铺垫了这么多,终于来到这次发布真正的“灵魂”所在!
还记得我们吐槽 o1 系列最大的痛点吗?—— 不能用工具!
像个武林高手被绑住了手脚,空有一身内力(推理能力),却无法施展十八般武艺(调用外部工具)。
联网不行,跑代码不行,分析文件不行... 用起来那叫一个难受!
现在,o3 和 o4-mini,彻底解放了! 它们正在全面支持并整合之前的各类工具
这意味着什么?意味着 o3 和 o4-mini 更接近我们理想中的“代理型 AI (agentic AI)”了!
它们不再仅仅是被动回答问题的“知识库”,而是能主动获取信息、处理数据、执行任务的“智能助手”!
甲木大白话 - 从字典到全能秘书:
o1: 像一本超级牛的、会说话的活字典。你问它知识,它能答,但它不能帮你上网查最新消息,不能帮你算账,不能帮你画画。
o3/o4-mini: 像一个 装备齐全、技能点满的全能秘书 。她不仅知识渊博,还能随时上网查资料、用 Python 分析数据、帮你处理图片和文件、甚至画图、记住你的偏好... 你只需要下达指令,她就能调动各种工具帮你搞定!
当然,最重要的“核武器”还是——视觉推理!
这个能力,让 o3 和 o4-mini 首次实现了在思维链中思考图像!
这是什么概念?
用我之前的例子看下,思维链可读图
以前的 AI 看图: 像个眼神超好的“图片识别员”。它能告诉你图片里有什么物体(猫、狗、车、人),能识别文字,能打标签。但它理解不了图片背后的逻辑、空间关系、或者需要结合常识才能看懂的“梗”。它是在识别 ,不是在推理 。
现在的 o3/o4-mini 看图: 像个经验丰富的“侦探”或“分析师”。它不仅能看到图片表面有什么,还能:
- 理解图表和示意图 中的逻辑关系。
- 分析照片中的场景 ,推断地点、时间、甚至人物情绪。
- 结合图像和文本信息 进行复杂的推理。
- 在思考过程中“操作”图片 ,比如放大细节、旋转、甚至调用 Python 进行分析。
官方举了很多好玩的事例,
大家可以去看下:
时间原因,这次我来不及测试case,只能先行给大家预告一波OpenAI的本次更新了...
视觉推理的革命性意义在哪里?
- AI 真正开始“理解世界”了: 不再局限于文本符号,而是能直接从视觉信息中提取逻辑、进行 推理 。
- 开启全新的应用场景:
- 工业质检: AI 能看懂零件图纸,对比实物,判断瑕疵和装配错误。
- 建筑设计: AI 能分析草图,理解设计意图,甚至生成 3D 模型或施工建议。
- 自动驾驶: 车辆不仅能识别障碍物,更能理解复杂的交通场景和行人意图。
- 科学研究: AI 能分析显微镜图像、天文照片、实验数据图表,辅助科学家发现新规律。
- 人机交互方式的变革: 我们可以更自然地通过图像、图表、甚至手绘草图与 AI 交流复杂想法。
这就像 AI 从只能“听懂”语言,进化到既能听懂,又能“看懂”世界了! 这绝对是本次发布最最激动人心的一点!(当然,这里特指推理模型~)
三、彩蛋:开源编程工具 Codex CLI
发布会最后,OpenAI 还送上了一个“甜点”——开源了 Codex CLI 。
你可以把它理解为一个本地运行的 AI 编程小助手 。通过命令行界面,用自然语言告诉它你想干什么(构建、修复、解释代码),它就能帮你搞定。
发布会上那个用它实时读取摄像头画面、生成 ASCII 动态艺术字的演示,确实挺酷炫的,展示了它与本地环境交互的能力。
开源地址: https://github.com/openai/codex
对编程感兴趣的小伙伴可以去试试看。
结语
看着 OpenAI 这次掏出来的 o3 和 o4-mini,
尤其是那个视觉推理 能力...
我们还是要佩服老大哥OpenAI的实力的,
越来越期待未来两个月DeepSeek R2模型的发布了~
就像当年互联网的普及、智能手机的诞生一样,这种基础能力的范式能力进步 ,其影响往往是深远而广泛 的。
它可能会重塑很多行业的工作流程 ,可能会创造出我们现在难以想象的新应用 ,也可能会带来新的挑战和伦理问题 。
唯一可以确定的是:改变,正在发生,并且在加速。
我们能做的,就是保持好奇心 ,保持学习的热情 ,亲身去体验 ,去思考它对我们意味着什么 。
拥抱变化,而不是恐惧未知。
因为未来,已来。
好了,溜了溜了,我要滚去参加火山的活动去了。。有小伙伴在现场的可以面基哇!
我是「甲木」,这里每周为你分享AI应用、实用AI工具、AI方法和观点。
好了,今天的分享就到这里!信息量有点大,大家慢慢消化!
感觉这次 OpenAI 的发布怎么样?有没有被视觉推理震撼到?
别忘了给甲木点个【点赞👍】+【在看👀】+【转发↗️】,让更多人看到!
你的支持,是我持续输出硬核干货的不竭动力!
欢迎在评论区留下你的想法、疑问,或者你对这些新模型、新能力的期待!我们一起交流,共同成长!🤘
与我联系
欢迎三连(点赞+评论+转发 )!!
更多
关于AI基石-提示词如何学习入门请参考LangGPT提示词[1]
参考资料
[1] LangGPT: http://langgpt.ai/
