OpenAI 在"12 天马拉松"发布会的最后一天重磅推出了 o3 系列模型,包括 o3 和o3-mini 两款产品,在多项关键基准测试中刷新纪录。
本次 o3 的核心技术突破主要体现在以下几个方面:
- 数学推理能力大幅提升
- AIME 2024 数学竞赛得分 96.7%,仅错一题
- Frontier Math 基准测试达 25.2%,远超其他模型不足 2%的水平
- GPQA Diamond 博士级科学问答达 87.7%准确率
- 编程能力显著增强
- SWE-bench Verified 基准超 o1 达22.8 个百分点
- Codeforces 评分达 2727 分,位列全球前 200
- 代码生成速度和准确性大幅提升
- 创新的"思考模式"机制
- 提供低、中、高三档计算强度选择
- 可根据任务难度自动调整推理深度
- 高强度模式下接近人类专家水平
值得注意的是,o3 的强大性能伴随着显著的计算成本。根据 Keras 之父 Francois Chollet 的披露,在低计算量模式下每个任务需要约 20 美元,而在高计算量模式下单个任务成本可达数千美元。
OpenAI 计划于 2025年1月底首先发布 o3-mini 版本,随后推出完整版 o3 。
这次发布标志着 AI 推理能力迈入新阶段,但高昂的使用成本也给其大规模应用带来挑战,难怪之前传言会有2000美元一个月的高额订阅呢!如果他们替代10个程序猿,这笔生意老板会如何选择?还是程序猿为了防止被取代而自费订阅加剧内卷呢?
后台回复“进群”入群讨论。