文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

大模型向量数据库机器学习

OpenAI 在"12 天马拉松"发布会的最后一天重磅推出了 o3 系列模型，包括 o3 和o3-mini 两款产品，在多项关键基准测试中刷新纪录。

picture.image

本次 o3 的核心技术突破主要体现在以下几个方面：

数学推理能力大幅提升

AIME 2024 数学竞赛得分 96.7%，仅错一题
Frontier Math 基准测试达 25.2%，远超其他模型不足 2%的水平
GPQA Diamond 博士级科学问答达 87.7%准确率

编程能力显著增强

SWE-bench Verified 基准超 o1 达22.8 个百分点
Codeforces 评分达 2727 分，位列全球前 200
代码生成速度和准确性大幅提升

创新的"思考模式"机制

提供低、中、高三档计算强度选择
可根据任务难度自动调整推理深度
高强度模式下接近人类专家水平

值得注意的是，o3 的强大性能伴随着显著的计算成本。根据 Keras 之父 Francois Chollet 的披露，在低计算量模式下每个任务需要约 20 美元，而在高计算量模式下单个任务成本可达数千美元。

OpenAI 计划于 2025年1月底首先发布 o3-mini 版本，随后推出完整版 o3 。

这次发布标志着 AI 推理能力迈入新阶段，但高昂的使用成本也给其大规模应用带来挑战，难怪之前传言会有2000美元一个月的高额订阅呢！如果他们替代10个程序猿，这笔生意老板会如何选择？还是程序猿为了防止被取代而自费订阅加剧内卷呢？

后台回复“进群”入群讨论。

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

CV 技术在视频创作中的应用

本次演讲将介绍在拍摄、编辑等场景，我们如何利用 AI 技术赋能创作者；以及基于这些场景，字节跳动积累的领先技术能力。

相关产品

推荐阅读

PromptPilot 与豆包新模型：从图片到视频，解锁 AI 新玩法

中国版 Whisper 来了，5分钟带你部署体验

超强！实时AI换脸，支持任意角色替换，5分钟部署体验

无惧 OpenAI 封禁，Coze API 邀你免费用 GPT，两种部署方式，手把手教

一文梳理 Nvidia驱动/CUDA/CUDNN/PyTorch/Paddle 版本兼容&安装问题

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论