收官!OpenAI 发布 o3:单题最高耗费数千美元,数学编程能力创纪录

大模型向量数据库机器学习

OpenAI 在"12 天马拉松"发布会的最后一天重磅推出了 o3 系列模型,包括 o3 和o3-mini 两款产品,在多项关键基准测试中刷新纪录。

picture.image

本次 o3 的核心技术突破主要体现在以下几个方面:

  1. 数学推理能力大幅提升picture.image
  • AIME 2024 数学竞赛得分 96.7%,仅错一题
  • Frontier Math 基准测试达 25.2%,远超其他模型不足 2%的水平
  • GPQA Diamond 博士级科学问答达 87.7%准确率
  1. 编程能力显著增强picture.image
  • SWE-bench Verified 基准超 o1 达22.8 个百分点
  • Codeforces 评分达 2727 分,位列全球前 200
  • 代码生成速度和准确性大幅提升
  1. 创新的"思考模式"机制picture.image
  • 提供低、中、高三档计算强度选择
  • 可根据任务难度自动调整推理深度
  • 高强度模式下接近人类专家水平

值得注意的是,o3 的强大性能伴随着显著的计算成本。根据 Keras 之父 Francois Chollet 的披露,在低计算量模式下每个任务需要约 20 美元,而在高计算量模式下单个任务成本可达数千美元。

OpenAI 计划于 2025年1月底首先发布 o3-mini 版本,随后推出完整版 o3 。

这次发布标志着 AI 推理能力迈入新阶段,但高昂的使用成本也给其大规模应用带来挑战,难怪之前传言会有2000美元一个月的高额订阅呢!如果他们替代10个程序猿,这笔生意老板会如何选择?还是程序猿为了防止被取代而自费订阅加剧内卷呢?

后台回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论