AIME满分之后,该如何验证LLM在数学竞赛上的能力?

大模型机器学习算法

大家好,我是刘聪NLP。

最近一直疲于进行大模型评测、汇总、还有一些落地经验分享,

论文读的都少了,很愧疚,后面要增加一些LLM相关的论文解读了。

做久评测就会常常发现,测试数据经常会失效,

模型能力在提高,如何进一步发现模型的不足,需要不断寻找新的切入点和角度来暴露模型的薄弱。

当然,最有意义的测评还是在真实场景里, 但我们也需要一套通用的基准榜单来做初筛。

就拿数学竞赛来说,

GPT-5 Pro、Qwen3-Max-Thinking、Grok4在AIME25、HMMT25上,都拿到了满分。

picture.image

但满分并不等于无敌,新的、更难的题目才能持续发现问题。

前两天刷到美团LongCat团队的一篇文章,提出了一个新的数学竞赛测试集AMO,发现顶级大模型均未及格(今天刚更新了Gemini3 Pro及格了),里面有一些经验结论、评估方法、数据集构造方法,给大家详细介绍一下。

  
Paperhttps://arxiv.org/pdf/2510.26768  
Github:https://github.com/meituan-longcat/AMO-Bench  
HFhttps://huggingface.co/datasets/meituan-longcat/AMO-Bench  

先看数据集的整体如下图所示,只有前两天最新的Gemini3.0 Pro及格了,63.1分。

PS:你谷哥是真猛呀!

picture.image

懒人快速预览版,

  • 所有模型在 AMO-Bench 上都表现不佳,表现最好的模型是Gemini3.0 Pro准确率仅为63.1%, GPT-5-Thinking (High)也仅为 52.4%。大多数模型准确率低于 40%
  • 推理模型普遍优于非推理模型,但一些非推理模型,例如Qwen3-Max-Instruct 表现超出预期,超过了一些推理模型
  • 开源模型与闭源模型之间的差距正在缩小,最佳开闭源之间准确率差距仅为7%
  • 准确越高的模型,通常输出越长。准确率超过40%的模型,平均输出Token数量普遍超过35K。Instruct模型也是输出越长准确率越高
  • 模型在更难的榜单上输出会更长。
  • 顶级模型在 AMO-Bench 上仍有很大潜力,Pass@32可以更好,能触达智力上限

下面说一下,AMO-Bench的数据集构造&评估上的细节,

AMO-Bench共50道题目,包括代数方程与不等式(11)、函数与数列(13)、几何(5)、数论(9)、组合数学(12)等5类,同时每道题配备了人工编写的详细解答,如下图所示,

picture.image

分析解题长度,对比MATH500和AIME24等,解答显著更长,说明其题目更复杂、推理更深。

同时数数据集构建涉及4个流程,数据创建、质量审查、原创性审查和难度审查,

picture.image

  • 数据创建,顶尖大学和教育机构的数学专家进行出题,每位出题人除提供最终答案外,还需给出详细的逐步解题过程,用于后续质量审查和难度评估。
  • 质量审查,每道候选题目需经过至少三位专家盲审,判断题目表述是否语义清晰、逻辑无误;同时知识点是否符合竞赛的知识范围。
  • 原创性审查,利用10-gram方法对比现有数据集,同时全网搜索剔除相似题目,最后还需要专家通过经验判断是否曾在以往竞赛中出现过高度相似的题目。
  • 难度审查,专家需要验证至少达到IMO难度标准,同时至少两个先进推理模型(如 GPT、DeepSeek、Gemini 系列)无法稳定回答这个问题。

数据集的评估,采用parser-based和LLM-based 两种方式,

针对数值、集合、表达式类题目(39道),采用parser-based方式评估,要求模型将答案放在 \boxed{} 中,使用 math-verify 工具进行解析与等价性判断。

引导模型回答提示词如下:

picture.image

针对描述类题目(11题),采用LLM-based方式评估,模型采用o4-mini,每道题进行5次独立评分,通过投票机制取多数结果最为最终得分。

LLM评分的提示词如下:

picture.image

检查了10个模型生成的1000条回答,评分准确率达到了99.2%,验证了评分方法的可靠性。

最终实验与分析,

所有模型在 AMO-Bench 上都表现不佳,表现最好的模型是Gemini3.0 Pro准确率仅为63.1%, GPT-5-Thinking (High)也仅为 52.4%。大多数模型准确率低于 40%。

推理模型普遍优于非推理模型,但一些非推理模型,例如Qwen3-Max-Instruct 表现超出预期,超过了一些推理模型。

开源模型与闭源模型之间的差距正在缩小,最佳开闭源之间准确率差距仅为7%。

picture.image

准确越高的模型,通常输出越长。准确率超过40%的模型,平均输出Token数量普遍超过35K。Instruct模型也是输出越长准确率越高。

同系列模型迭代可以体现在效率的提升,例如,o4-mini在相近 token 量下,正确率高于 o3-mini;

picture.image

模型在更难的榜单上输出会更长,

picture.image

同一模型正确率与输出长度对数呈近线性正相关,

picture.image

顶级模型在 AMO-Bench 上仍有很大潜力,Pass@32可以更好,能触达智力上限。

picture.image

最后,

评测集与大模型之间,一直都是一场博弈游戏,

现在数学方面评测,

从GSM8K的白送分,到MATH的逐渐饱和,再到最后AIME满分,

美团的AMO-Bench,算是给当下的顶级模型泼了一盆冷水,

大模型的逻辑推理能力,远未止步,但也远未完美。

当然我们需要思考,

模型满分后,我们该如何继续把它逼向真正的极限?

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论