奥数撕碎AI神话,7款大模型数学能力测评

picture.image

猴哥的第 163 期分享,欢迎追看

数学,向来是检验 AI 实力的“硬核考场 ”——公式推导、逻辑链条、抽象思维。。。

3月26号,ETH 团队的研究直接击碎了「LLM会做数学题」的神话!

在2025年美国数学奥林匹克竞赛中,所有大模型的得分,均低于5%!

picture.image

问题来了:面对中文语料,LLM 做数学题,到底哪家强?

本文对国内外 7 款大模型开展实测,来一场 “数学巅峰对决”。

参赛题目 :阿里全球数学竞赛 + 中国奥赛真题。

参战选手

  • 国产: DeepSeek R1混元 T1通义 QwQ-32BYiXin-Distill-Qwen-72B
  • 国际: Grok 3 betaGemini 2.0 Flash Thinkingo3-mini

其中, 通义 QwQ-32BYiXin-Distill-Qwen-72B 笔者之前都有分享过:

比肩满血DS,阿里开源 QwQ-32B 本地部署,Ollma/vLLM 实测对比,消费级显卡可跑

最新开源推理模型 YiXin-Distill-Qwen-72B 开箱实测

  1. 先上结论

本次测评题目主要取自 阿里巴巴全球数学竞赛中国数学奥林匹克竞赛

共选择 10 道难度较高竞赛真题,有 13 个小问。

评估指标为:正确得 1 分,错误不得分,半对得 0.5 分。

各个模型的正确率为:

picture.image

详细得分情况如下:

picture.image

接下来,一起看看,下面这 10 道题你能搞定多少?

  1. 实测详情

Round 1:怎么找零

爷爷有 60 元钱,去超市买了 20 元蔬菜,收银员可能怎么给爷爷找零?

o3-mini

picture.image

Grok 3

picture.image

DeepSeek R1

picture.image

混元 T1

picture.image

Gemini 2.0 Flash Thinking

picture.image

YiXin-Distill-Qwen-72B

picture.image

这道题目相对简单,除了 混元 T1,其他模型都能搞定~

Round 2:步行距离

小明和小华每天走路去上学。小明每分钟走 48 米 ,小华每分钟走 55 米,小华从家到学校所用的时间比小明多 4 分钟 。小华家离学校有多远? 下面哪种方法是错误的 ,说说你的理由。

方法 1:55x4=220(米) 384+220=604(米)

方法 2:384/48=8(分) 55x(8+4)=660(米)

DeepSeek R1

picture.image

通义 QwQ

picture.image

YiXin-Distill-Qwen-72B

picture.image

上点难度,推理过程较长,但基本都能答对。

Round 3:看不见的塔

在某市有6座塔,分别位于点A、B、C、D、E、F。几位同学组成一个旅游小组去该市自由行动。经过一段时间后,每位同学都发现,自己只能看到位于A、B、C、D处的4座塔,而看不到位于E和F处的塔。已知:同学们的位置和塔的位置均视为同一平面上的点,且这些点彼此不重合。A、B、C、D、E、F中任意3点不共线。看不到塔的唯一可能就是视线被其他塔所阻挡。例如,如果某位同学所在的位置P和A、B共线,且A在线段PB上,那么该同学就看不到位于B处的塔。

请问:这个旅游小组最多可能有多少名同学?A. 3 B. 4 C. 6 D. 12

o3-mini

picture.image

DeepSeek R1

picture.image

YiXin-Distill-Qwen-72B

picture.image

上难度了,除了 o3-miniYiXin-Distill-Qwen-72B,其它模型全部干倒!

Round 4:虎虎生威

春节期间,某牛奶公司推出了一项新春盲盒活动:每盒牛奶附赠一个“红包”,其中包含“虎”“生”“威”三种图案之一。集齐两个“虎”、一个“生”和一个“威”即可拼成“虎虎生威”全家福。活动一经推出,便成为网红爆款,吸引了许多人参与。已知条件如下:红包上的图案是独立随机分布的,且无法从外表区分。“虎”“生”“威”三种图案出现的概率均为1/3。 问:为了集齐一整套“虎虎生威”全家福,平均需要购买多少盒牛奶?

DeepSeek R1

picture.image

混元 T1

picture.image

picture.image

YiXin-Distill-Qwen-72B

picture.image

Round 5:战机游戏

picture.image

o3-mini:成功搞定

picture.image

YiXin-Distill-Qwen-72B:做对一半

picture.image

这一轮,只有一半选手能够完全搞定,对模型的要求越来越高了!

Round 6:寻找最小非因子

除了选择题,我们还得测测更有挑战性的证明题!

picture.image

o3-mini

picture.image

YiXin-Distill-Qwen-72B

picture.image

这一轮,国产大模型中,只有 YiXin-Distill-Qwen-72B成功搞定!

Round 7:单位圆上的映射

picture.image

o3-mini

picture.image

YiXin-Distill-Qwen-72B

picture.image

一半选手答对~

Round 8:最大三角形

空间中有 1989 个点,任意三点不共线。将这些点分成 30 组,每组点数各不相同。从任意三个不同的组中各取一点作为顶点,可以构成一个三角形。 问: 如何分配每组的点数,使得构成的三角形个数最大?

o3-minipicture.image

YiXin-Distill-Qwen-72B

picture.image

Round 9:因子链

picture.image

o3-mini:答对一半

picture.image

YiXin-Distill-Qwen-72B:完全正确

picture.image

Round 10:等面积点

最后,来一道几何题:

picture.image

o3-mini

picture.image

DeepSeek R1

picture.image

YiXin-Distill-Qwen-72B

picture.image

  1. 观察和思考

以上,通过对多款大模型的数学能力测试,基本可以得出几个结论:

3.1. 模型基线提升很快

推理大模型在涉及多步推理的几何 、概率嵌套问题或开放性复杂应用题时, 表现都比之前有了大幅提升 ,进一步证明了“慢思考 ”的强大之处 。

3.2. 解题风格差异显著

o3-mini/Grok 3/通义 QwQ:解题步骤相对简洁,推理过程不啰嗦;

DeepSeek R1/混元 T1/YiXin:解题步骤较长,且推理过程中有很多反思,略显啰嗦;

Gemini 2.0 Flash Thinking:解题步骤最长,且推理过程全是英文,显然训练中文语料不足。

3.3. 纠错能力强

部分错误并非源于模型数学能力不足,而是对题意理解偏差或符号误读。测试时发现,尽管问题中出现符号局部错误,也不影响模型对题意的理解。

3.4. 未来方向:专业化与工具整合

尽管当前模型可以处理复杂数学问题,但准确率仍有待提升。

未来可通过以下路径让数学能力更上一层楼:

  • 插件扩展 :接入计算引擎(如 Wolfram Alpha )弥补符号运算短板;
  • 垂直训练 :针对数理逻辑构建专属微调数据集 ,强化推理因果链;
  • 交互式修正 :允许用户实时指出错误步骤,动态调整解题路径 。

3.5. 给用户的建议

学生群体 :可借助大模型快速验证基础题答案,但需警惕其对复杂问题的 自信式错误

教育工作者 :设计更 反套路题目以检验 AI 辅助下的真实学习效果;

开发者 :优化提示词设计,明确解题边界,避免模型 过度脑补

写在最后

不得不说,大模型的数学能力已经从玩具级 迈入工具级 ,并逐渐走向可信赖的研究级

未来的竞争或许聚焦于:谁能更精准地平衡思维模拟事实严谨性 ,敬请期待!

注:本文评测的 Yixin-Distill-Qwen-72B 现已开源👇

标准版:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B

量化版:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B-AWQ

本地部署:72B 标准版需「8 张 4090 显卡」,「AWQ 量化版」仅需 2 张卡即可。

全文完,如果对你有帮助,欢迎点赞收藏 备用。

👇 关注猴哥,快速入门AI工具

picture.image

# AI 工具:

本地部署大模型?看这篇就够了,Ollama 部署和实战

盘点9家免费且靠谱的AI大模型 API,统一封装,任性调用!

免费GPU算力本地跑DeepSeek R1,无惧官方服务繁忙!

# AI应用** :**

弃坑 Coze,我把 Dify 接入了个人微信,AI小助理太强了

我把「FLUX」接入了「小爱」,微信直接出图,告别一切绘画软件!

202K 下载!最强开源OCR:本地部署,邀你围观体验

阿里开源TTS CosyVoice 再升级!语音克隆玩出新花样,支持流式输出

借 WeChatFerry 东风,我把微信机器人复活了!

成本不到50的AI对话机器人,如何自建服务端?自定义角色+语音克隆

0
0
0
0
评论
未登录
暂无评论