奥数撕碎AI神话，7款大模型数学能力测评 - 文章 - 开发者社区

picture.image

猴哥的第 163 期分享，欢迎追看

数学，向来是检验 AI 实力的“硬核考场 ”——公式推导、逻辑链条、抽象思维。。。

3月26号，ETH 团队的研究直接击碎了「LLM会做数学题」的神话！

在2025年美国数学奥林匹克竞赛中，所有大模型的得分，均低于5%！

picture.image

问题来了：面对中文语料，LLM 做数学题，到底哪家强？

本文对国内外 7 款大模型开展实测，来一场 “数学巅峰对决”。

参赛题目 ：阿里全球数学竞赛 + 中国奥赛真题。

参战选手 ：

国产： DeepSeek R1 、 混元 T1 、 通义 QwQ-32B 、 YiXin-Distill-Qwen-72B
国际： Grok 3 beta 、 Gemini 2.0 Flash Thinking 、 o3-mini

其中， 通义 QwQ-32B 和 YiXin-Distill-Qwen-72B 笔者之前都有分享过：

比肩满血DS，阿里开源 QwQ-32B 本地部署，Ollma/vLLM 实测对比，消费级显卡可跑

最新开源推理模型 YiXin-Distill-Qwen-72B 开箱实测

先上结论

本次测评题目主要取自 阿里巴巴全球数学竞赛和 中国数学奥林匹克竞赛。

共选择 10 道难度较高竞赛真题，有 13 个小问。

评估指标为：正确得 1 分，错误不得分，半对得 0.5 分。

各个模型的正确率为：

picture.image

详细得分情况如下：

picture.image

接下来，一起看看，下面这 10 道题你能搞定多少？

实测详情

Round 1：怎么找零

爷爷有 60 元钱，去超市买了 20 元蔬菜，收银员可能怎么给爷爷找零？

o3-mini

picture.image

Grok 3

picture.image

DeepSeek R1

picture.image

混元 T1

picture.image

Gemini 2.0 Flash Thinking

picture.image

YiXin-Distill-Qwen-72B

picture.image

这道题目相对简单，除了 混元 T1，其他模型都能搞定~

Round 2：步行距离

小明和小华每天走路去上学。小明每分钟走 48 米，小华每分钟走 55 米，小华从家到学校所用的时间比小明多 4 分钟。小华家离学校有多远？下面哪种方法是错误的，说说你的理由。

方法 1:55x4=220（米） 384+220=604（米）

方法 2:384/48=8（分） 55x（8+4）=660（米）

DeepSeek R1

picture.image

通义 QwQ

picture.image

YiXin-Distill-Qwen-72B

picture.image

上点难度，推理过程较长，但基本都能答对。

Round 3：看不见的塔

在某市有6座塔，分别位于点A、B、C、D、E、F。几位同学组成一个旅游小组去该市自由行动。经过一段时间后，每位同学都发现，自己只能看到位于A、B、C、D处的4座塔，而看不到位于E和F处的塔。已知：同学们的位置和塔的位置均视为同一平面上的点，且这些点彼此不重合。A、B、C、D、E、F中任意3点不共线。看不到塔的唯一可能就是视线被其他塔所阻挡。例如，如果某位同学所在的位置P和A、B共线，且A在线段PB上，那么该同学就看不到位于B处的塔。

请问：这个旅游小组最多可能有多少名同学？A. 3 B. 4 C. 6 D. 12

o3-mini

picture.image

DeepSeek R1

picture.image

YiXin-Distill-Qwen-72B

picture.image

上难度了，除了 o3-mini 和 YiXin-Distill-Qwen-72B，其它模型全部干倒！

Round 4：虎虎生威

春节期间，某牛奶公司推出了一项新春盲盒活动：每盒牛奶附赠一个“红包”，其中包含“虎”“生”“威”三种图案之一。集齐两个“虎”、一个“生”和一个“威”即可拼成“虎虎生威”全家福。活动一经推出，便成为网红爆款，吸引了许多人参与。已知条件如下：红包上的图案是独立随机分布的，且无法从外表区分。“虎”“生”“威”三种图案出现的概率均为1/3。问：为了集齐一整套“虎虎生威”全家福，平均需要购买多少盒牛奶？

DeepSeek R1

picture.image