猴哥的第 163 期分享,欢迎追看
数学,向来是检验 AI 实力的“硬核考场 ”——公式推导、逻辑链条、抽象思维。。。
3月26号,ETH 团队的研究直接击碎了「LLM会做数学题」的神话!
在2025年美国数学奥林匹克竞赛中,所有大模型的得分,均低于5%!
问题来了:面对中文语料,LLM 做数学题,到底哪家强?
本文对国内外 7 款大模型开展实测,来一场 “数学巅峰对决”。
参赛题目 :阿里全球数学竞赛 + 中国奥赛真题。
参战选手 :
- 国产:
DeepSeek R1、混元 T1、通义 QwQ-32B、YiXin-Distill-Qwen-72B - 国际:
Grok 3 beta、Gemini 2.0 Flash Thinking、o3-mini
其中, 通义 QwQ-32B 和 YiXin-Distill-Qwen-72B 笔者之前都有分享过:
比肩满血DS,阿里开源 QwQ-32B 本地部署,Ollma/vLLM 实测对比,消费级显卡可跑
最新开源推理模型 YiXin-Distill-Qwen-72B 开箱实测
- 先上结论
本次测评题目主要取自 阿里巴巴全球数学竞赛和 中国数学奥林匹克竞赛。
共选择 10 道难度较高竞赛真题,有 13 个小问。
评估指标为:正确得 1 分,错误不得分,半对得 0.5 分。
各个模型的正确率为:
详细得分情况如下:
接下来,一起看看,下面这 10 道题你能搞定多少?
- 实测详情
Round 1:怎么找零
爷爷有 60 元钱,去超市买了 20 元蔬菜,收银员可能怎么给爷爷找零?
o3-mini
Grok 3
DeepSeek R1
混元 T1
Gemini 2.0 Flash Thinking
YiXin-Distill-Qwen-72B
这道题目相对简单,除了 混元 T1,其他模型都能搞定~
Round 2:步行距离
小明和小华每天走路去上学。小明每分钟走 48 米 ,小华每分钟走 55 米,小华从家到学校所用的时间比小明多 4 分钟 。小华家离学校有多远? 下面哪种方法是错误的 ,说说你的理由。
方法 1:55x4=220(米) 384+220=604(米)
方法 2:384/48=8(分) 55x(8+4)=660(米)
DeepSeek R1
通义 QwQ
YiXin-Distill-Qwen-72B
上点难度,推理过程较长,但基本都能答对。
Round 3:看不见的塔
在某市有6座塔,分别位于点A、B、C、D、E、F。几位同学组成一个旅游小组去该市自由行动。经过一段时间后,每位同学都发现,自己只能看到位于A、B、C、D处的4座塔,而看不到位于E和F处的塔。已知:同学们的位置和塔的位置均视为同一平面上的点,且这些点彼此不重合。A、B、C、D、E、F中任意3点不共线。看不到塔的唯一可能就是视线被其他塔所阻挡。例如,如果某位同学所在的位置P和A、B共线,且A在线段PB上,那么该同学就看不到位于B处的塔。
请问:这个旅游小组最多可能有多少名同学?A. 3 B. 4 C. 6 D. 12
o3-mini
DeepSeek R1
YiXin-Distill-Qwen-72B
上难度了,除了 o3-mini 和 YiXin-Distill-Qwen-72B,其它模型全部干倒!
Round 4:虎虎生威
春节期间,某牛奶公司推出了一项新春盲盒活动:每盒牛奶附赠一个“红包”,其中包含“虎”“生”“威”三种图案之一。集齐两个“虎”、一个“生”和一个“威”即可拼成“虎虎生威”全家福。活动一经推出,便成为网红爆款,吸引了许多人参与。已知条件如下:红包上的图案是独立随机分布的,且无法从外表区分。“虎”“生”“威”三种图案出现的概率均为1/3。 问:为了集齐一整套“虎虎生威”全家福,平均需要购买多少盒牛奶?
DeepSeek R1
混元 T1
YiXin-Distill-Qwen-72B
Round 5:战机游戏
o3-mini:成功搞定
YiXin-Distill-Qwen-72B:做对一半
这一轮,只有一半选手能够完全搞定,对模型的要求越来越高了!
Round 6:寻找最小非因子
除了选择题,我们还得测测更有挑战性的证明题!
o3-mini
YiXin-Distill-Qwen-72B
这一轮,国产大模型中,只有 YiXin-Distill-Qwen-72B成功搞定!
Round 7:单位圆上的映射
o3-mini
YiXin-Distill-Qwen-72B
一半选手答对~
Round 8:最大三角形
空间中有 1989 个点,任意三点不共线。将这些点分成 30 组,每组点数各不相同。从任意三个不同的组中各取一点作为顶点,可以构成一个三角形。 问: 如何分配每组的点数,使得构成的三角形个数最大?
o3-mini
YiXin-Distill-Qwen-72B
Round 9:因子链
o3-mini:答对一半
YiXin-Distill-Qwen-72B:完全正确
Round 10:等面积点
最后,来一道几何题:
o3-mini
DeepSeek R1
YiXin-Distill-Qwen-72B
- 观察和思考
以上,通过对多款大模型的数学能力测试,基本可以得出几个结论:
3.1. 模型基线提升很快
推理大模型在涉及多步推理的几何 、概率嵌套问题或开放性复杂应用题时, 表现都比之前有了大幅提升 ,进一步证明了“慢思考 ”的强大之处 。
3.2. 解题风格差异显著
o3-mini/Grok 3/通义 QwQ:解题步骤相对简洁,推理过程不啰嗦;
DeepSeek R1/混元 T1/YiXin:解题步骤较长,且推理过程中有很多反思,略显啰嗦;
Gemini 2.0 Flash Thinking:解题步骤最长,且推理过程全是英文,显然训练中文语料不足。
3.3. 纠错能力强
部分错误并非源于模型数学能力不足,而是对题意理解偏差或符号误读。测试时发现,尽管问题中出现符号局部错误,也不影响模型对题意的理解。
3.4. 未来方向:专业化与工具整合
尽管当前模型可以处理复杂数学问题,但准确率仍有待提升。
未来可通过以下路径让数学能力更上一层楼:
- 插件扩展 :接入计算引擎(如 Wolfram Alpha )弥补符号运算短板;
- 垂直训练 :针对数理逻辑构建专属微调数据集 ,强化推理因果链;
- 交互式修正 :允许用户实时指出错误步骤,动态调整解题路径 。
3.5. 给用户的建议
学生群体 :可借助大模型快速验证基础题答案,但需警惕其对复杂问题的 自信式错误;
教育工作者 :设计更 反套路题目以检验 AI 辅助下的真实学习效果;
开发者 :优化提示词设计,明确解题边界,避免模型 过度脑补。
写在最后
不得不说,大模型的数学能力已经从玩具级 迈入工具级 ,并逐渐走向可信赖的研究级 。
未来的竞争或许聚焦于:谁能更精准地平衡思维模拟 与事实严谨性 ,敬请期待!
注:本文评测的 Yixin-Distill-Qwen-72B 现已开源👇
标准版:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B
量化版:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B-AWQ
本地部署:72B 标准版需「8 张 4090 显卡」,「AWQ 量化版」仅需 2 张卡即可。
全文完,如果对你有帮助,欢迎点赞收藏 备用。
👇 关注猴哥,快速入门AI工具
# AI 工具:
盘点9家免费且靠谱的AI大模型 API,统一封装,任性调用!
免费GPU算力本地跑DeepSeek R1,无惧官方服务繁忙!
# AI应用** :**
弃坑 Coze,我把 Dify 接入了个人微信,AI小助理太强了
我把「FLUX」接入了「小爱」,微信直接出图,告别一切绘画软件!
