DeepSeek-R1-0528 做高考数学题实测

技术

我们让刚发布的 DeepSeek-R1-0528 版本做下高考题试试。

高考数据集采用这个:https://github.com/OpenLMLab/GAOKAO-Bench

里面收录了2010年到2022年各科的高考题目和答案。我们只选取其中的高考数学客观题来评测。

用数据集中自带的批量评测代码,直连 DeepSeek 的官方API(对代码做了稍许修改以便能跑通测试)。对数据集中的2010年到2022年的数学全国卷I和全国卷II中的客观题逐个请求。最终消耗了约20万token,花费约15元左右,得到如下结果:

  
"Math": {  
    "total_score": 2160.0,  
    "correct_score": 2155.0,  
    "scoring_rate": 0.998,  
    "question_num": 432.0,  
    "type": {  
        "2010-2022_Math_I_MCQs": {  
            "total_score": 1070.0,  
            "correct_score": 1065.0,  
            "question_num": 214.0,  
            "scoring_rate": 0.995  
        },  
        "2010-2022_Math_II_MCQs": {  
            "total_score": 1090.0,  
            "correct_score": 1090.0,  
            "question_num": 218.0,  
            "scoring_rate": 1.0  
        }  
    }  
},

也就是

  • 对2010-2022数学全国卷II的选择题,总分值1090,DeepSeek-R1-0528全部答对。
  • 对2010-2022数学全国卷I的选择题,DeepSeek-R1-0528 只错了一道5分题(总分1070),得分率 99.5%;

错误的题目如下:

  
  "year": "2015",  
  "category": "(新课标ⅱ)",  
  "score": 5,

picture.image

标准答案是 D,模型回答是C。

模型回答内容:

【解析】

picture.image

  • ,因此

  • 距离公式:

将两方程相减:

代入

到距离方程:

需满足双曲线方程:

左边为负,右边为正,矛盾。因此,对于标准双曲线,不存在点 M 使

为等边三角形。

  • 然而,题目暗示存在这样的

M

,故需调整离心率

e

使点

在某种意义下满足条件。考虑等边三角形的性质,点

的坐标

应满足双曲线的渐近线或离心率关系。

,代入双曲线方程的矛盾:

不成立,但离心率

。若强行令

(对应

),则双曲线方程为

对于点

,当

时,存在点

使

接近等边(如参数形式下特定

点),且选项中有

,符合常见题型解。

因此,离心率

【答案】 C

当然,往年的高考题这么优质的数据,大概率早已在各大模型的训练集之内了。今年高考马上到了,到时我们拭目以待,看看各大模型能考个什么水平。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 EMR 基于 Proton 的存算分离实践
EMR 团队针对这些挑战自研了 Proton 加速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍 Proton 技术能力和最佳实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论