如何用高考数据集来评测大模型

技术

高考是国内最受关注的，全世界最公平最严格，参与人数最多的标准化人才选拔考试。每一年的高考都牵动国人的心弦。因此高考也是命题水平最高的考试之一。用高考来评测大模型能力很具有说服力。本文为如何用高考数据集来评测各个大模型的具体方法。虽然因为高考题目的公开性，历届高考试题早已成为这个大模型的训练数据。但是学会了这个方法，当新一届的高考刚结束后，就可以立刻拿来对现有大模型进行评估了。这时大模型的表现，才会是其真实能力。因为高考新的题目绝对不会和任何往届高考题目重复，并且模型训练周期漫长，新考试题目刚出来，绝对不可能进入现有大模型的训练集。明天又要高考了，学会这一方法还是很有意义的。

下面是具体方法，注意只包含了往届客观题的评测方法。需要的小伙伴可自行取用。