高考是国内最受关注的,全世界最公平最严格,参与人数最多的标准化人才选拔考试。每一年的高考都牵动国人的心弦。因此高考也是命题水平最高的考试之一。用高考来评测大模型能力很具有说服力。本文为如何用高考数据集来评测各个大模型的具体方法。虽然因为高考题目的公开性,历届高考试题早已成为这个大模型的训练数据。但是学会了这个方法,当新一届的高考刚结束后,就可以立刻拿来对现有大模型进行评估了。这时大模型的表现,才会是其真实能力。因为高考新的题目绝对不会和任何往届高考题目重复,并且模型训练周期漫长,新考试题目刚出来,绝对不可能进入现有大模型的训练集。明天又要高考了,学会这一方法还是很有意义的。
下面是具体方法,注意只包含了往届客观题的评测方法。需要的小伙伴可自行取用。
