发布时间:2024年03月21日
LLM应用
本文探讨了运用LLMs评判及解析K-12科学课程中的短答案评估,尽管已有方法能够有效评价数学和计算机科学等结构性强的题目,却往往缺乏评分依据的解释。我们的研究聚焦于利用GPT-4配合少量样例学习与主动学习,结合链式思考逻辑,实现对中学地球科学课堂形成性评估的自动化评判与合理解释。通过“人在环中”的策略,我们成功实现了评分并给出有深度的解析。对此方法深入细致的剖析,揭示了在开放式科学评估自动评分过程中,融入人机协同技术的巨大潜力。
上图提供了一个这个方法的概览,展示了作者如何结合思维链推理(Chain-of-Thought Prompting)和主动学习(Active Learning)来改进大型语言模型(LLMs)在评分形成性评估响应方面的性能。
图中的绿色框表示整个处理流程,而蓝色菱形代表该流程中的各个步骤。黄色框则表示该流程在课堂中的应用。
Response Scoring(响应评分)
这是使用LLMs对形成性评估中的学生回答进行评分的过程。在这项研究中,评分是基于一个预先定义的评分标准(或称为rubric)来进行的。研究者首先手动对一部分学生的回答进行评分,以建立一个基准。然后,使用LLMs对剩余的回答进行评分,并将这些评分与人工评分进行比较,以评估模型的准确性。这个过程可能涉及到迭代地调整模型的提示,以改善其评分性能。
Prompt Development(提示开发)
提示开发是指创建和优化用于指导LLMs生成回答的文本提示的过程。在这项研究中,提示不仅包括了形成性评估的问题和相关的评分标准,还包括了一些已经标记好的示例(即学生的回答和对应的评分),以及要求模型遵循的特定格式。这些提示旨在帮助模型理解任务要求,并根据评分标准生成准确的评分和解释性反馈。提示开发是一个迭代过程,可能需要根据模型的表现和反馈进行调整。
Active Learning(主动学习)
主动学习是一种机器学习方法,它涉及到从模型的错误预测中选择最有价值的数据实例,并将它们纳入训练集中以进行进一步的学习。在这项研究中,研究者使用主动学习来识别和纠正LLMs在评分形成性评估回答时的错误。通过分析模型的预测错误,研究者可以选择有代表性的实例,并将它们及其正确的推理链添加到训练提示中。这种方法使模型能够从错误中学习,并逐步提高其评分的准确性和一致性。主动学习是提高模型性能的关键环节,尤其是在数据集较小或不平衡的情况下。
Arxiv[1]
引用链接
[1] Arxiv: https://arxiv.org/abs/2403.14565
