思维链实践：运用LLM辅助K12课程教学

发布时间：2024年03月21日

LLM应用

picture.image

摘要

本文探讨了运用LLMs评判及解析K-12科学课程中的短答案评估，尽管已有方法能够有效评价数学和计算机科学等结构性强的题目，却往往缺乏评分依据的解释。我们的研究聚焦于利用GPT-4配合少量样例学习与主动学习，结合链式思考逻辑，实现对中学地球科学课堂形成性评估的自动化评判与合理解释。通过“人在环中”的策略，我们成功实现了评分并给出有深度的解析。对此方法深入细致的剖析，揭示了在开放式科学评估自动评分过程中，融入人机协同技术的巨大潜力。

实现方法

picture.image

上图提供了一个这个方法的概览，展示了作者如何结合思维链推理（Chain-of-Thought Prompting）和主动学习（Active Learning）来改进大型语言模型（LLMs）在评分形成性评估响应方面的性能。

图中的绿色框表示整个处理流程，而蓝色菱形代表该流程中的各个步骤。黄色框则表示该流程在课堂中的应用。

Response Scoring（响应评分）

这是使用LLMs对形成性评估中的学生回答进行评分的过程。在这项研究中，评分是基于一个预先定义的评分标准（或称为rubric）来进行的。研究者首先手动对一部分学生的回答进行评分，以建立一个基准。然后，使用LLMs对剩余的回答进行评分，并将这些评分与人工评分进行比较，以评估模型的准确性。这个过程可能涉及到迭代地调整模型的提示，以改善其评分性能。

Prompt Development（提示开发）

提示开发是指创建和优化用于指导LLMs生成回答的文本提示的过程。在这项研究中，提示不仅包括了形成性评估的问题和相关的评分标准，还包括了一些已经标记好的示例（即学生的回答和对应的评分），以及要求模型遵循的特定格式。这些提示旨在帮助模型理解任务要求，并根据评分标准生成准确的评分和解释性反馈。提示开发是一个迭代过程，可能需要根据模型的表现和反馈进行调整。

Active Learning（主动学习）

主动学习是一种机器学习方法，它涉及到从模型的错误预测中选择最有价值的数据实例，并将它们纳入训练集中以进行进一步的学习。在这项研究中，研究者使用主动学习来识别和纠正LLMs在评分形成性评估回答时的错误。通过分析模型的预测错误，研究者可以选择有代表性的实例，并将它们及其正确的推理链添加到训练提示中。这种方法使模型能够从错误中学习，并逐步提高其评分的准确性和一致性。主动学习是提高模型性能的关键环节，尤其是在数据集较小或不平衡的情况下。

Arxiv[1]

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.14565

picture.image