7B模型颠覆教育体系:匹兹堡大学新成果,LLM + 传统语言特征显著提升自动作文打分效果

大模型
7B模型颠覆教育体系:匹兹堡大学新成果,LLM + 传统语言特征显著提升自动作文打分效果

发布时间:2025 年 02 月 13 日

Improve LLM-based Automatic Essay Scoring with Linguistic Features

自动作文评分系统(AES)为学生的作文打分,有效减轻教师的评分负担。开发一个能够处理不同题目作文的评分系统颇具挑战性,因为写作任务本身具有高度的灵活性和多样性。现有的方法通常分为两类:监督式特征方法和基于大语言模型(LLM)的方法。监督式特征方法通常能取得更好的性能,但需要资源密集型的训练过程。相比之下,基于 LLM 的方法在推理阶段计算效率较高,但往往性能较低。本文将这两种方法结合起来,通过在基于 LLM 的评分中融入语言学特征。实验结果表明,这种混合方法在处理域内和跨域写作题目时均优于基线模型。

https://arxiv.org/abs/2502.09497

picture.image

添加请注 明 AI写作 如遇无法添加,请+ vx: iamxxn886


在这个 AI 技术突飞猛进的时代,教育领域正经历着一场静默的革命:自动作文评分系统(Automatic Essay Scoring,AES)正在改变传统的教学评估方式。

一、为什么传统方法总难两全?

自动作文评分发展五十多年来,主要形成了两大技术路线:

  • 基于特征工程的监督学习方法 :包括语言特征,如可读性指标和单词长度,以及内容特征,如内容质量和组织结构。这些特征被用于从简单的逻辑回归模型到深度神经网络的各种模型中。这些方法以一种可解释的方式,通过明确定义的特征来评估作文质量。这类方法在特定题目上的表现确实亮眼,但每遇到新题型就得重新训练,好比让老师每次都要参加岗前培训。
  • 基于大语言模型的零样本方法 :随着基于 Transformer 架构的语言模型日益流行,基于语言模型的方法应运而生。包括需要监督式微调的基于 BERT 的方法,以及专注于提示工程的基于 LLM 的方法。比如:使用角色提示和分析指令的零样本提示方法。这种方法则像通才型学霸。GPT-4 等模型无需训练就能理解作文要求。

而AES的关键挑战在于泛化与特化之间的平衡:

  • • 理想情况下,该方法应适用于任何给定具体评分标准的评分场景。
  • • 然而,包括但不限于教师、教育机构、作文目的以及作文类型(从文学角度)在内的众多因素,使得作文评分具有特定的上下文性。

二、语言学特征如何赋能大模型?

这项突破性研究的关键,在于将语言学特征整合到大模型的提示工程中。研究团队从众多候选特征中,精选出与作文质量高度相关的 12 个核心指标:

    1. 词汇多样性:包含独特词汇量、学术词汇占比、同义词使用频率
    1. 句法复杂度:平均句长、从句使用比例、连接词密度
    1. 文本可读性:包含 Dale-Chall 难度指数、长单词出现频率

这些特征通过特定模板嵌入提示词,形成"特征增强型提示"。例如在 Mistral 模型的提示模板中,会明确告知系统某个特征与作文评分的相关性(如下图),这种设计巧妙地引导大模型关注关键语言指标。

picture.image

三、混合方法的三大突破优势

1. 显著提升评分性能,突破零样本学习瓶颈

picture.image

通过将语言学特征(如词汇多样性、句子复杂度、Dale-Chall词汇量等)嵌入LLM的提示模板中,模型的评分准确性与人类评分一致性显著提高。例如,在ASAP数据集上,Mistral 7B结合Top-10语言学特征时,平均Quadratic Weighted Kappa(QWK)达到0.492,接近闭源模型GPT-4(QWK=0.499)。尤为突出的是,该方法在域外数据(如ELLIPSE数据集)上仍保持稳定表现(QWK=0.468),验证了其跨领域泛化能力。相较于传统LLM零样本方法(如无特征输入的Mistral 7B QWK=0.454),语言学特征的引入使性能提升约8.4%,突破了零样本场景下的性能瓶颈。

2. 计算高效与资源节约,平衡性能与成本

混合方法在推理阶段保留了LLM的高效性,同时大幅降低了对标注数据的依赖。相较于需要全监督训练的BERT模型(需在ASAP数据集上分阶段微调),混合方法无需额外训练,仅通过提示工程即可实现接近监督模型的性能(BERT QWK=0.545 vs. Mistral+特征 QWK=0.492)。此外,该方法通过特征筛选(如仅保留Top-3或Top-10高相关特征)避免冗长提示对LLM性能的干扰,在保证效率的同时降低了计算资源消耗。这一特性尤其适用于教育场景中实时评分和大规模部署的需求。

3. 增强可解释性,支持跨提示鲁棒性

语言学特征的显式融入使评分过程更具透明性。例如,词汇多样性(Unique Words)与复杂词汇量(Dale-Chall词表外词汇)等特征直接关联作文质量,为教师提供了可追溯的评分依据。实验进一步表明,该方法在多样化的写作提示(如ASAP的议论文、叙事文与ELLIPSE的论证文)中均表现稳定,跨提示适应性显著优于传统LLM方法。例如,在ASAP议论文(Prompt 1)中,Mistral+Top-10特征的QWK为0.423,较无特征基线(QWK=0.254)提升66.5%,体现了其对不同评分标准的鲁棒性。


picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论