https://arxiv.org/pdf/2402.12819.pdf
文章的主要内容是研究在有限的标注数据下,如何通过不同的方法(包括微调、提示、上下文学习和指令调优)来提高特定模型的性能,并探讨为了达到超越通用大型语言模型的性能,需要多少标注样本。研究者们观察了在增加标注训练样本数量时,这些方法在三个不同复杂度的任务上的表现,并考虑了结果的方差。
在这个工作中,方差有以下几个含义:
- 模型稳定性:低方差意味着模型在多次实验中的表现相对稳定,即模型的预测结果不会因随机因素而有大的波动。这通常是一个理想的特性,因为它表明模型对输入数据的小变化不敏感。
- 数据敏感性:高方差可能表明模型对训练数据中的噪声或随机性非常敏感。在NLP任务中,这可能意味着模型在处理少量样本时容易受到数据中随机性的影响,导致性能波动。
- 实验设计:文章中提到,通过增加标注样本的数量,可以减少方差,从而提高模型性能的稳定性。这是因为更多的数据可以帮助模型学习到更泛化的特征,减少对特定样本的依赖。
- 模型选择:在比较不同的模型和方法时,方差可以帮助研究者了解哪种模型在特定任务上更可靠。例如,如果一个模型在少量样本上表现出高方差,那么在实际应用中可能需要更多的数据来确保其性能。
实验部分:
-
实验使用了BERT和RoBERTa作为微调的基础模型,Flan-T5、ChatGPT和LLaMA-2作为提示、上下文学习和指令调优的基础模型。
-
实验涵盖了三个来自GLUE和SuperGLUE基准测试的二分类任务:SST-2(情感分析)、MRPC(语义等价关系判断)和BoolQ(问答)。
-
实验在不同的标注样本数量(从10到全数据集)下进行,以观察和减少不同方法的方差。
-
实验结果表明,微调方法在少量标注样本(100-1000)下就能达到或超过通用模型的性能,但所需的标注数据量强烈依赖于任务的复杂度和结果的方差。
-
结论:
-
发现小型、更专业化的模型在任务复杂度较低时,只需要少量标注样本(依赖于任务复杂度)就能达到或超过零/少样本设置下的通用模型的性能。
-
结果的方差对所需标注样本的数量有显著影响,可能会增加25%至200%。
-
文章还讨论了在不同任务和数据集上,微调方法的“盈亏平衡点”(即微调开始优于其他方法的标注样本数量),并指出这些点在不同任务和数据集上有所不同。
-
文章最后指出,尽管大型语言模型在许多任务上表现出色,但在有足够的标注样本时,使用小型、更专业化的模型仍然能带来更好的性能。这些模型在零/少样本设置下的性能可以通过少量样本的指令调优来优化,这通常比使用大型语言模型更经济。