微调、提示词、上下文学习、指令微调: 需要多少标注数据？ - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2402.12819.pdf

picture.image

文章的主要内容是研究在有限的标注数据下，如何通过不同的方法（包括微调、提示、上下文学习和指令调优）来提高特定模型的性能，并探讨为了达到超越通用大型语言模型的性能，需要多少标注样本。研究者们观察了在增加标注训练样本数量时，这些方法在三个不同复杂度的任务上的表现，并考虑了结果的方差。

在这个工作中，方差有以下几个含义：

模型稳定性：低方差意味着模型在多次实验中的表现相对稳定，即模型的预测结果不会因随机因素而有大的波动。这通常是一个理想的特性，因为它表明模型对输入数据的小变化不敏感。
数据敏感性：高方差可能表明模型对训练数据中的噪声或随机性非常敏感。在NLP任务中，这可能意味着模型在处理少量样本时容易受到数据中随机性的影响，导致性能波动。
实验设计：文章中提到，通过增加标注样本的数量，可以减少方差，从而提高模型性能的稳定性。这是因为更多的数据可以帮助模型学习到更泛化的特征，减少对特定样本的依赖。
模型选择：在比较不同的模型和方法时，方差可以帮助研究者了解哪种模型在特定任务上更可靠。例如，如果一个模型在少量样本上表现出高方差，那么在实际应用中可能需要更多的数据来确保其性能。

实验部分：

实验使用了BERT和RoBERTa作为微调的基础模型，Flan-T5、ChatGPT和LLaMA-2作为提示、上下文学习和指令调优的基础模型。
实验涵盖了三个来自GLUE和SuperGLUE基准测试的二分类任务：SST-2（情感分析）、MRPC（语义等价关系判断）和BoolQ（问答）。
实验在不同的标注样本数量（从10到全数据集）下进行，以观察和减少不同方法的方差。
实验结果表明，微调方法在少量标注样本（100-1000）下就能达到或超过通用模型的性能，但所需的标注数据量强烈依赖于任务的复杂度和结果的方差。
结论：
发现小型、更专业化的模型在任务复杂度较低时，只需要少量标注样本（依赖于任务复杂度）就能达到或超过零/少样本设置下的通用模型的性能。
结果的方差对所需标注样本的数量有显著影响，可能会增加25%至200%。
文章还讨论了在不同任务和数据集上，微调方法的“盈亏平衡点”（即微调开始优于其他方法的标注样本数量），并指出这些点在不同任务和数据集上有所不同。
文章最后指出，尽管大型语言模型在许多任务上表现出色，但在有足够的标注样本时，使用小型、更专业化的模型仍然能带来更好的性能。这些模型在零/少样本设置下的性能可以通过少量样本的指令调优来优化，这通常比使用大型语言模型更经济。