UC伯克利LLM2LLM，通过新颖的迭代数据增强提升大模型特定领域性能，最高增幅达50% - 文章 - 开发者社区

预训练大型语言模型（LLMs）在自然语言处理（NLP）任务中取得了显著成就，但在实际应用中，尤其是在数据量较少的情况下，它们的性能往往需要通过微调来提升。微调需要足够的训练数据， 而在某些领域，如专业医疗或特定协议的私有数据，收集和标注大量数据既昂贵又耗时 。因此，如何有效扩展训练数据集以满足微调的需求成为了一个关键问题。

LLM2LLM 提出了一种针对性和迭代的数据增强策略，使用教师模型（teacher LLM）来增强小型种子数据集，以便于在特定任务上进行微调。该方法包括以下步骤：

在初始种子数据上微调学生模型（student LLM）。
评估模型在训练数据上的表现，并提取模型回答错误的数据点。
利用教师模型生成基于这些错误数据点的合成数据，并将这些新数据点添加回训练集中。

LLM2LLM：通过新颖的迭代数据增强提升LLMs

。LLM2LLM的 一个迭代开始 于在训练数据上训练和评估模型。训练数据中的不正确答案被用作输入，以生成与教师模型风格相似的额外样本。然后，使用旧的训练数据和新生成的样本训练一个新的学生模型。 模型微调之后 ，评估并找出模型回答错误的题目。教师模型被用来基于错误的示例生成额外的数据点，这些数据点测试相似的概念和思想。这些合成的数据点被重新整合到训练数据集中。 这个过程随后重复 ，训练学生模型以越来越针对性的数据点为依据。

picture.image

LLM2LLM的核心思想是通过迭代过程放大LLM在训练中错误预测的数据点的信号，并将这些数据点重新整合到数据集中，使模型能够专注于解决更具挑战性的例子。这种方法减少了对人工数据策划的依赖，并为开发更具可扩展性和性能的LLM解决方案提供了可能。

LLM2LLM在多个数据集上的实验表明，它在低数据量情况下显著提高了LLMs的性能。具体来说， LLM2LLM在GSM8K、CaseHOLD、SNIPS、TREC和SST-2数据集上分别实现了 24.2%、32.6%、32.0%、52.6%和39.8% 的性能提升。 这些结果超越了传统的微调和其他数据增强方法。

LLM2LLM在被评估的数据集上 。"% Data" 和 "# Seed Examples" 列分别指示了从原始训练数据中采样的种子数据的百分比和数量。"# Augmented" 列显示了LLM2LLM创建的数据点数量。最后一列（"Test Accuracy %"）显示了使用原始种子示例进行微调的基线准确率（Baseline），以及在数据集中添加增强数据后进行训练的准确率（LLM2LLM）。 总体而言，使用LLM2LLM后，测试准确率显著提高，特别是在数据量较少的情况下 。

picture.image

LLM2LLM与其他基线相比较的结果。 "技术"列指的不同数据增强方法。"# 种子"列表示初始种子数据集的大小。"总计增强"列代表LLM2LLM生成的LLM2LLM数据的总量。对于GSM8K和CaseHOLD，随机采样了100个数据点，而对于SNIPS、TREC和SST-2，每个类别采样了10个样本。"准确率"列指示了最终的测试准确率。显然， LLM2LLM在所有合成基线中表现最佳；有时即使在添加了数据集中更多的真实数据后也是如此 。

picture.image


          
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
          
https://arxiv.org/pdf/2403.15042.pdf
          
https://github.com/SqueezeAILab/LLM2LLM