LLM2LLM：迭代式数据增强策略提升大模型微调效果 - 文章 - 开发者社区

写在前面

大家好，我是刘聪NLP。

大模型目前已经在很多领域、很多场景中都取得了较为优异的效果，但很多实际场景中仍然需要进行模型微调，那么如何在有限数据情况下提高大模型微调效果呢？

今天给大家带来一篇针对性和迭代式的数据增强策略-LLM2LLM，主要在LLM训练的过程中发现预测错误的数据 ，并将其放大&增强 ，重新融合到训练数据集中，让LLM更专注于更有挑战的样本 ，显著提高LLM在低资源环境下的效果。


        
          
Paper: https://arxiv.org/abs/2403.15042  
Github: https://github.com/SqueezeAILab/LLM2LLM

方法

LLM2LLM的主要流程如下：

在初始种子数据集中微调学生模型；
评估并提取学生模型在训练集中预测错误的数据；
利用教师模型对这些错误数据生成额外数据，将其加如原始训练数据中迭代训练学生模型。

picture.image

值得注意的是，每一次数据增强时，仅对种子数据的进行数据扩充 ，以防止多次迭代时教师模型生成的错误示例影响整体数据集质量，导致数据退化，同时也可以进一步约束生成数据的总量 。

结果分析

实验主要针对LLaMA2-7B模型，在GSM8K、CaseHOLD、SNIPS、TREC和SST-2数据集上，以0.02%到50%不同的抽样率对这些数据集进行采样，以评估在不同低数据环境下的LLM2LLM方法的性能，如下表所示，不同数量级的训练数据下，LLM2LLM方法均有效果提高，当数据较少的情况下，提高比例更大。

picture.image