UC伯克利LLM2LLM,通过新颖的迭代数据增强提升大模型特定领域性能,最高增幅达50%

增长营销数据中台视频服务

预训练大型语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著成就,但在实际应用中,尤其是在数据量较少的情况下,它们的性能往往需要通过微调来提升。微调需要足够的训练数据, 而在某些领域,如专业医疗或特定协议的私有数据,收集和标注大量数据既昂贵又耗时 。因此,如何有效扩展训练数据集以满足微调的需求成为了一个关键问题。

LLM2LLM 提出了一种针对性和迭代的数据增强策略,使用教师模型(teacher LLM)来增强小型种子数据集,以便于在特定任务上进行微调。该方法包括以下步骤:

  • 在初始种子数据上微调学生模型(student LLM)。
  • 评估模型在训练数据上的表现,并提取模型回答错误的数据点。
  • 利用教师模型生成基于这些错误数据点的合成数据,并将这些新数据点添加回训练集中。

LLM2LLM:通过新颖的迭代数据增强提升LLMs

。LLM2LLM的 一个迭代开始 于在训练数据上训练和评估模型。训练数据中的不正确答案被用作输入,以生成与教师模型风格相似的额外样本。 然后 ,使用旧的训练数据和新生成的样本训练一个新的学生模型。 模型微调之后 ,评估并找出模型回答错误的题目。教师模型被用来基于错误的示例生成额外的数据点,这些数据点测试相似的概念和思想。这些合成的数据点被重新整合到训练数据集中。 这个过程随后重复 ,训练学生模型以越来越针对性的数据点为依据。

picture.image

LLM2LLM的核心思想是通过迭代过程放大LLM在训练中错误预测的数据点的信号,并将这些数据点重新整合到数据集中,使模型能够专注于解决更具挑战性的例子。这种方法减少了对人工数据策划的依赖,并为开发更具可扩展性和性能的LLM解决方案提供了可能。

LLM2LLM在多个数据集上的实验表明,它在低数据量情况下显著提高了LLMs的性能。具体来说, LLM2LLM在GSM8K、CaseHOLD、SNIPS、TREC和SST-2数据集上分别实现了 24.2%、32.6%、32.0%、52.6%和39.8% 的性能提升。 这些结果超越了传统的微调和其他数据增强方法。

LLM2LLM在被评估的数据集上 。"% Data" 和 "# Seed Examples" 列分别指示了从原始训练数据中采样的种子数据的百分比和数量。"# Augmented" 列显示了LLM2LLM创建的数据点数量。最后一列("Test Accuracy %")显示了使用原始种子示例进行微调的基线准确率(Baseline),以及在数据集中添加增强数据后进行训练的准确率(LLM2LLM)。 总体而言,使用LLM2LLM后,测试准确率显著提高,特别是在数据量较少的情况下

picture.image

LLM2LLM与其他基线相比较的结果。 "技术"列指的不同数据增强方法。"# 种子"列表示初始种子数据集的大小。"总计增强"列代表LLM2LLM生成的LLM2LLM数据的总量。对于GSM8K和CaseHOLD,随机采样了100个数据点,而对于SNIPS、TREC和SST-2,每个类别采样了10个样本。"准确率"列指示了最终的测试准确率。显然, LLM2LLM在所有合成基线中表现最佳;有时即使在添加了数据集中更多的真实数据后也是如此

picture.image


          
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
          
https://arxiv.org/pdf/2403.15042.pdf
          
https://github.com/SqueezeAILab/LLM2LLM
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论