通过 PEFT 和合成数据提升低资源大型语言模型的分类表现。

技术
通过 PEFT 和合成数据提升低资源大型语言模型的分类表现。

动手训练

大型语言模型(LLMs)在零样本或少样本情境下进行文本分类任务时,展现出不俗的表现。相比之下,上下文学习(ICL)往往能带来更高的准确率,尽管这会牺牲一定的效率,因为它需要更长的输入提示。本文提出了一种新策略,旨在让 LLMs 在保持与 ICL 相当或更优的准确率的同时,达到与零样本分类器相媲美的效率。这一方法特别适用于资源有限的情况,也就是每个类别仅有极少数样本可供使用。通过结合单个 LLM 和少量真实数据,我们通过生成、筛选和参数高效微调等一系列步骤,打造出了一个既稳健又高效的分类器。实验数据显示,该方法在众多文本分类数据集上均取得了可圈可点的成绩。

文本分类:Few-Shot 、 ICL、 训练模型?

ChatGPT等一系列的大语言模型的推出,导致过去的传统分类模型训练逐渐淡出大家视野,比如:Bert。这是因为通过大语言模型(比如ChatGPT、LLaMa等)可以通过语境学习(ICL)、Few Shot Learning,甚至是Zero-Shot Learning,大语言模型就可以达到比较好的文本分类效果。这种方法的优势在于,我们不再需要构建大量的训练数据来启动我们的文本分类任务。

尽管通过零样本学习、少样本学习就能达到很好的效果,并且即使在某些特定领域,构造少量的样本案例也非常容易。但是这种方法的缺点是比较高昂的计算成本、延迟和内存需求。为了可以不增加ICL推理成本的前提下,充分利用有限的样例,作者提出了采用参数高效微调(PEFT)的方法对LLM进行微调。但是直接用这几个样本进行训练,很容易出现过拟合的效果。

如何PEFT训练大语言模型做文本分类

picture.image

这篇文章的核心就是作者提出了新的方案(如上图),用以提升LLM在文本分类任务中低资源环境下的参数高效微调(PEFT)效果。

因为大语言模型是海量数据预训练出来的模型,可以假设LLM已掌握解决分类任务的基础能力(事实就是如此 ),但在资源受限的条件下,未能充分利用有限样本,导致PEFT效果不佳。鉴于LLM在生成任务上的优势,设计了一个辅助的数据增强任务 ,旨在充分发挥LLM的分类潜力。

该方法分为三步:

  • • 利用LLM生成针对特定文本分类任务的合成样本;
  • • 接着,在ICL环境下利用LLM对样本进行分类,并剔除与标签不符的样本清洗数据;
  • • 最后,利用这些生成并净化的数据对LLM进行PEFT微调。

实验结果显示,该分类器在三项文本分类任务中达到了与ICL相当的或更高的准确度,且计算效率显著提升(速度提升约2至5倍)。在整个生成-筛选-训练流程中,我们始终使用同一LLM,以此证明高准确度的关键在于更好地利用有限的样本,而非依赖其他资源或额外的知识。

分类效果

picture.image

上表展示了三项任务的准确率和推理耗时。小样本ICL在准确性上优于零样本方法,但速度较慢 ,所以各位大大如果不在乎成本,不在乎耗时,建议直接使用ICL 。在各种模型规模和数据集上,传统LoRA在小样本环境(每类4个真实样本)中的表现远远不及ICL。在某些情况下,其表现甚至不如或仅与零样本方法相当。而我们提出的生成-筛选-训练策略,在SST2数据集上与ICL持平,在其他数据集上则大幅超越了ICL的基准水平。例如,在TREC数据集上应用Vicuna-7b模型时,我们的方法准确率达到0.84,而ICL仅为0.6。我们的方法与每类25个真实样本训练LoRA的准确率相当或略低。需要注意的是,LoRA的推理时间较短,且不受训练数据量的影响;而小样本ICL的推理时间较长,并且随着训练数据量的增加而增长。总体而言,使用Vicuna-13b模型的表现普遍优于Vicuna-7b。

样本量影响

picture.image

picture.image

作者针对不同量级的数据进行了实验探究。如上图所示,Vicuna-7b在SST2和TREC数据集上的实验结果显示,扩充真实数据量始终能够带来积极效果;但是,直接引入合成数据不一定会提高准确性,主要是由于合成数据的多样性不足

数据多样性对比

picture.image

上图对比了真实与合成SST2数据中独特三元组的数量与数据量的关系。观察发现,在较小的数据量下,真实数据的多样性能与合成数据相媲美。但随着数据量的增长,真实数据的多样性增速更为显著,这突显了仅凭四个样本生成丰富多样合成数据的挑战性。

情感分析数据定性探究

picture.image

picture.image

上面两个图分别呈现了SST2数据集中正类评价的真实与合成样本的词云。SST2包含的是电影评论的情感倾向分析数据。可以看到,无论是真实还是合成样本中,都出现了“film”、“movie”等词汇。同时,“entertaining”、“beautiful”、“funny”等表达正面情感的词汇也是共通的。进一步观察,我们发现“stunning”、“delightful”等正面词汇仅出现在合成样本中,而“compelling”、“solid”等微妙的正面词汇则仅存在于真实样本中。由此可见,合成数据在分布上略有差异,但仍能捕捉到正面评价的核心意义

https://arxiv.org/abs/2404.02422

通往 AGI 的神秘代码
  
if like_this_article():  
    do_action('点赞')  
    do_action('再看')  
    add_wx_friend('iamxxn886')  
  
if like_all_arxiv_articles():  
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')
0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论