ACL 2023 | 对验证集的一场重新审视 - 弱监督学习比你想象的更“弱”

大模型机器学习数据库

引言

弱监督学习的初衷是减少对标注样本的依赖,但ACL 2023 的获奖Paper[1]指出, 弱监督学习太依赖干净的验证集,与初衷相违,且其利用验证集的效率较低,赶不上Fine-Tuning ,进而给出警示: 前人的弱监督学习研究脱离了实际,需要及时纠偏。

笔者认为,这篇论文反映了 对验证集作用的重新审视 ,很值得大语言模型的研究者考虑。 你所用来调优prompt的验证集,是否脱离了Few-Shot Learning的设定?是否有其他更高效的使用验证集的方式呢? 这些问题也应该被大语言模型的研究者回答。

摘要

本文讲解论文:Weaker Than You Think- A Critical Look at Weakly Supervised Learning[2]

论文主要结论如下:

  • 目前的弱监督学习技术,必须依赖 clean validation data,但不用太多 ,每类~30样本即可
  • 但是当每类样本>10条时,弱监督学习的效果就不如 直接Fine-Tuning了,弱监督学习并不实用
  • 当弱监督学习作为Pre-training,结合Continual Fine-Tuning时,效果可以超越 纯粹的Fine-Tuning,但当每类样本>50条时,效果提升不足1% (绝对值)

总而言之,不能没有干净的验证集、但对验证集的利用却不如Fine-Tuning,弱监督学习的实用性比你想象的要更“弱”。

背景知识

弱监督学习( Weakly Supervised Learning,简称WSL):一种基于弱标注样本进行学习的方法,适用于标注样本少的low-resource setting。

弱标注结果来自弱标注器,例如用正则来判断SMS是否为垃圾短信、用词典来进行实体识别。

弱标注器通常为启发性规则,不可避免的存在噪音, WSL主要解决的问题就是如何从有噪音的weakly labeled data中,学习到泛化性强的模型

Motivation:重新审视WSL的设定

同为low-resource下诞生的技术,Few-Shot Learning(简称FSL)也被质疑过不切实际。 例如:LLM结合prompt在FSL下通常认为效果好,但是由于variance问题,仍需要clean validation set来优化prompt,这一设定与FSL相违背 。在更真实的FSL设定下,需要跳过model selection步骤、或者严格控制验证集的数量。

受启发,论文作者重新审视了WSL的设定,发现目前的WSL方法都强依赖于clean validation set,虽然训练只基于weakly labeled data,但是调参、early stopping、meta-learning均基于 数千条 clean data,因此作者发出了灵魂拷问: 这些clean data如果直接用于Fine-Tuning会怎样?

作者在WRENCH数据集[3]上实验,包含了主题分类、情感分类、关系分类、命名实体识别等常见的NLP任务。backbone为 RoBERTa-Base

picture.image

根据实验结果来看,直接在clean validation上进行Fine-Tuning,效果超过了目前的SOTA WSL方法!因此 在足够的clean validation设定下,根本就没有必要使用WSL

补充细节:Fine-Tuning实验中,未进行model selection,选用固定参数: batch_size = 32learning_rate = 2e-5、优化器: AdamW、训练 6000 steps(在clean data上overfitting不会影响BERT类模型的泛化性[4])。

问题1:对WSL来说,clean data是否必要?

验证集对WSL的主要作用是model selection,包括挑选超参、early-stopping,那么 将验证集换用弱标注样本,或者干脆不用验证集,结果如何?

作者在3种设置下进行实验:

  1. validation on weak labels
  2. no validation(random selection)
  3. validation on clean labels

picture.image

根据实验结果, 在不使用clean labels作为验证集时,WSL失效了 ,效果和随机选参数差不多,并且都没有带来超越weak labels的泛化性。

因此,问题1的答案: 目前的WSL方法,一定需要clean data作为验证集。

问题2:WSL需要多少的clean data?

实验思路: 逐渐增加validation sample的数量,看WSL方法的效果变化

picture.image

从实验结果来看,很少的validation sample就够了,所需的量级:分类任务上每类~30个样本,NER任务上~200个句子。

因此,问题2的答案是: 少量的clean data作为验证集就足够了

问题3:在少量clean data下,WSL能战胜Fine-Tuning吗?

实验思路: 对比WSL和Fine-Tuning(简称FT)的效果 ,同时作者还对比了Adapter、LoRA和BiFit三种PEFT方法。

picture.image

从实验结果来看, 分类任务的每类~10个样本,NER任务~50个句子时,FT的效果可以超过WSL

并且作者额外说明,基于 prompt + LLM可以取得更好的效果,本文的方法只是效果下限。

因此,问题3的答案是: 当每个类有超过10个样本时,WSL相比FT就没有了优势

问题4:WSL可否从Fine-Tuning中受益?

先解释一下作者实验的动机。

当使用WSL方法时,可以获得两类训练数据:

  • weakly labeled data,源自各种弱标注器;
  • clean labeled data,人标注的结果,来源于验证集。

前文在比较WSL和FT时,采取的设定是:

  • WSL只在weakly labeled data上进行训练,在clean labeled data上验证;
  • FT只基于少量的clean labeled data进行训练,而不进行model selection。

一个自然的扩展思路是, 可否结合两类数据,最大化模型效果

picture.image

作者的实验思路是: 将weakly labeled data作为Pre-training样本,尝试WSL + Continual Fine-Tuning(简称CFT)的效果

picture.image

实验结论如下:

  • CFT的确可以提升WSL的效果 ,尤其在clean data非常少,即分类任务每类~5样本、NER~50个句子时,可明显好于FT
  • 随着clean样本变多,CFT的效果会更好 ,但当达到分类任务每类~50样本、NER~500句子的量级时,CFT相比FT的优势明显减小,已不足1% ,考虑到WS也需要设计弱标注器,这可能是得不偿失
  • 使用CFT会减小不同WSL算法间的差异,效果最好的反而是最简单的FTw ,进一步说明了现有WSL方法的

补充:FTw指在weak labeled data上,进行Fine-Tuning后的模型,可以视为WSL方法的baseline,与前文提到的FT方法有区分。

因此,问题4的答案是: 结合WSL与CFT,可以发挥WSL的作用,但随着样本增多,增益迅速下降,使用WSL的必要性也显著减少;同时在这种方法下,现有的WSL方法无法超过FTw这个简单的baseline,还是“弱”

问题5:是什么让FTw + CFT有效?

作者又提出两个延伸的子问题:

  1. FTw仅基于weakly labeled data训练,是如何抵抗标注中的bias 的?
  2. CFT是如何进一步减少bias 的?

针对子问题1,作者将不同大小的 PLMsPre-trained Language Models,一般指BERT、RoBERTa等模型)作为backbone,在FTw的设定下进行了实验。

picture.image

结论如下:

  1. 在更多数据上预训练的、更大的PLM 更能够减少weakly labeled data中的bias,换言之,backbone也是越大越好;
  2. 在学习的早期,FTw模型在clean labeled data上的效果非常好 ,如果采取恰当的early stopping,那么模型的泛化性效果相当不错。

用论文作者的话说:pre-training provides the model with an inductive bias to seek more general linguistic correlations insted of superficial correlations from the weak labels

针对 子问题2 ,作者调整CFT过程中clean样本的标签,手动控制这些样本标签与其本要有的weak label之间的一致性,即 agreement ratio,看模型的效果差异。

直觉来看,当 agreement ratio = 100%时,CFT阶段的训练样本的标签也是weak label,CFT等同于继续进行FTw,此时是无法进一步减少bias的。

picture.image

根据实验结果,当 agreement ratio > 70%时,模型效果均有明显下降。最佳的agreement ratio约为50%。这说明,在CFT中需要包含一些 与weak label矛盾的sample,也就是弱标注器难以标对的sample ,这有助于模型 在纠错中学习 ,从而进一步去除弱标注中的bias。

因此,两个子问题的答案分别是:

  1. FTw之所以可以抵抗bias,是因为使用了PLM
  2. CFT之所以进一步减少bias,是因为CFT阶段可以从纠错过程中学习 ,从而进一步减少bias

研究建议

从实验结果来看,目前的WSL方法的确脱离实际,有过度优化的问题。因此,在论文最后,作者很客观地对WSL研究者提出了一些建议:

  • 报告model selection的策略,并着重说明研究者提出的WSL方法有多依赖于clean data
  • 介绍FSL方法需要多少clean data可以取得WSL的效果。如果数千条weakly labeled data的效果和几十条clean data的效果接近,那么WSL就不是最佳选择
  • 如果提出的WSL方法需要额外的clean data,例如用于validation,那么FTw + CFT应该作为baseline进行比较

局限性

同时作者也提到了论文的局限性:

  • 有些WSL方法[5]可使用数据集的先验知识来调参,此时可不依赖额外的clean data
  • 论文研究的是英文任务,这一语种下有很强的PLMs,但有些语种可能没有,此时WSL可能更有效
  • WRENCH数据集中,weak labels通过简单的规则得到(例如正则、词典等),但是弱标注器可以更强,例如使用LLM来标注[6](笔者也有讲解文章

Open Questions

论文的主体部分已讲解完毕,在最后,笔者提出一些开放性问题,供读者思考:

  • 如引言部分提到,目前大语言模型的许多研究,在调优prompt上也需要依赖干净的验证集,包括用来挑选few-shot examples、设置self-consistency的sample数量、调优prompt写法和COT等,这些研究在报告效果时, 是否也应该对比一些非大语言模型方法(如基于验证集进行Fine-tuning的BERT / RoBERTa)?
  • 当使用大语言模型来做“弱”标注时, 有没有可能减少、甚至完全消除对clean validation set的依赖,从而大大提升WSL的实用性?

读者反馈

读者的任何反馈声音,都可扫描 下方问卷二维码 来提供,欢迎畅所欲言!

picture.image

关于笔者

笔者致力于分享有趣、有用的NLP知识,想和读者一起探索NLP技术的价值与边界~

欢迎关注笔者的公众号! 欢迎各种讨论、交流或是合作~

参考资料

[1][2] Weaker Than You Think- A Critical Look at Weakly Supervised Learning: https://aclanthology.org/2023.acl-long.796.pdf

[3] WRENCH数据集: https://datasets-benchmarks-proceedings.neurips.cc/paper\_files/paper/2021/file/1c9ac0159c94d8d0cbedc973445af2da-Paper-round2.pdf

[4] overfitting clean data不影响泛化性: https://openreview.net/forum?id=nzpLWnVAyah

[5] DivideMix: Learning with Noisy Labels as Semi-supervised Learning: https://openreview.net/forum?id=HJgExaVtwr

[6] Language Models in the Loop: Incorporating Prompting into Weak Supervision: https://arxiv.org/abs/2205.02318

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论