Large-Scale Weakly Supervision (Noisy) Data,何以成为大模型的数据基石?

大模型机器学习数据库

picture.image

引言

在训练时加入更多样的数据,往往会带来 更鲁棒 、更通用 的模型,而当数据量达到 web scale ,就可能 涌现出foundation model

Large Language Models(LLMs)利用 unsupervised learning (即next token prediction任务),成功地消化web scale文本数据,并吸收了其中的world knowledge。

究其原因,LLMs的任务形式是text -> text,属于 同一模态、同一空间 ;而对于ASR任务(audio -> text)、图像生成任务(text -> image)来说,训练时通常 需要pair数据,这便落入了supervised learning范畴

对于此类任务,要想使用web scale数据,必须借助weakly supervision data, 这些data通常来自网络、由人类生成、量级大、但未经校准、包含噪音。 如何高效利用这些数据,是大模型发展的必解问题。对多模态模型 来说,尤为重要。

本文介绍2种利用large weakly supervision data的方法:

  1. 表征学习 。利用对比学习的鲁棒性,消化掉web scale weakly supervision data,得到embedding model,例如CLIP[1]、MuLan[2]、BGE[3]、openai embedding[4]等;其中跨模态embedding model可用于下游的多模态生成任务,例如MusicLM[5]、dalle-2[6]等;
  2. 参与模型训练 。直接进行学习、或是作为pre-training stage,例如Whisper[7]、SeqGPT[8]、Qwen-VL[9]等。

表征学习,一个桥梁

表征学习旨在学习一个embedding model:输入X,将其转化为向量。

根据目的,表征学习常分为两类:

  1. 以对齐为目的 ,利用pair数据(x, y) + 对比学习loss,对齐x和y的表征,使得相似的x和y靠的更近、不相似的x和y靠的更远;
  2. 以压缩为目的 ,利用raw text/audio/image/video,通过重构loss来学习信息压缩器,从而简化多模态内容的生成难度(从直接生成image/audio,简化为生成image/audio embedding)、或是作为多模态模型的输入。

由于本文主要讨论对weakly supervision data的利用,因此主要关注第一类方法。

在以 对齐 为目的的表征学习中,常见的学习过程如下:

  1. 提供pair数据。通常只需提供正样本即可;
  2. 进行对比学习。将一个batch内的其他样本,视为负样本,进行对比学习,目的是缩小正样本间的距离、放大负样本间的距离。

单模态的表征学习模型,包括BGE[3]、openai embedding[4];在跨模态方面,图像-文本的代表模型是CLIP[1],音乐-文本的代表模型是MuLan[2]。

这类embedding model,首先可以 直接用于下游任务 。例如CLIP可以用来做zero-shot图像分类、图像检索等任务,BGE则可以用来做检索、聚类任务

其中,跨模态的embedding model,对于多模态模型尤其有用。它使得多模态模型,可以在无需pair数据的情况下进行训练。

在多模态生成模型中的应用

假设已经有了一个好的image-text embedding模型,那么我们可以在无需pair数据 (image, text) 的情况下,训练出一个text -> image模型。

picture.image

dalle-2[6]就是这么干的:

  1. 准备很多的image,然后用image-text embedding模型,得到image的表征;
  2. 学习一个 embedding -> image生成器 ,能够从image的表征出发,重构image,其本质是image embedding模型的逆向模型;
  3. 在inference时,将text传入image-text embedding模型,得到text embedding,然后送往上一步学习的embedding -> image生成器,从而完成text -> image任务。这一步之所以奏效,在于image和text已经在embedding空间进行了 对齐

在text -> music领域,MusicLM[5]用相似的方法,借助MuLan[2](一个music-text embedding model),实现了text to music。

这一范式的核心是:将表征学习作为 桥梁, 利用其对于noisy data的强吸收能力, 提前对齐 多个模态,从而 省去 了多模态生成模型的对齐学习过程,降低其学习难度。

那么, 为什么基于对比学习的表征学习,可以充分吸收weakly supervision data?

直观上理解,因为这个任务的形式比较 简单、容易理解、容错率高, 因此很适合机器进行大规模的学习。

以CILP为例,作者对比一个通过image来预测Caption的Bag-Of-Words表征的Baseline,发现其学习效率明显比对比学习低,这是因为网络上的caption通常有各种 错误 、并且不同的人写caption的 风格和用词也不尽相同 ,导致重构caption 比较难 ;而反观对比学习,它只需判断这 整段caption,是否和这个image相匹配 ,对caption的质量要求相对低、任务难度也明显降低,因此学习效率更高,也更容易scale。

picture.image

但是凡事 有利即有弊 ,在对比学习过程中,对齐是在 一整句text 上进行的,这样学到的表征模型,只能做到 “整体上的对齐” ,缺乏更细粒度的理解能力,可能会忽视text中的细节。

正因如此,目前SOTA的多模态模型,多不再借助表征学习这个桥梁, 而是直接将noisy pair data用于训练过程。

直接训练

作为pre-training stage

weakly supervision data的优点在于包含通用、多样的知识,但缺点是存在噪音。

那有什么方法,能够 既吸收world knowledge,又避免模型学到noisy pattern

一个tricky的方法是,引入multi-stage training:

  1. 第一阶段,pre-training stage ,使用weakly supervision data来训练模型。让模型吸收world knowledge,打下良好的基础;
  2. 第二阶段,fine-tuning stage ,使用labeled data来微调模型。这些数据由人工标注,虽然数量少、但是标注精准,目的是对前一阶段的模型进行校准,消除其中的noisy pattern。

这一方法相当流行。使用这一方法的模型,包括vision-language model(Qwen-VL[9])、text embedding model(BGE[3])和instruction-tuned NLU model(SeqGPT[8])。

Whisper带来的启示

Whisper[7]是一个ASR模型,仅仅通过large-scale weakly supervision data(网络上收集的660K hours音频数据)进行学习,体现出了很强的通用性和鲁棒性。

和上面提到的multi-stage training不同, Whisper只使用weakly supervision data进行训练,并未使用labeled data再次fine-tuning

虽然作者在论文中也提到,未来会考虑加入fine-tuning,对模型再进行优化,但令人好奇的是, 为何直接通过网络收集的(audio,transcript)来训练,就已经可以取得这么好的效果

picture.image

笔者认为,关键在于Whisper有着 非常高的数据利用率 ,这体现在:

  1. 保留了multilingual 数据。实验证明,随着算力增长,multilingual数据能够起到positive transfer的作用(见下图);
  2. multitask learning 形式,将No Speech、X -> En数据(指audio为非英语,而transcript为英语的数据)也利用上了,尽量做到不浪费。

picture.image

在Whisper中,large scale weakly supervision data,是丰富的 数据原料 ;multilingual + multitask learning,使得这份原料得到了 更充分的利用。

总结&更多

本文介绍了两种利用large-scale weakly supervision data的方法。

第一种方法 :用表征学习来学习跨模态的embedding model,随后将其应用在多模态生成模型中,节省生成模型的模态间对齐学习过程;

第二种方法 :直接参与训练,常见的方法是作为pre-training stage,Whisper则证明若是充分利用数据,pre-training stage就已经可以取得相当好的效果。

最后,笔者想提一下dalle-3[10],因为它虽然利用了large scale weakly supervision data, 但并未止步于此,而是用合成数据的方式超越了它 。简要说来,dalle-3的作者发现,在text -> image任务中,caption太过简略,因此影响了图像生成模型的prompt-following能力,于是使用一个captioner来合成 更详细 的caption;在这样的数据上训练的图像生成模型,prompt-following能力有了明显提升。

至此,读者能够发现,large scale weakly supervision data, 既是基石、又是台阶:

说是 基石 ,因为它可以作为对齐各个模态的桥梁、也可以成为(多模态)大模型的训练数据,从而带来human-level foundation model

说是 台阶 ,因为它也是一个起点,超越它,便让我们离 super-human model ,更进一步。

关注笔者

关注笔者,了解更多有趣有用的NLP / AI知识:)

往期文章

1. 模型融合(Model Merging):合理性、常见技术及其特性

  1. 自动优化Prompt:Automatic Prompt Engineering的3种方法

  2. 自动Prompt Engineering(2):PE2、LongPO以及BPO

  3. BGE论文解读:如何炼成中文世界的通用Embedding Model

  4. Embedding技术的两个小应用:鲁迅全集检索 & 新闻早报聚类

  5. 作为标注员的LLM(五):三种标注范式以及思考

  6. AttrPrompt:让LLM生成的数据更加多样、更少Bias的一种思路

  7. ACL 2023 | 对验证集的一场重新审视 - 弱监督学习比你想象的更“弱”

参考资料

[1] Learning Transferable Visual Models From Natural Language Supervision: https://arxiv.org/pdf/2103.00020.pdf

[2] MULAN: A JOINT EMBEDDING OF MUSIC AUDIO AND NATURAL LANGUAGE: https://arxiv.org/pdf/2208.12415.pdf

[3] C-Pack: Packaged Resources To Advance General Chinese Embedding: https://arxiv.org/pdf/2309.07597.pdf

[4] Text and Code Embeddings by Contrastive Pre-Training: https://cdn.openai.com/papers/Text\_and\_Code\_Embeddings\_by\_Contrastive\_Pre\_Training.pdf

[5] MusicLM: Generating Music From Text: https://arxiv.org/pdf/2301.11325.pdf

[6] Hierarchical Text-Conditional Image Generation with CLIP Latents: https://arxiv.org/pdf/2204.06125.pdf

[7] Robust Speech Recognition via Large-Scale Weak Supervision: https://arxiv.org/pdf/2212.04356.pdf

[8] SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding: https://arxiv.org/pdf/2308.10529.pdf

[9] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond: https://arxiv.org/pdf/2308.12966.pdf

[10] Improving Image Generation with Better Captions: https://cdn.openai.com/papers/dall-e-3.pdf

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论