备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
VILA-U是一个统一的视觉语言模型,将视频、图像、语言理解和生成融为一体。
传统的视觉语言模型(VLMs)采用了独立的模块,一个用于理解视觉内容,另一个用于生成视觉内容,这可能导致理解和生成的不一致性,并增加了复杂性。然而,VILA-U采用了一个单一的自回归下一个标记预测框架来同时处理这两个任务,从而可以排除不需要的额外组件,如扩散模型。
这种方法不仅简化了模型,而且还在视觉语言理解和生成方面实现了接近最先进的性能。
VILA-U的成功归因于两个主要的因素:在预训练期间,将离散视觉标记与文本输入对齐的统一视觉塔,增强了视觉感知;
自回归图像生成可以通过使用高质量的数据集,实现与扩散模型相当的质量。这使得VILA-U可以与使用全标记自回归框架的更复杂模型相媲美。
1 Introduction
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
除了视觉理解之外,将视觉和语言模态结合的另一个重要研究方向是视觉生成。文本指导图像生成的有两种流行方法。一种方法采用扩散模型 [60],这是一种各种生成任务的强大工具。
另一种工作通过向量量化(VQ)将视觉内容转换为离散标记,然后利用自回归 Transformer 进行高质量和多样的生成 。
随着视觉理解和生成的快速发展,一种新兴趋势是将这些技术统一到一个单一的多模态框架中。实现这种统一有两种主要方法。许多VLMs 保持理解和导向的框架,并将生成任务卸载到外部扩散模型。这种分离的方法增加了基础设施设计的复杂性。已有的大规模基础模型训练 Pipeline 和部署系统已经高度优化,以进行自然语言预测。设计一个支持扩散模型的新的堆栈将承担重大的工程成本。为避免这些成本,设计一个单一的端到端自回归框架,支持图像理解和生成任务,是可取的。
VLMs 中有一种趋势采用VQ编码器将图像输入转换为离散标记,并像语言数据一样以相同的下一个标记预测方式处理它们。然而,将连续标记替换为VQ标记在VLMs中通常会导致下游视觉感知任务的显著性能下降。其他工作 [52; 65] 可能需要进行各种架构修改,并从头开始进行多模态训练,这在计算上具有很高的成本。
在这项工作中,作者提出了VILA-U ,这是一种端到端自回归框架,采用统一的下一个标记预测目标,用于图像和文本输入,可以在视觉语言理解和生成任务上实现竞争性能,而无需外部组件的帮助。作者确定了两项关键原则以有效地高效地统一视觉和语言模态。
(1)现有的端到端自回归VLMs无法实现具有竞争力视觉理解的性能,原因在于离散的VQ标记只通过图像重构损失进行训练,且与文本输入不匹配。因此,在VQ视觉塔预训练过程中引入文本对齐至关重要,以增强感知能力。
(2)自动回归图像生成在有足够大小的优质数据集上训练时,可以获得与扩散模型相似的质量。在这一洞察的指导下,VILA-U 特征是一个统一的基础视觉塔,通过向量化将视觉输入转换为离散标记,并使用对比学习将这些标记与文本输入对齐。VILA-U 的多模态训练利用了统一的小规模高质量图像文本语料库上的视觉和文本标记的下一个标记预测目标。
作者在常见的视觉语言任务上评估VILA-U,包括图像语言理解、视频语言理解、图像生成和视频生成。VILA-U 显著缩小了端到端自回归模型与连续标记VLMs之间视觉理解的性能差距,同时引入了具有竞争力的原生视觉生成能力。
2 Related Work
大型语言模型(LLM) 。基于预训练大规模 Transformer (transformer)[68]的语言模型在自然语言处理领域中实现了巨大的变革。这些模型具有巨大的模型大小和预训练数据语料库,因此在各种语言任务上表现出显著的性能。像LLaMA[67]、Miktral[29]和Vicuna[13]等开源LLM的上线,进一步推动了在复杂语言任务中应用LLM的研究。除了对不同领域的出色零样本泛化能力外,LLM通常会在定制数据集上进行微调,以在特定任务上获得更好的表现。指令调优[55; 14; 56]也作为应用LLM获得更好输出的关键步骤。在本研究中,作者采用LLaMA-2-7B[67]模型作为作者的基本LLM。
视觉语言模型(VLMs) 。结合计算机视觉和自然语言处理诞生了VLMs,如今正处于LLM时代。在VLMs中,研究行人利用计算机视觉的基础模型,如CLIP[58],BLIP[38]和CoCa[74],提取视觉特征,对齐文本,并将它们输入到LLM中,以实现文本和视觉内容之间的跨模态理解。在上述的基础上,许多VLMs 已经被设计和训练在丰富的视觉语言数据上,实现了在视觉理解和推理任务上的显著性能。
VLMs可以分为两类:
(1) BLIP-style VLMs 利用交叉注意力机制将语言和视觉信息融合,并可选项地应用感知器[28]降低视觉Token的采样率。
(2) LLaVA-style VLMs 将视觉输入转换为Token(patches),并通过ViTs进行传递。ViTs的输出经过MLP层后,得到的语言空间的对齐。在本研究中,作者的目标是开发一个具有先前工作可比视觉理解的视觉语言模型,同时也具有新的视觉生成能力。
unified视觉语言模型 。许多工作已经致力于开发可以生成文本和视觉内容(包括图像和视频)的统一视觉语言模型。VLMs中生成视觉内容的主要方法有两条:
(1) 许多工作通过将VLMs与扩散模型(如Stable Diffusion[60])结合以实现高质量图像生成;
(2) 其他工作采用基于VQGAN的视觉编码器来将视觉输入转换为离散token,并使LLMs学习预测它们。在本研究中,作者设计基于自回归下一token预测方法进行视觉生成,并使作者的VLM有效地、高效地生成视觉内容。
3 Methods
本工作提出了一种多模态框架,旨在高效有效地将视觉和语言模态统一。实现这一统一的关键组件是一个统一的基础视觉塔,该塔将视觉输入转换为与文本对齐的离散 Token ,以及一个统一的多元模态生成训练过程。作者的框架内的主要多模态训练和推理过程概述如图所示1。
Unified Foundation Vision Tower
为了支持多样的视觉理解和生成任务,作者首先构建了一个统一的视觉基础塔来提供适当的视觉特征。作者提出在视觉基础塔的训练中包括文本-图像对比损失和基于VQ的图像重建损失,以增强视觉基础塔的文本对齐和离散标记划分能力。如图2所示,从图像中提取的特征主要是通过逆向量化离散化。然后,有一条路线,离散化的视觉特征被输入到解码器中以重建图像并计算重建损失;另一条路线,作者计算离散化视觉特征与文本特征之间的图像-文本对比损失。通过这种训练过程,视觉基础塔学习到提取适用于作者在VLM中理解和生成的离散特征。
统一的训练配方。对比和重构损失的直接组合收敛不可行。这是因为对齐和重构任务分别需要高级语义和低级外观特征。从整体开始训练视觉基础塔使用这两个目标可能会导致冲突的目标。在实践中,作者观察到,从头训练分量量化的视觉基础塔使用图像重构和对比损失会导致在ImageNet上的零样本图像分类的Top-1准确性在经过几轮训练后仅为5%。
为了解决这个问题,作者尝试了不同的训练配方,并发现以下方案是最有效的。不是同时学习这两个目标,而是首先为模型配备文本-图像对齐能力,然后学习重构,同时保持对齐能力。作者把CLIP模型的预训练权重初始化用于视觉编码器和解码器,以确保良好的文本-图像对齐。然后,作者把文本编码器冻结,并使用对比和重构损失训练所有视觉组件。对比损失保持对齐能力,而重构损失发展重构能力。这种训练方法收敛迅速且性能强大。CLIP权重包含预训练的高 Level 先验,它们从头训练起来非常困难且耗计算资源。使用这些权重使得视觉编码器能够更快、更简单地结合低级和高级特征。在这种训练配方下,作者可以有效训练出既具有良好的文本对齐能力,也具有图像重构能力的视觉塔。作者使用加权求和来结合文本-图像对比损失和基于VQ的图像重建损失:
在作者的实验中,作者取 = 1, = 1。
讨论:无效的训练配方。作者尝试了大量的训练配方,并发现没有一种比最终方案更有效。作者列出四种替代配方并讨论了与最终配方相比的优缺点: 1)仅加载文本编码器的预训练CLIP权重; 2)在训练期间同时加载预训练RQ-VAE权重用于视觉编码器和解码器,而从头开始训练其他部分; 3)冻结视觉编码器; 4)使文本编码器可训练。
配方1)和2)失败,因为没有预训练CLIP权重的视觉编码器。训练一个CLIP模型从头开始通常需要大量GPU天和大的全局批量大小(例如,32k)。然而,基于VQ的重建训练需要相对较小的全局批量大小(例如,512)才能保持稳定改进。对于这样小的批量大小,从头训练文本对齐的视觉塔将耗时且资源需求高。
配方3)失败的原因是冻结视觉编码器阻止了其学习重建所必需的低级特征。在这种情况下,重建任务完全落在视觉解码器上,但是仅使用语义特征很难很好地重建图像。
配方4)失败的原因是初始训练阶段量化特征处于混乱状态,对比损失会破坏文本编码器的权重,减慢整个训练过程。
相比之下,作者最终的训练配方利用已预训练的CLIP视觉编码器的权重,使其能够保持已学习的语义特征,而不是从头开始抓取它们。这样作者可以在保持视觉编码器可训练的同时,训练与重建相关的小批量数据,提高训练过程中低级特征的学习。
残差向量量化。作者的视觉特征是离散量化的,所以它们的表现能力在很大程度上取决于作者在量化器中使用的代码大小。由于作者希望它们包含高低层特征,作者需要在它们的向量特征空间中增加更多的容量,因此需要更大的代码大小以在下游任务中取得良好的性能。然而,每个图像太多代码会导致视觉生成过程中LLM产生的标记过多,从而增加延迟。因此,作者尝试通过采用类似于RQ-VAE [33]后的残差向量量化方法来离散一个向量为个离散代码:
其中是代码表,,是向量在第层深度处的代码。作者从开始,按深度递归地进行向量量化:
其中是代码表的嵌入表,是标准向量量化:
在式(4)中, 的离散向量是指深度维度的求和:. 可以直观地理解为,在每一层中,作者选择一个编码方式来减小量化误差。因此,与标准的向量量化方法相比,作者有个编码器来量化一个向量,从而实现了更精细的近似和更大的特征空间。
在多模态训练和推理过程中,只需预测代码嵌入,深度 Transformer 以代码嵌入为初始输入,逐层生成的不同深度的编码器来实现。作者将在第3.2节中详细介绍。因此,通过这种残量量化,作者可以在不增加延迟的情况下增强视觉塔的表示能力。
Unified Multi-modal Generative Pre-training
图1展示了作者的统一多模态预训练过程概述。作者的视觉塔编码器按顺序处理视觉输入,生成一维 Token 序列。然后将这个序列与文本 Token 连接起来,形成多模态序列。为了区分模式并启用视觉内容生成,作者在图像 Token 的开始和结束以及视频 Token 的开始和结束插入特殊 Token :<image_start>和<image_end>,以及<video_start>和<video_end>。视频 Token 是多帧图像 Token 的直接 ConCat 。
预训练数据格式。 在统一预训练数据方面,作者利用文本和视觉标记之间的不同连接形式以方便理解和生成。作者使用[image, text],[text, image]和[text, video]的连接形式,在每个对中只添加监督损失,以避免无条件内容生成并促进模式对齐。作者还采用错位文本和图像连接形式,仅对文本应用监督损失以增强理解力。值得注意的是,作者在预训练阶段排除了[video, text]的格式,因为它在监督微调阶段的有效集成带来了出色的视频理解能力。
训练目标。 因为视觉标记和文本标记都是离散的,作者可以训练作者的LLM具有通用的语言模型下一句预测目标。然而,由于视觉标记使用了残量量化,文本和视觉标记的目标略有不同。
,
而。因此,深度 Transformer 根据前d-1层代码嵌入预测下一个代码,以进行更精细的特征估计。
4 Experiments
在本节中,作者进行了全面实验,以评估作者的方法在各种视觉理解和生成任务上的性能。首先,作者概述了实验设置,包括模型架构、训练数据集和评估基准。接着,作者评估了统一的基础视觉塔的性能。然后,作者将作者的方法与其他流行的VLMs在各种视觉理解和生成基准上进行比较。最后,作者给出了部分定性结果。
Experimental Setup
在作者的实验中,作者采用LLaMA-2-7B [66]作为作者的基本语言模型。对于视觉塔,作者选择SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384 [77]作为作者的视觉编码器架构,并采用自残差量化器、深度 Transformer 以及来自RQ-VAE [33]的解码器架构。量化器词表大小为16384。所有图像和视频都被重新缩放到分辨率为,每个图像或视频帧都转换为具有残差深度的的代码。作者在COYO-700M [6]上训练作者的视觉塔,并对其在ImageNet [18]上的零样本分类和重建性能进行评估。为了实现视觉理解,作者利用1M [图片,文本]数据来自ShareGPT4V [10],6M相互交织的文本和图像数据来自MMC4 [81]。为了实现视觉生成,作者融入了来自作者内部数据集的15M高质量[图片,文本]数据和OpenVid [54]数据集的1M [图片,视频]数据。分类器无关的指导[25]在视觉生成中应用,CFG值为3。
为了检查视觉理解能力,作者在包括VQA-v2 [24],GQA [27],TextVQA [62],POPE [42],MME [23],SEED [34],MM-Vet [76]等在内的广泛采用的零样本图像为基础的视觉语言基准测试上评估作者的模型,以反应图像生成的总体能力。
为了检查视觉生成能力,作者使用MJHQ-30K [35]和GenAI-Bench [46]作为作者的基准。前者采用生成的图像与30K高质量图像之间的FID来反映图像生成的总体能力。后者是一个具有挑战性的图像到文本生成基准,它反映了视觉生成模型的全面生成能力。该基准分为两个类别:基本技能,包括文本输入中的属性、场景和关系理解,以及高级技能,包括计算、区分、比较和逻辑关系理解在文本输入中。
Unified Foundation Vision Tower
作者提出常用的指标重建FID(rFID)和Top-1准确率,用于衡量在ImageNet上的零样本图像分类中统一基础视觉塔的重建和文本对齐能力。作者的模型在rFID指标上显著优于VQ-GAN。当使用相同的代码形状时,作者的rFID略逊于RQ-VAE。这是可以预期的,因为训练中引入对比损失,旨在增强图像理解,导致重建质量的降低。对于文本对齐能力,作者的统一视觉塔在256/384分辨率下达到Top-1准确率为73.3 / 78.0,这显示了作者的统一视觉塔的卓越文本对齐能力。然而,需要指出的是,视觉塔的rFID和Top-1准确率仅作为中等指标,而不是直接与作者的整个多模态框架的最终性能线性相关。下面两节的性能更重要。## 定量评估
视觉理解任务 。表2和表3分别总结了作者的方法与其他领先的VLMs在图像语言和视频语言基准测试上的对比。与基础模型(如CLIP)产生的连续视觉标记(Continuous Visual Tokens)相比,基于VQGAN的离散视觉标记(Discrete Visual Tokens)与文本的关联性较小,从而损害了VLMs在视觉理解任务上的性能。与主流方法相比,作者的统一基础视觉塔,即使使用离散视觉标记,也可以获得接近领先VLMs的性能。
视觉生成任务 。如图4所示,VILA-U可以实现比其他自回归方法更好的FID,并与一些扩散型方法相当。这表明作者的方法对视觉生成具有可行性。表5总结了作者的方法与其他视觉生成方法的定量结果,以及GenAI-Bench上的其他视觉生成方法。尽管作者的方法在训练有数十亿图像文本对的情况下优于某些基于扩散的视觉生成方法,但作者的方法在训练有数十亿级图像文本对的情况下与SD v2.1 [61]和SD-XL [57]等模型相当(即使训练时使用的数据量少于它们)。这进一步表明,VILA-U可以有效地、高效地使用作者的统一训练框架学习视觉和文本模态之间的关联。
视觉理解 。为了验证VILA-U在综合视觉理解任务中的有效性,作者在几种理解和推理任务中应用它,如图3和图4中的示例。从结果中,作者可以看出VILA-U在不同任务中的泛化性能,包括视觉解释和推理。此外,模型继承了VILA [45]的一些重要能力,如图5和图6所示。
视觉生成 。如图7所示,作者展示了使用VILA-U的一些视觉生成结果。作者可以在图像生成和视频生成中使用作者的方法,即使训练的数据集相对较小。在给出的示例中,作者的方法可以生成令人愉悦的图像和连续的视频,符合用户输入。
5 Ablation Study
在此部分,作者将深入探讨作者框架的一些关键设计组件,并设计 Ablation 实验以展示它们将对性能产生何种影响。
对比损失对视觉理解的影响
作者在视觉塔的训练中包括对比损失,使其具有文本对齐能力。在多模态训练中,这种文本对齐能力对于增强模态融合和下游视觉语言任务的性能至关重要。作者通过训练带有对比损失和没有对比损失的视觉塔,并评估其对视觉语言理解性能的影响来验证这一点的重要性。对这种 Ablation 研究的采样,作者从 COYO-700M 的 2.5 亿数据中随机取样进行视觉塔的训练。对于多模态训练,作者使用 ShareGPT4V 和 MMC4 进行训练,不过文本图像和文本视频数据。表6 前两行结果证明了实现强有力的视觉语言理解性能的重要性的文本对齐。将数据集规模从 2.5 亿扩展到 7 亿将进一步增强性能,这突出了在大规模数据集上学习文本对齐的重要性。
Impact of Contrastive Loss to Visual Generation
作者进行了两个实验来证明对比损失对生成性能的影响。由于效率考虑,作者只进行了文本到图像的预训练,并使用Sheared-LLaMA-1.3B [69]代替了LLaMA-2-7B作为LLM。在第一个实验中,作者使用RQ-VAE作为视觉塔,其rFID为1.30。在第二个实验中,作者使用统一的视觉塔。结果如表7所示。作者的统一视觉塔在MJHQ-30K上的FID结果略逊于RQ-VAE,这可能是由于引入对比损失导致的rFID的降低。
Impact of Classifier-free Guidance
作者在视觉内容生成中采用了无需分类器的引导。作者研究了CFG值对作者256分辨率模型的影响。表8中呈现的结果表明,当CFG值为3.0时,FID评分最高。
6 Conclusion
作者提出了VILA-U,一种新颖且统一的视觉语言模型,它将视频、图像和语言理解和生成任务集成到一个自回归的下一个标记预测框架中。作者的方法不仅在利用额外的组件(如扩散模型)进行视觉生成和理解统一时比大多数VLMs更加简洁,而且还表明自回归方法可以实现与最先进VLMs相当的性能。
作者的成功既得益于在预训练期间将离散视觉特征与文本进行对齐的统一基础愿景塔,也得益于适合视觉理解和生成训练的高质量数据集。作者认为VILA-U可以作为一种通用的框架,用于处理各种视觉语言任务。
局限性 。VILA-U与利用连续视觉特征的最先进VLMs在视觉理解能力方面仍存在性能差距。此外,与最先进的扩散模型相比,视觉生成质量相对较低。在未来的工作中,作者将致力于克服这些局限性,以构建一种先进的VLM,在各种视觉语言任务中都能实现最先进的性能。
参考
[1].VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation.