当前的多模态大型语言模型(MLLMs)遵循这样一种范式:通过将视觉特征与大型语言模型(LLM)的输入空间对齐,并将视觉标记与文本标记拼接,形成统一的序列输入供LLM使用。
这些方法在多种视觉-语言任务上展示了有希望的结果,但由于涉及视觉标记导致的输入序列延长,其计算努力较大。在本文中,作者没有采用输入空间对齐,而是提出了一种新颖的参数空间对齐范式,将视觉信息表示为模型权重。
对于每个输入图像,作者使用视觉编码器提取视觉特征,将特征转换为感知权重,并将感知权重与LLM的权重合并。
这样,LLM的输入就不需要视觉标记,从而缩短了输入序列的长度并大大提高了效率。遵循这一范式,作者提出了带有感知权重生成器的VLoRA。
感知权重生成器被设计用来将视觉特征转换为具有低秩属性的感知权重,其形式类似于LoRA。
实验结果表明,作者的VLoRA在MLLMs的各类基准测试中取得了可比较的性能,同时在训练和推理过程中显著降低了计算成本。
1 Introduction
大型语言模型(LLM)在大多数自然语言任务上取得了令人鼓舞的性能,并在解决现实世界问题中展现出了强大的泛化能力。从LLM派生出的多模态大型语言模型(MLLM)通过感知现实世界的视觉信息,向人工通用智能(AGI)迈出了一步。因此,感知视觉信息的方式是从LLM向MLLM转变的关键。
为了感知视觉信息,最近的MLLM遵循一种输入空间对齐范式,将视觉特征与LLM的输入空间对齐,并将视觉标记与文本标记拼接,形成统一序列作为LLM的输入。例如,LLaVA [34] 使用CLIP-ViT-L-14 [47] 作为视觉编码器,并引入了一个线性投影器来将视觉标记与LLM的输入空间对齐。Monkey [29] 将输入图像划分为统一块,并为每个块配备了单独的 Adapter 以处理高分辨率图像。最近的工作 [53] 也识别了CLIP对MLLM的视觉缺陷,即“CLIP盲对”,并将视觉自监督学习特征与MLLM集成以解决此问题。DeepSeek-VL [39] 和Sphinx [30] 也采用了混合视觉编码器。Vary [55] 识别出固定的视觉词汇限制了密集和细粒度的视觉感知,并引入了一种新的词汇以解决此问题。
尽管这些努力在视觉感知方面推进了MLLM,但输入空间对齐的范式仍未改变,这可能导致训练和推理的计算效率低下。MLLM的计算成本集中在LLM的注意力机制上,当输入序列的长度为n时,其复杂度为O(n²)。使用ViT-L-14作为视觉编码器,一个224×224低分辨率图像可以产生256个视觉标记,当分辨率略微提升到336×336时,长度增加到576。考虑到高分辨率图像,一些工作将图像分割成多个子图像以捕捉细粒度信息,导致视觉标记的数量显著增加。例如,Sphinx-2k [30] 采用2,890个视觉标记,而InternLM-Xcomposer2-4KHD [11] 甚至使用高达8,737个视觉标记。将如此长的视觉标记序列与文本标记拼接,导致训练和推理的计算开销大幅增加。具体来说,当前的MLLM通常在抓取的网络图像-文本对上进行预训练,这些文本通常非常短,LAION-2B [48] 的平均字数为10.95,LAION-COCO [1] 为8.99。因此,预训练阶段的视觉标记数量约为文本标记的20到50倍,这表明视觉标记的参与严重影响了预训练的效率。一些工作 采用重采样器将视觉标记的数量减少到固定数量,但仍然遵循输入空间对齐范式,并为LLM引入额外的视觉标记。
为了解决这个问题,作者探索了一种新颖的参数空间对齐范式,其中视觉信息被表示为LLM的权重。如图1所示,对于输入图像,作者使用视觉编码器提取视觉特征。然后,将视觉特征转换为感知权重,这些权重将视觉信息表示为模型权重。感知权重可以直接与LLM的权重合并。因此,视觉信息以权重形式合并到LLM中,消除了LLM输入中视觉标记的需求,显著提高了效率。基于这一范式,作者引入了VLoRA,其中包含感知权重生成器。感知权重生成器旨在将视觉特征转换为感知权重。LLM通常包含大量参数,为了可行性和效率,感知权重被设计为具有低秩属性。因此,生成的感知权重类似于LoRA权重的形式。
作者的贡献总结如下:
- 作者探索了一种针对MLLM的新范式,将视觉特征与LLM的参数空间对齐,这大大提高了MLLM的效率。
- 基于这一范式,作者提出了VLoRA,并设计了感知权重生成器,生成低秩感知权重。
- 实验结果表明了作者的方法的有效性和效率。作者在各种基准测试上获得了与最先进的MLLM相当的结果,包括MMBench、ScienceQA、HallusionBench和MMMU。
2 Related Works
多模态大型语言模型。 当前的MLLMs是从LLMs发展而来的,通过将视觉特征对齐到LLMs的输入空间。许多研究致力于探索为LLMs引入视觉感知能力。LLaVA [34] 通过线性投影器将CLIP的视觉编码器连接到Vicuna [61]。遵循这一范式的研究进一步从视觉编码器和投影器的角度改进MLLMs,DeepSeek-VL [39] 使用SigLip [58] 提取高级语义特征并使用SAM-B [20] 处理低级特征。Tong等人[53]发现由于CLIP的不足,视觉上不同的图像可以被编码为相似,并将视觉自监督学习特征与CLIP特征集成。Sphinx [30] 结合了具有不同架构、预训练范式和信息粒度的各种视觉 Backbone 网络。这些工作将整个视觉标记序列输入到LLM中,这可能导致在训练和推理过程中产生较高的计算成本。具体来说,LLaVA [32] 和DeepSeek-VL [39] 利用576个视觉标记,Sphinx-2k [30] 使用2,890个视觉标记,而InternLM-Xcomposer2-4KHD [11] 使用高达8,737个标记。一些研究考虑采用交叉注意力架构作为投影器以提高效率。
MiniGPT4-v1 [62] 和BLIP系列 [9; 25] 采用Q-Former作为投影器,将视觉标记的长度减少到固定的64个。Qwen-VL [5] 使用带有2D绝对位置编码的单层交叉注意力模块,以避免可能丢失位置细节。然而,这些改进仍然遵循将视觉特征对齐到LLM输入空间的传统范式,在LLM推理时引入额外的计算开销。与之前的工作不同,作者的VLoRA将视觉特征与LLM的参数空间对齐。视觉信息可以表示为LoRA格式的感知权重,并在推理时合并到LLM的权重中。
参数高效微调。 参数高效微调(PEFT)是微调大型预训练模型(包括LLMs和MLLMs)的关键技术。PEFT方法冻结 Backbone 网络,只微调少量参数,通常可以分为三类: Adapter [16; 46; 51; 60],前缀微调 [24; 27; 36],和低秩适配(LoRA)[10; 17; 35]。在语言模型领域,Houlsby等人[16] 设计了瓶颈 Adapter ,并在 Transformer 层中插入两个 Adapter ,一个在注意力模块后,一个在馈送网络后。前缀微调 [27] 在每个层的自注意力模块的 Query 和键处前置一组可学习的前缀向量。
提示微调提出只将可学习的向量前置到输入提示,而不使用中间层的前缀。LoRA [17] 使用可学习的低秩矩阵近似 Backbone 网络的权重更新,低秩矩阵可以在推理时与 Backbone 网络合并,而不会产生额外的推理负担。考虑到预训练阶段,当前的MLLMs通常冻结单模态的 Backbone 网络并通过可学习的投影器投射视觉标记,然后将视觉标记前置到LLM的输入序列中,这可以看作是前缀微调方法。作者的VLoRA更接近LoRA的风格。具体来说,VLoRA生成低秩感知权重,这可以看作是生成的视觉参数矩阵 乘以一个可学习的矩阵 。与LoRA类似,感知权重可以注入到LLM的权重中,而不会引入额外的推理开销。
3 Method
Preliminaries
在本小节中,作者回顾了当前LLM中的解码器块的细节。如图2所示,LLM的解码器块包含一个自注意力模块和一个前馈网络。
自注意力。 如图2(b)所示,自注意力模块包含四种类型的线性层: Query 、键、值和输出。这里,代表1000的隐藏状态的维度,代表每个注意力头的维度。对于输入序列中的每个输入标记,它分别与线性层、、相乘,得到、和。然后,沿序列维度执行以下注意力操作:
自注意力机制在每个头上执行,不同 Head 的输出被连接起来,并乘以带有权重的输出线性层。
前馈网络。 如图2(c)所示,前馈网络是一个具有两个全连接层和非线性激活函数的MLP。其公式可以写为:
其中是输入标记,是激活函数,和是两个全连接层的权重。总之,LLM的解码器块有五种类型的权重,包括自注意力模块中的、、、以及前馈网络中的、。
Visual Perception by LLM's Weights
之前的MLLM遵循将视觉特征与LLM的输入空间对齐的范式,并需要额外的视觉标记作为LLM的输入,这可能导致计算效率低下。当遇到高分辨率或多张图像时,这种低效性变得更加明显,因为标记的数量会急剧增加。为了解决这个问题,作者提出了一种方法,即在不向LLM输入中引入额外标记的情况下,将视觉特征与LLM的参数空间对齐。
为了实现这个目标,作者将输入图像的视觉信息表示为感知权重,并将其整合到LLM的权重中。这种方法允许LLM感知视觉信息,而无需在输入中引入额外的标记。如第3.1节所述,LLM的解码器块有五种类型的权重。作者使用来表示LLM的权重矩阵。对于一个输入图像,作者首先采用视觉编码器提取视觉特征,其中,是视觉标记的数量,是视觉特征的维度。然后,作者设计了一个感知权重生成器,将视觉特征转换为感知权重。值得注意的是,鉴于作者希望LLM在保持其语言能力的同时感知视觉信息,是一个低秩矩阵,这也有助于降低感知权重生成器的计算成本。利用生成的感知权重,作者可以直接将其合并到LLM的权重中,如下所示:
通过将来自视觉特征的权重整合到LLM的权重中,自然地赋予了视觉感知能力。合并权重后,不会为LLM引入额外的推理负担。对于LLM中每个解码器块中的任何权重,作者都可以生成相应的感知权重并将其整合到LLM的权重中。### 感知权重生成器
为了将视觉特征转换为感知权重,作者提出了感知权重生成器。由于LLM中的每个层和每种类型的权重都关注不同的视觉信息,作者的感知权重生成器需要能够灵活地生成对应于LLM每种权重的权重。
受到DETR [6]和BLIP-2 [25]的启发,作者将感知权重生成器设计为仅解码器的架构,带有跨注意力层以生成 。如图3(a)所示,感知权重生成器包含个块,每个块由一个自注意力模块、一个跨注意力模块和一个前馈网络组成。感知权重生成器的隐藏状态维度是,其中。作者设定个可学习的感知 Query ,对应于作者想要插入感知权重的解码器块数量。对于每个块,感知 Query 首先通过自注意力模块,然后在跨注意力模块中与视觉特征交互,最后通过前馈网络。经过个块后,作者得到个特征。特征应映射到感知权重的目标形状。然而,由于,直接使用线性层将的维度从映射到可能会引入大量参数,大大降低可行性。因此,作者考虑在这一过程中引入低秩性质。作者采用共享的线性层,将所有特征从映射到,如下所示:
其中是感知权重的秩,是视觉参数。
然后作者将输出 Reshape 为。当上升到目标维度时,对于每个视觉参数,个独立的线性层被用来获得个感知权重,这个过程可以表述为:
将方程(5)代入方程(3),作者得到:
考虑到和的低秩性质,作者可以观察到等式(6)和LoRA是相同的形式,其中对应于,对应于。如图3(b)所示,从LoRA的视角看,作者的感知权重生成器可以被视为“LoRA权重生成器”。这是因为它为LLM的权重生成和。作者的感知权重生成器一次为个解码器块生成一种类型的感知权重。为了生成多种类型的权重,作者采用多个感知权重生成器。### 计算成本分析
由于在LLM的输入中未引入额外的视觉标记,作者的VLoRA在训练和推理时都实现了更高的计算效率。作者只考虑LLM的计算成本,因为与LLM相比,作者的感知权重生成器的计算开销可以忽略不计。作者假设LLM有个块和隐藏状态维度为,输入文本长度为,视觉标记数量为。为了方便,作者只考虑LLM中自注意力模块和前馈网络的计算成本。自注意力模块和前馈网络的FLOPs分别是和。对于之前将视觉特征与LLM输入空间对齐的MLLM,LLM的FLOPs为。对于作者的VLoRA,额外的计算成本出现在等式(6)中,与相乘。假设作者为个解码器块中的所有5种权重生成感知权重。在训练期间,作者不将感知权重与LLM权重合并,而是将它们作为LLM权重的分支。因此,FLOPs为。在推理时,可以将感知权重合并到LLM中,FLOPs为。FLOPs计算的细节在附录A中。与推理相比,训练的开销略有增加,作者通过训练FLOPs进行比较。在图4中,作者比较了LLaVA和VLoRA的FLOPs。作者的方法不会随着视觉标记数量的增加而引入额外的计算,并且当文本长度为32时,作者的FLOPs仅为LLaVA-v1.5的8%。
4 Experiments
Implementation Details
模型设置。 作者使用Vicuna-7b-v1.5 [61]作为基础的大语言模型,使用CLIP-ViT-L-14 [47]作为视觉编码器。感知权重生成器是随机初始化的。对于感知权重生成器,作者将隐藏大小设置为512,块数为8。感知权重的秩为64。感知 Query 的数量为8,这意味着作者只在8个块上插入感知权重,在实现中,对于具有32个块的Vicuna-7b-v1.5,作者每4个块插入一次。为了提高视觉感知能力,作者在LLM的所有五种类型的权重中插入。值得注意的是,感知权重生成器的最后个线性层是零初始化的,因为它们等同于LoRA权重中的,这些权重初始化为零以保持训练稳定性。
预训练数据。 在预训练期间,作者使用图像-文本对来训练作者的模型。具体来说,作者使用了CapsFusion-120M [56]的一个子集,其中包含3000万个图像-文本对。CapsFusion-120M从LAION-COCO [1]中随机收集图像-文本对,LAION-COCO既包括网络爬取的也包括由BLIP [26]生成的合成字幕。然后,使用一个微调后的LLM来整合这两种类型的字幕。
预训练配置。 在预训练阶段,作者冻结了LLM和视觉编码器的权重,使得只有感知权重生成器可训练。作者使用AdamW [38]优化器,学习率为5-5,该学习率遵循线性 Warm up 然后余弦衰减计划。【精细调整数据。】对于监督式微调,作者采用了与LLaVA-v1.5相同的 数据。具体来说,监督式微调数据是由VQAv2 [13]、GQA [18]、OKVQA [42]、OCRVQA [43]、A-OKVQA [49]、TextCaps [50]、RefCOCO [19, 41]、Visual Genome [21]、ShareGPT [2]和LLaVA-Insturct [34]构建的,共有665K个对话数据。
微调配置。 在微调阶段,作者冻结了视觉编码器,并更新了感知权重生成器和LLM的权重。学习率设置为5-5,学习率计划与预训练阶段相同。全局批处理大小为128。作者在8个NVIDIA H800 GPU上训练一个周期,耗时2小时。
Benchmarks for Evaluation
MMBench与CCBench。 MMBench [37] 是一个全面的多模态基准测试,旨在评估MLLMs的性能。它包含超过3000个多项选择题,覆盖20个能力类别。评估分为感知和推理维度,并进一步细分为20个类别。CCBench [37] 由MMBench团队发布,旨在评估MLLMs在中华文化领域的性能。
MME。 MME [12] 同样从感知和认知的角度衡量高级MLLMs,总共有14个子任务。为了最小化提示工程对MLLMs的影响,MME的指导设计为简单的二选一回应:“请回答是或否”。
ScienceQA。 ScienceQA [40] 是从小学和高中的科学课程中构建的。ScienceQA的问题涵盖三个学科:自然科学、语言科学和社会科学。作者使用验证集中的带图像的样本来评估MLLMs。
HallusionBench。 HallusionBench [14] 是为评估图像上下文推理而设计的,包括346张配对的人类专家编写的1129个问题。与其他基准测试[15, 28, 31]不同,后者关注具有有限主题和视觉输入类型的目标幻觉,HallusionBench考虑了跨多种主题的语言幻觉和视觉错觉。
MMMU。 MMMU [57] 从大学考试、测验和教科书中收集了11.5K个多模态问题,覆盖六个核心学科,横跨30个科目和183个子领域,包含30种不同类型的图像。由于需要大学 Level 的专业知识,MMMU比现有的基准测试更具挑战性。
Comparison with State-of-the-arts
表1:在六个MLLM基准测试上的比较,包括MMBench、MME、ScienceQA、HallusionBench、MMMU和CCBench。_vis. tok._表示LLM中涉及的视觉token数量。加粗的数字表示最佳结果,下划线的数字是次佳结果。GFLOPs表示当输入文本token数量为32时LLM部分的计算开销。
表1将作者的VLoRA与其他最先进的MLLM在六个MLLM基准测试上进行比较。结果来自OpenCompass [8]。与其它MLLM不同,作者的VLoRA在LLM推理过程中不需要任何视觉token,并且当文本长度为32时,其计算开销仅为LLaVA-v1.5的8%。在大多数基准测试上,VLoRA的表现超过了InstructBLIP、MiniGPT-4、Idefics-instruct和OpenFlamingo v2。与在14亿图像-文本对上预训练的Qwen-VL-Chat相比,VLoRA在MMBench上得分高出3.7,在ScienceQA上高出1.3。与LLaVA-v1.5相比,VLoRA在MMBench、ScienceQA和HallusionBench上达到相当的性能,在MMMU和CCBench上甚至表现更好。然而,在MME上的结果不如LLaVA-v1.5,因为作者的感知权重生成器是随机初始化的,在预训练阶段需要更多的图像-文本对数据。为了验证这一点,在表2中,作者通过用随机初始化的Q-Former替换投影器重新生成LLaVA-v1.5,在MME上取得了相似的结果。作者的VLoRA实现了与最先进的MLLM相当的性能,而没有将视觉token作为LLM输入,大大降低了计算开销。
5 Ablation Study
在本节中,作者探讨了MLLMs的性能受到基础LLM和训练数据(包括预训练数据和有监督的微调数据)的显著影响。为了探究作者提出的范式和模型的有效性,作者在此部分中采用了与LLaVA-v1.5 [34] 进行了公平的比较,使用了相同的基础LLM和训练数据。然后,在这种设置下,作者也探讨了每个组件不同设置对性能的影响。
Comparison with LLaVA-v1.5
为了与LLaVA-v1.5进行公平的比较,作者使用与VLoRA相同的设置重新生成LLaVA-v1.5,包括预训练和有监督的微调数据。此外,为了消除投影器差异的影响,作者将LLaVA-v1.5的投影器替换为一个随机初始化的Q-Former,它的块数和隐藏大小与作者的感知权重生成器相同。训练使用与VLoA相同的预训练和微调数据。
在表2中,第二行是LLaVA-v1.5在CapsFus-30m上进行预训练的结果。尽管使用了更多的预训练数据,LLaVA-v1.5在MLLM基准测试上并没有取得显著的提升,反而在MME、HallusionBench、MMMU和CCBench上有所下降。作者的VLoA在与LLaVA-v1.5在相同数据上进行训练时仍然具有竞争力。第三行是带有Q-Former的LLaVA-v1.5的结果,它是在CapsFus-30m上进行预训练的。作者将可学习 Query 的数量设置为128,因此视觉 Token 的数量为128。除了在ScienceQA和HallusionBench上稍低一些外,作者的VLoA在其他MLLM基准测试上显著更好。这些结果表明,作者的方法与设置一致的LLaVA-v1.5相比,具有竞争力甚至更优。
Analysis of each component
表3:配备感知权重的权重类型的影响。q、k、v和o分别表示自注意力模块中的 Query 、键、值和输出权重。m表示前馈网络的权重。
为了进一步分析VLoA,作者探讨了每个组件的影响,包括配备感知权重的权重类型、感知权重的秩以及感知权重生成器的块数。配备感知权重的权重类型。 如作者在第3.1节中提到的,LLM的解码器块中有五种类型的权重,分别是** Query 、 键**、** 值**、** 输出和 mlp**。作者探讨了为不同类型的LLM权重插入感知权重的影响。如表3所示,作者比较了不同的组合,包括qkvm、qkvm、qkv、qko和qk。为所有类型的权重配备感知权重的模型可以在大多数基准测试上取得最佳性能。作者注意到qkv的性能比qk要好得多。这表明值矩阵对于视觉感知至关重要,因为值矩阵的输出将被加权求和,涉及自注意力模块的结果。
感知权重的秩。 生成感知权重的秩表示视觉信息压缩的程度。秩越小,视觉信息压缩得越多。作者在表4中比较了秩从16到128的性能。当时,在感知权重中视觉信息被严重压缩。然而,具有这种低秩感知权重的LLM仍然可以感知视觉信息。从到,随着秩的增加,MMBench、MME、HallusionBench和CCBench的性能有所提高。具体来说,MMBench的分数从57.6提高到63.4,MME的分数从1163.8提高到1311.3。当秩达到128时,VLoRA在这些基准测试上的性能下降。这可能是因为视觉信息变得冗余,且较大的秩可能会在感知权重中引入噪声,这损害了LLM的能力。
感知权重生成器的块数。 为了探索感知权重生成器的影响,作者进行了不同块数的感知权重生成器的实验。在表5中,作者观察到8块权重生成器的性能优于4块。然而,当时,ScienceQA和CCBench的分数高于8块,但在其他基准测试上的性能下降。这表明虽然更强大的感知权重生成器可以实现更好的性能,但在达到阈值后增加块数并没有好处。
6 Conclusion
在本文中,作者没有将视觉特征与LLM的输入空间对齐,而是提出了VLoRA,将视觉特征与LLM的参数空间对齐。由于没有向LLM中引入视觉标记,作者的VLoRA可以在不增加额外计算开销的情况下让LLM感知视觉信息。为了将视觉特征转换为感知权重,作者提出了感知权重生成器,用于为LLM的任何权重生成低秩感知权重。由于低秩属性,感知权重可以被视为LoRA权重,其中是生成的,是可学习的。作者在六个MLLM基准上进行了全面实验,VLoRA在大多数基准上可以达到与LLaVA-v1.5相当的性能,同时只带来相当于LLaVA 10%的计算成本。在消融研究中,作者在相同的设置下复现了LLaVA-v1.5,并展示了作者的方法可以取得更好的性能。
参考
[1].Visual Perception by Large Language Model's Weights.