备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
尽管在多模态大型语言模型(MLLMs)方面取得了显著的进展,通过跨模态交互理解复杂的人类意图,但是捕捉图像的细微细节仍然具有挑战性。以前的方法将多个视觉编码器集成起来以增强视觉细节,这引入了冗余和计算开销。
作者观察到,大多数MLLMs仅利用视觉 Transformer (ViTs)的最后一层特征图进行视觉表示,而忽略了浅层特征图中的丰富细粒度信息。
为了解决这个问题,作者提出了MMFuser,这是一个简单而有效的多层特征融合器,它有效地将深度和浅层特征从视觉 Transformer (ViTs)中集成。
具体来说,它利用语义对齐的深度特征作为 Query ,动态地从浅层特征中提取缺失的细节,从而在保留语义对齐的同时丰富表示。应用于LLaVA-1.5模型,MMFuser在视觉表示和基准性能上取得了显著的改进,与多编码器集成方法相比提供了更灵活和轻量级的解决方案。
I Introduction
近年来,多模态大型语言模型(MLLMs)在人工智能领域(AGI)的研究热点中崭露头角。这些模型通过跨模态互动和学习在理解和表达复杂人类意图方面取得了重要进展。在大型语言模型(LLMs)快速发展的基础上,MLLMs利用预训练的视觉编码器来提取图像特征,并将其与先进的LLMs相结合,展示了在各种视觉语言任务上的显著能力。
当前,社区中的主流方法包括使用预训练的视觉 Transformer(ViT)[25, 17]或其变体[18, 19, 26]作为视觉编码器,将其最后或倒数第二层输出的结果输入到LLM中作为视觉表示。
这样,这些具有丰富的高层次语义信息的特征就从图像空间转换到语义文本空间。然而,由于深度特征中低级图像信息的损失,当前的MLLM在准确解释细节方面存在挑战,导致光学字符识别(OCR)错误和目标幻觉等问题。
针对这些问题,近期的一些研究[27, 24]表明,视觉编码器学习细粒度图像特征的能力已经成为MLLM的一个 Bottleneck 。因此,一些研究行人认为,仅仅依赖单个视觉编码器的特征可能并不是最优的。他们提出将多个预训练的视觉编码器(如CLIP[17],DINOv2[19],ConvNext[18])整合在一起,以互补的方式增强细粒度视觉表示。
虽然这些基于集成的方法取得了令人鼓舞的结果,但不幸的是,它们引入了模型冗余,并增加了计算开销。因此,使用多个视觉编码器仍然存在争议。
事实上,即使只有一个视觉编码器,学习的视觉表示也是多样的,如图1所示。可视化结果表明,深度特征在提取高层次语义信息方面有效,而浅层特征更适合捕捉低层次细节,如边缘和纹理,这些在当前MLLM中尚未得到充分利用。回顾经典的图像和视频任务,如目标检测和语义分割,多层特征广泛使用,其中浅层和深度视觉特征的结合为图像或视频提供了更全面的了解。然而,这种多层特征的应用在MLLM领域仍然相对较少。
将上述想法扩展到MLLM的可视化表示是自然而然的。作者已经尝试了一些简单的方法来结合单个ViT [17]中的多个层特征以增强图像细节,例如逐元素平均或逐通道拼接。然而,这些简单的融合方法在性能上只有一些改进。通过进一步探索,作者发现虽然浅层特征捕获了更丰富的低级细节,但它们与文本特征空间的语义对齐不足。这种缺陷损害了模型理解图像的能力,并抵消了浅层和深层视觉特征结合带来的好处,表明在MLLM中进行多层特征融合至关重要,需要更谨慎的设计。
进一步,以前的研究[36]表明,LLM在理解ViTs的深度特征方面具有优势,这些特征与文本特征空间完全对齐。相反,虽然浅层特征富含细节,但它们在语义对齐方面表现较差,这使得LLM 难以有效地解释这些特征。这一洞察启发作者提出一种简单而有效的方法,称为 MMFuser (参见图3),它使用深度特征作为 Query ,动态地从浅层特征中提取缺失的细节。这种方法最大限度地减少了浅层特征破坏语义对齐的风险,同时保持深度特征的一致性,并为其提供细粒度的信息。通过利用多层特征,MMFuser可以提高MLLM在处理图像和视频方面的整体性能。
为了验证MMFuser的有效性,作者将它应用到了最近广为人知的一个模型LLaVA-1.5 [3]。如图2所示,作者的MMFuser显著提高了输入到MLLM的视觉表示,从而提高了LLaVA-1.5在大多数多模态基准测试上的性能。具体来说,作者的7B模型在12个基准测试中超过了LLaVA-1.5-7B,而作者的13B模型在12个基准测试中超过了LLaVA-1.5-13B。此外,作者的模型在细粒度识别任务上也展示了卓越的性能,包括OCR和视觉定位。
总结一下,作者的主要贡献如下:
- 作者发现MLLM中单视觉编码器的表达潜力被低估。浅层特征,富含细节,与文本特征的语义对齐较差,表明简单的融合方法不足,需要更高级的设计。
- 作者提出了MMFuser,它通过动态集成浅层特征的精细细节,增强了单个视觉编码器的视觉表示,同时保持了深层特征的语义连贯性。
- 将MMFuser应用于LLaVA-1.5模型,作者实现了显著的性能提升。作者的13B模型在VizWiz、MME和MMBench-EN上分别超过了LLaVA-1.5 3.8、53.9和2.2个百分点,证明了作者的方法的有效性。
II Related Work
Multimodal Large Language Model
多模态大型语言模型(MLLMs)将图像的视觉表示与文本的语言嵌入相结合,从而增强模型在理解和生成视觉内容的语言描述方面的能力。大多数开源MLLM采用包括预训练视觉编码器、语言模型(LLM)和跨模态连接器的架构。早期的模型,如BLIP系列[1, 36],使用了Q-Former模块来对齐文本和图像,从而提高了多模态能力。Flamingo[37]使用了门控交叉注意力机制来整合图像和文本。LLaVA-1.5[3]采用了一个MLP Projector 将预训练视觉编码器与LLM连接起来。InternVL[4, 6]采用了一种动态分辨率策略,将图像分割成 tiles,并一起编码 tiles 和缩略图视图。然后,它使用像素混合操作来减少视觉 Token 的数量,并将这些特征通过MLP Projector 与LLM集成。
此外,一些私有语料库模型(MLLMs)如 Gemini系列[38, 39],GPT-4V [7],以及Claude-3V系列[40],以及开源模型如MiniGPT-4 [23],Qwen-VL [5],CogVLM [41],VisionLLM系列[42, 43],All-Seeing系列[44, 45],等,都展示了强大的多模态能力。这些模型充分展示了MLLMs理解、概括和处理多模态信息的能力,在多模态任务上始终树立新的基准。
Vision Encoder in MLLMs
在MLLM中,视觉编码器起着关键作用,其中一些显著的模型如CLIP-ViT [17] 在这个领域得到了广泛应用。CLIP [17] 利用大规模图像文本对进行对比学习预训练,结果得到了一种能够学习丰富而通用的视觉表示的视觉编码器。这种能力增强了视觉和语言之间的关系理解。包括LLaVA系列 [2, 3],PaLI [48] 和Qwen-VL [5] 等多款模型采用了CLIP-ViT [17, 49] 作为其默认的视觉编码器。
此外,还使用了其他视觉基础模型构建MLLMs。例如,CogVLM [41]利用预训练的EVA2-CLIP-E [50]模型进行视觉表示。ConvLLaVA [26]将基于卷积的分层模型ConvNeXt [18]作为其视觉编码器。
在DeepSeek-VL [15]中,SigLIP [21]和SAM-ViT [51]被用作视觉编码器。此外,InternVL [4, 6]使用了InternViT-6B,这是一种在网络尺度图像文本数据上进行训练的视觉基础模型。这些工作通常使用视觉编码器最后层的特征图作为视觉表示,如图3(a)所示。然而,作者的方法旨在探索使用视觉编码器浅层和中间层特征图在视觉语言任务中可能带来的潜在优势。
Ii-C1 Scaling Up the Vision Encoder
PaLI [48] 将其视觉编码器的参数增加到40亿。在PaLI-17B中,视觉编码器ViT-e占总参数的约25%。InternVL [4] 将其视觉基础模型扩展到60亿参数,并逐步将其与大型语言模型对齐。PaLM-E [52] 通过将540亿参数的PaLM [53] LLM与ViT-22B [54]集成,实现了562亿参数的规模。
Ii-C2 Integrating Multiple Vision Encoders
如图3(b)所示,该方法通过集成多个视觉编码器来增强视觉表示。例如,MMVP [27] 采用了一种混合特征(MoF)方法,将 CLIP-ViT 和 DINOv2 [19] 的图像特征集成在一起。值得注意的是,DINOv2 是一种无需语言指导的自监督视觉模型。同样地,MouSi [47] 利用集成技术将单个视觉编码器的功能进行协同。
这种方法引入了一种融合网络,将来自不同视觉编码器的输出(包括 CLIP、DINOv2 和 SAM [51])进行统一处理。LLaVA-HR [28] 集成来自两个不同分辨率的视觉编码器的图像特征:CLIP-ViT 的 336px 和 CLIP-ConvNeXt [18] 的 1024px。这种方法利用了两种分辨率输入的优势,以增强视觉理解。DeepSeek-VL [15] 采用了一种混合视觉编码器设计,通过结合 SigLIP-L [21] 为低分辨率输入和 SAM-B [51] 为高分辨率输入,有效地编码图像。
Ii-C3 Feature Fusion
MEP3P [55] 通过引入图像深度特征和伪3D位置,增强了MLLM中原始视觉特征的输入。VCMR [56]利用可变形注意力处理多粒度的图像特征,从而获得细粒度信息,从而在后续跨模态任务中提高性能。作者的同时工作Dense Connector [57]将多个层的特征集成在一起,通过捕获视觉编码器的多级表示来丰富MLLM的视觉输入。
总体而言,这些方法对MLLMs的性能产生了显著的提升。然而,单个视觉编码器的潜力尚未得到充分探索。为了应对这一问题,作者提出了MMFuser,该方法将视觉编码器多个层的特征图进行融合,如图3(c)所示。这种方法使作者能够获得更强大的视觉表示,从而提升MLLMs的性能。
III Method
在本节中,作者讨论了MLLM当前视觉表示中缺失详细信息的问题。使用一些简单的融合方法进行的初步尝试表明,浅层特征缺乏足够的语义对齐。为克服这一问题,作者提出了一种名为MMFuser的MLLM方法,旨在有效集成多层特征并保持语义对齐。
Analysis of Visual Representations for MLLMs
目前,大多数主流的MLLMs 采用CLIP-ViT [17] 作为其视觉编码器,通常选择最终层的一个特征图作为视觉表示。以前的研究 [60] 表明,在更深层的ViT中,注意头的感受野变得主要是全局的,而浅层同时保留局部和全局信息。因此,深特征图中的局部细节的缺乏可能导致细粒度视觉识别任务表现不佳。
与现有将多个编码器集成的方法不同,作者认为CLIP-ViT捕获的视觉信息并未在MLLM中得到充分利用。如图1所示,浅层能够捕捉到细微的细节,但这些细节往往被忽视。因此,作者提出结合浅层和深层特征可以显著提升MLLM的性能。
作者在LLaVA-1.5 [3] 中应用了融合特征图作为视觉表示,并遵循其原始设置来评估模型性能。然而,如表1 所示,四种融合方法中没有一种能够持续提高模型性能。作者将这一现象归因于深度特征与浅度特征之间的语义不匹配。
MMFuser: Multimodal Multi-Layer Feature Fuser
在前述各部分的启示基础上,作者观察到 ViT 的浅层和深度特征可以互相补充。为了利用这一潜力,作者提出了一种多层特征融合模块 MMFuser。MMFuser 可作为视觉编码器与 LLM 之间的桥梁。MMFuser 的整体架构如图4 所示。
具体而言,作者从ViT中提取L个特征图,表示为。
由于深度视觉特征与文本空间之间存在强烈的语义对齐,作者使用深度特征作为 Query ,通过交叉注意力操作动态地从浅层特征中提取缺失的细节。
这导致了一个视觉特征,其中包含了更丰富的细粒度特征。这个过程可以表示为:
其中,表示注意力机制,表示 LayerNorm [66],表示拼接操作。
为了有效促进特征交互并突出显著特征,作者将自注意力机制引入特征图 中,公式如下:
其中, 是一个可学习的向量,用于调整 与 的贡献比例。接下来,对于生成的特征图 ,作者引入另一个可学习的向量 来调节 和 的整合:
通过上述步骤,作者推导出了增强的视觉特征。与原始的视觉特征不同,整合了更丰富的细粒度信息,使其成为LLM视觉输入的优越替代方案。
Overall Framework Design
作者提出的MMFuser可以集成到主流开源MLLMs中,特别是在"ViT-MLP-LLM"架构[23, 2, 3, 4]中。作为案例研究,作者使用LaVA-1.5模型来展示这种集成。在这个框架中,MMFuser位于ViT和MLP Projector 之间,将ViT的多层特征图融合在一起。
整体架构如图4所示,由四个关键组件组成:视觉编码器(ViT)、MMFuser、MLP Projector 和大型语言模型。
输入图像首先被输入到ViT中,以提取多层视觉特征。然后,作者的MMFuser利用这些多层特征,获得一个融合了更丰富局部信息的融合特征。
遵循LLaVA-1.5 [3]的 Pipeline ,融合特征随后通过一个可训练的MLP Projector 与文本嵌入空间对齐。同样地,输入文本通过分词器转换为文本嵌入。最后,将图像和文本嵌入连接起来,并输入到LLM,如Vicuna-7B [8]。LLM根据图像特征回答用户的问题。这个框架也可以轻松地适应处理视频数据。总的来说,现有的主流MLLM可以很容易地采用作者的MMFuser来增强其视觉特征提取能力。
IV Experiment
Implementation Details
作者采用LLaMA-1.5 [3]作为基准,研究MLLM的视觉表示。该模型包含三个组件:预训练的视觉编码器CLIP-ViT-L-336px [17],预训练的LLM Vicuna-v1.5 [8]以及一个两层MLP Projector 。为了充分利用单个视觉编码器的潜力,作者使用提出的MMFuser将视觉编码器的多层特征融合,用多层特征替换LLM的原生单层图像特征。
Iv-A1 Architecture Settings
在MMFuser中,从ViT中选择的特征层数量L默认为5。控制不同层特征权重的参数γ1和γ2都初始化为0。本设置中,采样点数量固定为4,注意力层采用16个头。
Iii-A2 Training Settings
对于公平的比较,作者采用了与LLaVA-1.5 [3]相同的两个阶段训练方法:
预训练阶段。 在预训练阶段,作者使用LLaVA-LCS-558K数据集[2],该数据集包含558万图像-描述符对。在这个阶段,视觉编码器和平行语言模型(LLM)保持冻结。训练仅专注于MLP Projector 和MMF融合器,目标是使视觉特征与LLM的输入空间对齐。
微调阶段。 在微调阶段,作者使用LLaVA-Instruct-665K数据集[3],该数据集包括来自GQA[68]、TextCaps[75]、ShareGPT[76]等来源的665K个遵循指令的数据。在这个阶段,MLP项目器、MMF合成人以及LLM进行端到端训练,而视觉编码器保持冻结。
作者使用与LaLaVa-1.5相同的实验设置和超参数来训练作者的模型。作者采用AdamW优化器,并使用一个余弦衰减学习率调度器,初始 Warm up 比率为0.03,且没有权重衰减。预训练时的全局批量大小设置为256,微调时设置为128。预训练阶段的学习率在1e-3,微调阶段的学习率在2e-5。两个阶段都进行单周期训练。
Results on General Multimodal Benchmarks
作者使用一套全面的12个基准测试来评估MMFuser,包括学术视觉问答(VQA)基准测试以及综合多模态基准测试,以评估其在不同维度上的性能。如表2所示,作者的模型在这些基准测试上的性能有了显著提升。
Iii-B1 Results on Academic VQA Benchmarks
在学术VQA基准测试中,作者的7B模型在所有五个基准上均优于LLaVA-1.5-7B。同样地,作者模型的13B版本在VQAv2、GQA和VizWiz基准上超过了LLaVA-1.5-13B,其中在VizWiz上的提升尤为显著,达到了3.8分。此外,作者的模型在ScienceQA和TextVQA基准上的性能也相当可观。
Iii-B2 Results on Comprehensive Multimodal Benchmarks
在多模态基准测试中,作者的7B和13B模型与相应的LLaMA-1.5模型相比,在性能上取得了显著的提升。值得注意的是,作者的13B模型在七个不同的基准测试上,都显著优于LLaMA-1.5-13B模型。具体而言,作者的13B模型在MME基准测试上取得了1585.2的分数,在MMBench基准测试上取得了69.9的分数,分别比LLaMA-1.5-13B提高了53.9和2.2个百分点。此外,作者的模型在其他多模态基准测试,如POPE、SEED-Bench和MMVet上,也表现出强大的性能。
Results on OCRBench
OCRBench [82] 是一个全面的 OCR 基准测试,包括 1000 个由人工精心筛选和校正的 OCR 相关 VQA 指令。该基准被系统地分为五个不同的类别:文本识别(Recog.),场景文本为中心的 VQA(VQA),文档导向的 VQA(VQA),关键信息提取(KIE),以及手写数学表达式识别(HMER)。
详细内容请参考表3,作者的模型,参数分别为7B和13B,相较于LLaVA-1.5平均提高了15分。这一显著的改进进一步强调了MMFuser在优化视觉表示的粒度方面的增强能力,从而有助于更准确的文字识别以及卓越的OCR性能。
### Results on Region-level Benchmarks
为了评估区域理解和定位能力,作者在两个代表性的区域级任务上评估MMFuser。
(1)区域性描述生成 [81, 85]: 该任务要求模型根据给定的区域为图像中的物体生成描述。
(2)参照表达式理解 [80, 85]: 该任务要求模型根据给定的描述在图像中定位目标物体。
Iii-E1 Results of Region Captioning
在区域描述任务上,作者的模型取得了显著的改进。如表4所示,与LLaVA-1.5相比,MMFuser的7B模型平均提高了2.5分,而13B版本提高了3.9分。这表明MMFuser能够捕获细粒度信息,从而提高描述的准确性和丰富性。
#### Iii-E2 Results of Referring Expression Comprehension (REC)
作者还利用REC任务来评估模型的定位能力。如表5所示,作者的模型在所有基准测试中均优于LLaVA-1.5模型,尤其是与LLaVA-1.5-7B相比,7B模型平均提高了5.7分。这表明MMFuser生成的视觉表示更具细节和全面性,增强了空间定位,并在定位任务上显著提升了性能。
### Ablation Study
Iii-E1 Ablation Study on Layer Combination
为了评估来自ViT不同层特征图对模型性能的贡献,作者在MMFuser-13B模型上进行了一次消融研究,通过从不同深度采样特征图。如表6中所述,作者使用来自ViT的第23层特征图作为 Query ,而关 Key和Value 由不同层采样到的特征图 ConCat 而成:浅层(行2)、中间层(行3)、深度层(行4)、非均匀采样(行5)和均匀采样(行6)。
结果表明,将多个层级的特征图整合到模型中,显著提高了模型的视觉表示能力。不同层级的特征图在不同的感受野大小上捕获信息,各自在特定任务中具有独特的优势。值得注意的是,各层级的均匀取样(将来自不同感受野的信息聚合在一起),实现了最高的性能。因此,MMFuser 采用这种策略,以优化视觉表示,适用于视觉语言任务。
Iii-E2 Ablation on Attention Mechanisms
在MMFuser中的注意力机制是模块化的,可以替换为不同的变体。作者使用MMFuser的13B模型尝试了三种不同的注意力机制。如表7所示,作者的框架始终增强了MLLM的视觉表示能力,无论采用的注意力机制如何。这证实了作者的特征融合模块的有效性和适应性。
与全局注意力机制[86]相比,线性复杂度的稀疏注意力机制不仅在MMFuser中具有优越的性能,而且在计算效率方面也取得了显著改进。在线性注意力机制中,变形注意力[74]提供了最大的性能提升。
因此,变形注意力被选为MMFuser的默认机制。值得注意的是,未来的研究可以探索更先进的注意力机制,以进一步提高MLLMs的视觉表示能力。
Iii-B3 Ablation on Internal Module Designs
为了验证作者提出的MMFuser架构的关键贡献,作者逐步改进了LLAVA-1.5-13B基准[3]。如表8所示,将交叉注意力机制集成到从各种ViT层提取细粒度信息,可以显著提高性能。
具体来说,作者的模型在POPE上比基准提高了1.3点,在MMVet上提高了0.7点。此外,将这些细粒度特征与自注意力相结合,可以进一步增强模型捕捉相关信息的能力,导致在VizWiz上的提高2.8点,在MME上的提高28.1点,以及在MMB上的提高1.7点。这些结果共同表明,作者的设计显著提高了MLLMs的视觉表示能力,突显了模型中每个组件的关键作用。
Iv-D4 Visual Representation Visualization
为了直观地验证MMFuser对视觉特征的影响,作者在图5中的四个示例图像的输入和输出特征图进行了可视化。对于输入图像,浅层特征图传达了更丰富的细粒度信息,但这些信息杂乱无章,语义信息难以区分。例如,下左图像包含复杂的信息,从浅层特征中直观地理解语义内容具有挑战性。然而,经过MMFuser的注意力机制处理后,图片中的前景字符得到了很好的突出,语义信息与ViT的最后层特征图对齐。这些对齐的详细特征可以有效地增强MLLMs的细粒度感知能力。
### Qualitative Comparison
在图6中,作者对MMFuser和LLaVA-1.5在三个与细粒度分析相关的案例研究进行了比较,包括复杂的描述生成、OCR和视觉定位。可视化结果表明,浅层特征图中的丰富细粒度信息显著增强了MLLMs捕捉和处理图像细节的能力。
对于复杂的字幕示例,MMFuser在识别小文本和小目标方面取得了显著改进。与LaVa-1.5相比,MMFuser甚至成功识别了描述饼干健康成分的模糊小字体背景文字:“无合成香精,合成色素和合成防腐剂。
”在OCR任务中,MMFuser对小文本的识别能力得到了增强,有效地减轻了LaVa-1.5中经常出现的中毒现象。由于LaVa-1.5的文本识别能力不足,后者在无法正确对齐和中毒的情况下,从其先前知识中补充细节而不是从图像本身中获取。
在视觉定位示例中,展示了更准确地划分物体边界,尤其是在相邻物体颜色相似的情况下。这种改进在小物体上更为明显,例如左侧示例中的交通标志的定位,MMFuser在IoU指标上显示了23%的增加。
总之,这些结果进一步验证了MMFuser在解决MLLM中缺失细粒度图像细节问题的有效性。
V Conclusion
在本文中,作者介绍了一种名为MMFuser的新型多模态多层特征融合器,旨在改善多模态大型语言模型(MLLMs)中的视觉表示。
通过整合来自视觉编码器的浅层和深层特征,MMFuser解决了仅依赖单个视觉编码器的深层特征所带来的局限性,这通常会导致细粒度细节的丢失。
作者的实验表明,MMFuser提升了LLaVA1.5模型在各种基准测试上的性能,丰富了视觉表示,同时没有引入集成模型的冗余和计算开销。
这种方法最大化了单个ViT编码器的潜力,为MLLMs提供了一个高效且灵活的解决方案。
总体而言,MMFuser改善了MLLMs中细粒度细节的捕捉和语义理解,并希望这将有助于社区开发出更稳健、更高效的多模态模型。
[0]. MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding.