备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
多模态大型语言模型(MLLMs)最近通过利用视觉基础模型将图像的核心概念编码为表示,展示了令人印象深刻的通用能力。这些表示随后与指令结合并被语言模型处理以生成高质量的响应。
尽管在增强语言成分方面取得了显著的进步,但语言模型中视觉编码的优化仍存在挑战,以实现针对特定任务的适应性。最近的研究主要通过改进模态适应模块来提高融合,但这也以显著增加模型复杂度和训练数据需求为代价。
在本文中,作者提出了一种名为 EMMA ( E fficient M ulti- M odal A daptation)的轻量级跨模态模块,旨在有效地将视觉和文本编码融合,为语言模型生成指令感知的视觉表示。
作者的关键贡献包括:
(1) 一种高效的早期融合机制,将视觉和语言表示集成,同时增加的参数量小于模型大小的0.2%(增加模型大小少于0.2%);
(2) 深入的解释性分析,揭示了所提出方法的内部机制;
(3) 针对MLLMs的广泛实验,展示了在专业和通用基准测试上显著的改进。经验结果显示,EMMA通过提高多个任务的表现,最多可达到9.3%,同时显著提高对幻觉的鲁棒性。
作者的代码可在 https://github.com/SaraGhazanfari/EMMA 中找到。
1 Introduction
近年来,大型语言模型(LLMs)通过展示在各种任务上理解、生成和推理文本的非凡能力,彻底改变了自然语言处理(NLP)领域。然而,许多实际应用需要处理不仅仅是文本,例如理解视觉内容或从不同模态合成信息。这导致了多模态LLM的发展,它结合了LLM的语言优势和视觉基础模型,实现了跨模态理解和推理。通过集成文本和视觉信息,这些模型扩展了传统LLM的能力,以解决图像描述、视觉问答和文本到图像生成等任务。
当前最先进的跨模态模型通常依赖于从视觉基础模型中提取的固定视觉特征编码,这些编码被映射到文本空间,并与语言模型一起传递指令。然而,这些编码的静态性质,即在考虑指令的情况下形成的,限制了模型动态适应特定任务或上下文的能力。视觉和文本组件之间的这种脱节减少了灵活性,使得模型对任务特定的 nuBLIP-2 (Li等人,2023b) 引入了一个基于交叉关注的模块(称为 Q-former),以将视觉和指令编码集成到一个共享语义空间,从而增强跨模态合作。nuBLIP-2 的性能改进相对于 Baseline 模型具有几个限制。
首先,nuBLIP-2 利用 LLaMA 的文本嵌入和 CLIP 的视觉编码分别生成指令和视觉编码。因此,编码是使用两个不同的模型生成的,没有初始多模态对齐。其次,nuBLIP-2 的模态适应模块引入了大约10亿更多的参数,比其视觉编码多3倍。模块适应模块随后从“零”开始训练,需要348亿图像-文本对进行相关性,比 Baseline 多300倍。第三,视觉编码在预训练和指令调整阶段都需要训练,这增加了总训练成本,并使视觉编码更容易失去泛化能力。最后,除了几个基准测试外,该模型只提供了微小的改进,在某些情况下,其性能甚至不如 Baseline 模型。
上述挑战促使作者探索一种更高效的模态适应方法。作者假设,需要一个复杂的模块进行模态适应,是因为视觉和文本编码是由两个完全独立的模块分别训练得到的。因此,这些复杂的模块试图将两个不同的空间整合在一起,这在本质上是有困难的。
为了解决这个问题,作者引入了 EMMA ( E fficient M ulti- M odal A daptation),它通过一个轻量级的模态适应机制进行模态融合。EMMA将CLIP的文本编码器与视觉编码器相结合,并利用预训练的对齐来通过高效的模态适应模块(增加模型参数少于0.03%)来适应视觉表示。作者的模态适应模块通过关注更具信息量的、与指令相关的 Token ,生成指令感知到的视觉表示,从而在MLLM专用和通用基准测试中取得改进。在基准测试上的全面实验表明,EMMA显著增强了跨模态对齐,改进了各种视觉语言任务上的性能,并增强了MLLM对幻觉的鲁棒性。作者的贡献可以总结如下:
高效模态自适应:作者引入了一种轻量级的模态自适应机制,在模型大小增加不到0.2%的情况下,通过优化视觉表示,实现了高效率与性能的平衡。
全面分析视觉对齐:作者对视觉对齐模块进行了深入研究,以提供(1)关于视觉和文本 Token 如何集成的详细理解;
(2)与初始原始视觉编码相比,对齐后的视觉表示如何有效地关注指令的分析。
广泛的经验评估 :作者在通用和MLLM专业基准上进行全面评估,证明EMMA显著提高了跨模态对齐,提高了任务性能,并增强了多模态LLM的鲁棒性。
"EMMA 超越了更大的模型": 与具有
更大的模态自适应模块的 mPLUG-Owl2 相比,EMMA 在 8 个基准测试中的 7 个上超过了它。此外,与具有
更大的视觉编码器且在
更多的数据上进行训练的 BRAVE 相比,EMMA 在所有基准测试中均超过了 BRAVE。
2 Related Work
多模态大型语言模型(MLLMs)。近年来,在将视觉和语言相结合以处理需要跨模态对齐和理解的任务方面,多模态大型语言模型(LLMs)取得了显著进展。通过将LLMs的语言理解与视觉基础模型的感知能力相结合,多模态LLMs能够解决一系列需要跨模态对齐和理解的任务。作者可以根据两种视觉和文本模态的集成方式将这些模型分为两类。第一类包括LLaVA,PaLM-E ,Shikra 等,其中视觉编码通过几层线性层映射到文本空间,然后与指令 Token 和LLMs相连接。第二类使用更复杂的模块进行跨模态自适应,其中视觉和文本编码都通过自适应模块处理。首先由Flamingo 引入,后来被BLIP-2(李等人,2023c)采用,InstructBLIP(Dai等人,2024年),Qwen-VL(Bai等人,2023年),mPLUG-Owl(Ye等人,2023年a),以及MiniGPT-4(朱等人,2024年),使用Q-former(基于交叉注意力模块)已经成为一种主要技术。
提高MLLM的视觉对齐。自多模态LLM出现以来,实现视觉和文本模态的强健和无缝集成一直是一个重大挑战。以前的工作主要关注利用Q-形式和类似的交叉注意力模块作为模态适应组件,将视觉和文本嵌入整合在一起。在模态适应方面,最近的技术进步包括mPLUG-Owl2(叶等人,2023c)和BRAVE(Kar等人,2024年)。mPLUG-Owl2(叶等人,2023c)引入了一个1B的模态适应模块,该模块使用不同的参数将多个模态映射到统一的语义空间,从而增强模态适应。
另一方面,BRAVE(Kar等人,2024年)利用各种视觉编码的 ConCat ,总和达到7B,直接输入到Q-former。这些模态适应模块依赖于复杂的架构,为模型引入了数百万到数亿个额外的参数,这大大增加了计算成本。这种额外的复杂性不仅需要大量的训练数据,而且在推理过程中也会带来很大的开销。
此外,这些系统的复杂性使得很难确定性能改进的真正驱动因素——它们是否来自模型复杂性、视觉和文本编码的早期融合,还是来自额外的训练数据的大量。这使作者回到了作者工作的核心:解决当前多模态模型的低效性,并提出一个更简洁的方法。作者的目标是实现视觉和文本嵌入的有效早期融合,同时不显著增加参数数量或计算成本。
多模态LLM的基准测试。多模态LLM的评估依赖于传统学术基准和针对指令遵循MLLM的新颖基准的混合。如VQA-v2 和 GQA Hudson & Manning(2019年)等已建立的基准,通过开放式的、简短的问题来衡量模型通过视觉进行解释的能力。ScienceQA(Lu等人,2022年)测试了零样本泛化在科学问题回答中的能力,而VizWiz(Gurari等人,2018年)提供了由视觉障碍用户捕获的真实世界图像,挑战模型在构图、模糊和其他非专业照片质量问题上的能力。此外,新的基准针对指令遵循MLLM。
MathVista(Lu等人,2023年)引入了来自数学和视觉任务的各种挑战。MMMU(Yue等人,2024年)在需要深入学科知识和推理的大学水平任务上评估多模态模型。为了评估多图像推理,MUIRBENCH 提供了一个综合基准,包括12个多样化的任务,用于评估MLLM的多图像理解能力。
对于通用鲁棒性,MBench(Liu等人,2023)提供了一个英中双语的选择视觉问答基准,通过打乱选项来测试模型对选项顺序的鲁棒性。MMVP 通过识别微小差异的相似图像并手动指出CLIP视觉编码器忽视的视觉细节来评估鲁棒性,这导致MLLM产生错误响应。对于幻觉,POPE(Li等人,2023)检查了三个COCO子集上的幻觉程度。AMBER(Wang等人,2023)是一个多维基准,评估生成和判别任务,包括存在、属性和关系幻觉。FOIL 将图像与既准确又“foil”(几乎相同但含有一个错误)的标题配对,进一步挑战模型的准确性。
在本节中,作者解释了作者的提出的方法,该方法通过有效地将视觉和文本编码进行早期融合,解决了现有多模态模型的低效性,同时没有显著增加参数数量或计算成本。此外,作者还提供了详细的解释性分析,以提供对所提出方法内部机制的洞察。
EMMA: Efficient Multi-Modal Adaptation
近年来,多模态模型的发展主要得益于大型语言模型的强大推理能力。因此,仍然存在一个持续的挑战,即有效地将这两种模态对齐,以确保无缝融合和针对特定任务的适应性。当前的方法通常依赖于复杂的跨模态模块,这引入了大量的参数,因此需要大量的训练数据。作者认为,需要一个复杂的模态适应模块的原因是,视觉和文本编码是由两个独立训练的、本身未对齐的模型产生的。这正是mPLUG-Owl2所采用的情况,它使用CLIP作为其视觉编码器,使用LaMDA的文本嵌入作为其文本编码器。因此,多模态模块不仅需要将文本信息纳入视觉嵌入,还需要首先对齐这两个嵌入。
为了应对这个问题,作者提出一个简单但令人惊讶地有效的方法——在作者的多模态对齐模块中,作者同时使用CLIP的视觉编码器和文本编码器。通过直接将CLIP的文本编码器集成到其视觉编码中,因为CLIP的视觉和文本编码器最初是共同训练的,所以多模态适应性本质上是其编码器中固有的,使其文本编码器成为编码指令的理想选择。这两种模态之间强大的内在对齐允许无缝集成,最大限度地减少了需要复杂跨模态模块或大量训练来实现对齐的需求。此外,CLIP在各种任务上都表现出强大的性能,使其成为多模态应用的可靠基础。
作者将作者提出的架构称为 EMMA-- 高效 M ulti- M odal A daptation。图1说明了EMMA的架构。左侧突出显示了多模态LLM的高级结构,其中多模态LLM的标准模块以灰色阴影表示,而EMMA新推出的模态适应模块以绿色表示。右侧,模态适应模块的详细情况被描绘出来。
CLIP的文本编码器用于生成指令编码,然后通过指令投影模块进行处理,为与视觉 Token 的融合做好准备。一旦生成了视觉和文本表示,作者通过一个轻量级的模块(称为视觉对齐模块)实现早期融合。这个组件由一个简单的线性层组成,将视觉和文本 Token 组合在一起,创建模型的多模态编码。这个对齐层的维度设计为保持与 Baseline 模型相同的视觉 Token 数量,以确保将相同的视觉 Token 传递给语言模型。
视觉对齐模块在确保视觉和指令编码之间的有效对齐方面发挥着关键作用,针对指令从视觉编码中突出最相关的 Token ,从而向语言模型提供更精确的视觉信息。它的轻量级设计便于解释性和分析,更重要的是,在降低参数数量的同时,比最先进的模型性能提高了10倍。此外,它们的初始对齐允许文本和视觉编码器在训练过程中保持冻结,防止模型过拟合到训练数据。
在训练过程中,作者遵循与LLaVA相同的两阶段指令微调过程。在预训练阶段,仅训练视觉对齐和投影模块,而语言模型保持冻结。在微调阶段,LLM被解冻并与前述两个模块一起进行微调。为确保任何性能改进并非仅仅由于添加更多数据,作者使用与 Baseline 模型相同的数据集。图3展示了作者的提出方法EMMA与 Baseline 模型LLaVA-1.5在多个基准测试上的改进,显示出在需要视觉和文本理解的跨模态任务中持续的增长。
在训练过程中,作者遵循与LLaVA相同的两阶段指令微调过程。在预训练阶段,仅训练视觉对齐和投影模块,而语言模型保持冻结。在微调阶段,LLM被解冻并与前述两个模块一起进行微调。为确保任何性能改进并非仅仅由于添加更多数据,作者使用与 Baseline 模型相同的数据集。图3展示了作者的提出方法EMMA与 Baseline 模型LLaVA-1.5在多个基准测试上的改进,显示出在需要视觉和文本理解的跨模态任务中持续的增长。
Analysis on Modality Adaptation by EMMA
视觉对齐模块。如前所述,视觉对齐模块由线性层组成,是所提出方法的核心。用
表示视觉对齐模块,其中
和
分别表示视觉和文本 Token 的数量,每个 Token 的维数为
。视觉对齐模块将视觉和文本 Token 的拼接作为输入,生成
个精炼的视觉 Token ,作者从与它相关的矩阵
开始进行检查。通过分析每个 Token 对应的权重范数的 norms,作者可以确定哪些 Token 最具影响力。视觉和文本 Token 的
和
范数直方图如图5 所示。
由于文本 Token 的权重低于 1,而视觉 Token 的权重高于 1,权重范数成为 Token 重要性的更具有指示性的度量。正如所料,视觉 Token 在视觉对齐模块内的权重更高,这意味着它们在生成的多模态表示中具有更大的影响力。另一个关键观察是某些文本 Token 的影响力大于其他 Token 。为了突出每个文本 Token 的相对重要性,图4(a) 呈现了一个 Pillar 图,说明了它们的各自权重。CLIP 的文本编码器生成了 77 个文本 Token ,沿 x 轴显示。如图所示,早期的 Token 影响力更大。这一发现表明,对齐模块有效地识别了最具有信息性的文本 Token ,因为指令通常包含简短的 Prompt ,其中关键信息集中在早期的 Token 中,而其余 Token 通常被掩盖。
增强型模态对齐。EMMA的模态适应主要目标是将视觉表示与指令对齐,确保它们强调由指令指向的图像方面。作者的方法通过将指令编码集成到视觉表示的优化过程中来实现这一目标。在本节中,作者将通过检查对齐前后视觉表示来探索EMMA的对齐能力。为了进行这种分析,作者使用MMVP Tong等人(2024)基准,该基准旨在暴露MLLM的视觉缺陷。作者关注具有视觉相似编码但细微差异的图像,如图4所示。EMMA在这个基准上的提升为9.3%,强调了它为这类图像生成更具有区分度的视觉表示的能力。为了实证验证这一点,作者在随机选择的MMVP图像对之间计算视觉表示的
范数,比较了对齐前后的表示结果。图4(b)中的范数直方图显示出了明显的转变,表明对齐后的表示在聚焦于指令相关 Token 的情况下,在这些图像之间进行区分的能力更好。
互相关性在齐次视觉 Token 和响应 Token 之间的作用。另一个主要的Modality Adaptation模块的目标是调整视觉表示,使其与语言模态保持良好对齐,并包含准确响应给定 Prompt 所需的信息。为了评估视觉 Token 对语言模型的贡献,作者使用互信息量来量化通过另一个随机变量获得关于第一个随机变量的信息量。在本分析中,作者使用了LLaVA-InWild Liu等人(2024b)的基准测试,该测试集包含24张图像和60个新领域的挑战性问题。对于60个样本中的每一个,作者分别使用LLaVA和EMMA的视觉模块生成视觉表示。需要注意的是,EMMA的视觉模块处理图像和 Prompt ,生成指令感知的表示,而LLaVA生成无指令的编码。此外,对于每个样本,相应的答案使用文本编码器进行编码。然后计算视觉和响应编码之间的互信息,结果如图6所示。如图所示,EMMA的平均互信息量是LLaVA的1.5倍,强调了EMMA的视觉对齐在引导模型向准确语言响应方面的有效性。
4 Experimental Evaluation
在本节中,作者首先将EMMA与最先进的多模态LLM进行比较,使用之前介绍的基准测试。然后,作者进行了一项稳健性分析,重点关注幻觉。作者进行了一项裁剪研究,以确定用于文本表示的文本编码器输出的最优层输出。
实现细节。作者采用CLIP-ViT-L-14作为基础图像编码器和解码器。视觉对齐模块初始化为视觉 Token 的身份矩阵和指令 Token 的所有零,以在训练开始时将所有视觉 Token 转移。此外,视觉对齐模块设计为保持与 Baseline 模型相同的视觉 Token 数量。最新版本的Vicuna v1.5(Zheng等人,2023年)作为基础LLM。EMMA使用与LaVa-1.5相同的超参数集。在进行第3节中所有分析所使用的数据集与 Baseline 模型相同,分别为预训练和微调阶段的558K和665K样本。在评估设置中,作者保留了与 Baseline 模型相关的数据,但将微调数据扩展到1.2M样本,这是相对于所有最先进方法(除LaVa外)最具效率的数据,如表4所示。
基准测试。作者在包括科学问题回答、视觉问答(图像质量较差)、集成感知与推理任务、视觉对话和一般推理在内的多样化任务集上评估EMMA。最近专门为指令遵循大型多模态模型(LMMs)设计的基准测试的结果如表4所示,而表2概述了在面向学术任务的基准测试上的性能。
EMMA在5个学术任务导向基准中的4个上展现出最先进性能,其性能优于具有50倍更大的模态自适应模块且在300倍更多数据上进行训练的mPLUG-Owl2,以及在具有24倍更大的视觉编码器和在100倍更多数据上进行训练的BRAVE。在面向MLLM的专用基准测试中,EMMA在5个基准中的3个上取得了最佳性能,在其他2个上取得了次佳性能,且与后者之间的差异不到0.5%。总的来说,EMMA在10个基准中的7个上实现了最佳性能,尽管其架构最简单,但仍优于依赖复杂模态自适应模块的其他MLLM。
鲁棒性与幻觉。对于多模态大型语言模型(MLLMs),鲁棒性和避免幻觉的能力至关重要,因为它们越来越广泛地应用于像医学诊断这样的领域,用于解释复杂的文本和图像数据。幻觉是MLLM面临的重要安全威胁,当模型生成的信息无法准确地表示提供的图像或文本时,就会出现幻觉。因此,在确保MLLMs可靠性的实际部署之前,评估和减轻幻觉是一个关键步骤,也是模型性能评估的重点。
本节中使用的幻觉评估基于两个基准,即AMBER和FOIL,这些基准不需要额外的语言模型,因此提供了直接和受控的方式评估模型避免幻觉的能力。这些基准专注于多模态推理的具体挑战,测试模型在引入错误信息的情况下,将文本和视觉内容对齐的准确性。AMBER包括属性、关系和存在类分别有7628、4924和1663个样本。FOIL包含总共99,480个测试样本,其中92,705个是简单的,允许LLaVA和作者方法成功避免幻觉。然而,还有6775个样本更具挑战性。作者将LLaVA-1.5,即作者方法的基础与EMMA进行比较。表3中的结果显示,EMMA在两个基准上超过了 Baseline ,在四个基准中的两个上存在显著的性能差距。
在文本编码器中进行消融实验。在本节中,作者研究了文本特征的抽象 Level 。文本特征可以由CLIP文本编码器的最后一层或倒数第二层导出。作者将在图7中对比两种提取文本特征的方法,结果表明倒数第二层导出的特征具有明显的优势。
作者假设CLIP文本编码器的最后一层捕获了指令更全局和更抽象的语义,而倒数第二层则关注更细的细节。此外,由于视觉特征是从视觉编码器的对应层导出,使用文本编码器中的相同层确保两种模式在相似的抽象 Level 运作,从而促进它们之间的更好对齐。
结论
在本研究中,作者针对当前多模态大型语言模型所采用的模态适应模块中的效率问题进行了研究。作者假设视觉编码和文本编码之间的初始对齐在确定模态适应模块的复杂性 Level 和所需训练数据量方面起着关键作用。作者的轻量级方法 EMMA(增强多模态适应)利用 CLIP 的文本编码器生成指令编码,并通过利用这个初始对齐,证明了模态适应模块可以简单地同时增强视觉和文本模态之间的对齐。
通过广泛的分析,作者证明了 EMMA 能够有效地产生与语言模型对齐的指令感知视觉表示。作者的实验在多个基准测试上进行评估,表明 EMMA 显著优于使用体积为现有模态适应模块 50 倍的模型。
最后,作者的鲁棒性分析,特别是在幻觉避免方面,证实了 EMMA 在准确处理多模态数据方面的优越能力,即使是在具有挑战性的场景中也是如此。