LUViT突破视觉语言鸿沟：MAE+LoRA协同训练，ImageNet分类准确率提升至83.6% - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

精简阅读版本

本文主要解决了什么问题

模态不匹配问题 ：大语言模型（LLMs）仅在文本数据上进行预训练，难以直接有效理解和处理视觉信息，导致其与视觉Transformer（ViT）之间的表示对齐困难。

训练稳定性差与效率低 ：直接微调整个LLM模块不仅计算开销大，还可能导致灾难性遗忘或训练不稳定。

视觉任务中LLM潜力未被充分利用 ：现有方法通常冻结LLM模块，仅使用其原始权重，无法充分释放LLM的语义和推理能力对视觉任务的帮助。

本文的核心创新是什么

协同预训练策略 ：提出LUViT框架，通过联合Mask自编码（MAE）预训练ViT，并同时利用LoRA适配LLM模块，使ViT生成“适合LLM理解”的视觉特征，LLM也能逐步适应这些视觉特征。

双路径优化机制 ：

• ViT通过MAE学习更丰富的上下文感知视觉表示；
• LLM通过LoRA层在MAE重建目标下进行参数高效适配，避免大规模微调。

架构改进 ：

• 引入双向注意力机制替代传统的因果注意力；
• 移除旋转位置嵌入（RoPE），以消除文本特定的位置偏差对视觉特征的影响。

结果相较于以前的方法有哪些提升

图像分类性能显著提升 ：

• 在ImageNet-1K上达到83.6% Top-1准确率，超过MAE预训练的ViT/B基线（83.2%）；
• 在多个鲁棒性基准（如ImageNet-A、ImageNet-C）上表现更优，显示更强的泛化能力。

细粒度视觉识别能力增强 ：

• 在MS COCO目标检测任务中，边界框AP达到51.1，优于MAE ViT/B基线0.5 AP；
• 实例分割Mask AP达到45.1，提升0.2 AP。

背景鲁棒性增强 ：

• 在ImageNet-9混合背景测试中，LUViT/B在Mixed Random设置下比基线提升+2.1%，Mixed Same提升+1.4%；
• 注意力熵分析表明LUViT更关注前景区域，减少对背景干扰的依赖。

局限性总结

LLM模块仍部分冻结 ：尽管使用了LoRA进行适配，但LLM主干权重仍然保持冻结，限制了其对视觉信息的深度融合与表达能力。

依赖预训练LLM的质量 ：LUViT的效果在很大程度上依赖于所选用LLM的语言建模能力和结构兼容性。

应用场景受限 ：目前实验集中在图像分类与检测任务，尚未验证在视频、3D视觉等复杂模态上的效果。

计算资源需求较高 ：虽然LoRA降低了参数量，但整体架构依然包含大型ViT和LLM组件，训练和部署成本较高。

深入阅读版本

导读

将大语言模型（LLMs）模块与视觉Transformer（ViTs）的集成，通过利用LLMs丰富的语义知识和推理能力，为纯视觉任务带来了巨大的潜力。然而，一个基本挑战在于LLMs以文本为中心的预训练与ViTs以视觉为中心的训练之间固有的模态不匹配。直接融合往往无法充分利用LLMs的潜力，并遭受不稳定的微调问题。因此，LLMs模块被冻结，而只有视觉组件被学习。为了解决这些挑战，作者引入了语言解锁视觉Transformer（LUViT），这是一种通过协同预训练策略弥合这种模态不匹配的新方法。

LUViT通过（1）采用 Mask 自编码（MAE）对ViT进行预训练以获得更丰富的视觉表示，以及（2）同时使用MAE目标在LLMs模块内训练低秩适配（LoRA）层，来协同适应ViT主干和LLMs融合模块。这种联合优化指导ViT生成与LLMs对齐的特征，并使LLMs能够有效地解释视觉信息。通过广泛的实验，作者证明了LUViT在各种下游视觉任务上显著提高了性能，展示了一条更有效和高效的途径，以利用LLMs知识进行视觉理解。

1 引言

大语言模型（LLMs）的显著成功彻底改变了自然语言处理领域，展示了在理解、生成和推理方面的先进能力。这一成功引发了将它们的能力扩展到其他模态，特别是视觉领域的极大兴趣，这对视觉语言模型（VLMs）领域产生了深远影响。VLMs中一个有前景的方向是直接将强大的预训练LLM组件与视觉Transformer（ViT） Backbone 相结合，旨在融合视觉模型与LLMs从大量文本语料库中学习到的广泛语义知识和推理能力。

然而，这些将大语言模型（LLM）应用于视觉的应用是在生成框架下进行的，这限制了它们在判别性计算机视觉任务中的应用。像LM4Vision这样的开创性工作探索了在学习和计算机视觉任务的同时融合视觉 Transformer（ViT）特征与LLM的终端模块，暗示了潜在的好处。然而，一个关键的障碍仍然存在：不同模态的表示对齐问题。LLM仅在文本上预训练，优化其内部表示以适应语言结构和概念。类似地，ViT学习针对图像识别等任务的视觉特征。简单地将视觉特征注入以文本为中心的LLM模块往往导致次优对齐，其中LLM难以有效地将其文本知识 Anchor 定在视觉领域。此外，通过联合微调将大型LLM组件适应视觉模态可能是计算上不可行的，并存在灾难性遗忘或训练不稳定的风险。

picture.image

图片

图1：作者的语言解锁视觉Transformer（LUViT）的架构图。输入图像块由ViT编码器处理。生成的视觉特征随后通过一个LLM融合块（包含线性投影和一个使用LoRA适配的LLM Transformer块）。在MAE预训练中，一个轻量级解码器重建被遮盖的图像块。在微调中，移除解码器，并添加一个特定任务的 Head 。

为应对这些挑战，作者提出了语言解锁视觉Transformer（LUViT），这是一个旨在促进视觉Transformer（ViTs）和大语言模型（LLMs）在判别性视觉任务中更深层次和更高效协同作用的新型框架。作者的核心思想是一种双重策略：

1. 增强视觉表征学习：作者使用 Mask 自编码（MAE）对ViT Backbone 网络进行预训练。这种自监督目标鼓励ViT学习更丰富、更具上下文感知的视觉表征，作者假设这些表征对于语言模型（LLM）来说更具信息量。
1. 高效的大语言模型适配与模态桥接：同时，我们使用低秩适配（LoRA）方法对融合的大语言模型模块（例如来自 LLaMA 的模块）进行适配。关键在于，这些 LoRA 层与 ViT 的 MAE 预训练过程一同进行训练，并共享相同的 MAE 重建损失。这种联合优化使得大语言模型能够高效地学习解释不断演化的视觉特征，从而将其庞大的语义知识有效地转化为视觉领域，而无需对整个大语言模型进行全面微调。

这种协同预训练过程至关重要： ViT学习生成“适合LLM使用”的视觉特征，而LLM（通过LoRA）学习“理解”这些视觉特征，从而从两端弥合了模态不匹配。作者的贡献分为四个方面：

• 作者提出了LUViT，一种新颖的架构和预训练策略，通过联合MAE（Masked Autoencoders）自监督和基于LoRA的LLM（Large Language Models）块自适应，有效缓解不同模态表示之间的对齐问题。
• 作者证明，在MAE预训练期间对LLM中的LoRA层进行并发优化，能够实现LLM的高效和稳定适应，使其能够有效利用其文本知识进行视觉理解。
• 通过在基准计算机视觉任务上的大量实验，作者展示了LUViT显著优于采用更直接融合策略的现有方法，为解锁视觉模型中LLM的能力建立了新的技术标准。
• 作者对LUViT的注意力熵进行了引人入胜的分析，并展示了它如何通过提高背景鲁棒性来实现更强的性能。

2 背景与相关工作

自监督学习。自监督学习（SSL）已成为利用大量可用未标注数据的一种强大范式。SSL方法在更广泛的机器学习社区中取得了广泛的成功，始于早期的对比方法，实现了在表示学习方面的新前沿，而这些前沿使用全监督技术是无法达到的。最近，SSL方法为各种领域的基石模型提供了动力，从自然语言处理（NLP）到视觉。

Mask 图像建模。 Mask 图像建模是计算机视觉领域中一种成熟的ego监督学习方法，最初由堆叠去噪自编码器开创。受BERT的 Mask 语言建模方法成功的启发，大量后续工作提出了新颖的ego监督 Mask 图像建模技术。在这些工作中， Mask 自编码器（MAE）以其加速的预训练方法脱颖而出，该方法由一个仅观察图像一小部分块的重量级编码器和一个重建原始图像特征的轻量级解码器组成。MAE不仅已成为全局图像识别的强大方法，而且在更具挑战性的细粒度视觉识别任务（如目标检测 [Li et al., 2022a]）中也确立了其强大的地位。

用于视觉任务的巨型语言模型。巨型语言模型（LLMs）与视觉编码器在多种多模态架构设置中协同使用。这些工作中的最常见分支是使用LLMs作为大型视觉语言模型的文本解码器，其中它们由视觉编码器前置。在这些工作中，编码器处理的视觉 Token 被简单地投影到文本解码器或通过额外的跨模态层融合。

上述所有工作表明，在通过独立的视觉编码器处理或在多个阶段上从大量数据中联合训练的情况下，大语言模型（LLMs）能够处理源于视觉的数据。作者的工作受到了上述方法成功的启发，同时在几个关键方面有所区别。具体而言，作者的目标是通过有效利用LLM Transformer模块和自监督学习（SSL）来提升视觉Transformer的性能，而无需依赖语言对齐的视觉编码器（例如CLIP）或不要求语言输入。

使用冻结的LLM模块进行视觉任务。与作者工作最接近的是直接使用冻结的预训练LLM模块与视觉 Transformer 相结合的研究。在这些研究中，Pang等人 [2023] 是开创性的工作，展示了在视觉 Transformer 编码器之上使用冻结的LLaMA 1模块可以在广泛的视觉任务上提供显著的性能提升。然而，Pang等人 [2023] 并非旨在实现视觉识别的SOTA性能，而是旨在展示在各种视觉任务测试平台上相对性能的提升。在Pang等人 [2023] 的基础上，Bai等人 [2025] 旨在为视觉 Transformer 在存在LLM模块的情况下性能提升提供更详细的解释，表明LLM模块在训练过程中提高了梯度的一致性。

在这项工作中，作者结合了自监督学习、Pang等人[2023]的初步探索以及LoRA的适应性，以实现下游性能的显著提升，这与以往的工作有所不同。通过作者的实验支持，作者的工作为在有效利用LLM模块的同时实现卓越的视觉识别性能提供了更强的方案。

3 LUViT: 无语言锁定的视觉Transformer

LM4Vision [Pang et al., 2023] 展示了将视觉Transformer（ViT）与大语言模型（LLM）的终端模块融合的潜力，但这种直接引入的Transformer模块由于LLM以文本为中心的预训练和视觉Transformer的视觉处理，导致了模态不匹配。为解决这一问题，作者提出了双重策略。首先，在ViT Backbone 网络的预训练过程中引入自监督学习（SSL），使用 Mask 自动编码（MAE）。这一步骤旨在更好地使视觉表示与语言模态对齐。其次，为了适应仅在文本上预训练的LLM组件（例如LLaMA），作者引入了低秩适配（LoRA）。这使LLM能够高效地将从百亿规模文本数据中学习到的丰富语义知识迁移到视觉领域，从而提高在目标计算机视觉任务上的性能。

LUViT：语言解锁型视觉Transformer

作者介绍了语言解锁视觉Transformer（LUViT），旨在有效解决在使用语言训练的Transformer模块时，视觉和语言表征之间的表示对齐问题。其核心思想是实现协同自适应：视觉Transformer（ViT）学习生成适合语言处理的视觉特征，而语言模型（LLM）模块学习解释这些视觉特征，所有这一切都在一个统一的预训练框架内完成。

作者的LUViT架构（如图1所示）由三个主要组件组成：

1. 视觉Transformer（ViT）编码器

：遵循[Dosovitskiy等人，2020]，标准的ViT将输入块

映射到潜在视觉表示

。2. LLM Fusion Block

: This module integrates a pre-trained LLM transformer block (e.g., from LLaMA [Touvron et al., 2023a]) into pipeline to enrich the visual features

. To manage differing hidden dimensions and facilitate adaptation,

is first projected by a linear layer

, then processed by the LLM block

, and finally projected back by

. Thus, the enhanced latent features are

. We denote this entire compound mapping as

. 2. 2. 轻量级MAE解码器

：对于自监督预训练，一个浅层Transformer解码器，类似于[He et al., 2022]，从可见块中获取增强的潜在特征

，并重建原始的 Mask 图像块

。

因此，输入图像

的完整预训练流程可以表示为：

其中

表示输入编码器的可见（未遮盖）图像块，而

表示解码器用于重建所需的对遮盖图像块的信息（例如，它们的位置嵌入）。

Synergistic Pre-training for Modality Alignment

LUViT的核心组件是其预训练策略，该策略通过自监督预训练来解决模态不匹配问题。这包括同时通过 Mask 自动编码（MAE）对ViT进行训练，并使用LoRA对LLM融合块进行适配。

通过MAE实现自监督视觉表征学习

直觉：标准的 ViT 训练（例如在 ImageNet 上）学习到的是为分类任务优化的特征，但这些特征往往无法捕捉其他计算机视觉任务所需的更深层次的语义信息。然而，自监督预训练的骨干网络则能够学习更具通用性的特征，通常可直接应用于各种计算机视觉任务。由于其在学习鲁棒特征方面的最新成功以及高效性，我们选择使用掩码自编码（MAE）作为自监督学习框架。MAE 通过重建高度掩码的输入来学习整体性和上下文感知的表示。我们假设，在与大语言模型（LLM）模块联合学习的过程中，这种表示本质上更加丰富，并且与 LLM 模块的高层理解能力更加匹配。

机制。作者遵循由[He等人，2022]提出的标准MAE预训练策略。输入图像

被分割成

个不重叠的块。其中高比例（例如

）的这些块被随机遮盖。只有可见块

被ViT编码器

和随后的LLM融合块

处理。轻量级解码器

接收来自LLM模块的输出，并从增强的潜在表示

和所有块的位置嵌入中重建被遮盖块的原始像素。学习目标最小化重建和原始被遮盖块之间的均方误差（MSE）。这个过程训练了ViT主干

。

Efficient LLM Adaptation with Low-Rank Adaptation (LoRA)

直觉。预训练的大语言模型（LLM）在其权重中编码了广泛的世界知识和复杂的推理能力。对整个LLM进行视觉任务微调在计算上是不可行的，并且存在灾难性遗忘其语义理解能力的风险，这些能力是作者希望用于视觉理解的。LoRA [Hu等人，2022] 提供了一种参数高效的解决方案，允许作者通过仅训练少量附加参数来“引导”LLM的知识转向视觉领域。它还允许在不导致较大的LLM块崩溃训练信号的风险下，对LLM块进行稳定微调。

机制。作者将LoRA层注入到LLM模块

的 Query

和值

投影矩阵中。对于预训练的权重矩阵

，其更新表示为低秩分解

，其中

，

，且秩

。仅

和

是可训练的。原始LLM权重

保持冻结，以保护其预训练知识。

联合优化：模态桥接的关键

作者方法的一个关键方面在于，在MAE预训练阶段，fuseLLM中的LoRA层与ViT主干网络同时进行训练。MAE重建损失不仅指导ViT，还通过LLM融合模块进行反向传播，更新LoRA参数。这种联合优化在训练过程中促进了协同适应，而ViT

学习生成不仅适用于重建，而且能有效被LLM模块处理和增强的视觉嵌入。LLM模块通过LoRA在

中学习解释和细化这些不断发展的视觉嵌入，利用其预训练的冻结文本知识，为它们增添与视觉上下文相关的更丰富的语义。

这种同步学习过程对于解决模态不匹配问题至关重要，因为它迫使两种模态协同对齐，而不是将一种模态适应另一种模态的固定表示。大语言模型（LLM）不仅仅是被动处理视觉Transformer（ViT）特征；它正在主动对齐，以理解视觉世界，同时ViT学习在LLM空间中以更易于理解的方式呈现这些信息。

跨模态LLM处理的架构调整

为了进一步提升LLM模块处理视觉信息的能力，作者基于先前工作的见解，引入了特定的架构修改。(1) 双向注意力。标准的LLM通常使用因果注意力 Mask ，因为下一个词的预测目标应该仅关注过去的信息。然而，图像中的视觉信息并不像文本序列那样具有固有的顺序因果关系。因此，作者用双向注意力机制替换了LLM模块中的因果注意力机制。这使得LLM模块内的每个视觉 Token 表示能够关注所有其他 Token ，从而实现整体理解。(2) 移除旋转位置嵌入（RoPE）。RoPE，通常用于LLaMA等LLM中，为文本序列编码绝对和相对位置信息。由于作者的ViT主干已经包含了用于视觉块的学习位置嵌入，并且图像的空间关系与序列文本的性质不同，作者从LLM模块中移除了RoPE。这简化了架构，防止将文本特定的位置偏差强加到视觉特征上，并确保与不使用RoPE的典型ViT设计保持一致。

下游微调

在经过基于MAE的预训练和联合LoRA适配后，LUViT针对特定的下游计算机视觉任务（例如图像分类）进行微调。在微调过程中，作者弃用MAE解码器

，并在输出特征

之上添加一个任务特定的 Head （例如线性分类器）。在微调期间，ViT主干网络、线性投影层

以及LLM块内的LoRA参数可以进行进一步训练。LLM块的原始权重

保持冻结，以保留其广泛学习到的知识，同时通过LoRA实现有针对性的适配。这种策略确保了学习到的表征能够高效地迁移到下游任务。

4 实验

现在作者讨论作者的实验，并强调作者的语言解锁视觉 Transformer （LUViT）的优势。

数据集。在作者的图像分类实验中，作者使用了ImageNet-1K的训练和验证数据集。此外，作者在多个领域迁移基准上报告了评估结果，包括ImageNet-C、ImageNet-A、ImageNet-SK、ImageNet-V2 和 ImageNet-R此外，作者在ImageNet-9基准上报告了额外结果，该基准测量模型对背景和前景特征的依赖性。在其数据集划分中，作者选择了混合相同和混合随机。在前者中，图像的背景被随机替换为同一类别的另一张图像的背景；在后者中，背景被完全随机类别的图像的背景所替换。最后，在作者的细粒度视觉识别实验中，作者使用了MS COCO目标检测数据集。作者遵循先前的工作，在COCO验证集上报告了作者的结果。

预训练。作者的预训练设置与原始MAE工作He等人[2022]非常相似，包括所有与训练相关的超参数（学习率、批大小、 Mask 比例等）。作者遵循He等人[2022]的方法，对vanilla MAE ViT Baseline 和作者的LUViT进行预训练，总共进行800个epoch。对于作者的LLM模块，除非另有说明，作者始终使用LLaMA 1 Touvron等人[2023a]中的

transformer模块，与Pang等人[2023]的做法相同。如第3节所述，原始LLM transformer权重始终保持冻结状态，作者还集成了LoRA到 Query 和值投影矩阵中，这两个矩阵的秩均为16，仅占可训练参数数量的极小部分（

）。

端到端微调。对于图像分类任务，作者在预训练阶段后对 Baseline 模型和作者的LUViT模型进行100个epoch的微调，同时遵循[He et al., 2022]中提出的所有超参数设置和其他训练细节。类似地，对于细粒度视觉识别任务，作者在预训练阶段后也对 Baseline 模型和LUViT模型进行100个epoch的训练，同时遵循ViTDet [Li et al., 2022a]中的所有训练设置。从ViTDet中，作者采用了简单的特征金字塔[Lin et al., 2017]版本，并结合Mask R-CNN [He et al., 2017]。

4.1 图像分类

作者在具有挑战性的ImageNet-1K基准及其变体上评估了LUViT，这些变体设计用于测试对领域偏移的鲁棒性（ImageNet-A、ImageNet-Sketch、ImageNet-V2、ImageNet-R）和常见损坏（ImageNet-C）。表1中展示的结果证明了作者提出的方法的性能提升。

LUViT在所有 Baseline 模型中表现更优。作者的LUViT/B模型在ImageNet-1K数据集上，在可比方法中建立了新的顶尖水平，达到了

的Top-1准确率。这不仅超越了监督学习的ViT/B Baseline 模型

，也超越了先前由LLM增强的监督学习模型

（来自[Pang等人，2023]的研究）。更重要的是，LUViT超越了强大的MAE预训练ViT/B Baseline 模型

，展示了作者协同LLM集成超越标准MAE预训练的影响。

LUViT 更好地释放了大语言模型（LLM）的优势。通过 MAE 预训练得到的 ViT/B 已经提供了一个强大的视觉骨干网络，其性能优于有监督训练的

（在 IN-1K 数据集上准确率为

对比

）。然而，LUViT 在这一坚实基础之上进一步提升，并取得了显著的性能改进。LUViT 相较于基于 MAE 的 ViT 基线模型，在多个任务上均有提升（例如在 IN-1K 上提升

，在 IN-A 上平均提升

，在 IN-SK 上提升

），这些结果直接验证了我们的假设：在 MAE 预训练过程中同时训练经过 LoRA 适配的 LLM 模块，使 LLM 能够有效地处理并增强视觉特征。

这种联合优化方式有效地解决了模态不匹配问题，使得 LLM 能够将其语义知识应用于视觉任务中。而仅使用 MAE 预训练 ViT，甚至增加额外的学习能力（如第 4.3 节所示），都无法实现这一优势。

增强的鲁棒性与泛化能力：LUViT 在鲁棒性基准测试中展现出的优势更加明显。在 IN-A 这个具有挑战性的对抗样本数据集上，LUViT 相比 MAE-ViT 基线模型取得了 2.2% 的绝对提升，准确率达到了 36.0% ，并在 IN-SK（+0.8%）、IN-V2（+0.7%）和 IN-C（+0.5%）等数据集上也观察到了显著的性能提升。

这些结果表明，相比仅通过 MAE 预训练的 ViT，LUViT 通过整合并适配 LLM 组件，带来了超越自监督视觉预训练的实际收益：

首先，它在鲁棒性基准测试中表现突出（尤其是在 IN-A 上），显示出 LUViT 能够有效利用 LLM 的语义知识，提高模型对分布外样本的鲁棒性，这对于现实世界中的视觉系统尤为重要。

其次，LUViT 显著优于此前尝试将 LLM 与 ViT 融合的方法，如

[Pang 等，2023]，这说明了我们方法中两个关键要素的重要性：一是强大的预训练范式（MAE），二是高效的适配策略（同步进行 LoRA 训练），只有两者结合才能真正释放 LLM 模块的潜力。

picture.image

图片

表1： 在ImageNet-1K上，冻结的LLM增强模型设置中，LUViT达到了最先进的Top-1准确率（%）。作者还展示了其在具有挑战性的变体（IN-A、IN-SK、IN-V2、IN-R、IN-C）上的显著增强的鲁棒性。LUViT始终优于所有监督 Baseline 和强大的MAE预训练ViT/B。*表示来自Pang等人[2023]的数据。粗体表示最佳结果，下划线表示第二好的结果。

4.2 细粒度视觉识别

在MS COCO上的结果如表2所示，展示了LUViT在细粒度视觉识别方面的能力。作者的LUViT/B模型在目标检测和实例分割的所有报告指标上均持续优于强大的MAE ViT/B Baseline 。具体而言，LUViT/B实现了51.1的边界框AP，比MAE ViT/B提高了+0.5 AP。在实例分割方面，LUViT/B实现了45.1的 Mask AP，提高了+0.2 AP，并在

上取得了显著提升（+0.6）。

picture.image

图片

表2： 在MS COCO [Lin等人，2014]数据集上的目标检测和实例分割结果。边界框AP值用于检测结果，而 Mask AP值用于实例分割结果。粗体表示每个设置下的最佳结果。

4.3 消融实验

在本节中，作者量化了作者的方法中几个关键组件的重要性：LLM模块、MAE目标以及LoRA的重要性。作者对这些组件进行了消融实验，并在表3中报告了在ImageNet-1k和ImageNet-C数据集上的结果。

MAE预训练奠定了坚实的基础。与先前研究[He等人，2022]一致，MAE预训练在仅监督训练的基础上显著提升了性能。通过比较监督学习的ViT/B（行a：

IN-1K，

IN-C）与MAE预训练的ViT/B（行c：

IN-1K，

IN-C），显示出显著的性能提升（

IN-1K，

IN-C）。这证实了自监督学习对于鲁棒视觉表示的重要性，LUViT将其作为起点。此外，即使添加了LLM模块，MAE预训练仍然有益：MAE预训练的

（行e：

IN-1K）优于其监督学习的对应版本（行b：

IN-1K）。

LoRA适配对于利用MAE预训练解锁LLM优势至关重要。通过比较(c)行和(e)行，作者观察到，在(e)行中未进行任何LoRA微调的冻结LLM变体实现了与(c)行 Baseline MAE ViT相当的性能（(e)行：83.1% IN-1K，62.9% IN-C）。这表明，在不进行适配的情况下，LLM模块无法从MAE预训练中获得更丰富的特征。这与Pang等人[2023]的研究形成对比，在较弱的 Baseline 模型上，改进是可能的，无需适配。然而，当作者引入LoRA并适配LLM模块，如作者的完整LUViT/B模型（(h)行），性能显著提升至83.6% IN-1K和63.4% IN-C。这明显优于 Baseline MAE ViT/B（(c)行）以及未使用LoRA的冻结LLM变体（(e)行）。这一结果证实，基于LoRA的适配不仅有益，而且是有效弥合模态不匹配、使LLM能够利用增强视觉表示的关键。

picture.image

图片

表4： 在ImageNet-1K和ImageNetC上对LLM transformer初始化的消融分析证实了语言预训练表示的重要性。"可训练参数"指的是在最终微调阶段更新的参数，包括整个ViT、投影和LoRA。"随机"表示随机初始化LLM模块，而"预训练"表示使用语言预训练权重初始化LLM模块。粗体表示最佳结果。

LUViT的增益并非仅来自参数的增加。一个关键问题是LUViT的改进是否源于作者的模型设计，还是来自线性投影和LoRA引入的可训练参数数量的增加。为了研究这一点，作者创建了两个更强的 Baseline ，即（1）

（投影匹配，行d）和（2）

（LoRA匹配，行f）。前者总的可训练参数（92.9M）与

（行e）相匹配，后者包括ViT和可训练的线性投影，而后者总的可训练参数（93.1M）与作者的完整LUViT/B模型（行g）相匹配，后者包括ViT、可训练投影和可训练的LoRA层。

将行(d)与行(e)进行比较，

(Proj. Match) 在 IN-C 和 IN-1K 上与未进行LoRA微调的冻结LLM表现相当。这表明在相同的参数数量下，一个通用的MLP可以和未经适配的LLM块一样有效。然而，关键的比较是在作者的完整 LUViT/B 模型（行h）与其参数匹配的MLP对应模型（行f）之间。LUViT/B 在 IN-1K 上达到

，在 IN-C 上达到

，分别比 ViT/B

MLP (LoRA Match)（行f：IN-1K

，IN-C

）在 IN-1K 上高

，在 IN-C 上高

。

预训练LLM表示对于下游收益至关重要。为了进一步研究语言预训练表示在LLM模块中的作用，作者考虑将随机初始化的LLaMA 1模块作为另一个 Baseline ，而不是LUViT中表4中的语言预训练权重。为了确保更公平的比较，作者遵循完全相同的架构设计，包括LUViT的LoRA层和线性投影。在此，观察到类似的模式：使用原始LLaMA 1权重的完整LUViT在IN-1K上比随机初始化的LLaMA 1模型高出+0.4%，在IN-C上高出0.3%。

这些结果进一步量化了LUViT的改进并非仅仅由于额外的训练能力，而是作者设计选择和从冻结的LLM模块中适应的知识直接导致的后果。

5 关于LUViT的背景鲁棒性

在本节中，作者通过分析注意力熵模式，建立了背景鲁棒性与LUViT模型性能提升之间的有趣联系。此前，Pang等人[2023]尝试使用信息过滤假说解释冻结LLM层在视觉任务中的有效性。特别是，Pang等人[2023]假设冻结的LLM模块可以作为一个过滤器，它放大了信息丰富 Token 的最终贡献。然而，尽管Pang等人[2023]对信息过滤假说提出了有趣的观察，但他们未能对注意力模式进行详细讨论，因为他们发现注意力权重过于嘈杂，无法得出有见地的结论。

LUViT表现出更集中的注意力模式。作者的工作与LM4Vision [Pang et al., 2023]一脉相承，并在其基础上进行了改进，作者延续了他们的初步探索，分析了MAE ViT/B Baseline 和作者的LUViT/B的注意力熵，从而揭示了之前未充分研究的利用LLM模块的ViT的注意力模式。具体而言，作者通过计算注意力矩阵每一行的后softmax熵来量化注意力熵，其中每一行对应特征图上的一个空间位置。形式上，将输入表示为

， Query 和键投影矩阵表示为

，

，后softmax注意力矩阵及其行熵由下式给出：

，

。

作者使用ImageNet-S-300数据集[Gao et al., 2022]在图2中可视化了注意力熵。在这里，作者将ImageNet-S-300中的每个 Mask 标注映射到作者的特征图的分辨率，并构建一个二进制 Mask 以区分背景和前景区域。然后，作者对图2中每张图像的前景区域属于的token的熵与背景区域属于的token的熵进行平均。

从图2中作者可以观察到，作者的LUViT/B在背景区域和前景区域的平均注意力熵之间存在明显的差异，而MAE ViT/B Baseline 的所有区域的注意力熵则基本相同，无论它们是否属于信息量高的前景区域。这直接表明了LUViT对信息量高的前景区域的注意力模式，导致LUViT在预测时更多地依赖前景特征，正如A.1部分定性地所示。

picture.image

图片

图2：MAE ViT/B基线模型（a）与我们的LUViT/B模型（b）在图像级别的平均前景注意力熵与平均背景注意力熵的对比。图中每个点对应ImageNet-S-300数据集[Gao等，2022]中的一个图像。对于83%的图像，LUViT模型的背景区域平均注意力熵高于前景区域；而ViT/B模型仅在43%的图像中表现出背景区域平均注意力熵高于前景区域的情况。

LUViT对对抗性背景的鲁棒性更强。受这些注意力模式观察结果的启发，作者在第4节描述的具有挑战性的Imagenet-9基准上，将作者的LUViT与MAE ViT/B Baseline 进行了基准测试。作者的结果展示在表5中，其中在未修改的原始分割集上的性能相近，而随着修改后的背景变得更具挑战性，LUViT的性能提升显著。具体来说，对于混合随机（Mixed Random），LUViT/B将性能提升了

，而对于混合相同（Mixed Same），这一提升进一步增加到

。除了性能差距，原始分割集和混合分割集之间的背景准确率差距也随着LUViT/B的改进而显著提高。

表e 5: MAE预训练模型在ImageNet-9背景虚假相关性基准测试中的Top-1准确率结果。最后三列展示了不同数据划分之间的准确率差距。加粗表示最佳结果。

picture.image

图片

6 结论

在这项工作中，作者介绍了语言解锁视觉Transformer（LUViT），这是一个将仅由文本预训练的大语言模型（LLM）块学到的语义知识引入判别性视觉模型的训练框架。作者的核心贡献在于一种协同预训练策略，该策略共同适应两种模态：作者利用 Mask 自编码（MAE）从视觉Transformer（ViT）中学习丰富的视觉表示，同时使用相同的MAE目标在LLM块内训练低秩适配（LoRA）层。这一联合优化过程至关重要，它指导ViT生成对LLM友好的特征，同时使LLM能够有效地利用其丰富的语义知识增强这些视觉特征。

全面实验展示了LUViT的有效性。在图像分类基准测试中，LUViT不仅在这个设置中建立了新的最先进结果，而且还显示出对领域转换的鲁棒性大大提高。作者表明，虽然MAE预训练提供了一个重要的基础，但与MAE协同训练的基于LoRA的LLM块适配对于解锁性能提升至关重要。LUViT为利用预训练LLM的广泛知识进行视觉任务提供了一种有效途径。

参考

[1]. Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs

扫码加入👉「集智书童」交流群
（备注：方向+学校/公司+昵称）

picture.image