CoMP持续预训练技术 | 多尺寸视觉输入无缝适配，跨模态对齐驱动VFM性能跃升，多任务指标全面突破 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

预训练视觉基础模型（VFMs）为广泛的领域提供了强大的视觉表示。在本文中，作者以多模态方式持续预训练现有的VFMs，使它们能够轻松处理不同尺寸的视觉输入，并产生与语言表示更一致的视觉表示，无论其原始预训练过程如何。

为此，作者引入了CoMP，一个精心设计的持续多模态预训练流程。CoMP使用连续旋转位置嵌入来适应不同分辨率的视觉输入，并使用视觉和文本特征之间的对齐损失来实现更好的跨模态对齐。经过持续预训练后，DINOv2和SigLIP等领先VFMs不仅在多模态理解任务中取得了显著改进，而且在通用分类和分割任务中也取得了显著进步。值得注意的是，使用0.5B LLM的CoMP-SigLIP在ChartQA上取得了66.7的分数，在DocVQA上取得了75.9的分数，同时在冻结块评估下，保持了ImageNet-1K的87.4%准确率和ADE2oK的49.5 mloU。

引言

预训练能够为各种下游任务提取可迁移表示的视觉基础模型（VFMs）一直是计算机视觉领域长期追求的目标。预训练的关键在于通过在视觉预训练中构建强监督信号（弱-强增强）[9, 10, 24, 50]或在视觉-语言预训练中的跨模态对齐[57, 68, 80]来扩大模型和数据规模。这些VFMs通常在各种下游任务中表现出强大的性能，并且可以通过设计轻量级的 Adapter 将视觉特征投影到文本空间中，从而作为语言模型的“眼睛”轻松地与大语言模型（LLMs）结合。

在本文中，作者重新审视了这些广泛使用的视觉特征模型（VFMs），例如仅视觉预训练的DINOv2 [50] 和视觉-语言预训练的SigLIP [80]。作者认为，这些主流的VFMs，无论其预训练过程如何，都可以通过持续的多模态预训练进一步强化。这使得VFMs能够：（1）在作为LMMs的视觉编码器使用时，更好地处理任意大小的视觉输入，而无需进行缩放；（2）生成与语言表示更一致的输出，从而提高多模态理解能力，显著提升仅视觉预训练的编码器性能。

一方面，为视觉特征模块（VFMs）赋予处理不同尺寸图像的能力是视觉理解的核心，因为图像分辨率直接影响图像中信息的丰富程度。然而，现有方法将“图像视为相当于16×16个单词”[18]，将所有图像调整到预定义的大小。这种“一刀切”的策略导致了关键细节的丢失，阻碍了模型感知细粒度信息的能力。这在需要高分辨率输入的任务中尤其有害，如图表理解[46]、文档解析[47]和细粒度识别[53]。近期的研究[7, 50, 64, 68, 80]试图通过改进位置嵌入的双线性插值和引入多分辨率训练来应对这一挑战。然而，由于它们仍然受限于分辨率外推的限制，它们在涉及不同输入分辨率的实际场景中仍然存在困难。

另一方面，作者认为在视觉特征模型（VFMs）和大语言模型（LLMs）之间仍然存在一个表示差距，这种差距源于它们在预训练阶段的独特训练目标和数据模态[37]。为了弥合这一差距并使语言模型（LMMs）更好地理解视觉输入，主流方法[32, 41, 43]涉及训练一个 Adapter ，该 Adapter 将VFMs的视觉嵌入投影到LLMs的文本嵌入空间中，通常通过文本 Token 的下一个 Token 预测来实现。然而，仅依靠基于文本的监督不足以有效地直接缩小这一差距[52]，尤其是当VFMs没有经过视觉-语言对齐预训练[65, 83]时。

为了解决这些挑战，作者引入了CoMP，这是一种精心设计的持续预训练 Pipeline ，旨在增强现有的视觉特征模型（VFMs）。具体来说，CoMP基于以下两个方面构建：（1）C-RoPE，一种针对视觉模型的持续旋转位置嵌入，通过添加标准RoPE-2D [63]和学习的1D位置嵌入来实现，以支持原生分辨率的持续预训练；（2）对齐损失，通过语言原型在视觉特征和文本特征之间的交叉熵损失，以对齐预训练的VFMs和语言模型（LMMs）之间的多模态表示。

如图1所示，COMP接受原始分辨率的图像及其对应文本。除了在文本上通过下一 Token 预测进行训练外，作者还通过LLM的词嵌入使用对齐损失将视觉特征显式地投影到语言空间中。经过三阶段的持续预训练，COMP不仅在多模态理解上表现出色，而且在分类和分割等下游任务中也表现出色。

picture.image

作者的贡献可以概括为：

• 作者提出了一种持续多模态预训练方法CoMP，包括两种技术，C-RoPE和Alignment Loss，以实现支持原生分辨率的预训练视觉特征模型（VFMs），并使大语言模型（LLM）的表示空间对齐。
• 随着CoMP技术的应用，作者提出了CoMP-SigLIP和CoMPDINOv2，它们不仅在多模态理解方面取得了显著提升，而且在传统的视觉任务，如分类和分割方面也实现了显著的进步。
• 基于CoMP-SigLIP，作者引入了CoMP-MM-1B和CoMP-MM-7B，在相似的前期训练数据量下，它们显著优于所有其他方法。
• 作者对不同模型和不同任务进行了全面的实验和消融研究，这些研究为设计选择提供了有价值的见解。

相关工作

视觉基础模型。大规模视觉预训练取得了显著的突破[10, 24, 57, 68, 80]，尤其是以视觉Transformer[18]作为 Backbone ，构成了视觉理解的基础。这些预训练方法可以大致分为两大方向：仅视觉预训练和视觉-语言预训练。在仅视觉预训练中，模型通过对比学习[9, 10, 24, 50]区分不同视角下的图像或块级实体，或者通过重建 Mask 模式回到原始图像[6, 25, 66]进行训练。在视觉-语言预训练中，模型通过利用大规模图像-文本对作为预训练语料库，鼓励将视觉和语言特征对齐到联合语义空间。在本文中，作者探索了一种基于两个代表性模型的持续预训练范式：DINOv2[50]用于仅视觉预训练和SigLIP[80]用于视觉-语言预训练。COMP增强了这些模型在图像级预训练之外的细粒度和开放世界能力，同时保留了它们原有的优势，例如图像级分类和像素级分割。

大语言模型。借助Transformers [69] 强大的表征能力，大语言模型（LLMs）可以在大规模未标注文本语料库上进行预训练。具体来说，BERT [17] 采用编码器-解码器架构，并引入了 Mask 语言建模范式，其中句子的一部分被随机 Mask ，然后由模型进行预测。这种方法已被证明在表征学习方面有效，并在微调后下游任务中表现出强大的性能。后续工作 [29, 30, 58] 通过多任务训练和数据扩展进一步提升了性能。同时，GPT系列 [8, 55, 56] 使用仅解码器的Transformers，并在具有因果 Mask 的下一个 Token 预测范式下进行优化，从而实现了文本生成的能力。在此基础上，InstructGPT [51] 和ChatGPT增强了指令遵循能力，使LLMs更适合实际应用。为了应对ChatGPT，近期的一些开源项目如LLaMA [19, 67]、Qwen [3, 76, 77] 和DeepSeek [14] 引起了广泛关注，推动了社区内进一步的进步。在本文中，作者利用预训练的LLMs作为接口，通过为给定图像添加标题，处理各种形式的文本监督，从而增强适用于不同场景的视觉 Backbone 网络。

多模态预训练的CLIP[57]及其后续工作[27, 54, 59, 81]展示了通过配对图像-文本监督将视觉和语言模态对齐到统一语义特征空间的有效性，在开放集图像级分类和检索方面展现出有前景的能力。然而，这种视觉-语言方法在处理细粒度任务时面临挑战，例如分割和详细描述[39, 72]，这是因为其整体表示和分辨率。最近，Flamingo[2]、CoCa[78]和BLIP[33]等模型引入了交叉注意力机制，通过图像到文本的交叉注意力处理图像基础描述，使预训练模型能够为视觉输入生成描述。此外，随着大语言模型（LLMs）的快速发展，近期工作利用预训练LLMs作为接口，与预训练视觉编码器一起构建强大的多模态大模型，能够解决复杂的视觉问答任务。BLIP2[34]和InstructBLIP[13]利用之前的交叉注意力处理视觉 Token ，而LLaVA[40, 41]系列将视觉特征作为视觉 Token 序列，并将其作为LLM的输入。后续工作[4, 11, 22, 38, 43, 49, 70, 71]专注于通过图像拼接、数据缩放和改进视觉 Token 处理来提高多模态理解。与这些方法不同，作者专注于通过文本监督的生成预训练范式来提高基础视觉能力。

此外，作者通过将RoPE-2D纳入视觉编码并引入一个额外的训练目标来更好地对齐视觉-语言特征，从而增强了高分辨率能力。因此，COMP在多模态理解方面表现出强大的性能，同时提升了传统的视觉任务。

方法

picture.image

作者的目标是赋予预训练的视觉基础模型（VFM）处理原生分辨率图像的能力，同时使其编码器特征与预训练的LLM的表示空间对齐。为此，如图2（a）所示，作者提出了一种持续的多模态预训练流程，该流程改进了现有的VFM，使其能够自然地处理原生分辨率输入（使用C-RoPE，第3.1节），并通过精心设计的损失函数更好地与语言嵌入对齐：文本解码损失（第3.2节）和跨模态对齐损失（第3.3节）。这些组件集成到一个三阶段训练框架中（第3.4节），确保有效的适应和对齐。

3.1. 原生分辨率适配

视觉编码器在预训练阶段通常使用固定大小的输入，因此难以处理不同分辨率的图像，尤其是高分辨率图像进行细粒度视觉理解。虽然在不同大小的图像上进行训练是一个简单的解决方案，但由于视觉Transformer中位置嵌入的预定义形状，这尤其具有挑战性。一种常见的方法是在线方式对原始位置嵌入进行插值以适应不同的输入分辨率，但结果并不令人满意[7, 64]。

受NLP中RoPE（旋转位置嵌入）成功展示的强大外推能力[67, 75]的启发，作者旨在基于RoPE来处理视觉 Token 序列。与之前依赖单一位置嵌入的方法[1, 5, 15, 71]不同，作者利用绝对和相对嵌入来捕捉更丰富的位置信息，以便处理各种高分辨率输入。为了最大限度地利用预训练知识并确保从预训练的vanilla ViT到任意分辨率的平稳过渡，作者首先对绝对位置嵌入进行插值，然后引入RoPE-2D。作者将此方法称为C-RoPE。

具体而言，如图2（b）所示，分辨率为

的二维图像被划分为

个 Patch

，其中

表示视觉编码器的 Patch 大小，

表示图像通道数。图像编码过程可以表示为：

其中，

和

分别表示图块嵌入和可学习位置嵌入，

表示视觉编码器的隐藏维度，

表示双线性插值，

是投影层，

表示标准 FFN ，

表示编码器层数。特别是，式（3）中的

是一个2D旋转矩阵：

3.2 文本监督生成预训练

文本监督生成预训练在大型多模态模型（LMMs）中得到广泛应用。它将标准的仅文本自回归下一个 Token 预测框架[8, 55, 56]扩展到视觉输入，通过 Query 驱动的交叉注意力[2, 13, 35]或投影[41]将视觉特征映射到大语言模型的输入层。在本工作中，作者采用基于投影的多模态框架，因其简单有效。形式上，投影过程

可以定义为如下：

当

在式（4）中时，图像 Token

被输入到

的输入层，作为对应文本

的视觉条件。随后，文本解码损失可以表示为：

其中，

和

分别表示视觉和文本 Token 的数量。为了支持自回归生成过程，基于图像的文本解码器利用因果自注意力机制。

3.3 视觉-语言表示对齐

得益于文本监督的生成预训练和解码损失，可以使用成对的图像和文本来优化视觉编码器。然而，这种监督对于直接优化视觉Transformer来说过于遥远，尤其是在原始视觉编码器的预训练不涉及视觉-语言对齐的情况下，例如在DINOv2 [50]的仅图像SSL中（请参阅消融分析Sec. 4.5以获取进一步分析）。为了弥合视觉编码器和语言模型之间的模态差距，作者通过视觉和文本模型分别编码视觉和文本特征，利用直接视觉-语言表示对齐。

picture.image

受DINO [9, 50]中的知识蒸馏启发，如图3所示，作者旨在通过将LLM的词嵌入W视为原型[52]来对齐视觉和文本表示。与DINO中的自蒸馏方法不同，作者将蒸馏过程框架化为跨模态文本到图像的蒸馏。具体来说，作者首先通过VFM和LLM分别使用参数无关的全局平均池化方法获得全局视觉特征及其对应的文本特征

和

，如下所示：

其中，

表示小批量大小，

代表1000的隐藏维度，

是与

对应的一段文本。然后，作者通过原型

将

和

映射到语言空间，具体如下：

表示 LLM 的词汇量。为了防止训练过程中的信息泄露，提取文本特征时不包含图像前缀。此外，作者断开词嵌入的梯度以避免训练崩溃。

此外，为了适应学习到的原型，作者用Sinkhorn-Knopp算法[12]替换了Softmax函数，该算法探索了词嵌入的先验分布[52]，以获得

的软归一化概率。

其中

是单词的先验边缘分布，

是重归一化向量。因此，对齐损失可以形式化地表示为：

其中，

。此外，作者停止了LLM的梯度传播，确保

只更新VFM的参数。

3.4 训练配方

作者的持续预训练分为三个阶段：

• 阶段-I：视觉-语言 Adapter 预热。在此阶段，作者冻结VFM和LLM，仅以固定低图像分辨率训练 Adapter ，不使用RoPE-2D。
• 阶段-II：原生分辨率适配。在此阶段，作者首先使用RoPE-2D在固定的高图像分辨率下训练整个模型一段时间，然后使用原生分辨率再训练一段时间。
• 阶段-Ill：指令微调（可选）。在此阶段，作者使用RoPE-2D在原始分辨率上对整个模型进行指令数据集的微调，以适应不同类型的数据输入。

训练目标可以形式化地表示为：

在

阶

段

和

阶

段

中

在

阶

段

中

其中

是损失权重，用于平衡

和

。

实验

所有实验均在两个主流的强视觉特征模型（VFMs）SigLIP [80] 和 DINOv2 [50] 上进行，以验证COMP在不同预训练目标模型上的适用性。作者对作者的CoMP-MM在多模态基准测试中的性能进行了评估，与其他长模态模型（LMMs）进行了比较。此外，作者还与其他VFMs在多种视觉下游任务上进行了详细比较，包括多模态理解、图像分类和语义分割。

4.1. CoMP-MM

设置。作者使用SigLIP-So400M [80]作为预训练的视觉特征模型（VFM），以及Qwen2.5-0.5B和Qwen2.5-7B [77]作为预训练的语言模型（LLM），跨模态 Adapter 是一个

的下采样MLP。在第一阶段，作者在

分辨率的LLaVAPretrain数据 [41]上训练 Adapter 。在第二阶段，作者在

和原始分辨率的LLaVA-Mid-Stage数据 [32]上训练完整模型。

picture.image

为了支持高分辨率输入，作者将CC3M [61]中的1M数据替换为Densefusion-1M [36]。在第三阶段，作者在原始分辨率的LLaVA-OV-SI SFT数据 [32]上训练完整模型。所有实验均在

上进行。如表1所示，在相似的预训练数据量下，COMP在所有其他方法中表现显著，并在多个基准测试中达到开源模型的最优性能，无论是在1B模型还是7B模型上。具体来说，CoMP在文本丰富和细粒度理解任务（如ChartQA [57]、DocVQA [47]、AI2D [28]和InstIT [53]）以及各种通用和现实世界的多模态理解任务（如VQAv2 [23]、GQA [26]、MMMU [79]、MMBench [44]和RealWorldQA [73]）上，不仅优于采用AnyRes技术处理高分辨率输入的强 Baseline LLaVA-OV-SI [32]，而且在性能上也超越了它。

4.2 多模态理解

设置。为了进一步量化CoMP在LMMs上的性能，作者按照[20]中的设置和超参数将其与其他主流的VFMs进行比较。具体来说，作者重新初始化了CoMP视觉编码器与LLM（例如LLaMA 3.0 8B [19]）之间的 Adapter ，并始终冻结视觉编码器的参数。作者在LLaVA SFT数据[41]上对 Adapter 和LLM进行单阶段联合训练，训练一个epoch，并将 Adapter 的学习率提升8倍。为确保公平性，作者使用在指令微调（阶段II）之前预训练权重来确认模型未接触过指令微调数据，并将输入到LLM的 Patch 数量固定为576。

结果。作者对CoMP在多个基准测试中的表现进行了评估，这些基准测试涵盖了通用知识（OKVQA [60]、SEEDBench [31]、MME [21]）和文本丰富（TextVQA [62]、DocVQA [47]、InfoVQA [48]、ChartVQA [46]）任务。如表2所示，COMP在性能上显著优于CLIP、SigLIP和DINOv2。值得注意的是，作者的CoMP-SigLIP-400M在大多数任务上优于AIMv2-H（600M），而作者的CoMP-DINOv2-L也超越了DINOv2-G，这证明了作者CoMP的有效性。

picture.image

4.3 图像识别

设置。作者通过在ImageNet-1K [16]上进行图像分类来评估CoMP的全局视图语义质量。具体来说，作者利用注意力池化检测，即在冻结特征之上添加一个注意力池化层，以在固定尺寸

和

下训练COMP。为了进一步分析COMP的识别性能，作者评估了从LLaVA-OV-SI-0.5B模型预训练权重中提取的SigLIP变体，将其表示为LLaVA-SigLIP。作者所有的视觉模型均来自CoMP-MM-1B的Stage-II。

结果。如图3所示，COMP在支持原生分辨率输入的同时，保留了原始SigLIP和DINOv2的丰富全局特征，且CoMP-SigLIP的性能超过了AIMv2的原生分辨率版本。值得注意的是，作者的CoMP-SigLIP在分类能力方面也显著优于从LLaVA-OV-SI-0.5B预训练权重加载的LLaVA-SigLIP，这表明COMP在持续预训练后能更好地保留分类能力。

4.4 语义分割

设置。作者通过 Head 微调使用UperNet [74]评估CoMP语义分割在ADE20K [82]上的局部视图语义质量。具体来说，作者冻结了 Backbone 网络，仅对固定尺寸

和

的UperNet Head 进行训练。为了进一步分析COMP的分割性能，作者评估了SigLIP 2 NaFlex变体 [68]，它也支持原生分辨率输入，以及来自LLaVAOV-SI-0.5B模型预训练权重的LLaVA-SigLIP。作者所有的视觉模型均来自CoMP-MM-1B的Stage-II。

结果。如表4所示，对于擅长提取密集特征的视觉仅预训练DINOv2，作者的持续多模态预训练有效地保留了语义分割能力；对于受限于提取局部特征的视觉语言预训练SigLIP，CoMP显著提升了其像素级理解能力，并取得了很大的提升。

picture.image

4.5 消融研究

改进的训练方案。表5展示了从常用的LLaVA-1.5-like架构到作者提出的CoMP的路线图。具体来说，作者的实验从基本遵循LLaVA-OV [32]的数据组合策略开始。该设置包括在第一阶段使用LCS-558K初始化投影模块，在中阶段使用大约4M的重新描述数据用于高质量的知识学习，以及从LLaVA-Next [43]中获取的约0.8M的单图像指令微调数据。在第一阶段，仅解冻 Adapter ，而在后续阶段，整个模型进行微调。

picture.image

作者采用SigLIP-So400M [80]作为视觉编码器，Qwen2.5-0.5B [77]作为语言解码器。此外，作者逐步增加输入分辨率，分别在各个阶段使用384px、576px和768px，通过插值到固定大小的位置嵌入。如表5的第1行所示， Baseline 模型在涉及高分辨率图像且需要精细视觉理解的图表问答（ChartQA）和文档问答（DocVQA）等任务上存在困难。

为了支持原生分辨率，作者探索在保留原始固定大小位置嵌入的同时整合ROPE-2D。然而，在第一阶段添加ROPE-2D会导致训练崩溃，这可能是由于冻结的视觉Transformer难以适应ROPE-2D，从而导致优化不稳定。与之前的工作[71]在指令微调阶段之前冻结语言模型的做法不同，作者发现为了更好的多模态关联，有必要解锁语言模型，参见行#4。基于有效的超分辨率预训练，作者在第二阶段引入了额外的动态分辨率预训练轮次，以适应视觉输入的原生分辨率。这种策略在各种基准测试中持续提升性能。

此外，如第9行所示，将SigLIP替换为DINOv2-L会导致性能略有下降。然而，当引入对齐损失时，模型实现了与视觉-语言预训练模型相当的性能。这表明，特征对齐目标对于未进行显式视觉-语言预训练的仅视觉模型尤为重要。

C-RoPE的有效性。作者使用Qwen2-0.5B [76]和SigLIP-400M [80]在三种不同设置下直接对LLaVANeXT-SFT数据[43]进行一epoch的微调：(1)仅学习位置嵌入，在预训练分辨率

和更高分辨率

进行插值，(2)仅使用RoPE-2D并直接移除原始位置嵌入[71]，在

，(3)使用C-RoPE在

。如表6所示，尽管学习到的位置嵌入可以通过插值获得处理高分辨率输入的一定能力，但C-RoPE可以进一步大幅提升性能。此外，直接使用RoPE-2D时观察到的性能下降表明，它既不是一种数据效率高的方法，也不是一种友好的训练方法，这归因于移除了传统的位置嵌入，与预训练模型相比引入了突兀的变化。

picture.image

对齐损失的有效性。为了进一步评估对齐损失的有效性，作者使用了Qwen2.5-0.5B [76] 和 DINOv2-Large [50]，并将第三阶段训练数据替换为 LLaVA-NeXT-SFT 数据 [43]，以在三种不同的设置中进行快速评估：（1）不使用对齐损失，（2）在第一阶段、第二阶段输入固定分辨率时使用对齐损失，（3）在整个第一阶段、第二阶段使用对齐损失，包括原生分辨率训练。如表7所示，对齐损失对文本丰富的任务特别有益，并且通常应用时间越长，性能越好。因此，作者默认在整个第一阶段和第二阶段都使用对齐损失。

picture.image

与不同VFMs的比较。如表8所示，作者使用SigLIP-Base、SigLIP400M和DINOv2-Large探索了不同的VFMs。结果表明，COMP不仅适用于不同的预训练目标（SigLIP与DINOv2），也适用于各种模型大小（Base与Large）。

picture.image

在推理过程中调整分辨率。为了研究图像分辨率对分辨率敏感任务的影响，作者通过限制最大视觉 Token 数至LLM，观察了DocVQA [47] 和ChartQA [46] 的分数变化。如图4所示，随着输入分辨率的增加，这两个任务的表现逐渐提升，这证明了COMP在调整分辨率方面的有效性，尤其是在高分辨率方面。

picture.image

结论

作者引入了CoMP，一种在LMM框架下解决固定分辨率和模态差距问题的持续多模态预训练 Pipeline ，适用于视觉-语言预训练和仅视觉预训练模型。具体来说，作者提出了C-RoPE和Alignment Loss，它们能够有效地适应局部分辨率输入，并且更适合LLM文本空间。通过大量实验，作者证明了COMP在多模态理解基准测试中实现了最先进的性能，并且VFM在其他下游视觉任务中的性能也得到了保持。

参考

[1]. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image