预训练框架进化论，从CLIP到区域级语义对齐的跨越，通过输入Prompt优化MLLMs特征适应！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

对比语言图像预训练（CLIP）已经被广泛应用于训练视觉编码器以生成图像/文本表示，从而实现各种应用。

最近，CLIP 已被广泛采用作为多模态大型语言模型（MLLMs）的视觉基础，用于将图像输入与语言互动连接起来。CLIP 作为视觉语言基础模型的成功依赖于在 图像 Level 对网络爬取的噪声文本标注进行对齐。

然而，这样的标准可能对于需要细粒度视觉表示的下游任务来说是不够的，尤其是在需要 MLLMs 实现 区域 Level 理解的情况下。在这篇论文中，作者通过几个改进提高了 CLIP 的局部化能力。

作者提出了一种称为 对比语言图像局部化预训练 （CLOC ）的预训练方法，通过补充 CLIP 区域文本对比损失和模块。作者提出了一种新的概念， Prompt 嵌入，其中编码器可以产生易于转换为区域表示的图像嵌入，给定空间 Prompt 。

为了支持大规模预训练，作者设计了一个视觉丰富且空间局部化的描述框架，可以有效地在规模上生成区域文本伪标签。

通过扩展到数十亿张 Token 图像，CLOC 实现了图像区域识别和检索任务的高质量区域嵌入，并且可以作为 CLIP 的替代品，用于增强 MLLMs，尤其是在参考和定位任务上。

1 Introduction

大规模视觉语言（VL）预训练是多模态应用近期飞速增长的重要基础。对比语言图像预训练（CLIP）（Radford等人，2021；贾等人，2021）已成为将图像和文本通过对比训练在网络爬取的图像-文本对上取得视觉语言表示学习巨大成功的方法。在广泛的下游任务上，如零样本图像分类和图像文本检索等，它已被证明具有强大的迁移性和泛化性。甚至超越，CLIP已经成为了多模态大型语言模型（MLLM）的默认选择，因为其优越的先验知识在将视觉与语言对齐，使得视觉输入能够注入语言模型。

随着视觉语言模型（VL）研究越来越受到关注并加速了进展，各种更先进的多模态任务要求更强的视觉能力。例如，最近的一些多模态语言模型（MLLM）专注于需要理解语义在区域水平（如视觉问答（VQA）等）的更细微的任务。这些MLLM在CLIP（视觉backbone）的参考和定位数据上进行微调，正如Kosmos-2（Peng等人，2023）和 Ferret 所看到的那样。由于需要这种区域级理解，CLIP（将整个图像与文本标题对齐）似乎是不够的，因为其常规图像-文本对比损失主要强调全局语义。

为了修复CLIP的这种核心定位能力，作者提出一个具有挑战性和基本性质的问题：在保持CLIP原有强大图像级知识的同时，作者是否可以预训练一个具有增强定位能力的图像编码器，并将其固有地集成到MLLM中？

为了实现这一目标，作者探索了一种数据驱动的方法，该方法补充了原始CLIP图像-文本预训练目标，并引入了明确的区域-文本监督。尽管概念上很简单，但存在几个挑战。

首先，缺乏具有足够大尺度的区域-文本标注的公共数据集，这对于CLIP的训练通常需要数百万甚至数亿张图像。现有的区域-文本语料库如视觉基因组（Krishna等人，2017年）包含约108万张图像，而最大的有噪声 Token 的地面数据集GRIT（Peng等人，2023年）仅包含2000万张图像。

实际上，这种缺陷可能已经限制了文献主要考虑半监督或弱监督方法，这可能是一种妥协。

第二，一个可行的解决方案是在追求通过某些开源词汇检测器 Token 的图像区域伪标签的基础上，扩大训练数据规模（Minderer等人，2024年；张等人，2022年）。尽管这似乎可行，但作者发现设计这样一个流水线并不简单，因为标注数据噪声较大，这将极大地影响最终模型的性能。

第三，即使给出了区域-文本数据集，如何有效地在这些数据集上训练仍是一个未充分探索的问题，包括训练目标、模型架构等更多设计细节的协同设计。

为了提高CLIP的定位能力，尤其是对于MLLMs，作者提出了一种新的预训练框架，名为对比局部语言-图像预训练（CLOC）。该框架如图1所示。作者的主要贡献如下：

picture.image

作者提出一个新的学习目标，Promptable Embeddings，即强大的视觉编码器应生成可以轻松转换为区域表示的图像嵌入，并提供一些空间 Prompt （例如，表示框或文本 Prompt ）。

这种表述不仅使编码器作为细粒度视觉对齐的先验变得更加便捷，而且还为图像编码器与语言解码器之间的互动提供了新的可能性。

为了优化目标，作者在CLIP之上进行简单的最小修改。作者添加了一个区域文本对比损失，其中区域嵌入是从图像嵌入中提取的，通过一个轻量级的提取器模块条件化于空间 Prompt （即 Prompt ）。

作者设计了一个大规模的伪标签数据引擎来支持CLOC训练。作者恰当地将视觉增强的图像描述者和开放式词汇检测器结合在一起，以实现提高先前区域标注实践（Minderer等人，2024年；Peng等人，2023年）的有效配方。这种方法产生了包含两百亿图像-文本数据集和细粒度区域-文本标注，作为训练作者CLOC模型的基础。

通过在31个评估任务上的广泛实验，包括标准图像文本任务、新建的区域文本任务以及使用MLLMs的下游评估，作者证明了CLOC显著且一致地优于CLIP。

作者正在努力发布作者的预训练模型预训练权重以及构建的区域-文本标注，并与最终版本一起，以加速社区内的未来研究。

相关工作改进CLIP的本地化。自CLIP提出以来，许多后续工作从不同角度对其进行改进，针对不同的目标任务和不同的方法。对于作者相关工作而言，提高本地化能力，大多数工作专门关注下游密集视觉任务，如开放式词汇检测（Minderer等人，2024年；Yao等人，2022年；Wu等人，2023年）。

另一个较少且可能更具挑战性的线程是，在图像级任务上保持CLIP的泛化能力的同时提高本地化。最近的工作，如SILC（Naeem等人，2023年）和SPARC（Bica等人，2024年）将本地化增强无监督目标与CLIP损失相结合，但并未尝试利用作者的大规模显式伪标签数据进行监督。

Alpha-CLIP（Sun等人，2024年）表明SAM分割模型（Kirillov等人，2023年）可以为CLIP提供有用的条件。

视觉编码器预训练对MLLM的启示。依托大型语言模型（LLM）的成功，如LLA（刘等人，2023年）等LLM的一种流行方法，通常将视觉编码器与视觉输入相连接，用于处理视觉输入并将其映射到LLM解码器输入空间作为 Token Embedding 。在各种类型的视觉编码器中，CLIP 成为最受欢迎的选择，因为最近的研究（Tong等人，2024年）报告了其在LLM基准测试上的优越性能。

合成标注用于预训练。大规模的训练数据是预训练的燃料，尤其是对于CLIP。文献一直在探索生成高质量合成标注的可扩展方式。

例如，一些工作表明，视觉增强的图像描述可以提高CLIP（Lai等人，2024）。MOFI（Wu等人，2024）构建了一个大的alt-text集合，并使用多分类任务增强CLIP。然而，这些工作仅考虑图像 Level 的标注，而没有明确的区域级标签。

在密集视觉任务，如开放式词汇检测和分割中，自训练模式下的伪标签化已被证明是一种有效的方法。

作者受到这些努力的影响，并在此基础上增强CLIP的定位能力。

3 CLOC: Contrastive Localized Language-Image Pre-Training

Preliminary: from Image-Text to Region-Text Alignment

对比语言图像预训练（CLIP）(Radford等人，2021年) 通过对比图像和文本嵌入来训练一对图像和文本编码器（分别表示为和）。在每个训练迭代期间，从大规模训练集的每个迭代中，随机选择一个最小批量的个图像-文本对{(。对比损失的定义如下：

是相似度度量函数，是一个可学习的对数温度。CLIP 损失平均了图像到文本以及文本到图像的对称对比损失，其中交叉熵分别对图像-文本轴和文本-图像轴进行归一化。

概念上，CLIP损失将图像与相关文本对齐，但忽略了区域信息和空间语义。作者提出在CLIP损失之上增加区域文本对齐，具体而言，假设图像-文本对可以分解为图像区域，并且存在细粒度的标题来描述相应的图像区域。因此，原始输入变为区域-文本考虑的输入{(，当“区域”本身为整个图像时，是一个特殊案例。基于此，作者提出了几个研究问题，并在以下章节中回答它们。

考虑到目标是训练一个具有增强局部定位能力的图像编码器，作者应该如何构建一个区域-文本对齐目标来改进？作者在第3.2节提出了一个称为 _ Prompt 嵌入的新学习任务。

为了有效地联合设计，如何正确地从中提取区域嵌入？在第三节 3.3 中，作者提出了一种轻量级的可 Prompt 区域提取器。

如何生成具有高质量区域性描述的有意义的图像区域？此外，在许多情况下，理想区域性描述可能不存在于图像 Level 性描述中，即可能不是原始的子字符串。

作者在第4节中设计了一个有效且可扩展的数据引擎，作为视觉增强且空间局部化的标签器，用于生成高质量区域性-文本对。

在上述考虑的基础上，作者在第3.4节讨论了如何使用最小冲突训练模型，使其成为CLIP模型的替换方案。

Promptable Embeddings

为了优化CLIP并最终学习一个增强的CLIP视觉编码器，以便支持各种VL下游任务，作者认为至少需要两个能力。（i）首先，编码器应该能够识别细粒度的小物体（例如，这个图像裁剪是一个“飞机轮子”）。（ii）其次，由编码器产生的图像嵌入能够提供一个整体的理解，使得MLLM可以在场景内推理更高级的空间层次关系（例如，“飞机正在放下前起落架”）。

正如在第二节中讨论的那样，许多以前的工作改进了CLIP，使其主要关注（i）目标检测任务，即（i）仅关注（i）。例如，RegionCLIP（Zhong等人，2022年）裁剪出图像区域并将其用作额外的输入图像，以重新训练CLIP编码器以识别物体。然而，要支持全面的VL任务，（i）是必要的，但（ii）是不足够的。

为了实现这一目标，作者提出了一个新的概念，即可 Prompt 的嵌入（promptable embedding）。

作者考虑了一个类似于MLLM使用场景的情景，在这种情景中，答案是通过CLIP图像 Token （tokens）和问题一起生成的。作者假设，对于MLLM强大的编码器应该产生一个能够“轻松转换为区域表示”的图像嵌入，这些区域表示可以通过位置线索进行转换。

作者将基于图像-文本对的 CLIP 损失重述为一种局部化的语言-图像对比损失，用于基于三元组的区域-文本对齐。其中，是一个位置表示，如边界框，可能在一个图像中有多组边界框集合。

为了使其与 CLIP 训练兼容，作者构建了一个可 Prompt 的嵌入变换模块，或简称为 区域 Prompt 器 ，该模块从图像嵌入中提取由指定的区域嵌入。这种表述受到分割模型 SAM（Kirillov 等，2023）的成功启发，该模型预测了基于位置 Prompt 的条件分割 Mask (例如，一个边界框)，而 CLOC 预测了基于的条件区域嵌入。

为此，作者将位置-图像-文本三元组分解为局部化的区域-文本对。令且是由指定的区域的描述符。是图像的第个边界框，表示为两个坐标（即，左上角和右下角）。然后，作者提出一个对称的区域-文本对比损失，类似于方程 1：

默认情况下，作者设置，表示每张图像采样个区域。在第三节3.3中，作者将讨论实现Prompter的方法。在第四节4中，作者将讨论如何利用生成。

是文本到区域轴的归一化对称对比损失，正如公式1所示。作者定义。

作为 Prompter 是一个简单的 Transformer 编码器，它允许除了作者使用的边界框之外的各种 Prompt ，例如点、自由形式的指代、文本等。作者进一步考虑了 Prompt 是自由文本的情况，并将其他情况留待未来研究。作者添加了一个定位损失，它从图像中提取给定区域描述（例如卧室的一张照片）的特征（例如“一台大电视”），并使用 MLP 回归头预测边界框。

picture.image

λ是一个加权标量。在实验中，作者将λ设置为包含无额外调优的区域标签的子批次中图像的比例。所有可学习的参数都采用端到端训练。

Cloc Model Architecture

作者在原始CLIP图像和文本编码器之上，添加了少量的额外模块，实现了 Section 3.2 中提出的可 Prompt 嵌入。

如图2所示，原始CLIP模型在计算时保持不变。对于计算，图像嵌入是从CLIP ViT中重用的，但在池化投影和归一化之前。为了从图像中提取区域嵌入，作者将位置表示视为两个坐标（ Box 左上角和右下角），每个向量化通过位置编码。

Promoter 是一个简单且轻量级的单层 Transformer 编码器。它将附加位置编码与ViT中的图像 Token 序列作为输入，并输出具有池化投影层的区域嵌入。

对于定位损失，作者使用与CLIP文本编码器相同的模型来编码区域描述，以预测具有两个MLP头。总体而言，CLOC仅添加了轻量级的Prompter的额外可学习参数。请注意，单个前向传播的主要开销来自通过ViT编码图像，而CLOC重用它用于多个 Prompt 。

picture.image

Discussions on Design Choices and Extensions

作者在这里讨论了设计选择背后的理由以及一些微小的扩展。

提取区域表示与视觉 Prompt 。为了使用公式4中的训练作者的模型，需要从图像特征中提取区域表示，这些特征以边界框的形式给出。一个可能的简单替代方案是使用ViT的空间图像特征进行RoI池化/对齐（He等人，2017）。RoI操作在目标检测文献中非常流行。1然而，正如将在第5节中看到的那样，作者发现在这里对CLOC预训练并不是最理想的，原因有以下几点。

首先，与通常包含金标签的目标检测数据集不同，大规模网络爬取的图像中的伪标签噪声更大。因此，由于边界框的不精确，生成的RoI特征可能不准确，导致模型训练效果降低。

其次，与直接依赖空间特征的密集视觉任务不同，MLLM具有由多个注意力层组成的transformer解码器，因此空间特征空间中的语义约束变得不那么直接。作者的Prompter通过单个注意力层编码器模拟这种预训练偏差，可能比RoIs利用更好的全局上下文推理。

避免区域文本冲突。虽然区域标注引入了位置信息，但在对比学习的区域标题上可能存在的一个问题是，在图像内（例如，港口中的“船”）或在一个迷你批次中有很多相似的目标。

为了减轻这些担忧，作者应用了两个技巧。首先，幸运的是，作者发现对于每个更新，只需在每个图像中采样几个区域就足够了，例如，在实验中，作者将M设置为4。其次，在计算对比损失的负向量时，作者可以过滤相似的文本。

更具体地说，如果作者计算的倒数时，如果，且没有梯度，作者将忽略的倒数中的配对。

4 Visually-Enriched and Spatially-Localized Captioning Pipeline

正如第1节和3.1节所讨论的，CLOC训练的关键 Bottleneck 在于区域-文本标注数据集，这涉及到数据规模和标签质量。由于目前没有足够大的公共数据集提供区域-文本标注，这使得对比预训练在大规模数据集上的应用成为不可能。

受到最近一些工作启发，这些工作使用视觉丰富的字幕重新为图像进行CLIP训练，作者进一步开发了Visually-Enriched和Spatially-Iocalized（VESL）标签器，该标签器在区域 Level 生成更细粒度的字幕，以优化第3.2节中的方程2。VESL的目标是，给定一张图像（可能带有原始网络爬取的alt文本），用与每个与自然语言中的字幕相关联的边界框进行标注，以优化第3.2节中的方程2。

具体而言，VESL构建为一个伪标签流水线，其步骤如下：

图像重述与视觉概念利用：作者遵循VeCap框架（Lai等人，2024）来生成长、多样、详细且具有视觉概念的图像描述。

区域短语候选项提取：受张等人（2022年）的启发，作者将命名实体识别（NER）应用于从视觉增强的描述中提取叶实体作为描述图像内部区域的潜在候选短语。

利用提取的短语进行开放词汇检测：作者通过 Query 从步骤2中提取的短语，使用预训练的开放词汇检测器生成最终的区域-文本标注，以匹配检测器提出的边界框。作者采用了OWLv2检测器（Minderer等人，2024），它包含了CLIP图像/文本编码器以及检测Head。检测概率大于0.1的框被保留为区域位置，与最高分匹配的短语被认为是对应它们的标题。

说明。作者在这里强调了作者提出的建议背后的见解。最相关的工作是在（Minderer等人，2024年）中提出的，通过自训练扩大了开放词汇（OV）检测。作者受到其成功的影响，并将其扩展到CLOC对比学习，并进行了重要的修改。与（Minderer等人，2024年）从图像爬取的alt-text的n-grams生成候选短语进行OV检测不同，作者发现alt-text可能无法提供足够详细地描述图像区域的内容，从而限制了OV检测器预测的标注的多样性和质量。

因此，作者为每个图像添加了更多的视觉细节。然而，过长的描述使得n-grams候选变得冗长且呈指数增长，因此作者通过命名实体识别生成高质量的候选项。作者发现这样的 Pipeline 产生的训练数据更适合CLOC，这一点将在第5节中得到验证。

作者的预训练数据集。作者的预训练数据集由两部分组成：

（1）图像-文本对，以及（2）区域-文本对。对于图像-文本对，作者复制VeCap（Lai等人，2024）中的图像重新描述 Pipeline ，并为WiT-300M（Wu等人，2024）和DFN-5B（Fang等人，2023）图像生成合成描述。对于区域-文本对，作者使用作者的VESL Pipeline 伪标签WiT-300M和DFN-5B的2B图像子集。

在VESL中，作者采用了官方OWLv2 L/14模型（Minderer等人，2024）作为开放词汇检测器。2所有图像都伪标签为分辨率，其中在适中的计算预算下采样最多20个短语 Query 。表1总结了现有区域-文本数据集和作者自己的统计信息。

值得注意的是，作者还消融了在Minderer等人（2024）之后标注WiT-300M，并发现它检测到更少的物体，可能是因为alt-text的冗长n-gram比作者的方法质量更低，正如作者在标注中讨论的那样。示例和伪代码见附录B。

picture.image

5 Experiments

预训练作者遵循OpenAI-CLIP (Radford等人，2021年)的设置，使用约140亿张图像进行预训练，来训练作者的CLIP基础模型和CLOC模型。为了进行公平的比较，作者使用相同的超参数和图像来训练CLIP基础模型和CLOC。作者实验了ViT B/16和L/14架构，分别预训练为和的图像分辨率。所有参数都从头训练。作者使用基于开源AXLearn框架（Bradbury等人，2018年）的代码实现，并在附录A中提供超参数和更多详细信息。

评估任务。作者在各种下游任务上评估作者的图像编码器。首先，作者在ImageNet图像分类和COCO检索（Lin等人，2014）上评估性能。其次，作者构建了区域级任务，包括使用GRIT数据集（Peng等人，2023）的COCO物体识别和区域文本检索。

此外，作者证明CLOC对于MLLM特别有用，这一点得到了Ferret模型（You等人，2023）的验证，该模型需要对细粒度的图像理解进行参考和定位任务。

作者还使用7B Vicuna LLM在通用多模态基准测试LLaVA-1.5（Liu等人，2023）和LLaVA-NeXT 上进行评估，这两个基准都使用了7B Vicuna LLM。

对于所有评估任务，作者使用相同的官方超参数、数据集和代码库，所有实验的图像编码器，没有进行特定调整。

Image and Region Classification and Retrieval Tasks

提出的CLOC训练框架使得编码器不仅能生成图像嵌入，还能生成区域嵌入。它可以直接用于区域级任务，无需进一步训练，类似于CLIP在图像上的零样本能力。为了评估这种能力并进行快速开发和消融研究，作者首先构建了几个区域级零样本任务。

除了图像 Level 的评估，如ImageNet分类和COCO图像文本检索，作者还构建了区域 Level 的任务，包括区域目标识别和区域文本检索。具体而言，区域 Level 的任务利用评估集的标注边界框在CLOC中提取区域嵌入。对于区域检索，作者使用GRIT数据集（Peng等人，2023）的验证集，编码图像区域和区域标题。

对于区域分类，类别名称被编码为文本嵌入（COCO / LVIS，分别为80 / 1203类），每个区域嵌入的最高余弦相似度被预测为该类的分类。

作者在表2中突出了对性能重要的变量，并作出以下观察：

picture.image

CLOC 在区域级任务上表现良好，同时保持了在图像级指标上的强大性能（2 vs. 3 12）。（注6：参考，Wu等人（2023）在不同的数据设置中，使用320×320的COCO训练图像在该区域分类任务上获得了46.5%的mAcc。相比之下，作者的方法在预训练一个224×224的大规模网络爬取数据集（带有目标标注）上，实现了超过70%的mAcc，这可能并不是公平的比较。）

《 Prompt 器》是CLOC在无需牺牲的情况下超越CLIP的关键因素。作者用ROI对齐替代 Prompt 器，提取区域特征并使用进行训练。作者发现它在区域级任务上的表现远不如CLOC，这可能是因为ROI特征在嘈杂的标签下学习困难，正如作者在第3.4节中讨论的那样。

VESL 在图像检索任务上优于 Minderer 等人（2024年）的基准方法，因为视觉增强的标题可以提高图像检索效果，同时还可以为OV检测器提供多种视觉概念作为文本候选，支持第4部分（3）与第3部分（13）的对比；13与15的对比。

给定相同的VESL captions，OWLv2在GLIPv2检测器上稍微优于（3 vs. 6）。

第三节3.4中的一些技巧可以带来微小的性能提升，但本身已经非常有效（10 11）。

区域任务在每张图像采样2或4个框时表现良好，使得CLOC变得实际可行（12）。

扩大区域标签在区域任务（3）(8) (13)上似乎已经达到饱和，然而在MLLM任务上，它将进一步改善，具体将在表3中展示。

picture.image

提高ViT模型的大小可以进一步改善图像和区域任务。

总体而言，CLOC不仅在图像 Level 的任务上实现了强大的性能，还为作者解锁了零样本区域 Level 的任务能力。作者对架构、训练和数据的设计选择进行了验证。以下，完整的设置13将作为默认值，如果没有指定。

Referring and Grounding with Ferret

首先，根据第1部分的内容，一个关键的动机是为了为训练MLLM提供一种增强的图像编码器，特别是对于需要细粒度图像理解的任务。一个显著的例子是Ferret（You等，2023年），这是一种最近提出的MLLM，它基于LLaVA，旨在处理更高级的空间交互，例如在VQA任务中参考和定位。Ferret可以接受像 Box 、点或自由形式的定位这样的区域 Prompt 作为输入，并针对该区域回答一个问题，例如“你知道物体[区域]是在什么时候发明的吗？”因此，Ferret需要从视觉编码器中获取细粒度图像特征来进行空间推理。

作者通过用作者的CLOC ViT替换CLIP的ViT，将其作为即插即用替换。作者遵循Ferret模型的官方代码库进行训练。作者还进一步考虑了一个基于Ferret的变体：Ferret模型实现了一个空间感知的视觉采样器，该采样器从问题中指定区域中的图像特征进行采样。作者将复杂的视觉采样器替换为作者在第3.3节中介绍的简单Prompter，以提取区域嵌入，如图1（右）所示。

在表3中，作者在Ferret-Bench标准（You等，2023年）上评估了不同的预训练图像编码器。Ferret-Bench包括使用GPT-4构建的三个具有对话风格的多模态VQA任务。结果表明，作者的Prompter对于改进CLIP Baseline 至关重要 - RoI-Align甚至可能稍微降低性能。

将区域标签从300M扩展到2B进一步提高了性能。有趣的是，作者的Prompter 可以在微调中替代Ferret视觉采样器，这更简单且性能甚至优于OpenAI-CLIP和作者的内部CLIP，提高了6%。作者还评估了CLOC（2B Token ）在其他参照和定位任务上的性能，这些任务包括参照目标分类、参照表达式理解和跨多个数据集的短语定位。如表4所示，CLOC在平均13个评估集上的性能也优于其他方法，提高了1-3%。

picture.image

General VQA with LLaVa-1.5 and LLaVa-NeXT

作者进一步证明，CLOC编码器在无回归的通用VQA任务上也可与CLIP相竞争，甚至可以提供性能提升。作者使用Vicuna 7B LLM解码器进行两个实验，基于LLaVa-1.5（冻结的编码器）和Open-LLaVa-NeXT（解冻的编码器，输入AnyRes（刘等人，2024））。由于通用VQA不提供空间参照输入，作者在LLaVA中简单替换了ViT。表5总结了结果。令人鼓舞的是，作者的CLOC设计改进了区域级对齐，这对某些通用多模态基准也有益处，因为它们可能也需要细粒度的图像理解。

picture.image

6 Conclusion

作者解决了CLIP的一个缺陷，即在视觉空间中，语义不仅要在图像层面，还要在区域层面实现对齐。

作者提出了一种新的预训练框架，其中包括一种新的学习公式，即强编码器应该在预见下游使用MLLMs时易于转换。作者的编码器通过输入 Prompt 与MLLMs共同适应特征。

为了解决大规模区域-文本训练数据的需求，作者精心设计了一个伪标签 Pipeline ，用于视觉增强和空间定位的标题。

作者的预训练编码器本质上是CLIP的替换，具有竞争性的图像-文本性能，并在使用MLLMs的领域文本任务和VQA任务中具有额外的能力。

点击上方卡片，关注「AI视界引擎」公众号

预训练框架进化论，从CLIP到区域级语义对齐的跨越，通过输入Prompt优化MLLMs特征适应 ！

1 Introduction

3 CLOC: Contrastive Localized Language-Image Pre-Training

4 Visually-Enriched and Spatially-Localized Captioning Pipeline

5 Experiments

6 Conclusion