加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略！ - 文章 - 开发者社区

picture.image

作者提出了一种在视觉-语言对比学习过程中屏蔽图像块的有效策略，该策略提高了学习表示的质量并加快了训练速度。在每次训练迭代中，作者根据像素强度随机屏蔽视觉上相似的图像块群。

这为模型提供了一个额外的学习信号，超出了对比训练本身，因为它迫使模型仅从上下文中预测被屏蔽视觉结构的单词。这还通过减少每个图像中使用的数据量来加快训练速度。作者通过在多个基准上进行预训练来评估作者模型的有效性，发现它在学习表示的质量上优于其他屏蔽策略，如FLIP。

1 Introduction

图像包含大量冗余信息，这使得在大规模上高效地从图像中学习表示变得具有挑战性。最近的工作通过在视觉-语言对比学习过程中 Mask 图像块来解决这个问题[15, 33, 36, 70]。一种简单的方法是随机丢弃大量图像块，通过减少每次训练迭代的计算成本和内存使用来提高训练效率[36]。另一种策略是 Mask 语义相关的图像块集合[15, 33, 70]，比如属于同一物体的块。这迫使学习到的模型从上下文中预测描述缺失场景结构的单词，从而改进了学习的表示。然而，这种方法需要单独的机制来将语义相关的块分组在一起，这增加了学习过程的复杂性并且计算成本高昂。

作者提出了一种避免这些缺点的多模态对比学习简单 Mask 策略。

在训练期间，作者随机 Mask 图像块的_簇_（图1）。对于这种聚类，作者使用图像块的原始RGB值作为特征表示。作者的方法利用了这样一个事实：简单的视觉相似性度量通常可以捕捉到连贯的视觉结构，如物体部件[18, 53]，特别是当簇是随机采样时（图1）。因此，作者的方法导致了更有效的训练，类似于独立丢弃图像块的方法[36]，同时通过上下文预测改进了学习的表示。

picture.image

作者从 Mask 区域分类中获得灵感，这是一种在视觉-语言模型中广泛使用的预训练任务[9, 56, 57]。这些模型提取物体特征，然后为随机 Mask 的区域预测物体标签。作者的 Mask 方法提供了一个类似的训练信号，因为图像标题中包含了有意义的标签。例如，如图1（a）所示，即使消防栓本身大部分被 Mask ，模型也需要将“消防栓”这个词与图像相关联。

2 相关工作

对比视觉语言预训练。视觉语言预训练（VLP）专注于在图像或其组成部分与人类可解释的语言之间建立联系。这一领域最初从转移监督学习模型发展而来，这些模型包含了用于生成细粒度视觉标签的目标检测模块。随后，研究方向转向使用噪声网络数据的大规模学习，摆脱对细粒度标签的依赖。

在此领域中一个重要的进展是CLIP，它应用了对比学习技术[6, 21]来训练模型，以关联正确的图像-文本对并分离不正确的对。CLIP显著地扩展了之前的对比视觉-语言模型，实现了强大的特征学习和零样本性能。然而，进一步扩展显著增加了预训练的需求，需要更大的数据集和批量大小。

为了应对这些挑战，近期研究探讨了在图像中引入掩蔽以减少训练时间，允许每个批次有更多的样本。

像MaskClip，FLIP和VIOLET等方法实施了随机掩蔽策略。然而，已经注意到在相对较小的数据集上，随机掩蔽可能不如在大型数据集上有效[35, 70]。

为了解决这个问题，ACLP[70]引入了一种基于低跨注意力分数掩蔽文本标记的方法。然而，这种方法需要两次前向传递来生成注意力图，并且需要额外的计算模块[41]。

在作者的工作中，作者旨在避免这些限制，提出了一种基于图像块原始RGB值的有效掩蔽方法。

在语言建模领域，已经认识到学习重建被破坏的输入以生成健壮特征模型的效率[29, 39]。这种被称为掩蔽语言建模（MLM）的方法，在图像处理领域被改编为掩蔽图像建模（MIM）。

MIM技术包括重建图像块或其特征[2, 5, 8, 14, 22, 63, 64, 65, 68]。在BEIT[2]的开创性工作中，引入了类似VQ-VAE[59]的重建离散标记，使用块状掩蔽。这种方法在模型微调期间展示了与对比学习和自蒸馏方法[3, 7]相当的结果。

后来的方法包括PeCo[14]新颖的视觉码本学习方法，以及BEIT V2[47]整合自蒸馏方法，使用教师-学生 Backbone 网络和特征级KL散度损失[58]。在这一领域的进一步探索导致了使用自然图像信号作为重建目标，从学习特征转向。例如SimMIM[68]，它重建纯RGB值，MaskFeat[64]，引入了直方图方向梯度（HOG）特征的重建，以及MAE[22]，它重建了像素标准化的RGB值。

作者的工作从这些研究中汲取灵感，特别是在使用像素标准化的RGB值来计算块相似性方面，主张更有效地分布块特征。

在MIM中的 Mask 策略。并行研究集中在MIM中的 Mask 策略上。早期的工作如BEIT及其后续版本使用了块状 Mask ，而像SimMIM、MaskFeat和MAE等其他方法则应用了随机的块状 Mask 。

也探索了基于注意力的 Mask 策略，通常使用来自视觉 Transformer 的注意力图。MST[37]使用重建损失方法，对注意力分数低的不那么重要的部分进行 Mask 。

相比之下，AttnMask[28] Mask 注意力高的块，并应用自我蒸馏损失。这些方法涉及在训练过程中同时更新注意力图和 Mask 。这种方法的一个潜在局限性是，训练不足的注意力图可能无法有效地捕捉结构化特征。

SemMAE从iBot特征开始，采用从易到难的 Mask 策略，先从簇内部分开始 Mask ，然后逐渐扩展到整个簇。Wilf等人[66]引入了一种独特的实体增强语言模型，用于在视频帧中 Mask 目标。

然而，依赖于预训练特征或提取注意力图可能会计算密集。进化部分 Mask [19]提出使用EM算法在注意力图上进行聚类，然后执行类似SemMAE风格的 Mask 。

作者的方法也在视觉-语言预训练中采用了基于簇的 Mask 策略，使得预训练更快，而无需对模型进行额外的修改。

3 Method

作者提出了一种基于聚类的对比视觉-语言预训练 Mask 策略，重点关注具有视觉相似语义的随机聚类 Mask 。作者的方法选择随机的 Anchor 定块作为聚类中心，并计算成对块距离以形成聚类。

然后完全 Mask 这些聚类。为了提高聚类形成的准确性，作者引入了一个自适应层以细化距离矩阵。

此外，使用注意力 Mask 和硬块截止，以确保在自动微分批处理中输入大小的一致性。

Contrastive Vision-Language Pre-training

作者的方法建立在对比视觉-语言预训练方法的基础上，例如CLIP [49]。作者使用对比学习来对齐匹配的文本-图像对的嵌入，并将那些不匹配的对的嵌入分离开来。这个过程由两个对称的InfoNCE损失[43]指导：

视觉到语言的损失和其对应的部分，即语言到视觉的损失。视觉到语言的损失定义为：

其中和分别是图像和文本的嵌入，sim 表示相似性函数（作者使用点积），是温度参数。类似地，通过使用一批个图像示例而不是文本示例来规范化损失。

Cluster Masking

作者引入了一种 Mask 策略，该策略随机放弃簇。虽然可以选择使用现成的聚类方法，如K-Means [40]，但作者选择使用一种简单且高效的方法，该方法在每个训练迭代中产生随机的聚类（图2）。作者的方法类似于K-Means的单次迭代，通过选择一组示例 Patch ，每个都定义了一个簇。在实验中，作者还评估了使用K-Means获得的 Mask 簇作为替代方法。

picture.image

作者将输入的图像分割成 Patch ，遵循[16]。然后作者计算每对标准化 Patch 之间的成对余弦相似度，作者将其用作距离函数。作者随机选择小于5%的这些 Patch 作为簇中心。对于这些选定的 Anchor 定 Patch 中的每一个，作者定义一个由位于距离内的 Patch 组成的簇。

Mask 掉簇内的所有 Patch 。在训练之前，根据平均 Mask 比例自动搜索距离阈值。作者在算法1中提供了 Mask 策略的简化伪代码。

picture.image

聚类嵌入特征。 Patch 特征的另一种变体是纯RGB值和来自 Transformer [16]的 Patch 嵌入层特征的组合。在计算相似度分数时，作者将这两项措施整合到一个加权和中，其中每项措施的权重由以下确定：

其中和代表两个 Patch ，是基于纯RGB值的余弦相似度，是基于 Transformer 的嵌入特征的余弦相似度。权重参数在训练期间从0线性增加到1。

嵌入层是在 Patch 进入 Transformer 之前计算的，因此作者可以重复使用 Transformer 中的 Patch 嵌入，无需计算两次。使用嵌入层是有利的，因为它包含了位置编码[60]。这种整合可能引入空间约束，作者相信这可以进一步增强作者的 Mask 策略。

处理批量输入。像PyTorch [46]这样的深度学习库通常会处理统一大小的批量输入。

然而，在作者的方法中，不同图像的 Mask 比例会有所变化，导致 Patch 数量的波动。为了加速这个过程，作者为每张图像引入了_最小 Mask 比例_阈值。如果计算的图像 Mask 比例未达到这个预定义的阈值，作者就继续随机放弃 Patch ，直到达到所需的比率。相反，对于 Patch 数量小于阈值的图像，作者使用注意力 Mask 避免 Mask 部分参与注意力计算。

4 Experiments

作者展示了对作者提出算法的全面评估，以展示作者框架的性能、鲁棒性、可扩展性和效率。

Implementation Details

数据集和训练细节。作者使用Conceptual 12M（CC12M）数据集[4]来训练作者的模型，该数据集包含1200万独特的图像-文本对，用于预训练作者的视觉-语言模型。作者使用ViT-B/16作为图像编码器的主干。文本编码器是一个12层的 Transformer ，配备了8个多头注意力单元和512维的嵌入。输入图像以的分辨率进行处理，文本输入调整为77个标记，通过截断或填充来实现。一个类标记通过多层感知机（MLP）转换成一个512维的特征嵌入。对于优化，作者使用AdamW优化器，学习率为，，。作者每个GPU使用批大小为256，并使用8个NVIDIA A40 GPUs进行训练。

作者的方法有三种变体：K-Means、RGB和嵌入。

RGB模型基于原始图像块进行聚类，而嵌入模型则将块嵌入特征与RGB集成在一起进行聚类。在模型的K-Means变体中，作者随机 Mask 掉一半的簇。模型构建12个簇，最多运行10次迭代。

对于RGB和嵌入模型，作者遵循FLIP[36]对最佳 Mask 比的建议，设定了50%的平均 Mask 比。在RGB方法中，对于Ours-RGB作者使用50%的截止值，对于Ours-RGB作者使用30%，而Ours-Embedding模型使用30%的截止值。

此外，RGB模型以3%的比例选择 Anchor 块，而嵌入模型以5%的比例选择。

在作者的研究中，作者使用三个模型建立 Baseline ：CLIP、FLIP和FLIPAttn，它们都从零开始在CC12M数据集上进行训练。这些 Baseline 模型源自CLIP的开源实现，即OpenClip[10, 26, 48, 52]。对于FLIP和FLIPAttn，作者实现了一个50%的块丢弃率。

具体来说，FLIP使用随机丢弃的方法，而FLIPAttn采用基于注意力的 Mask 策略，灵感来自于ACLP[70]。该策略涉及通过编码器处理图像，然后在最后的 Transformer 块中跨注意力头进行平均以确定注意力分数。与[CLS]标记相关度最高的块被保留。

为了确保这些方法之间的公平比较，作者在单个批次中保持了与作者相同的块数量，这意味着对于FLIP和FLIPAttn，作者为每个GPU应用了256的批大小，而对于CLIP，作者使用了128。此外，作者针对不同的模型应用了学习率的缩放法则。

评估细节。作者的模型在多个基准上进行测试，以确保其健壮性和有效性。作者在COCO[38]和Flickr[71]上进行了零样本图像到文本和文本到图像检索任务，以仔细评估其性能。

此外，作者通过报告在三个主流数据集ImageNet[11]、CIFAR-10和CIFAR-100[30]上的零样本分类和线性检测性能，评估模型的图像表征质量。一些其他数据集的零样本结果，如ImageNet变体、Caltech101[17]、Flowers[42]和Pets[61]，也进行了报告，以验证方法的鲁棒性。

对于这些任务，作者的方法严格遵循了CLIP基准中使用的实现，确保了评估过程的一致性和可靠性。

此外，作者使用SugarCrepe[25]评估作者的方法论在语言组成任务上的有效性。这次评估旨在确定模型在不同上下文中的适应性和效率，包括目标、属性和关系操作。在SugarCrepe框架内，模型的任务是识别准确描述图像的标题，并将其与密切相关但不正确文本硬负样本区分开来。硬负样本的特点是与准确标题在组成上有细微差异。

Main Results

聚类可视化。图3展示了作者根据方法论部分概述的基于聚类的 Mask 技术的可视化描述。在这个示例中，作者从COCO验证集中随机选择了一些图像-文本对，并将作者的 Mask 方法应用于图像的纯RGB数据。

picture.image

可视化显示了两个阶段的 Mask 结果。

在第一阶段，从所有图像块中随机选择一部分块（5%）作为 Anchor 定块，用红色框标注。在第二阶段，作者可视化基于相似性矩阵计算的 Mask 聚类，每个聚类用不同的颜色表示。

零样本检索结果。在作者对模型理解视觉与语言表示之间关系的探究中，作者在几个领先的检索基准上进行了零样本检索测试。表1中的结果详细提供了作者的方法与其他方法的性能比较，特别是在Image2Text和Text2Image的top1(R1)、top5(R5)和top10(R10)指标下的召回精度方面。

picture.image

在MS-COCO [38]，Flickr8k和Flickr30k [71]数据集上的评估中，作者的模型在大多数部分都优于两个 Baseline 。特别是，在Image-to-Text任务中，除了在MS-COCO数据集上与FLIP相比略有性能下降外，作者的模型在大多数数据集上表现最佳。

作者将这一成功归因于作者的训练策略，该策略优先考虑主要聚类并最小化噪声的影响。此外，作者观察到结合RGB信息与 Token 嵌入的方法优于仅依赖RGB的方法。作者假设这是因为嵌入层包含了稍微更高层次的信息。

当将FLIP与CLIP进行比较时，FLIP的性能明显较弱，即使在大批量下也是如此。作者怀疑FLIP在作者实验设置中的次优结果可能没有完全发挥其优势。

这与其他研究如杨等人在ACLIP [70]上的研究结果一致，他们也注意到了FLIP的限制。作者观察到使用注意力得分进行 Mask 可以提高性能，与纯粹的随机 Mask 相比。然而，在有些基准测试中，随机 Mask 仍然不如作者的基于聚类的 Mask 或甚至原始CLIP方法。

在零样本分类和线性检测上的结果。

作者在几个广泛认可的分类基准上评估了作者的模型。

picture.image

零样本分类结果在表2中呈现

picture.image

而线性检测的结果可以在表3中找到。为了更好地评估训练时间的花费，作者将所有方法的训练时间通过CLIP的训练时间进行归一化，后者被认为是。

当将作者模型的性能与CLIP（即无掩蔽）进行比较时，作者的模型在大多数测试案例中表现出更优越的结果，平均提升了2.1%，约有** 36%的速度提升。与训练时长相似的FLIP策略相比，作者的模型提升了 5.5%。与FLIP相比，作者的模型不需要注意力图进行引导，这大大提高了训练速度，而平均性能还提升了 2.6%**。

在零样本分类基准的12个数据集中，作者的RGB和嵌入模型在其中的11个上取得了最高性能。特别是，它在ImageNet变体上获得了强大的性能：ImageNet-A [24]，ImageNet-O [55]，ImageNet-R [55]，以及ImageNet-S [62]，这些变体通常包含具有挑战性和多样化的图像。

作者方法的RGB版本还在ImageNet及其变体上显著优于FLIP，并超越了CLIP模型，这证明了作者方法即使在没有自然引导下的有效性。

线性检测的结果进一步表明了作者的方法是有效的。作者的模型在ImageNet上获得了1.8%的准确率，在CIFAR-10上获得了 3.1%，在CIFAR-100上获得了** 4.2%**。

语言组成。 作者方法的潜在缺点可能是理解语言中概念的组成。由于作者对簇进行掩蔽，模型可能会越来越多地采用词袋倾向[74]，这可能阻碍它学习目标间关系的能力。

例如，如果一幅图像被描述为“草地上的狗”，在作者的模型中，草地可能会被大量掩蔽，因为它们彼此非常相似。这将使得学习“在”这个关系变得困难。因此，作者应用SugarCrepe [25]基准来测试模型理解语言组成的能力。SugarCrepe基准通过在句子中添加、交换或替换概念等操作生成负面描述，然后通过文本检索测试来评估模型选择正确答案的准确性。

picture.image

从作者如表4所示的测试结果来看，在关系测试中，作者的模型表现相当，并在目标和属性测试中显示出显著的增强，与FLIP相比，平均分别提升了3.9%和 3.0%。这种改进可能源于对整个目标的掩蔽，这简化了对比学习的挑战，减少了歧义。这种清晰性促进了模型对关系的理解，这对于组成理解是一个关键因素。

Mask 策略的定性比较作者的方法通过在未 Mask 的图像块中保留更多语义内容，优于随机 Mask 策略，这一比较在图1中展示。

picture.image

作者技术的优势通过图7中详细描述的标题生成实验进一步探索，其中两套图像，每套以不同方式 Mask ，被输入到一个标题生成器，GPT-4 [44, 45]。提示标题生成器为未 Mask 部分生成MS-COCO风格的标题。将这些标题与标准参考进行比较时，可以清楚地看出，作者的基于聚类的 Mask 不仅保留了关键元素，还保留了它们之间的相互关系。例如，作者的方法准确地使标题系统在第一个例子中识别出飞机，并在第二个例子中描述棒球运动员的动作，而随机 Mask 策略未能达到这种清晰度。这些结果表明，作者的 Mask 方法提供了对图像更详细的了解。

Ablation Study

作者在研究中对 Anchor 定块比例进行了消融实验，以寻找作为 Anchor 定块的块的最优比例。

picture.image

这一消融实验的结果总结在图5中。作者使用在ImageNet-1k数据集上的零样本学习结果作为评估作者模型学习到的表示质量的基准。此外，作者针对每个实验调整了阈值，以确保平均最终遮挡比例保持在50%。

作者的发现表明，较小的 Anchor 定块比例往往能带来更优的性能。作者假设这种改进是因为减少了 Anchor 定块比例，从而提高了聚类的稳定性。作者在表1、表2和表5中进一步展示了作者方法的能力，将最小遮挡比例设置为与FLIP的平均遮挡比例相同。对于作者的方法，截止比例表示应用的最小遮挡比例，而真实可见块比例显示在可见比例中。对于FLIP的对应部分，它在所有图像上保持一致的遮挡比例。结果表明，作者的方法不仅在速度上与FLIP相匹配，而且在零样本ImageNet-1K分类准确度上甚至看到更少的块也能实现**+1.6%**的改进。基于注意力的遮挡方法以较低的遮挡比例实现了与作者的相似性能，但速度要慢得多。

这些发现表明，基于聚类的遮挡作为一种有效的去噪技术，对于数据集是有效的。这种增强性能的一个原因是，作者可以轻松遮挡通常不相关的区域，例如均匀着色的背景，这些区域信息量较少，通常与标题中的任何单词都不对应。这种针对性的方法使模型能够专注于图像中更有意义的内容。

此外，作者发现当应用较小的随机 Mask 时，模型的特征学习能力得到了提升。将截断比例从50%降低到30%，作者在分类准确度上观察到了1%的提升。因此，在模型的性能和速度之间存在一些权衡。尽管如此，与基于注意力的 Mask 或原始CLIP方法相比，作者采用更大 Mask 截止的模型仍然显著更快。

作者通过GPT-4 [44, 45]处理被 Mask 的图像，为未 Mask 的片段创建标题。

像素归一化的消融研究。在作者的实验中，作者将像素归一化（使每个图像块均值为零，标准差为1）融入到图像相似性矩阵的计算过程中。

picture.image

如表5(a)所示的结果，这带来了1.1%的性能提升。这种改进的背后原因是图像块的标准化。通过使用像素归一化，作者关注像素的相对强度，从而减弱不同图像间光照变化的影响。

这种归一化过程特别是在像素值动态范围在不同块之间显著变化的情况下特别有益。通过将块缩放到一个公共范围，像素归一化减轻了高强度值块不成比例影响的风险。因此，这导致了块之间的比较更加平衡和公正，从而更有效地提高了模型辨别和量化相似性的能力。

在聚类中使用的特征的效果。如表1和表2所示，基于嵌入的方法超过了仅依赖RGB数据的方法，特别是在图像到文本检索任务中。其中一个原因可能是因为嵌入模型具有位置编码的访问权限，而基于RGB的模型仅使用每个块的外观。

在作者的方法中，作者使用系数在RGB特征和块嵌入层特征之间进行插值，这个系数随着每个时期的改变而变化。将当前运行的时期表示为，总训练时期数表示为，这个系数定义为。除了的线性方法外，作者还探索了表5(b)中总结的其他多项式系数用于这种组合。作者的发现表明，线性组合是最有效的，这可能是由于其平滑过渡的特性。

Limitations

作者的方法为所有图像使用统一的阈值，这种策略虽然有效，但可能不是最优的。未来的研究可以探索为每张图像实现个性化的阈值，这可能会使得 Mask 过程更加智能和自适应。

作者所有的方法都使用了流行的主干网络架构ViT-B/16 [16]，并且仅在CC12M数据集[4]上进行训练。扩大实验的范围可能会提供更多的见解。

5 Conclusion

在作者的研究中，作者引入了一种新颖的基于聚类的 Mask 策略，该策略专为视觉-语言预训练而设计。无论是使用纯RGB值还是来自 Patch 嵌入层的浅层特征，作者的方法都能有效地对图像块进行聚类，保持基本的视觉语义。然后作者随机地 Mask 这些聚类，使得训练效率得以提高。作者的方法在包括纯图像任务（如图像分类）和多模态任务（如图像-文本检索和语言组合测试）在内的各种下游评估任务中均显示出成功。作者认为作者的工作在该领域取得了重大进展，并期待这将激发对类似应用中 Mask 策略优化的进一步研究。

picture.image

作者扩展了图1，加入了来自基于注意力的 Baseline 方法（图8）的示例。

与作者的RGB模型相比，基于注意力的方法在训练过程中的行为发生了变化。在早期迭代中，它随机地 Mask ，而在训练后期，它产生了相当一致的聚类，且在迭代之间变化不大，因为注意力图随时间变化较少，这可能会限制训练样本的多样性。

参考

[1].Efficient Vision-Language Pre-training by Cluster Masking.

​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略！

1 Introduction

2 相关工作

3 Method

Cluster Masking

4 Experiments

Ablation Study

Limitations

5 Conclusion

参考

加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略！