VGG组再次出手提出 ELIP | 革新文本-图像检索,视觉Prompt预测+轻量训练性能超BLIP2
导读
参考
评论区

VGG组再次出手提出 ELIP | 革新文本-图像检索,视觉Prompt预测+轻量训练性能超BLIP2

集智书童
集智书童
2025-03-12
大模型向量数据库云通信
短信服务
了解详情 
提供安全可靠、便捷高效的全球短信服务,服务范围覆盖国内外230多个国家和地区,适用于推广短信、通知短信、验证码短信等多种场景,稳定触达客户

点击下方卡片,关注

「集智书童」

公众号

点击加入👉

「集智书童」

交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

本文的目标是提升文本到图像检索的性能。为此,作者提出了一种新的框架,该框架能够提升大规模预训练视觉语言模型的表现,使其能够用于文本到图像的重排序。该方法,增强语言-图像预训练(ELIP),利用文本 Query 来预测一组视觉 Prompt ,以条件化ViT图像编码。ELIP可以轻松应用于常用的CLIP/SigLIP以及最先进的BLIP-2架构。为了在有限的计算资源下训练架构,作者开发了一种“学生友好型”的最佳实践,包括全局硬样本挖掘以及大规模数据集的选择和整理。在评估方面,作者建立了两个新的分布外基准,即遮挡COCO和ImageNet-R,以评估模型对不同领域的零样本泛化能力。得益于新颖的架构和数据整理,实验表明,作者的增强网络显著提升了CLIP/SigLIP的性能,并在文本到图像检索方面优于最先进的BLIP-2模型。

  1. 引言

在本文中,作者考虑了经典的文本到图像检索问题,该问题旨在根据图像实例与文本 Query 的相关性对其进行排序。有效的检索通常包括两个阶段:第一阶段以快速高效的方式提供初始排序,而第二阶段——称为重排序——通过使用更昂贵的重排序模型重新计算文本 Query 与每个高排名候选者之间的相关性分数来细化这个排序。

近年来,文本到图像检索的进展主要集中在第一阶段。一些显著的模型,如CLIP [65] 和 ALIGN [40],通过在大规模图像-文本对上应用对比学习 [60] 来学习联合表示,展示了在跨模态检索任务中令人印象深刻的泛化能力。

本文的主要贡献集中在检索流程的第二阶段,即重排序。具体而言,作者的目标是提升现有视觉-语言基础模型的表现,使其能够重新用于从快速检索过程中重排序前

个候选结果。作者开发的方法称为增强语言-图像预训练(ELIP),它仅需要少量可训练参数,并且可以使用“学生友好”的资源和数据高效地进行训练。作者证明了ELIP可以提升预训练的CLIP[65]、SigLIP[93]和BLIP-2[47]图像-文本模型的表现。

为实现这一目标,首先,作者引入了一个轻量级的文本引导视觉 Prompt 模块。如图1所示,在ELIP中, Query 文本被映射到一组视觉 Prompt 向量[41],然后与图像编码器的[CLS]和 Patch 嵌入进行拼接。这些增强嵌入随后被传递到冻结的视觉编码器中以重新计算图像表示。生成的图像嵌入能够感知文本条件,这增强了其在重排序中的性能。

picture.image

作为第二项贡献,作者解决了模型训练的问题。在训练大型视觉-语言模型时存在两个主要挑战:首先,数据规模——为了实现强大的泛化能力,需要在数百万或数十亿张图像上进行训练,但这成本高昂;其次,批量大小——为了增强模型的判别能力,需要在较大的批量大小下进行训练,但这需要大量的GPU。在这里,作者通过引入策略来选择和整理具有最大信息量的训练数据集,并在批量中将困难样本分组,以使小批量训练有效,从而提出了一种最佳实践。

为了评估ELIP模型的重排序性能,作者使用了标准的COCO [50] 和 Flickr30k [63] 文本到图像检索基准。作为一个进一步的挑战,作者还评估了ELIP增强模型在分布外域的泛化能力。为此,作者将Occluded COCO [44] 和 ImageNet-R [33] 数据集重新用于文本到图像检索基准。

总结如下,做出了以下四项贡献:

  • • 首先,提出了一种新颖的架构,旨在提升基于文本的图像检索在大规模预训练视觉语言模型上的性能,包括最流行的CLIP/SigLIP架构以及最先进的BLIP-2架构。
  • • 其次,提出了一种最佳实践,以有限的资源高效地训练作者的架构。
  • • 第三,为了评估文本到图像检索模型对不同分布外域的泛化能力,作者建立了两个新的文本到图像检索基准,即Occluded COCO和ImageNet-R。
  • • 第四,证明了ELIP在标准基准COCO和Flickr上,以及在新的OOD基准上,显著提升了CLIP/SigLIP,并超越了最先进的BLIP-2模型。
  1. 相关工作

文本到图像检索是跨模态学习中的一个基本且研究广泛的任务[11-16, 19, 20, 22, 25,28,35,38,39,42,43,45,46,48,52,53,65,72,75,79- 85, 89, 91, 92, 95-99]。然而,具有强大零样本能力的如CLIP[36, 65]、SigLIP[93]、ALIGN[40]和BLIP-2[47]等大规模预训练视觉语言模型,现已成为开放式文本图像检索的事实方法。最新的工作[71]通过结合目标检测器的输出或检测边界框的标注,在BLIP-2的基础上略有改进。这成功地克服了模型未能正确理解图像中虽小但语义上重要的物体的情况。作者与该模型进行了比较,并超越了其性能。

检索后重排序。对于单模态图像检索,其中 Query 项为图像,已有一系列工作通过经典计算机视觉算法对初始排名中的前

个图像进行重排序,例如“ Query 扩展”、“几何验证”或两者的结合[3, 17, 18, 37, 62, 77],以及通过基于学习的算法[4, 8, 21, 32, 74]。在文本到图像检索中,重排序算法相对较少被探索[54, 64, 90]。[57]介绍了一种通过估计文本在图像条件下的对数似然来计算图像与文本 Query 之间相似度得分的方法。虽然这种方法表现出强大的性能,但在训练和推理过程中都计算成本较高,使得整个过程较慢。作者的论文也专注于重排序阶段——开发一个更强大的视觉-语言基础模型版本,以对原始检索模型难以区分的图像给出更好的排序。

多模态数据集。为了获得具有强大泛化能力的多模态基础模型,在大型多模态数据集上对其进行训练至关重要。因此,近年来,提供图像-文本对的多模态视觉-语言数据集的数量和规模显著增加,例如COCO [50]、SBU [61]、概念性标题 [69]、LAION [67]、DataComp [27]。多模态数据集规模的增加使得训练更强大的视觉-语言基础模型成为可能。最近,DataCompDR [78] 利用大规模预训练图像标题模型的知识来为DataComp图像生成合成标题,从而比从网络收集的数据集(如原始DataComp数据集)生成的标题噪声更少。在作者的论文中,作者尝试使用概念性标题 [69] 和 DataCompDR [78] 训练ELIP。

多模态数据整理。对多模态数据集进行数据整理至关重要,因为它能够使训练更加高效和有效,尤其是在资源有限的情况下。在数据整理方面已经进行了持续的努力,例如离线示例级数据修剪[6, 9, 26, 27, 34, 40, 56, 87]、离线聚类级数据修剪[1, 2, 7, 30, 73]以及基于模型的评分的在线数据整理[23, 51, 55, 58]。最近的工作JEST[24]利用一对学习模型和参考模型来选择模型能够学习但尚未学习的批量数据。这启发作者选择最有效的批量数据来训练BLIP-2架构。与作者相关的一系列工作还包括困难负样本挖掘,该技术既在经典度量学习[5, 31, 59, 70, 86, 88]中得到了探索,也在现代对比学习中得到了应用[66, 76]。

高效视觉语言预训练。为了更高效地从零开始预训练视觉语言基础模型,[29, 49] 在预训练过程中删除图像 Token ,以实现更快的训练速度,并训练包含更多样本的批次。

  1. 预备知识

图像检索中的重排序。给定一个输入 Query ,检索系统的目标是根据 Query 的相关性对数据集

中的所有实例进行排序。在文本到图像检索的情况下, Query 由文本

指定,理想的结果是得到一个集合

,其中相关图像的排名高于不相关的图像。一般来说,一个有效的检索系统分为两个阶段:第一阶段以快速高效的方式提供初始排名,而第二阶段——称为重排序——通过使用更强大(通常也更昂贵)的排名模型重新计算文本 Query 与每个第一阶段TopK排名候选者的相关性分数,从而细化这个排名。K的选择应确保对所有相关图像都有较高的召回率。在本文中,作者的创新点集中在第二阶段,旨在对第一阶段结果中的TopK候选者进行重排序。

视觉 Prompt 微调(VPT)[41]是一种通过在Transformer层中插入额外的可学习 Prompt 来改进ViT图像编码器的方法。它使得ViT的适应变得高效,仅需训练少量可学习 Prompt 的参数。VPT有两种不同的变体——VPT-Shallow和VPT-Deep。VPT-Shallow仅将额外的视觉 Prompt 插入到第一个Transformer层,而VPT-Deep则在每个Transformer层的输入空间引入 Prompt 。作者将生成的视觉 Prompt 向量集插入到ViT的第一个Transformer层,这与VPT-Shallow类似。

  1. ELIP架构

在本节中,作者描述了ELIP文本到视觉 Prompt 映射网络,该网络可以高效地应用于适配常用的CLIP/SigLIP架构以及最先进的BLIP-2架构以进行重排序。作者首先在4.1节中介绍网络的架构,然后在4.2节和4.3节中分别介绍在CLIP/SigLIP和BLIP-2上的训练/推理策略。作者将应用于CLIP的网络称为ELIP-C,应用于SigLIP的称为ELIP-S,应用于BLIP-2的称为ELIP-B。

4.1 文本引导的多层感知器映射网络

在本工作中,作者提出了一种映射网络,该网络将文本 Query 的嵌入投影到视觉嵌入空间中的一组 Prompt 向量中。然后,这组 Prompt 向量被纳入视觉Transformer(ViT)图像编码器的第一层,作为额外的 Token 用于重新计算视觉嵌入。

T 表示 Query 文本,首先使用预训练的冻结文本编码器

对其进行编码,得到 m+1 个嵌入。[CLS] Token 随后被输入到一个可训练的映射网络中,以生成 Prompt 向量。这些向量与

个图像嵌入

连接,然后传递给预训练的冻结视觉编码器

picture.image

架构如图2 和图3 所示。

picture.image

4.2 使用ELIP-C/ELIP-S进行训练和推理

文本引导的对比训练。在训练时,作者计算文本 Query 的[CLS] Token Embedding

与由 Query 文本引导重新计算的画面特征

之间的点积(其中

表示批量大小)。对于ELIP-C,作者对所有点积进行softmax操作,并在批量上使用标准的InfoNCE损失进行训练;对于ELIP-S,作者对每个点积使用成对Sigmoid损失进行训练。在第5.1节中,作者通过全局硬样本挖掘提供了关于批量选择方案的更多细节。

推理时的重新排序。在推理时,对于每个文本 Query ,作者首先计算由原始CLIP模型计算出的视觉-语言嵌入之间的相似度得分,以获得所有图像的初始排序。然后,作者选择前

个候选图像进行进一步的重新排序,其中,视觉特征通过结合映射网络中的 Prompt 向量重新计算。最终的排序是通过重新计算后的图像特征与文本特征的点积获得的。

4.3 ELIP-B的训练与测试

文本引导的图像-文本匹配损失。在训练过程中,作者将文本 Query

和由 Query 文本重新计算出的图像特征

(其中

表示正图像,

表示负图像)输入到 Q-Former,然后输入到图像-文本匹配(ITM) Head ,以预测一个分数,表示文本和图像是否匹配。ITM Head 的输出使用二元交叉熵损失进行训练。

推理时的重新排序。在推理时,对于每个文本 Query ,作者首先计算由原始BLIP-2图像和文本编码器计算出的视觉-语言嵌入之间的相似度得分,以获得所有图像的初始排序。然后,作者选择前

个候选图像进行进一步的重新排序,其中,通过结合映射网络中的 Prompt 向量重新计算视觉特征。最终的排序是通过初始计算的相似度得分与基于重新计算的图像特征和文本 Query 由ITM头预测的得分之和得到的。

  1. 数据整理与训练的最佳实践

近期视觉语言基础模型通常在大量(数十亿)成对图像-文本样本上训练,需要大量的计算资源。相比之下,作者探索了一种“学生友好”的数据整理最佳实践,以有限的资源提升大规模视觉语言模型。存在两个主要挑战:(i)由于GPU内存的限制,使用大批次训练具有挑战性;(ii)由于计算成本高昂,难以在数十亿个样本上训练。在这里,作者将在第5.1节讨论全局硬样本挖掘策略,以小批次提高训练效率,并在第5.2节讨论如何正确寻找和整理大规模图像-文本训练数据集以实现最大信息增益。

5.1 全局硬样本挖掘

训练CLIP和BLIP-2通常需要较大的批量大小,因为这样可以增加获得困难训练样本的机会,并提高模型的对比度和判别能力。在这里,作者采用全局困难样本挖掘策略,将困难样本分组以批量处理,使小批量训练更加有效。

更具体地说,对于每一对图像-文本对

,作者使用预训练的 CLIP 图像和文本编码器计算它们的图像和文本特征;然后通过收集与参考文本

具有高 CLIP 特征相似度分数的其他图像-文本对来分组一批数据。作者生成的训练批次示例见图4。假设训练批次大小为

,原始数据集包含

个图像-文本对,算法为作者提供了按批次分组的

个训练样本。在实践中,作者在其随机子集上训练ELIP。

picture.image

5.2 大规模数据集的选择与整理

在文献中,已经引入了多个大规模图像-文本训练数据集,例如CC3M [69]、DataComp [27] 等。最近的一项努力 [78] 利用大规模预训练的图像标题模型为DataComp图像生成合成标题,为训练提供了更多信息。实验 [78] 表明,在生成的DataCompDR12M数据集上训练CLIP比在DataComp1B上训练取得了更好的性能,尽管只使用了

的数据样本。然而,在作者的情况下,即使使用DataCompDR12M来训练ELIP,在12M数据上使用2个A6000/A40 GPU训练ELIP-B仍然需要过长的时间。

为了加速ELIP-B的训练,作者采用了基于可学习性的批量选择策略,该策略受到JEST [24]的启发。具体来说,作者使用第5.1节中描述的全局硬样本挖掘策略,对分组批次同时运行ELIP-B(学习器)和预训练的BLIP-2模型(参考模型)。因此,作者选择了可学习性最高的前

的批次,其中批次的可学习性计算为ELIP损失与参考模型损失的差值。

  1. 评估数据集

作者在标准文本到图像检索基准COCO [50] 和Flickr [63](第6.1节)上评估了ELIP,以及作者新设置的分布外基准(第6.2节)。

6.1. 标准基准

COCO是一个大规模的目标检测、分割和标题数据集。在标题方面,每张图片都标注了5个不同的标题。先前的工作使用了5,000张图像和25,010个标题的测试分割进行文本到图像检索的评估。

Flickr30k数据集包含从Flickr收集的图像,以及由人工标注员提供的5个参考句子。其用于文本到图像检索的测试集包括1,000张图像和5,000个标题。

评估指标。作者使用标准指标来评估检索性能:召回率

,召回率

和召回率

。召回率

评估的是每个文本 Query 的前

个检索结果中成功检索到的相关图像的比例,即表示真实图像在检索算法返回的前

个排序图像中出现的频率,其中真实图像是与数据集中 Query 文本描述相关联的图像。

6.2 分布外基准

为了评估模型在分布外场景中进行文本到图像检索的能力,作者建立了两个新的OOD文本图像检索基准,它们作为Flickr和COCO等标准基准的补充。更具体地说,Occluded COCO专注于遮挡目标的检索,而ImageNet

则强调从卡通、素描等不同不寻常领域检索目标。

遮挡COCO是通过使用[44]中的标注,按照[94]中描述的方法生成的,重点关注模型在检索包含遮挡目标目标的图像与不包含目标目标的图像方面的能力。

ImageNet-R使用[33]中的标注生成,旨在检验模型在不同领域(如艺术、卡通、deviantart、涂鸦、刺绣、图形、折纸、绘画、图案、塑料物品、毛绒玩具、雕塑、素描、纹身、玩具和视频游戏)中将目标类别的图像排在其他类别图像前面的性能。

评估指标。与使用COCO/Flickr标题进行文本到图像检索不同,在Occluded COCO和ImageNet-R上,每个文本 Query 可能对应多个正例图像。因此,受图像检索领域评估方法的启发[62],作者采用mAP作为评估指标。

  1. 实验

实现细节。由于计算资源有限,作者使用批大小为40训练ELIP-C/ELIP-S模型,使用批大小为12训练ELIP-B模型。作者将初始学习率设置为

以训练ELIPC/ELIP-S,以及

以训练ELIP-B。默认情况下,作者在DataCompDR上训练模型,但也使用较小的CC3M进行消融研究。模型在2个A6000/A40 GPU上训练。在重新排序方面,对于ELIP-C/ELIP-S,作者对COCO/Flickr的前100个样本、Occluded COCO的前500个样本和ImageNet-R的前1000个样本进行重新排序;对于ELIP-B,作者对COCO/Flickr的前20个样本、Occluded COCO的前100个样本和ImageNet-R的前200个样本进行重新排序。

的值选择使得在原始排序中该

的召回率较高,同时推理速度也快。更多细节请参阅附录。

7.1 COCO和Flickr基准测试结果

消融研究。在表1中,作者评估了ELIP框架中不同组件对CLIP的益处。设置A与设置B之间的比较显示了ELIP-C增强相对于原始CLIP的有效性。比较设置B和设置C,作者可以观察到在小批量训练模型时进行硬样本挖掘是至关重要的。比较设置C和设置D,作者可以看到在较大数据集上训练模型且噪声标题较少时的益处。比较设置D和设置E,可以观察到生成多个视觉 Prompt 比生成一个 Prompt 更有益。在本次实验中,作者生成了10个 Prompt ,并在附录中进行了关于生成 Prompt 数量的消融研究。

picture.image

与现有技术的比较。表2比较了ELIP(ELIP-C、ELIP-S和ELIP-B)与先前模型。可以观察到,在训练DataCompDR12M数据集时,ELIP在COCO和Flickr基准测试中实现了CLIP、SigLIP和BLIP-2的零样本提升。因此,作者的ELIPB在BLIP-2 Backbone 网络上超越了最新的工作[71],为文本到图像检索设定了新的基准。

picture.image

召回率Top-

曲线。图6展示了原始CLIP/SigLIP模型和作者的ELIPC/ELIP-S在COCO基准上的召回率Top-

曲线。召回率Top-

曲线是通过在不同Top-

值下收集召回率值来绘制的。作者可以注意到,这两个模型之间存在显著的差距,这表明ELIP-C/ELIP-S重新排序在各个K值上持续提升文本到图像检索的召回率。

picture.image

定性结果。如图7所示,作者展示了在应用ELIP-C对COCO(左侧)和Flickr(右侧)进行重排序后,CLIP模型的初始排名与重排序结果的定性比较。模型显著提升了排名——在这两种情况下,真实图像(用虚线框突出显示)的排名从低于前5名提升至第1名。更多定性结果请参阅附录。

picture.image

注意力图可视化。图8展示了CLIP和作者的ELIP-C在COCO上对[CLS] Token 在图像块 Token 上的交叉注意力图。可以观察到,如果图像与文本匹配(图8左侧),作者生成的视觉 Prompt 向量可以有效提高与文本 Query 相关的图像特征的选择。由于作者的ELIP-C在图像编码器的非常早期就融合了文本特征,作者假设这种早期融合方法使得模型能够生成与 Query 文本更加对齐的图像嵌入,从而提高检索准确性。可视化结果支持了这一假设。

picture.image

7.2 OOD 基准测试结果

表3展示了在分布外基准上的结果。可以观察到,在Occluded COCO和ImageNet-R等OOD基准上进行测试时,ELIP实现了零样本改进,这证明了ELIP模型具有良好的泛化能力。在COCO和ImageNet(非OOD版本)上进行微调后,模型的性能进一步得到提升,这证明了ELIP的有效性。有关微调的详细信息,请参阅附录。

picture.image

本文提出了一种增强语言-图像预训练(ELIP)方法,旨在提升基于文本的图像检索的视觉-语言基础模型,并在CLIP/SigLIP上实现了显著提升,同时超越了最先进的BLIP-2模型。

  1. 结论

作者的架构,一个简单的MLP映射网络,生成一组视觉 Prompt 向量,这有助于提高与文本 Query 相关的图像特征的选择,从而提升视觉语言基础模型的表现。

作者也探索了一种“学生友好型”的最佳实践来用有限的资源训练作者的架构,这涉及到在训练批次中分组困难样本和选择信息量最大的训练数据。

此外,为了补充现有的文本到图像检索基准,作者建立了两个新的基准来评估不同模型在分布外场景下的能力,并观察到作者的ELIP模型在性能上优于CLIP和BLIP-2。

参考

[1]. ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

picture.image

扫码加入👉

「集智书童」

交流群

(备注:

方向

学校/公司+

昵称

picture.image

0
0
0
0
关于作者
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
短信服务
提供安全可靠、便捷高效的全球短信服务,服务范围覆盖国内外230多个国家和地区,适用于推广短信、通知短信、验证码短信等多种场景,稳定触达客户
了解详情 
语音服务
为企业提供专业的语音服务,支持语音SIP、语音通知、语音验证码、隐私号等产品
了解详情 
评论
未登录
看完啦,登录分享一下感受吧~
正在加载中...