美国密歇根大学新框架加持 | 单流VLM如GPT-4V在组合语言编码上实现10%性能飞跃！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

「AI视界引擎交流群」

picture.image

近年来，视觉与语言任务的性能显著提高。基础视觉-语言模型（VLMs），如CLIP，已在多种场景中得到应用，并在多项任务中展现出卓越的性能。这些模型擅长以目标为中心的识别，但学习到的文本表示对词序似乎是不变的，无法以新颖方式组合已知概念。

然而，目前没有证据表明任何VLM，包括大规模的单流模型如GPT-4V，能够成功地识别组合。

在本文中，作者引入了一个框架，可以显著提高现有模型编码组合语言的能力，在组合性基准测试上实现了超过10%的绝对改进，同时在标准的目标识别和检索基准测试上保持或提高性能。

代码和预训练模型：https://github.com/netflix/clove

1 Introduction

在过去的几年里，视觉和语言任务的性能有了显著的提升（Radford et al., 2021; Jia et al., 2021; Rombach et al., 2022; Alayrac et al., 2022; Laurencon et al., 2023）。视觉-语言模型（VLMs），如CLIP（Radford et al., 2021），已在多种环境下得到应用，直接或间接作为基础模型，并在多个任务中展示了卓越的性能（Bommasani et al., 2021; Ramesh et al., 2021, 2022; Rombach et al., 2022; Castro和Caba, 2022; Li et al., 2023）。

这类模型在以目标为中心的识别上表现出色，但学习到的文本表示似乎对词汇顺序不变（Thrush et al., 2022; Yuksekgonul et al., 2023; Castro et al., 2023），无法以新的方式组合已知概念（Ma et al., 2023; Hsieh et al., 2023）。例如，如图1所示，CLIP在ImageNet任务上性能顶尖，但在组合性基准测试中表现不佳。

picture.image

语言组合性对于在图像中识别更复杂的概念或使文本到图像模型成功生成具有特定约束的新场景至关重要（Hafri等人，2023年）。例如，在描绘_“女人对男人大喊”_的图像中，正确理解场景的关键是要认识到是谁在向谁大喊。

然而，没有证据表明任何视觉语言模型（VLM），包括大规模的单一流模型如GPT 4V（OpenAI，2023年），能够成功地识别组合。这一论断得到了现有测试组合性的基准仍然是开放挑战这一事实的支持（Thresh等人，2022年；Yuksekgonul等人，2023年；马等人，2023年；Hsieh等人，2023年）。

为了解决这些限制，之前的研究引入了一些技术来增强预训练视觉语言模型（VLMs）的复合能力，例如NegCLIP（Yuksekgonul等人，2023）和REPLACE（Hsieh等人，2023）。然而，这些方法付出了显著的代价：它们牺牲了在更为常见的以目标为中心的识别任务上的性能，这些性能是通过ImageNet（Deng等人，2009）、EuroSAT（Helber等人，2019，2018）和CIFAR100（Krizhevsky，2009）来衡量的。例如，如图1所示，NegCLIP在SugarCrepe（Hsieh等人，2023）复合性基准上的能力相较于预训练模型有所提升，从72.9%增加到82.5%，而与此同时，其在ImageNet（Deng等人，2009）上的top-1准确度从63.4%下降到55.8%。同样，Hsieh等人（2023）应用REPLACE在SugarCrepe上达到了84.7%的高分，但其ImageNet准确度显著下降至52.9%。

在本文中，作者介绍了一个框架，用以显著提高现有双塔模型编码组合语言的能力，同时保持了在更标准基准测试上的性能，如图1所示。具体来说，作者的贡献如下。首先，作者展示了数据策展可以对模型处理组合知识的方式产生重大影响。其次，作者证实了与困难负样本一同训练可以带来额外的改进。第三，作者通过实验证明，模型修补可以用于保持模型在先前任务上的性能。最后，作者将这些想法融合到一个名为CLoVe的新框架中，并展示了它可以在对比预训练的VLM上显著提高组合性。作为一个案例研究，作者展示了作者的框架如何有效地提高CLIP的组合能力，同时保持其他任务上的性能。在发表时，作者将提供预训练权重，供其他人使用，以便用具有显著更好语言组合能力的版本替换其类似CLIP的模型权重。

2 Related Work

对组合性的基准测试。已经提出了几种框架来衡量模型在语言组合性上的表现。Shekhar等人（2017年）精心设计了一个基准测试，其中包含通过改变正确标题中的一个单词生成的干扰性图像标题。模型必须确定图像和标题对是否相互对应，以及其他任务。Winoground（Thresh等人，2022年）仔细构建了一个由400个示例组成的高质量数据集，每个示例包含两张图片和两个标题。这两个标题包含完全相同的单词，但按照几种策略中的一种以不同的顺序排列（例如，交换主语和宾语）。为了通过这个测试，每张图像必须与正确的标题相匹配。模型不能仅仅依靠它们在图像中识别概念的能力，因为元素虽然重复，但组合方式不同。

迪万等人（2022年）发现，成功通过Winoground基准测试需要组合技能以及其他许多技能，如常识推理和定位微小物体。尤克塞尔贡等人（2023年）认为Winoground太小，无法得出统计上显著性的结论，并构建了一个名为ARO的基准，其中包括单一图像、正确标题和多个自动生成的错误标题的例子。CREPE（马等人，2023年）制定了一个基准，以衡量系统性和生产率方面的组合性。它同时考虑了已见和未见的复合现象。SugarCrepe（谢等人，2023年）是一个最近的基准，它避免了不语法和荒谬的负面标题，同时数据量庞大。他们展示了不能仅通过计算文本标题的概率而不查看图像来轻易解决这一问题。其他基准也已经创建，它们考虑了组合性以及其他现象，例如VALSE（帕卡尔贝斯库等人，2022年）、RareAct（米奇等人，2020年）、VL-Checklist（赵等人，2022年）、Cola（雷等人，2023年）、SVO-Probes（亨德里克斯和内马茨哈德，2021年）和CLEVR（约翰逊等人，2017年）。

提高组合性的方法。几项研究显示视觉语言模型（VLMs）无法成功地识别组合（Shekhar et al., 2017; Miech et al., 2020; Parcalabescu et al., 2022; Thrush et al., 2022; Hendricks and Nematzadeh, 2021; Yuksekgonul et al., 2023; Castro et al., 2023; Ma et al., 2023）。因此，提出了NegCLIP（Yuksekgonul et al., 2023）以改进CLIP（Radford et al., 2021）概念组合的方式。这包括通过获取训练批次中的标题并自动生成含有相同词汇但顺序不同的句子来添加困难负文本。这种方法使模型能够区分正确顺序的图像与标题与任意顺序的确切词汇（以及批次内其他负标题）。Hsieh等人（2023）在NegCLIP和CREPE（Ma et al., 2023）的基础上，提出了三种生成随机负样本的方法：REPLACE，SWAP和NEGATE。所有这些方法都从句子的场景图表示出发并对其进行操作。REPLACE，取得了最好的整体效果，执行单一原子的替换。SWAP在场景图中交换两个原子。最后，NEGATE引入否定词（例如，_没有_或_不是_）。作者在NegCLIP（Yuksekgonul et al., 2023）和REPLACE（Hsieh et al., 2023）的基础上，提出使用合成生成的标题来扩大规模，并应用模型修补（Ilharco et al., 2022）以避免灾难性遗忘。据作者所知，作者引入了第一种方法，该方法显著提高了对比训练模型的组合技能，同时保留了它们在其他下游任务上的零样本性能。

Cap和CapPa（Tschannen等人，2023年）是两种最近引入的模型，它们采用字幕生成而不是对比学习（如CLIP中那样）来训练视觉语言模型（VLMs）。Tschannen等人（2023年）展示，这些模型在由ARO（Yuksekgonul等人，2023年）和SugarCrepe（Hsieh等人，2023年）测量的组合性方面表现出色。由于这些模型依赖于字幕生成，也即计算给定图像的文本概率，它们对于检索和分类来说效率不高。对于ARO，他们展示无需查看图像就能达到高性能（他们称之为“盲目解码器”）。对于SugarCrepe，作者没有计算这一具体 Baseline 。因此，作者无法推理这些模型在多大程度上成功地处理了组合。作者的方法与它们不同，因为它是建立在对比双塔模型之上的，这些模型对于检索和分类是有效的，且不依赖于计算文本概率，这在这些设置中通常不重要，因为所有文本都是等可能出现的（与图像字幕生成不同）。

3 CLoVe: A Framework to Increase Compositionality in Contrastive VLMs

为了解决在先前模型中观察到的组合性限制，作者提出了针对开发对比视觉语言模型（VLM）三个主要方面的策略：数据整理、对比学习和模型调优。作者引入了CLoVe框架，它利用现有预训练对比视觉语言模型的优点，并通过语言组合技能进行增强。图2展示了总体概览。

picture.image

CLoVe包括以下步骤，下面将详细描述：

3.1 综合字幕。：合成数据生成可以有效地用来扩大训练数据集。作者使用了一个带有综合字幕的大型数据集。

3.2 难以区分的负样本。：对比视觉语言模型依赖于负训练数据的可用性。作者在数据集中添加了随机生成的难以区分的文本负样本，并训练了一个具有增强的组合能力的高精度模型。

3.3 模型修补。：通过模型修补将预训练模型和精调模型结合起来。修补使作者能够在保持精调模型获得的组合性的同时，恢复预训练模型在先前支持的任务上的性能。

Synthetic Captions

合成标题在训练数据集大小和标题质量之间提供了很好的结合。作者利用了LAION-COCO（Schuhmann等人，2022年），一个拥有6亿数据集，其中的图片来自LAION-5B（Schuhmann等人，2022年）的20亿规模英文子集，并且使用了BLIP ViT-L/14（Li等人，2022年）生成的标题，该模型在COCO上进行了微调，并使用两种版本的OpenAI预训练CLIP（Radford等人，2021年；ViT-L/14和RN50x64）进行了过滤。尽管标题的风格有限（通常遵循COCO标题的风格），但LAION-COCO的作者发现，合成的生成的标题与人类编写的标题质量相似。作者相信这些标题更多地关注描述视觉信息，而不是其原始数据集（LAION）中的标题，这是基于该数据集的多个示例得出的。有关训练数据集的消融研究，请参见第4.3节。

Hard Negatives

文本硬负例可以强制模型更好地学习每个单词的含义，因为它们需要根据单词在标题中的使用方式判断其是否与图像相关。Yuksekgonul等人（2023年）提出了NegCLIP，这是对CLIP训练过程的扩展，它通过重新排列图像标题单词为批次中的每个示例生成一个硬负文本。这些生成的负例被包含在学习目标的负测试集中。Hsieh等人（2023年）提出了一个名为REPLACE的替代方法，并显示如果这样的负例是从精心挑选的单个单词替换生成的，模型可以实现更好的组合技能。这些替换是在首先将句子解析为场景图，从中获取实体、关系或属性之一，然后通过利用WordNet（Fellbaum, 2010）从它的反义词或同下义词中选择一个替代词来完成的。这些方法依赖于高质量的标题。否则，生成的负例将会有无法视觉欣赏的变化，或者大多数情况下会是不合语法或无意义的，并且模型的下游性能将受到严重影响。以下面的来自LAION的例子为例，它伴随一张卡片持有者的图片：_"5x Orange Ball Wedding Party PLACE CARD HOLDER Table Name Memo Paper Note Clip."_ 如果作者应用REPLACE，假设作者可以正确解析这个句子，"table"这个词可以被替换为"bed"。然而，这并不会使其成为负例，因为"table"是标题中包含的无法视觉欣赏的附加上下文信息。这样的变化将给模型的训练过程引入更多噪声。

因此，这些研究工作采用了COCO标题（Lin等人，2014；Chen等人，2015）数据集。COCO包含了图像以及高质量的人工标注描述它们的内容。然而，拥有60万图像-文本对，COCO至少比通常使用的图像-文本训练数据集小三个数量级。这个问题限制了学习，并使模型过拟合。此外，COCO呈现的目标和动作的数量有限。在ImageNet-1k的1000个目标类别中，有700个在COCO中不存在（Venugopalan等人，2017）。作者建议将这些困难负样本技术与一个合成标题数据集相结合，例如LAION-COCO（Schuhmann等人，2022）（在上一小节中介绍）。

Model Patching

模型修补（Ilharco等人，2022年）使经过微调的模型能够在保持目标任务性能的同时，恢复之前支持任务上的性能。NegCLIP（Yuksekgonul等人，2023年）和REPLACE（Hsieh等人，2023年）微调模型以显著提高语言组合能力。然而，作为交换，它们牺牲了在一般物体识别上的性能，如通过它们的ImageNet性能所衡量的那样。因此，作者建议应用其中一种方法，然后接着使用模型修补。这个过程包括在预训练模型和微调模型之间执行权重空间的平均。具体来说，对于每个预训练模型权重和微调模型权重，作者计算它们的加权平均以得到新的模型权重：

在4.3节中，作者展示了这种方法帮助模型获得了组合性特性，同时保持了其目标识别性能。

4 Case Study on CLIP

为了证明作者框架的有效性，作者将它应用于CLIP（Radford等人，2021年），这是最广泛使用的对比性视觉语言模型之一。鉴于之前的工作已经强调了组合能力与模型在先前标准任务上的性能之间的权衡，作者在具有挑战性的组合性基准上进行评估，同时也对标准的目标识别以及图像到文本和文本到图像检索基准进行评估。为了深入了解CLoVe框架中三个主要组成部分的作用，作者进行了三项消融研究：(1)确定合成标题的作用；(2)评估在训练过程中采用困难负文本是否提高了组合的识别性能；(3)测试在用困难负文本训练后修补原始模型的重要性。除非另有说明，所有评估均为零样本，这意味着作者不对特定于基准的训练分割进行领域内微调。

Experimental Setup

预训练模型。作者不是从零开始，而是致力于提升现有对比性视觉语言模型（VLM）的构成能力。这项工作使用了CLIP（对比语言-图像预训练；Radford等人，2021年），这是一种预训练方法，在涉及视觉或语言的分类和检索任务上展现出令人印象深刻的零样本性能。该方法通过利用大规模弱监督数据集，在联合空间中学习图像和文本表示。这些数据集包含具有不同程度对应关系的图像-文本对。对于每个图像，模型必须通过采用InfoNCE目标（Oord等人，2018年）从包含该文本和随机抽取的其他文本（负样本）的集合中学习相应的正文本。同样，模型也必须识别出哪个图像与给定的文本相对应。CLIP通过小批量梯度下降进行训练，其中这个目标应用于每个大小批次中的每一对，而负样本通常来自批次中的其余部分。

实现细节。除非另有说明，以下为实现细节。作者使用 Python 3.10 编写代码，并采用 PyTorch Paszke et al. (2019) v2.1，基于开放剪辑（open_clip）的 Ilharco et al. (2021); Cherti et al. (2023) 代码库。作者使用 AdamW 优化器 Loshchilov and Hutter (2019) 进行实验，并采用线性学习率预热，2000步预热至1e-6，随后使用余弦调度 Loshchilov and Hutter (2017) 进行衰减。作者设置的权重衰减为0.1。作者的初始预训练模型是来自 OpenAI 的 Radford et al. (2021) ViT-B-32。作者通过从最多个样本的碎片中随机抽取并替换，训练模型达到十亿个样本。每个碎片的最终大小取决于下载时图像的可获取性。作者成功下载了大约 80% 的 LAION-400M Schuhmann et al. (2021)，80% 的 LAION-COCO Schuhmann et al. (2022)，以及 60% 的 COYO-700M Byeon et al. (2022) 图像。文本标题为英文。作者使用了一个节点，配备了 8x A100 Nvidia GPU 和 96 个 CPU 核心（来自 AWS 的 p4d.24xlarge），持续了四天半的时间。每个 GPU 的批处理大小为 256。

学习率的选取是基于多次初步实验，以确保学习不会过慢，或者不会导致训练损失上升。训练步骤和样本的选择是为了确保该方法有足够的时间学习和收敛。总批次大小和计算预算的选择是基于作者可用的计算资源，并考虑到类似CLIP的方法需要较大的批次大小。由于计算成本高昂，所有报告的实验均基于单次运行。

作者重新实现了Hsieh等人（2023）的算法，并做了以下改动和决策，主要是因为这部分代码无法获取。作者没有使用BERT Devlin等人（2019）来过滤生成的负样本，而是根据新词的频率来替换词汇，这实际上是使用上下文模型计算概率的一阶近似。对于替换操作，尽管原作者没有提到介词，但作者发现在提供的数据中已经替换了介词，因此作者也进行了介词的替换。对于替换词，作者尽量保持句子其余部分的连贯性，例如对动词使用人称一致，对名词使用数量一致，并保持与被替换词相似的字母大小写。作者使用了spaCy Honnibal等人（2020）的v3.7.2版本（模型en_core_web_sm）和pyinflect v0.5.1。作者采用了不同的场景图解析实现方法，即SceneGraphParser v0.1.0。通过查看WordNet Fellbaum（2010）中它们lemma的共有synsets，作者避免了用潜在的同义词替换一个词，使用了NLTK Bird等人（2009）的v3.8.1版本。作者设法重现了原作者报告的相同结果。作者将使作者的代码公开可用，以便任何人都能轻松复现并基于作者的结果进行构建。

作者在模型修补中设置，这是基于第4.3节中的消融研究。

Using CLoVe to Bring Compositionality into CLIP

作者比较了通过作者的Clove框架增强的CLIP模型与几个 Baseline 模型，如图1所示：与预训练的CLIP模型相比，CLIP+Clove在具有挑战性的组合性基准SugarCrepe Hsieh等人（2023）上平均实现了10%的绝对提升，同时在ImageNet性能上的下降不超过1%。此外，当作者不应用模型修补步骤时，作者的模型在组合性方面的表现优于其他模型。

在表1中，作者展示了作者增强的CLIP+Clove模型在三个组合性基准测试中与其他模型的对比结果：ARO Yuksekgonul等人（2023年），SugarCrepe Hsieh等人（2023年）（在其三个粗粒度任务上），以及SVO-Probes Hendricks和Nematzadeh（2021年）。请注意，对于SugarCrepe，作者采用了宏观平均值来计算粗粒度任务结果，如同Tschannen等人（2023年）的做法，而不是原始论文中的方法，因为作者关注的是测量全局现象，而不是关注任务样本量。关于每个细粒度任务的SugarCrepe性能表现，请参见附录A。

picture.image

由于在之前的设计方法中，一个主要的担忧是提高模型组合性同时会导致在其他任务上的性能损失，因此作者评估了CLIP+Clove模型在目标识别以及图像到文本和文本到图像检索任务上的性能。

在表2中，作者比较了以下物体识别基准：ImageNet Deng等人（2009年），Stanford Cars Krause等人（2013年），CIFAR10 Krizhevsky（2009年），CIFAR100 Krizhevsky（2009年），MNIST LeCun等人（1994年），EuroSAT Helber等人（2019年，2018年），Oxford Flowers 102 Nilsback和Zisserman（2008年），Describable Textures（DTD）Cimpoi等人（2014年），UCF101 Soomro等人（2012年），以及HMDB51 Kuehne等人（2011年）。遵循Radford等人（2021年）的方法，作者采用top-1准确度指标，除了Oxford Flowers 102，在那里作者使用每类的平均准确度。

picture.image

在表3中，作者展示了在零样本文本到图像以及图像到文本检索任务上的结果。所使用的数据集包括：Conceptual Captions Sharma等人（2018年）(CC3M)，Distinct Describable Moments Anne Hendricks等人（2017年）(DiDeMo)，MSR-VTT Xu等人（2016年），以及YouCook2 Zhou等人（2018年）(YC2)。这些结果通过测量Recall@5来呈现——这是Radford等人（2021年）使用的相同指标。与分类不同，作者的方法平均至少比其他方法提高了4%（绝对值）。作者推测这种改进来自于检索标题比类别标签更长且更复杂的事实，这使得作者能够欣赏到作者模型丰富的文本表示。作者还认为，在分类任务中使用每个类别的多个提示平均了来自其他模型的文本表示噪声（有关分析请参见附录B）。总的来说，在使用CLIP上的CLoVe框架下，作者在所有任务和指标上都获得了更好的性能，除了在文本到图像的DiDeMo上的性能与REPLACE持平。

picture.image

Ablation Studies

合成标题的重要性。作者假设训练数据集的质量对模型组合性表现至关重要。例如，在LAION Schuhmann等人（2021年）的数据集中，这是一个常用于训练对比视觉语言模型的数据集，你可以找到一些示例，它们提供了无法轻松映射到任何图像中所描绘视觉概念的信息，例如：_"白金舞蹈学院T恤。订单必须在9月26日星期五前提交。大约2周内或更短时间内交付。"_

具有高质量标注的数据集，如COCO Lin等人（2014年）；Chen等人（2015年）可以使用，但这类数据集通常较小（不到一百万样本）。通过使用第3.1节所述的合成标题，可以获得高质量数据和大型数据集的混合方法。作者有兴趣将这个数据集与LAION-400M或COCO直接进行比较，以及两种结合数据集的方法：a) 连接和b) 带有等概率的采样。3 请注意，这些结合LAION和COCO的策略与LAION-COCO数据集完全不同。此外，作者考虑了COYO-700M Byeon等人（2022年），这是一个与LAION-400M类似构建的大型数据集。

表4比较了在不使用负样本的情况下，对不同的数据集微调预训练CLIP模型的表现。在这张表以及后续的表中，最佳结果以粗体表示，下划线表示的是与最佳结果相差1%以内的结果。LAION-COCO Schuhmann等人（2022年）在整体上展示了最佳结果，在ARO上的优势很大。对于这个基准测试，它是唯一一个显著优于预训练模型的呈现数据集。在SugarCrepe基准测试的情况下，作者观察到所有数据集都能提供。

picture.image

对预训练模型的改进。有趣的是，Betker等人（2023年）也发现合成字幕对文本到图像生成模型有所帮助。他们展示合成字幕帮助这些模型生成与输入文本更一致的画面。

硬负样本的重要性。Yuksekgonul等人（2023年）；Hsieh等人（2023年）表明，将随机生成的文本负样本作为训练过程的一部分，可以显著提高预训练模型的语文组合技能。作者应用REPLACE（Hsieh等人，2023年）来获得随机生成的硬负文本，并结合LAION-COCO数据集（Schuhmann等人，2022b）与不使用负样本的微调进行比较。作者在表5中呈现结果。在这种设置中，作者可以观察到，使用负样本比不使用它们时的性能有所提高，这是通过ARO基准（Yuksekgonul等人，2023年）测量的（其任务是按照作者展示它们的顺序：VG-Attribution，VG-Relation，COCO-Order，以及Flickr30k-Order）。

picture.image

模型修补的重要性。通过采用Yuksekgonul等人（2023年）；Hsieh等人（2023年）使用的负样本来提高CLIP的复合性的现有方法，这样做会大大损害模型在更标准的以目标为中心的基准测试（如ImageNet（Deng等人，2009年））上的性能。

图3展示了当这个值变化时，对组合性基准和以目标为中心的基准的影响。当在0.4-0.7之间时，模型在这两者上都表现出色。

picture.image

5 Conclusions

在本文中，作者引入了CLoVe框架——一种可以在保持其他任务性能的同时，显著提高预训练对比视觉语言模型（VLMs）的组合性的方法，与现有方法不同。作者的方法结合了通过利用合成字幕图像来微调对比VLMs与困难负文本，因为它们可以在质量和数量之间提供极佳的权衡。随后，它用微调后的模型修补原始模型，以融合两种模型的优点——在保持其他任务性能的同时传达组合技能。

作者通过实验证明了CLoVe能够提升类似CLIP模型的多种基准测试性能，这些测试既包括与组合性相关的，也包括与组合性无关的。作者对框架的不同组成部分进行了消融研究，并展示了它们的重要性：数据质量、在训练中使用困难负样本，以及模型修补。

作者的代码和预训练模型可在https://github.com/netflix/clove公开获取。作者的代码将允许轻松替换类似CLIP的权重为作者提供的权重，从而显著提高语言组合的表现。

Limitations

作者的工作在以下方面存在限制。

作者的方法并没有完全解决组合性问题。在组合性基准测试上的表现与关联各测试的论文中报告的人类表现仍存在差距。

采用合成字幕可能会引入不希望有的噪声。图像字幕生成器有时可能会产生幻觉，引入错误的概念或不准确的目标描述。这种情况在数量表述上尤为明显，比如场景中实际上有四匹马，但合成字幕却提到了三匹。未来的工作可以专注于改进合成字幕质量的方法。

作者没有研究打 Patch 模型在不同人群中的性能影响。有可能是某些人群在模型打 Patch 后在某些任务性能（是否为组合性）上被错误地表示。用户在这方面应该要小心。

在这项工作中，作者关注双塔模型，因为它们在分类和检索方面的效率。作者将对单塔模型的研究留作未来的工作。

Acknowledgements

作者感谢Pablo Delgado以及Netflix训练平台团队在利用Netflix计算资源方面提供的帮助。也感谢Muhammad Khalifa、Oana Ignat、Andrew Lee以及密歇根大学的语言与信息技术小组进行的多次深刻讨论。本研究部分基于汽车研究中心（"ARC"）的支持。本文中表达的观点、发现、结论或建议均为作者的观点，不一定反映ARC或任何相关实体的看法。

Appendix A SugarCrepe Fine-Grained Performance

在表6中，作者展示了SugarCrepe的细粒度任务结果。

picture.image

Appendix B Classification without Prompts

类似CLIP的模型使用多个提示进行分类评估，通常依赖于OpenAI的CLIP（Radford等人，2021年）最初测试的提示，正如作者在这篇论文中所做的那样。例如，对于ImageNet，使用了80个提示（模板），比如“一张{类别名称}的照片”和“{类别名称}的itap”。使用这些提示的原因是，文本表示通常很嘈杂，可以从这些文本的嵌入中获得令人满意的平均类别表示。这些提示是精心设计的，以匹配类别和数据的特征。在表7中，作者展示了不使用任何提示，仅使用类别名称作为输入的分类结果。在没有打 Patch 的情况下，作者的方法在性能上相较于表2的结果略有下降（2.5%），即使它被调整为查看完整形成的句子（与仅仅是像“husky”这样的类别名称相对）。当作者应用 Patch 时，在十项基准中的七项中性能下降少于预训练模型，并且与之持平。

picture.image

Appendix C Performance in Flickr and COCO Retrieval Tasks

作者评估了在Flickr30k（Young等人，2014年）和COCO标题（Chen等人，2015年）上的检索性能，因为有时这类结果会与CLIP-like模型（Radford等人，2021年）一同报告。作者没有将这些结果包含在主要的检索结果中，因为作者认为它们接近于少量样本或者在域内不是零样本。NegCLIP和REPLACE在COCO的训练集上进行了微调。作者的方法是在LAION-COCO上训练的，其标题格式与COCO相似。同时，COCO的图像来源于Flickr。作者在表8中呈现了这些结果。

picture.image

参考

[1]. CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models。

点击上方卡片，关注「AI视界引擎」公众号