隔壁老王老马的作用都不能忽略 | 邻域感知CLIP开源，不需要任何花里胡哨的技巧，完成完美蜕变！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

尽管在密集视觉识别问题（如语义分割）的深度学习方面取得了显著进展，但传统方法受到固定类别集的限制。与此同时，像CLIP这样的视觉-语言基础模型，由于它们的强大泛化能力，已经在许多零样本图像级任务中显示出卓越的有效性。

近期，一些研究开始探索将这些模型应用于开放词汇语义分割（OVSS）。然而，现有方法通常依赖于不切实际的监督预训练或访问额外的预训练网络。在这项工作中，作者提出了一个用于 OVSS 的无需训练的强 Baseline ，称为邻域感知CLIP（NACLIP），这是专为这一场景设计的CLIP的直接适配。

作者的方法在CLIP的视觉 Transformer 的自注意力中强制执行块的定位，这对于密集预测任务至关重要，但在OVSS文献中被忽视了。

通过融入有利于分割的设计选择，作者的方法在不使用额外数据、辅助预训练网络或大量超参数调整的情况下显著提高了性能，使其非常适合实际应用。在8个流行的语义分割基准上进行实验，在大多数场景中取得了最先进的表现。

关注公众号，私信【获取代码】！

1 Introduction

近年来，在密集视觉识别任务中，深度学习模型的显著进步有目共睹，例如语义分割。然而，这些方法的一个主要局限性源于传统训练场景中固定的类别集合。这在很大程度上限制了这些模型在现实世界问题中的应用，因为视觉概念的数量是无限的，很可能包括训练期间未见过的全新类别。一个直接的解决方案将是收集每个新类的大量标注图像以适应模型。然而，这种解决方案在许多方面都是不切实际的，从对额外图像的繁琐标注过程到对每个新类别的不切实际模型适应。

开放词汇语义分割（OVSS）作为传统封闭集合方法的吸引人替代方案出现，因为它可以处理训练期间可能未见过的新颖类别。在视觉识别任务中，得益于视觉-语言模型的零样本性能，最近的OVSS方法受到了对比语言-图像预训练（CLIP）范例的启发。一个流行的系列方法集成了一个完全监督的训练步骤，其中利用有限类别集合的像素级 Mask ，将图像 Level 的语言-视觉对齐转移到像素级粒度。通过考虑一个弱监督适应数据集，可以放宽像素级标注的假设，其中只能访问图像-文本对。然而，这些方法仍然需要大量像素级或图像-文本标注，这些标注通常与测试数据集中的开放集合类别有较大重叠。此外，最终模型性能可能偏向于选择用于适应的训练数据集。值得注意的是，COCO-Stuff通常用于完全监督适应，它包含171个独特的标注类别，与用于评估的数据集有显著的重叠（请参见中的表1）。

picture.image

为了满足现实世界应用的需求，在这些场景中，获取大规模标记数据集的机会很少，且无法预见到新类别，这项工作中作者专注于无需训练的情景，这是一个更具挑战性和现实性的场景，无需访问额外的数据以进行适应。由于这些方法的实际相关性，已有越来越多的文献研究这些方法。

然而，作者发现尽管这些方法被归类为无需训练的策略，但大多数方法在实际应用中存在重要限制，包括：使用额外的预训练网络，如MoCov2或DeiT，或者在额外数据集上训练的不监督目标定位方法；需要预训练的文本条件生成模型，例如稳定扩散，以生成新概念的多张附加图像；调整许多超参数，其值随数据集而变化；或者集成弱监督奖励函数进行超参数调整，等等。因此，设计新颖的替代方案以放宽这些要求，并以更现实的无需训练的方式呈现简单解决方案，对于将这些方法部署到现实世界问题中至关重要。

在诸如语义分割这样的密集预测任务中，使用视觉 Transformer （ViTs)时，常常忽略了定位的重要方面。值得注意的是，ViTs强调全局表示，特别是通过其标记，这导致了次优的密集预测性能。因此，作者认为设计新颖而有效的方法取决于考虑有利于分割的设计选择。最近同时进行的研究与这一研究方向相似，并探讨了CLIP在密集预测中的固有问题，提出对 Baseline 模型进行小幅调整。特别是，作者们指出 Baseline 性能不佳是由于 Patch 表示的空间对齐不当，问题源于CLIP的自注意力模块。更具体地说，他们认为CLIP学习的是空间不变的视觉特征，这仅在图像级任务中是有益的。为了克服这一限制，中引入了一种新的自注意力机制，该机制重新组织了空间信息。尽管与CLIP相比，它的性能显著，但它并不能保证局部标记之间的语义相关性，因为它没有显式的机制来关注每个标记的邻近标记，从而确保空间一致性。如图1所示，尽管SCLIP比CLIP的标准注意力更好地捕捉了语义上下文，但它对邻近标记产生了不稳定的注意力图。

picture.image

鉴于这些局限性，在这项工作中，作者认真研究了无需训练的OVSS任务，并提出了一种对vanilla CLIP进行最小修改的直接 Baseline 。所实施的更改是由密集预测问题的特定性所驱动的，这在现有方法中大多数被忽视了。具体来说，作者识别了CLIP在图像分割中的潜在局限性，并修改了其视觉编码器，特别是在最后一层，以增强其定位能力。此外，作者分析了同时期的工作，揭示尽管增强了vanilla CLIP的上下文定位，但它存在注意力图不稳定的问题。作者认为这是由于缺乏确保空间一致性的适当机制，并提出了一种简单的解决方案，鼓励每个 Patch 关注其邻居，从而在相邻 Patch 之间生成一致的注意力图。通过在8个流行的OVSS基准上的全面实验实证证明了作者的强大 Baseline ——邻居感知CLIP（NACLIP），在不需额外数据、辅助预训练网络或大量超参数微调的情况下，实现了最先进的性能。

2 Related Work

以下是2相关工作的开篇部分。

Adapting Large-Scale Vision-Language Models

机器学习领域，尤其是深度学习，正在经历一场学习范式的转变，大规模训练的视觉-语言模型的出现是这一转变的标志。特别是对比语言-图像预训练（CLIP）方法取得了前所未有的成功，这主要归功于它在视觉识别任务上的卓越零样本和少样本迁移能力，尤其是在分类的背景下。得益于其泛化和迁移能力，一系列方法应运而生，有的通过修改图像-文本对的训练来提高其零样本性能，有的则通过有效适应仅用少量标记图像的新任务。然而，这种预训练是在图像 Level 进行的，因此通常只有类别标记被训练来捕捉全局信息，这限制了这些方法在密集预测任务上的适用性。

Open-Vocabulary Semantic Segmentation

图1：最终层的注意力图。 对于每个用红色阴影标记的 Patch （分别用(a)到(d)表示），展示了vanilla CLIP ，SCLIP 和作者方法的最终视觉编码器层的注意力图。作者在CLIP和SCLIP的注意力图中识别出了两种问题现象，都源于缺乏正确关注 Patch 邻近区域的机制。首先，如图(a)和(b)所示，注意强度有时会分散在远处的 Patch 之间，忽视了 Patch 的邻近区域。此外，相邻或位置接近的 Patch ，即使它们在现实世界中属于同一类别，甚至具有相似的视觉特征，也可能具有不一致的注意力图。例如，尽管SCLIP为 Patch (d)生成了一个质量较好的注意力图，但其对(c)的注意力图却明显不同，未能聚焦到期望的目标上。通过明确促进对邻近区域的关注，作者的方法为相邻 Patch 生成了连贯的注意力图。

CLIP在分类中的卓越迁移能力迅速推动了开放词汇语义分割（OVSS）领域的文献快速增长，该领域试图在给定图像中分割新概念，而无需对它们进行明确的监督。这些方法可以根据适应过程中所需辅助数据的 Level 分为三大类：完全监督、弱监督和无需训练。

完全监督的OVSS方法通过利用包含像素级标注的大型标记集，将预训练的CLIP适应于语义分割，这些标注来自一组类别。这些方法的主要思想是，通过利用任意有限类别的大型像素标记数据集，模型可以学习执行语义分割，同时保持CLIP卓越的迁移能力。然而，这一系列方法中使用的适应数据集通常与测试图像的开放集合有很高的类别重叠。与需要像素级 Mask 相比，弱监督的OVSS求助于带有图像级标签的附加数据集，通常是图像-文本对的形式。

一种常见的策略是使用这些大型图像-文本对集作为适应过程中的监督，其中每个图像中出现的类别包含在文本中，例如，"一个赛车手在空中骑自行车"。视觉和文本信息之间的对齐通常通过对比损失完成，类似于CLIP的预训练，这可以通过整合额外的学习策略进一步增强，例如在线像素聚类或原始图像特征与从损坏版本恢复的特征之间的多个对比损失，等等。然而，适应过程中仍然需要一个相当大的数据集，并且需要预先知道每个图像中出现的类别，这对于现实世界问题提出了不切实际的考虑。

在上述提出的问题的基础上，作者在这项工作中关注于无需训练的OVSS ，理想情况下，不允许访问额外的数据以进行适应。然而，如前所述，这些方法中的大多数依赖于利用在大规模数据集上预训练的辅助模型（例如，ViT 或稳定扩散），或包含多个组件，其超参数必须调整，有时需要按数据集进行调整，或使用验证集。另一条工作线路试图通过修改ViT的自注意力来提高ViT在提取密集视觉特征方面的潜力。例如，可以直接使用值向量，或者引入附加路径，在与编码器块并行计算自自注意力，以使用残差连接聚合多个层的输出。

然而，与这些工作相比，作者主要区别在于在ViT的自注意力中引入了明确的局部空间一致性，这是现有无需训练的OVSS文献所忽视的概念。

同时的方法SCLIP 提出了一种自注意力机制，鼓励每个标记关注自己和共享相似信息的部位。特别是，作者指出，对角线具有最大值的注意力图能导致适当的定位。然而，由于在SCLIP中 Query 和键向量没有归一化，不能保证注意力图的最大值落在对角线上。因此，如果一个异常 Patch 具有比其他 Patch 大得多的键向量幅度， Patch 会更关注异常值而不是自身。此外，即使在一个定位良好的模型中，每个 Patch 应该以高强度关注自身，但定位并不仅限于自身，还应该考虑每个 Patch 邻近区域。这在分割中尤为重要，因为相邻 Patch 通常代表同一类别。如作者的定性分析（图1）所示，尽管SCLIP在空间定位注意力图方面比CLIP有所改进，但它经常为包含相同现实世界物体的相邻 Patch 生成对比鲜明的注意力图。这表明，在这种方法中，一个 Patch 邻近区域的空间定位通常不会超出 Patch 本身。请注意，尽管对于给定的 Patch ，SCLIP关注那些共享相似 Query 或键向量的 Patch ，但邻近 Patch 不一定如此。此外，作者认为仅关注那些共享相似键或 Query 向量的 Patch （以及自身）是次优的，这在图1中得到了实证证明。作者提出的方法可以通过添加一个显式机制来处理这些限制，该机制强制 Patch 关注它们的邻居，从而施加进行语义分割所需的局部空间一致性。

3 Preliminaries

问题定义。 在这项工作中，作者解决了在无训练场景下的开放词汇语义分割任务，即在没有监督且不微调参数的情况下。因此，对于给定的图像，其中表示其空间域（），以及一组由自然语言描述的任意概念集，作者的目标是针对图像中存在的每个概念提供一个分割 Mask 。

Background on CLIP

CLIP 采用联合训练方法，将视觉和文本模态对齐到同一特征空间。由于大多数基于CLIP的OVSS方法都使用视觉 Transformer 的CLIP，以下作者重点关注这一架构。在这个模型中，视觉编码器由个顺序块组成，每个块处理个标记：第一个代表标记，捕捉全局信息，随后的标记每个代表一个_ Patch _。因此，给定一个输入图像，它最初被划分为个非重叠的 Patch （和），每个 Patch 在中，其中表示每个 Patch 的分辨率。然后，一个线性变换将个标记的序列从通道投影到维空间，并添加位置嵌入以创建第一个编码器块的输入。下面描述了该模型的组成部分。为了简化作者的公式，作者避免将 Patch 的2D网格压平。

编码器块。 每个编码器块从前一个块接收一个由个标记组成的序列，，并执行以下操作：

(2) (3)

在上面的方程中，LN、SA和MLP分别表示层归一化、自注意力模块和前馈神经网络。请注意， Short-Cut 指的是在方程（2）和（4）中添加和。此外，方程（1）和（2）的组合通常被称为自注意力块，而方程（3）和（4）的组合被称为前馈块。

自注意力模块。在自注意力模块中，标记表示序列经过线性变换，生成三个维向量的序列： Query （）、键（）和值（）。随后，计算所有标记之间的相似度度量。更具体地说，对于位于位置的给定块（以及对应于[CLS]的第一个标记），计算和的点积，对于所有和。这个度量随后通过进行缩放，并通过softmax操作计算的加权求和。最后，通过使用线性变换进行投影，得到输出。因此，形式上，位置的块上的SA操作可以描述为：

(6) (7)

以下，作者将把称为点的_注意力图_，而把称为其相应的逻辑值。请注意，这个操作是针对所有标记并行完成的，尽管在实践中使用了多头自注意力版本，但为了简单起见，作者在这里给出了考虑单个 Head 的方程式。

Limitations of CLIP for Image Segmentation

正如先前所述，在分割任务中，定位起着关键作用，但在ViTs [10]中却常常被忽视。如[10]中所述，与CNN不同，ViTs中的大多数操作都是全局的，而块的位置性大多没有考虑在内。在ViT内部，进而也在CLIP的视觉编码器中，位置信息是通过将1D可学习的位置嵌入添加到输入中而集成到网络中的。作者认为，这种方法在密集预测任务中特别会产生三个问题。首先，在处理图像时，作者面临两个维度，仅依赖1D位置嵌入是次优的。其次，与原始的 Transformer [31]不同，它使用正弦和余弦函数来计算位置嵌入（使其能够包含关于相对距离的信息），ViT使用随机初始化的可学习参数。尽管这些参数理论上可以学会优先关注相邻块之间的注意力，但没有保证它们确实会这样做。虽然在分类中这可能不会造成重大问题，因为只有[CLS] Token 的表示才重要，但在语义分割中关注相邻块变得至关重要，因为对于绝大多数块，它们包含了重要的上下文信息。最后，即使位置嵌入编码了关于块位置的信息，它们的利用仅限于第一个编码块，这可能会降低它们在后续层中的相关性。在密集预测任务中，这种疏忽可能是灾难性的，因为这样的信息在整个网络的深度中仍然是有价值的。鉴于以上提出的论点，作者断言在分割的背景下明确关注每个块的邻域是至关重要的。此外，最近的研究指出，CLIP的ViT中的最后一个编码块破坏了空间信息，阻碍了密集预测任务[46]。实际上，CLIP的视觉编码器被训练以强调[CLS] Token 的嵌入（全局嵌入），而其他位置的输出（即块的嵌入）并没有为语义分割等任务进行最佳结构化。

4 Neighbour-Aware CLIP

CLIP [27]的预训练过程鼓励其视觉 Transformer [10]学习适应于图像级任务的表示，因此在对密集预测问题的有效性上做出了妥协。鉴于这些任务与分割之间固有的差异，以及CLIP预训练期间对 Patch 标记的ViT输出并没有进行显式训练的事实，它在像素级预测场景的有效泛化上遇到困难。这强调了需要对原始CLIP模型进行针对性的调整，以适应语义分割的细微差别。作者的研究深入探讨了可能阻碍CLIP分割性能的这些特定组成部分，并提出了对其整体框架的最小改动，而无需更改网络的任何参数。本节详细介绍了这些精确的修改。

移除[CLS]标记。在讨论所 Proposal 的更改之前，为了简化记法，作者考虑移除[CLS]标记。尽管它在原始CLIP的编码器中扮演着主要角色，但作者试图从中提取对分割有用的信息并未成功。作者认为这种失败可以归因于CLIP的预训练与密集预测问题的特定要求之间的本质差异，在这些问题中需要识别具有局部定位的感兴趣目标。鉴于作者的方法中不使用这个标记，移除它将导致更直接的公式表达。没有[CLS]，以下关于等式(5)到(8)的陈述成立：

Introducing Spatial Consistency

在第3.2节中，作者强调了明确关注每个 Patch 的局部性的重要性，并指出了普通ViT的位置嵌入在这方面存在的不足。在本节中，作者介绍了一种简单的方法，用于强制执行对每个 Patch 邻近区域的显式空间注意力。特别是，作者将注意力图信息与一个未规范化的多元（在作者的情况下是二维的）高斯核相结合，它可以定义为：

如果作者假设，作者可以将核重写为

它会在时达到最大值，并且随着到的欧几里得距离增加而减小。现在作者定义一个函数，它以坐标作为输入，离散化并输出一个大小为的矩阵：

作为一个边界情况，假设给定 Patch 的注意力图的logits已被明确设置为，并且作者设置

因此，注意力将完全集中在 Patch 邻近区域。正如作者在第5.3节中进行的实证验证（称为 _仅邻近区域_）所展示的，仅通过这样做，作者就可以观察到与CLIP相比性能的大幅提升。

观察等式（14），作者注意到 Patch 信息没有被利用，因为替换了等式（7）中的，导致产生与图像无关的注意力。这促使作者超越边界情况，并包含相似性信息：

通过向 Patch 的注意力图的logits中添加高斯窗口，注意力不仅增加到了，这在语义分割中已被证明是有益的[32, 46]，而且还增加到了附近 Patch 的值向量，因此引入了局部性到模型中。

Measure of Similarity

Transformer [31]是复杂的深度神经网络，为其内部工作提供明确的解释仍然具有挑战性。然而，从直观的角度来看，作者可以为 Query 、键和值向量提供以下解释。 Query 向量表示一个块在寻找什么；键向量表示它代表什么；值向量显示它提供什么。在这些描述的指导下，作者的自注意力模块中偏离了标准的相似性度量（）。这种偏离是由作者希望模型寻找的内容（即准确的块级预测）与预训练期间训练模型寻找的内容之间的不一致所驱动的。在语义分割中，作者需要关注每个块的性质，这自然引导作者将注意力转向使用键向量。因此，作者选择在作者的相似性度量中使用分数，得到

其中是CLIP中使用的相同缩放因子，如方程(6)所示。通过这样做，代表相似信息（由它们的键向量表示）的块以高强度关注彼此的值向量。

Eliminating Image-Level Specialized Components

正如第3.2节所概述的，CLIP视觉 Transformer 的最后一个编码器块削弱了网络在密集预测任务中的有效性[46]。因此，作者选择从最后的编码器中移除特定模块，使CLIP更适合进行语义分割。具体来说，作者移除了该编码器的前馈块，因为它的参数是针对图像级任务而非密集预测而量身定制的。此外，由于自注意力操作的局部性调整以及前馈块的移除，加入跳跃连接变得不切实际。这是因为它更加重视前一个编码器块的输出，从而降低了作者自注意力模块（）输出的重要性。考虑到这些修改，作者方法中的最后一个视觉编码器块简化了第3.1节中描述的操作为

其中表示最后一个编码器块的索引。作者称这种结构为最后一个编码器块的“简化”架构。

5 Experiments

以下是第5节实验部分的开始部分。

Experimental Setup

数据集。 作者在以下分割基准上评估作者的方法：PASCAL VOC 2012（V21）[11]，ADE20K-150（ADE）[45]，PASCAL Context（PC60）[25]，COCO-Stuff（C-Stf）[5]，Cityscapes（City）[9]，COCO-Object（C-Obj）[20]。此外，除了这些数据集上的原始基准外，作者遵循[32]并在去除了背景类评估的PASCAL VOC 2012（V20）和PASCAL Context（PC59）变体上进行评估。此外，输入图像被调整大小以使较短的边为336（Cityscapes [9]的为560，因为其图像分辨率较高），并按照[32]中概述的过程，以窗口和112的步幅进行滑动推理。

** Baseline 方法。**作者将作者的方法与OVSS领域内的一系列相关工作进行了比较，包括：MaskCLIP [46]，ReCo [28]，CLIP Surgery [18]，SCLIP [32]，GEM [4]，CLIP-DIY [35]，以及FOSSIL [3]。作者还纳入了几种有影响力的弱监督OVSS方法，如GroupViT [36]和TCL [7]，进行比较。此外，由于普通的CLIP [27]可以适用于语义分割，作者也将其作为作者比较表中的 Baseline 。

实现细节。

在实验中，作者采用了预训练的CLIP-ViT [27]。除非另有说明，作者使用ViT-B/16 Backbone 网络（的 Patch 大小），包含12个视觉编码块。由于作者的方法是在“训练免费”的条件下运行的，作者仅使用冻结的CLIP模型，不进行任何优化。高斯核的标准差，即方程（12）中的，被设定为5，这一选择在附录0.B中进一步阐述。OVSS方法通常包括一个 Mask 细化步骤[3, 7, 28, 32]，如DenseCRF [17]或像素自适应 Mask 细化（PAMR）[1]。对于作者的方法，作者选择PAMR，因为它更轻便，效率更高。作者还报告了没有这一细化步骤的结果。作者在所有实验中采用mIoU作为评估指标。

Main Results

主要结果部分开始。

5.2.1 Comparison to Training-Free OVSS Methods.

在表1中，作者针对第5.1节提到的OVSS Baseline 评估了作者提出的方法。尽管大多数方法被呈现为“无需训练”的OVSS，但值得注意的是，它们在底层特性上存在差异。特别是，在避免微调的方法子集中，一些方法利用了辅助预训练模型[3, 35, 28]。鉴于作者主要关注的是仅通过冻结的CLIP模型实现“无需训练”的OVSS，将作者的方法与那些利用额外知识或数据的方法进行比较，虽然具有启发性，但可能并不完全公平。因此，作者在表1中明确表示了公平的比较。分析结果，作者的方法在8个基准测试中有7个超过了最先进的“无需训练”的OVSS方法。这证明了作者提出的架构和CLIP视觉编码器的公式化是有效的。需要注意的是，新方法[3, 4, 18, 35]的结果是从它们各自的手稿中提取的，可能不包括所有基准测试的实验，而其他结果源自[32]。

5.2.2 Robustness to Visual Backbones.

表2报告了使用不同CLIP-ViT Backbone 网络的NACLIP分割结果，分别是ViT-B/16（默认）、ViT-B/32和ViT-L/14。与现有方法[4, 32]相比，作者的方法对 Backbone 网络的选择更具鲁棒性。例如，SCLIP[32]在使用ViT-L/14而非默认 Backbone 网络时，平均性能下降超过12%，而在作者的情况下，退化不到3%。此外，作者的方法在所有设置下比GEM[4]高出超过10%，使得NACLIP与[4, 32]相比是一个更鲁棒的解决方案。

picture.image

5.2.3 Visual Examples.

图2展示了作者的方法在PASCAL Context（59）数据集[25]上生成的几个分割图。这些可视化展示了NACLIP相比于CLIP在性能上的显著提升。此外，SCLIP似乎在正确识别物体边界上遇到困难，有时会混淆相近的概念（例如，第一行）。而且，尽管SCLIP倾向于主要关注类似的 Patch ，而没有明确考虑周围环境，作者的方法保持了局部上下文理解。这在第二行（公交车图像）中很明显，SCLIP

picture.image

错误地将树木分类，可能是由于其没有足够关注附近的物体，如道路。

架构缩减的影响。 在这里，作者探讨了 Sec. 4.3中概述的对CLIP视觉编码器最终块的架构修改的影响。具体来说，作者研究了将自注意力模块的输出作为最终编码器块的输出的有效性。正如表4所示，架构的缩减以及之前描述的操作的移除在语义分割任务中带来了实质性的好处。

picture.image

6 Conclusion

表3：空间一致性和相似性度量的消融研究。_Vanilla_指的是CLIP的自注意力模块，其余设置已在5.3节中定义。在整个实验中，作者遵循默认的CLIP编码器架构，保留了编码器块的所有架构元素。为了清晰地说明效果，作者提供了带和不带 Mask 细化的结果。

picture.image

鉴于CLIP卓越的零样本泛化能力，利用这一模型的开放词汇语义分割范例已经获得了显著的关注，成为规避传统封闭集监督训练局限性的吸引人的替代方案。在这项工作中，作者探讨了CLIP在密集预测中的固有弱点，并提出了简单且最小的修改，将这些强大的模型适应到严格的 OVSS _训练无关_场景中。除了移除阻碍CLIP视觉编码器定位能力的组件外，作者还集成了一种简单机制，在自注意力图上明确鼓励局部一致性，这在现有工作中尚未被探索。在流行的OVSS基准上的大量实验展示了作者方法相对于其他现有OVSS方法的优越性，其中一些方法采用了不切实际或不符合实际的选项，例如利用在附加大型数据集上训练的辅助模型，或者依赖验证集进行超参数调整。相比之下，NACLIP不需要访问任何标记或未标注数据，成为适合实际应用场景的解决方案。

局限性。 在CLIP的预训练中，只有[CLS]标记位置的输出直接影响优化[27]。然而，鉴于CLIP预训练目标与语义分割任务之间的根本差异，作者认为[CLS]标记对于密集预测可能是不相关的，因此从作者的过程中将其排除。尽管承认[CLS]标记的输出表示在各类图像级任务中的有效性，作者也认识到它在密集预测任务中可能具有适用性。因此，作者无法利用[CLS]标记的能力代表了需要进一步调查和评估的限制。

Acknowledgments

表4：研究架构缩减的影响。作者比较了CLIP默认的编码器架构（记为_Vanilla_）与第4.3节描述的修改设置（称为_Reduced_），在后者中，自注意力模块的输出直接作为最终编码器块的输出。在整个实验中，作者使用CLIP默认的自注意力模块。为了明确效果，作者展示了带和不带 Mask 细化两种情况下的结果。

这项工作得到了加拿大自然科学与工程研究委员会（NSERC）的资助。作者还感谢Calcul Quebec和Compute Canada。## 附录0.B 高斯核的标准差

在一个现实的_无需训练_的开词汇场景中，由于额外的数据访问受到限制，不应该有验证集可用于超参数调整。因此，_无需训练_的方法能够在没有此类过程的情况下有效运行至关重要。在作者的方法中，作者引入了一个超参数，代表用于等式(12)中的高斯核的标准差，在作者的实验中将其设置为5。在本节中，作者详细介绍了指导这一选择的启发式方法，使作者能够无需微调就确定这一值。

表5：在各个基准测试中比较NACLIP与SCLIP [32]。 作者展示了两种方法带和不带后处理机制（即PAMR [1]）的结果。数据集名称的缩写在0.5.1节中解释。

picture.image

对于位于的图像块，高斯核在位置增加其注意力对数，并在邻近的图像块位置增加较小的值。作者的选择基于其注意力对数被阈值以上修改的邻近图像块的数量。为此，作者表达如下：

(20) (21)

考虑等式(22)，对于的关注度对数至少增加的邻近图像块位于以为中心、半径为的圆内。例如，当时，图3显示，图像块对37个图像块的注意力对数至少增加了0.8。

picture.image

表6显示了和时的启发式测量值。此外，CLIP [27]在像素的图像上进行训练，这意味着ViT-B/16 Backbone 网络在每个图像上操作图像块。基于这一事实和表6中提供的值，作者在实验中选择以保持平衡，即既不过小也不过大的注意力范围。值得注意的是，仅用于描述的启发式方法，并且在作者的方法中不起作用。换句话说，在作者的方法中没有值需要微调。

picture.image

图3：等式(22)的说明性示例。 中心点对所描绘圆内的点的注意力对数至少增加了。示例为和时生成。

尽管作者采用了启发式方法来确定，作者在图4中提供了不同值对测试集性能的影响。请注意，这些实验是在决定使用之后进行的，其目的是为了说明：_i)_ 作者的启发式方法找到的确实是一个很好的值；以及 ii) 不同数据集的性能对超参数不是特别敏感。

picture.image

Appendix 0.C Visual Examples

图4：关于影响的效果消融研究。 作者提供了使用和未使用后处理两种情况的结果，两种情况都显示出一致的趋势。

在图5中可以找到PASCAL Context (59) [25]的更多视觉示例，以及图6中COCO-Object [5, 20]的示例。回顾图5中的图像，作者可以观察到SCLIP [32]在完整分割目标和找到它们的边界时经常遇到困难（例如，第1、2、4和8行）。作者将这个问题归因于SCLIP未能一致性地融合来自周围 Patch 的信息。对于图6的前四行也可以做出类似的观察。然而，在图最后一行中，方法之间出现了一个有趣的小区别。值得注意的是，表示猫眼睛的像素与其皮肤的像素差异显著，导致SCLIP未能将它们划分为同一类别。相比之下，NACLIP仔细考虑了眼睛周围的上下文，从而实现了准确的分割。[MISSING_PAGE_EMPTY:22]

picture.image