零样本分割的突破，Cascade-CLIP 框架实现多级视觉与文本的对齐！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

预训练的视觉-语言模型，例如CLIP，已成功应用于零样本语义分割。现有的基于CLIP的方法主要利用最后一层的视觉特征与文本嵌入对齐，而忽略了包含丰富目标细节的中层中的重要信息。

然而，作者发现直接聚合多级视觉特征会削弱对新类别的零样本能力。来自不同层的视觉特征之间的大量差异使得这些特征难以与文本嵌入良好对齐。

作者通过引入一系列独立的解码器，以级联的方式将多级视觉特征与文本嵌入对齐，从而解决这一问题，形成了一种新颖但简单的框架，名为Cascade-CLIP。作者的Cascade-CLIP是灵活的，可以轻松应用于现有的零样本语义分割方法。

实验结果表明，作者的简单Cascade-CLIP在分割基准测试上，如COCO-Stuff、Pascal-VOC和Pascal-Context，取得了卓越的零样本性能。

作者的代码可在https://github.com/HVision-NKU/Cascade-CLIP获取。

1 Introduction

语义分割作为计算机视觉的基本课题之一，在预测图像中每个像素的类别方面取得了显著的成功。然而，在封闭集标注图像上训练的语义分割模型仅能分割预定义的类别。这激发了一些研究者研究零样本语义分割模型，这些模型能够分割在训练图像中根本不存在的类别，并且越来越受到关注。

图1：级联-CLIP动机说明。余弦相似度图（上方）表明，与最后一层（第12层）相比，CLIP（Radford等人，2021年）中间层的视觉特征能够捕捉更丰富的局部目标细节。

picture.image

最近，得益于在图像 Level 上的令人印象深刻的零样本能力，以CLIP（Radford等人，2021年）为代表的大规模视觉-语言预训练模型已经被考虑用于零样本语义分割。然而，直接将CLIP应用于零样本语义分割任务是无效的，因为它需要密集的像素/区域级预测。两阶段方法（Xu等人，2022b；Ding等人，2022年）通过训练的 Proposal 生成器生成区域 Proposal ，并将裁剪的 Mask 区域提供给CLIP进行零样本分类，解决了上述问题。尽管这种范式很好地保留了CLIP的图像级零样本能力，但它引入了高昂的计算成本。一阶段方法（Zhou等人，2023年；Xu等人，2024年）通过匹配文本嵌入和从CLIP视觉编码器最后一层提取的像素级特征来生成像素级分割，实现了效率和效果的较好平衡。但这些方法在分割目标细节方面存在不足，尤其是语义目标的边界。

在借鉴了闭集分割方法的洞见基础上，一种捕捉丰富局部细节的有效解决方案是从编码器中聚合多级特征以改善粗分割结果。对于CLIP模型，作者观察到从中间层提取的视觉特征包含了丰富的目标细节，如图1所示。然而，直接融合多级特征会产生不令人满意的结果。正如表1所示，简单地将中间层和最后一层特征融合（图2(b)）相比于 Baseline 模型（图2(a)）降低了性能。 Baseline 模型成功的关键在于有效地利用了CLIP中最后层视觉特征与文本嵌入之间的预训练相关性。然而，多级特征的融合由于中间层与最后一层特征之间的显著差异，破坏了这些原始的视觉-语言相关性，削弱了CLIP在未见类别上的零样本能力。此外，特征融合后，特征之间的差异也破坏了预训练的视觉表示，使得在微调过程中将视觉特征与文本嵌入对齐的难度进一步增加。

picture.image

在本文中，作者改进了视觉和文本嵌入对齐的方式，并提出了Cascade-CLIP，一个多级框架，可以更好地利用CLIP中的多样化视觉特征，增强向新类别的可迁移性。具体而言，Cascade-CLIP将视觉编码器分为多个阶段，确保每个阶段内的特征变化很小。每个阶段都配备了独立的文本-图像解码器，使用不同的文本嵌入更好地对齐多级视觉特征，并建立更好的视觉-语言相关性。通过这种方式，作者可以整合来自视觉编码器的互补多级语义 Mask ，以提高分割结果，如图1（底行）所示。

通过利用多级特征，作者首次证明了Cascade-CLIP可以大幅提高CLIP在零样本语义分割中的图像到像素的可适应性。此外，Cascade-CLIP也是灵活的，可以与现有的最先进方法，如ZegCLIP（Zhou等人，2023年）和SPT-SEG无缝结合，提升它们在三个常用的零样本分割基准上的性能。特别是，得益于级联的视觉-语言对齐，作者的方法在未见类别上的表现尤为出色，反映出强烈的适应性。贡献可以总结如下：

作者揭示了CLIP中间层提取的视觉特征包含有关目标的丰富局部信息。然而，简单融合多级视觉特征会削弱CLIP的零样本能力。作者提出了Cascade-CLIP，一个灵活的多级视觉-语言嵌入对齐框架，能够有效地利用CLIP的多级视觉特征，以提高新类别的迁移性。广泛的实验证明了作者的Cascade-CLIP在三个广泛使用的基准上的零样本语义分割的有效性。

2 Related work

Pre-trained Vision Language Models

大规模视觉-语言模型使用网络规模的图像-文本对进行预训练，在图像和文本嵌入对齐方面取得了巨大进步，并实现了强大的零样本/少样本泛化能力。例如，最受欢迎的视觉-语言模型之一，CLIP（Radford等人，2021年），是通过使用4亿图像-文本对进行对比训练的。由于其零样本识别能力和简洁性，CLIP已经被广泛适应到各种下游任务中，如零样本视觉识别（Khattak等人，2023年），密集预测（Rao等人，2022年），目标检测（Gu等人，2021年），以及视觉参照表达式（Wang等人，2022年）。

本文探讨如何有效地将CLIP强大的泛化能力从图像转移到像素级分类。

Zero-shot Semantic Segmentation

零射语义分割执行像素级分类，包括在训练期间未见过的类别。先前的工作，如SPNet（Xian等人，2019年）、ZS3（Bucher等人，2019年）、CaGNet（Gu等人，2020年）、SIGN（Cheng等人，2021年）、JoEm（Baek等人，2021年）和STRICT（Pastore等人，2021年），专注于学习视觉空间与语义空间之间的映射，以提高从已知类别到未知类别的语义映射的泛化能力。最近的方法大多采用大规模视觉语言模型（例如，CLIP（Radford等人，2021年）和ALIGN（Jia等人，2021年））进行零射语义分割，这些模型具有很强的零射分类能力。一些免训练的方法，如ReCo（Shin等人，2022年）和CaR（Sun等人，2023年），直接使用CLIP执行零射语义分割。其他方法，如MaskCLIP+（Zhou等人，2022年），应用CLIP为未知类别生成伪标注，以训练现有的分割模型，但对未知类别名称的要求限制了其应用。为了减轻这一限制，一些工作，如ZegFormer（Ding等人，2022年）、Zseg（Xu等人，2022年）、FreeSeg（Qin等人，2023年）和DeOP（Han等人，2023年），将零射语义分割解耦为类不可知的 Mask 生成过程和利用CLIP进行 Mask 类别分类的过程。尽管它们在图像 Level 保留了CLIP的零射能力，但由于引入了 Proposal 生成器，计算成本不可避免地增加了。

与使用沉重的 Proposal 生成器不同，ZegCLIP（Zhou等人，2023年）引入了一个轻量级解码器，将文本嵌入与从CLIP提取的视觉嵌入进行匹配。类似地，SPT-SEG（Xu等人，2024年）通过整合光谱信息增强了CLIP的语义理解能力。尽管上述方法成功地将CLIP的图像分类转化为像素分割，但仍有很大的改进空间。与先前的工作不同，作者通过调查视觉编码器中间层特征的作用，以新的视角看待零射语义分割。

3 Method

零射语义分割任务（Bucher等人，2019年；Zhou等人，2023年）旨在在仅对可见类部分可用的像素标注数据集上进行训练后，分割可见类和不可见类。通常，，在训练期间的标签不可用。关键问题是，在训练可见类时保持识别不可见类的能力。

Revisiting ZegCLIP

最近的零样本语义分割方法（Zhou等人，2023；Xu等人，2024）大多基于一阶段方案，因其高效率和良好的性能。在这里，作者重新审视了ZegCLIP工作（Zhou等人，2023）作为作者的 Baseline 。

如图2(a)所示，ZegCLIP（Zhou等人，2023）首先提取了CLIP的文本嵌入类作为和CLIP图像的视觉特征作为[CLS]标记和 Patch 标记，其中是CLIP模型的特征维度，是 Patch 标记的数量。是类别的数量，在训练期间，在推理期间。为了避免过拟合，（Zhou等人，2023）使用了关系描述符，记为，其中和分别是Hadamard积和连接，而不是。然后，可以通过在文本-图像解码器中测量文本嵌入和视觉特征之间的相似性来生成语义 Mask 。整个过程可以表示为：

其中表示文本-图像解码器，如图3右部所示。和是两个线性投影，它们对齐和的特征维度。

picture.image

由于视觉特征仅从视觉编码器的最后一层提取，因此以前的方法通常无法很好地识别语义目标的边界。这是因为深层特征携带如图1所示的高级语义全局特征，但与中间层相比，低级局部细节较少，这将是本文重点关注的内容。

Motivation

多级特征通常被用于闭集分割模型中（Zheng等人，2021；Xie等人，2021）以锐化目标分割细节。作者在第1节的分析也揭示了CLIP（Radford等人，2021）中层特征能够捕捉丰富的局部目标细节。这激励作者研究如何有效地利用这些独特的特征来增强CLIP对新类别转移性的提升，而这是之前的工作所忽略的。然而，如图2(b)中简单地聚合多级视觉特征会降低分割性能。为了分析性能下降的原因，作者尝试可视化CLIP视觉特征的中心核对齐图（Komblith等人，2019），如图4(a)所示，它测量了不同层次之间的相似性。作者观察到浅层和深层特征之间存在显著的不相似性，且随着网络深度的增加，差异增大。这表明，由于层次间存在显著差异，直接将多级中间特征整合到最后一个特征中可能会破坏预训练CLIP中的视觉-语言嵌入对齐，从而削弱CLIP的零样本能力。

picture.image

鉴于上述分析，作者旨在研究如何有效地利用具有丰富局部细节的中间特征来改善零样本分割。为了应对这一挑战，作者提出了两种策略，即级联视觉-语言嵌入对齐和邻域高斯聚合，以更好地将多级视觉特征与文本嵌入对齐。这些策略旨在减少不同层次之间的特征差异，使得中层视觉特征能够与文本嵌入良好对齐并补充深层特征，提高零样本分割的能力。

Cascaded Alignment Framework

提出的级联-CLIP框架概览如图3所示。基本做法是将CLIP的视觉编码器分割成多个阶段以提取多级视觉特征，每个阶段的特点略有变化。然后，为了在微调过程中更好地建立视觉与语言的关联，考虑到各个阶段特征之间的差异，作者为视觉编码器的每个阶段分配了一个独立的文本-图像解码器。该解码器与第3.1节中提到的类似。最后，通过级联来自不同阶段的互补分割 Mask 生成细化结果。

具体来说，令表示第个Transformer块的 Patch 标记。对于ViT-B，块的数量应为12。首先，作者将CLIP的视觉编码器分为个阶段，每个阶段包含一组Transformer块。在每个阶段中，例如第个阶段，为了更好地利用来自不同Transformer块的多级特征，作者引入了一个邻域高斯聚合（NGA）模块来聚合这些特征，得到聚合特征。作者将在后面详细描述NGA模块。然后，对于第个阶段的输出，作者关联一个相应的文本嵌入，这是通过从进行线性投影获得的。随后，和被送入一个独立的文本-图像解码器以生成语义 Mask 。最后，作者将等式1中的单个语义 Mask 替换为由多个阶段生成的所有语义 Mask 的组合，如下所示：

其中表示第个文本-图像解码器。这里，作者使用逐元素求和操作，可以看作是对多个级联解码器输出的集成。

如图3所示，视觉-语言对齐过程可以多次以级联方式应用于不同的块。在实践中，作者不将文本-图像编码器附加到浅层Transformer块，因为浅层特征包含很少的语义信息。作者第4.4节的实验将展示如何划分视觉编码器以利用多级视觉特征。

带级联 Mask 的损失函数。 给定第阶段的文本-图像解码器，令为预测的分割 Mask 。是多层级联 Mask 。目标损失函数定义如下：

其中和分别是带有激活函数的dice损失（Milletari等人，2016年）和focal损失（Lin等人，2017年）。是真实值。是两个权重，默认值分别为。

为了更好地将中间视觉特征与文本嵌入对齐，作者采用了视觉提示调整（Zhou等人，2022b；Ding等人，2022年）的方法，通过在冻结编码器的每个块上的视觉特征中引入可学习的标记。在视觉提示调整过程中，级联对齐方式使梯度可以直接反向传播到视觉编码器的中间层。这可以促进中间层特征与文本嵌入的对齐，极大地增强了不同层之间的相似性。作者在图4(b)中说明了这一点，这与图4(a)有明显的区别。

邻域高斯聚合。 为了更好地利用每个Transformer块的特征潜力，作者提出了邻域高斯聚合（NGA）模块，以在每个阶段内融合多级特征。基于第3.2节的分析和图4(b)的说明，作者观察到随着距离的增加，跨层的特征相似性逐渐下降。因此，作者提出在特征融合时根据它们相对邻域距离为不同的块分配独特的高斯权重。此外，这些权重关于训练数据是可训练的，这使得可以从每个编码器阶段的各个块中获取自适应权重信息。考虑到由个Transformer块组成的第阶段编码器，高斯权重和聚合特征可以计算为：

其中高斯函数的方差参数默认设置为1。对应于Transformer块的索引。增加会使Transformer块之间的权重均匀化，而减少则会导致依赖于单一块特征（如作者在附录C中的消融实验所示）。通过设置方差参数，NGA模块可以为邻近块分配较高的权重，为远端块分配较低的权重，从而更有效、灵活地整合不同深度 Level 的特征。

4 Experiments

Datasets and Evaluation Metrics

为了评估作者提出方法的有效性，作者在三个广泛使用的基准数据集上进行了大量实验，包括COCO-Stuff (Caesar等人，2018年)、Pascal-VOC (Everingham等人，2015年)和Pascal-Context (Mottaghi等人，2014年)。已知类别和未知类别的划分遵循之前工作(周等人，2023年)的常见设置，同时报告了已知类别和未知类别的平均交并比(mIoU)和调和平均交并比(hmIoU)。

Implementation Details

作者将在开源工具箱MMSegmentation（贡献者，2020年）上实施提出的方法，并使用配备4块NVIDIA RTX 3090 GPU的机器进行所有实验。采用包含12个Transformer块的VIT-B/16（Dosovitskiy等人，2020年）作为CLIP（Radford等人，2021年）的图像编码器。每个GPU上的批处理大小设置为4，输入图像分辨率为512×512。优化器采用AdamW（Loshchilov和Hutter，2019年），并使用MMSeg工具箱中的默认训练计划。为了公平比较，作者在每个数据集上使用与ZegCLIP（Zhou等人，2023年）相同的训练迭代次数。

Comparisons with the State-of-the-art Methods

为了证明作者的Cascade-CLIP的有效性，将评估结果与之前最先进的方法进行了比较，包括双编码器方法（例如，ZegFormer (Ding et al., 2022)，Zsseg (Xu et al., 2022b) 和 DeOP (Han et al., 2023a)）和单编码器方法（例如，ZegCLIP (Zhou et al., 2023)）。

归纳设置下的比较。 如表2所示，在归纳设置中，Cascade-CLIP显著提高了性能，在这种情况下，未看到类的特征和标注不提供。值得注意的是，在提升看到类的结果的同时，作者的方法也提高了未见类的性能。例如，在COCO和Pascal VOC上，对于未见类的mIoU，Cascade-CLIP将最先进性能分别提升了2.0%和5.3%，这证明了其在零样本分割中的强大泛化能力。

picture.image

转换设置下的比较。 作者进一步评估了Cascade-CLIP在转换设置中的迁移性，在这种设置中，模型通过为未见像素生成伪标签并利用对看到像素的 GT 标签进行重训练。表2显示，在转换自训练后，作者的模型显著提高了未见类的性能，同时在看到类上始终保持了优秀的性能。

为了进一步验证作者的Cascade-CLIP的有效性，作者在PASCAL Context数据集上与其他方法进行了比较。如表3所示，作者的Cascade-CLIP在未见类的mIoU方面始终优于其他方法。上述结果清楚地证明了作者提出方法的有效性。关于作者方法的功效和普遍性的其他实验结果，请参见第4.5节。

picture.image

定性结果。 图5展示了 Baseline 和作者提出的Cascade-CLIP在看到类和未见类上的分割结果。Cascade-CLIP在看到类和未见类上都显示出令人印象深刻的分割能力，并且可以清晰地区分相似的未见类。例如，作者的方法可以更好地区分'长颈鹿'区域和'树'区域（图5(1)），'船'区域和'河'区域（图5(2)），以及'云'区域和'天空'区域（图5(3)）。更多的定性结果见附录D。

picture.image

Ablation Study

逐组件消融研究。 为了了解作者Cascade-CLIP中每个组件的作用，包括级联解码器和NGA模块，作者从 Baseline 模型ZegCLIP开始，该模型使用CLIP最后一层的视觉特征，然后逐渐引入每个提出的模块。如表4所示，采用级联解码器可以捕获来自编码器不同块中的独特且互补的信息，提高了未见类别上3.1%的mIoU分数（第二个结果）。在此基础上，引入NGA模块在每个分割编码器内聚集目标的丰富局部信息，进一步增强了未见类别上的mIoU分数（第三个结果）。

picture.image

所提出块分割方式的效果。 级联解码器架构在作者的Cascade-CLIP中至关重要，因为它能够保持视觉与语言的关联。作者在表5中的分析表明，将最后一个块分割为一个独立阶段（第三个结果）比其他分割策略组合（第一个结果和第二个结果）更有效。这是因为CLIP图像编码器最后一层特征与文本嵌入的关联最强，将其匹配到单独的解码器减少了这种相关性的破坏。

picture.image

级联解码器的数量和每个阶段中的块数。 为了展示跨不同层信息融合的重要性，作者在表6中用不同数量的级联解码器和每个相应编码器阶段的不同块展示了Cascade-CLIP。作者可以看到，将级联解码器的数量从1增加到3逐渐提高了分割性能。这表明与仅使用最后一层特征的前期工作相比，来自各层的特征具有互补性。作者每个阶段的Transformer块默认值为3。将块数减少到2会导致性能下降，因为忽略了中层特征。通过级联三个解码器（包括对最后一个块的额外解码器）实现了最佳性能。注意，作者没有使用开头的块，因为它们编码的特征语义较少。**

为了证明作者的设计在利用CLIP的多层次特征方面的有效性，作者还展示了特征余弦相似性图和定性分割结果。在图6顶部，作者展示了在训练过程中未包含的未见类别的 Patch 相似性。作者观察到作者方法的中层包含了关于局部物体的详细信息，包括边界。此外，如图6底部所示，通过利用这些独特特征，作者的Cascade-CLIP与仅使用最后一块特征相比，改善了已知和未知类别的分割性能。

picture.image

NGA与其他聚合方法的对比。 在每个分割编码阶段，不同层次特征之间的差异会在聚合各层后破坏特征空间。为了克服这个问题，作者提出了邻域高斯聚合（NGA），通过考虑块之间的距离来减少原始特征空间中的中断。如表8所示，作者的NGA优于常见的聚合策略（例如，求和、连接和自注意力）。通过可学习的权重，作者的NGA进一步提升了性能。这表明，在进行多层次特征融合时，为远距离特征分配较小权重的作者的NGA，在改进零样本分割方面比其他特征聚合方法更有优势。

picture.image

Cascade-CLIP与带有多个解码器的方法对比。 为了证明整合来自不同级联解码器生成的多样化语义 Mask 的有效性，而不是引入可能影响性能的额外参数，作者基于最后一层特征或多层特征融合构建了一个多解码器模型。如表7所示，Cascade-CLIP在参数量相等的条件下，优于最后一层和多层特征方法。这表明仅依赖最后一层特征无法产生互补和增强的分割结果。此外，直接融合特征会导致零样本能力的下降，即使使用多个解码器也无法改善。

picture.image

独立/共享文本嵌入的效果。 由于来自不同分割编码阶段的特征表现出显著差异，将不同的文本嵌入与每个阶段的特征对齐是至关重要的。这在表9的结果中得到验证，作者的带有独立文本嵌入的Cascade-CLIP比带有共享文本嵌入的获得了更高的mIoU分数。### 将Cascade-CLIP扩展到其他方法

picture.image

作者的方法是一个用于提高零样本分割能力的泛化框架。具体来说，作者可以将级联-CLIP无缝集成到现有的流行零样本语义分割方法中，例如，Frozen CLIP (Radford et al., 2021)，ZegCLIP (Zhou et al., 2023) 和 SPT-SEG (Xu et al., 2024)。如表10所示，作者的方法可以显著提高这些方法的性能，证明了所提出方法的泛化能力。

5 Conclusions

本文侧重于利用具有丰富局部细节但与深度特征存在显著差异的CLIP中间特征，以增强零样本语义分割。

通过引入级联 Mask 机制，作者提出了Cascade-CLIP框架，该框架旨在以级联的方式有效地对齐多级视觉特征与文本嵌入，从而提升CLIP从图像到像素 Level 的适应性。实验证明了所提出方法的有效性。

参考

[1].Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

零样本分割的突破，Cascade-CLIP 框架实现多级视觉与文本的对齐 ！

1 Introduction

2 Related work

Pre-trained Vision Language Models

Zero-shot Semantic Segmentation

3 Method

Revisiting ZegCLIP

Motivation

Cascaded Alignment Framework

4 Experiments

Datasets and Evaluation Metrics

Implementation Details

Comparisons with the State-of-the-art Methods

Ablation Study

5 Conclusions

参考