厦大/新加坡国立大学联合提出 EOV-Seg:高效的开放词汇全景分割！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

开放词汇全景分割旨在针对不同场景中多样化的目标进行分割和分类，且词汇量不受限制。现有方法通常采用两阶段或单阶段框架。

两阶段框架包括多次使用 Mask 生成器生成的 Mask 对图像进行裁剪，然后提取特征，而单阶段框架则依赖于一个重载的 Mask 解码器，通过多层堆叠的Transformer块中的Self-Attention和跨注意力机制弥补空间位置信息不足的问题。这两种方法都会带来显著的计算开销，从而影响模型推理的效率。

为了提高效率，作者提出了一种名为EOV-Seg的新颖单阶段、共享且具有空间 Aware 的框架，专门用于开放词汇全景分割。

具体来说，EOV-Seg在两个方面进行了创新。首先，提出了一种词汇感知选择（VAS）模块，以提升视觉聚合特征的语义理解能力，并减轻 Mask 解码器的特征交互负担。

其次，引入了双向动态嵌入专家（TDEE），高效利用基于ViT的CLIP主干网的空间感知能力。

据作者所知，这是首个旨在提高效率的开放词汇全景分割框架，与最先进的方法相比，EOV-Seg不仅运行速度更快，而且实现了竞争力的性能。

特别是在ADE20K数据集上，仅使用COCO训练，EOV-Seg在全景和语义分割任务上分别取得了24.2 PQ、31.6 mIoU和12.7 FPS的成绩，而EOV-Seg的推理时间比最先进的方法快4到21倍。

特别是配备ResNet-50主干网时，EOV-Seg在单个RTX 3090 GPU上仅用71M参数即可运行25 FPS。

相关代码可参见https://github.com/nhw649/EOV-Seg。

Introduction

全景分割的目标是为图像中的每个像素分配一个语义标签和一个唯一的实例标识符，实际上涵盖了语义分割和实例分割。目前，一些方法已经建立了一个统一框架，能够同时处理语义、实例和全景分割任务。然而，这些方法主要是在特定数据集上，并且使用了小规模预定义类别的情况下进行训练。这种限制大大限制了它们对具有丰富多样语义词汇的新场景的适应性。

为了克服这一限制，人们对更具灵活性的开放词汇分割产生了日益浓厚的兴趣，这些方法利用了预训练的视觉-语言模型(VLMs)，例如CLIP(Radford等，2021)和ALIGN(Jia等，2021)。尽管它们具有创新性，但这些方法仍然面临着诸多问题。首先，如图1(a)所示，某些方法(Xu等，2022b；郑丁，2023；Liang等，2023)采用了两阶段且不共享的低效Pipeline，首先生成类别无关的 Mask ，然后使用另一个Vision-Language模型(VLM)的Backbone处理这些 Mask 获得的图像片段提取特征以进行个体分类，这导致了高视觉特征计算开销以及上下文信息的丢失。

其次，如图1(b)所示的一些替代方法(Yu等，2023；Li等，2024)采用了单阶段且共享的低效Pipeline。它们采用单一共享的冻结CNN基座CLIP视觉编码器作为Backbone提取多尺度特征，适用于高分辨率图像的图像分割任务。然而，如图2(c)和(d)所示，作者实验观察到基于CNN的CLIP Backbone只能赋予特征实例识别的能力，缺乏空间定位能力。

因此，它们经常依赖包含自注意力机制和交叉注意力机制的重型 Mask 解码器(自注意力捕获不同Query之间的情境信息，而交叉注意力则聚焦于与每个Query相关的特征图的特定区域以提供空间细节 Aware )来弥补这种缺乏空间感知能力的情况，从而导致不可接受的计算开销和较慢的推理速度。

相比之下，视觉基础模型(VFMs)的最新进展，如DINOv2(Oquab等，2023)、SAM(Kirillov等，2023)和CLIP(Radford等，2021)，它们利用Vision Transformer(ViT)架构作为Backbone，展示了出色的零样本泛化能力。通过定性分析，如图3所示，作者观察到了这些模型内部不同模块中特征表示的区别，揭示了它们的判别能力和空间定位能力。

例如，图3(c)中SAM最后一层块中特征的聚类表明其具备细粒度的空间位置能力。然而，顺序计算每个块的特征会导致获得最后一层块特征的重大计算代价。相反，如图3(d)所示，基于ViT的CLIP模型的第一层块特征聚类显示出与SAM的最后一层块精度相当的细粒度目标定位，但却具有显著较低的计算开销。因此，它自然适合作者的空间 Aware 提取器的角色。

picture.image

鉴于上述观察，作者提出了EOVSeg：一种新颖的一阶段、共享、高效且空间感知的开放词汇全景分割框架，如图1(c)所示。

1）一阶段：作者将 Mask 生成器和从CLIP文本编码器获取的文本嵌入整合为分类器，以在单一框架中实现端到端的开放词汇全景分割。

2）共享：通过VLM主干提取的实例特征，在分类和 Mask 预测之间共享，同时保持图像和文本特征对齐。

3）高效：作者提出了一种词汇 Aware 选择（VAS）模块，引导视觉聚合特征选择与文本更相关的特征，基于文本的语义重要性来提升视觉聚合特征的语义理解，并减轻 Mask 解码器的特征交互负担。这一创新使得能够部署一个轻量级的解码器作为 Mask 生成器，降低计算需求并加快推理过程。

4）空间感知：鉴于ViT主干的优势，作者引入了双向动态嵌入专家（TDEE），使用权重分配路由器评估嵌入专家的重要性并动态分配专家权重，从而生成具有语义 Aware 和空间 Aware 的实例嵌入用于 Mask 识别。

广泛的实验表明，EOv-Seg相较于最新方法在运行速度上更快，并且能够达到相当的竞争性能。特别地，在仅使用COCO进行训练的情况下，EOv-Seg在ADE20K数据集上的PQ得分为24.2，mIoU为31.6，并且FPS达到12.7。当以ResNet-50作为Backbone时，它在单块RTX 3090 GPU上以71M参数实现25 FPS的运行速度。

Related Work

视觉语言模型。视觉语言预训练旨在学习多模态基础模型，并在各种视觉语言任务中表现出改进的性能。近年来，大规模视觉语言模型（VLMs），如通过十亿规模互联网源图像-文本配对数据集对比预训练的CLIP（Radford等，2021）和ALIGN（Jia等，2021），在图像分类任务中展示了显著的零样本性能。随着大规模视觉语言模型（VLMs）的出现，它们已被应用于各种下游视觉任务，包括目标检测、图像分割（Yue等，2024）、视频理解、三维场景理解。在这篇论文中，作者致力于探索CLIP强大的实例鉴别能力和空间 Aware 能力，以推动开放词汇全景分割的发展。

开放词汇全景分割。开放词汇全景分割是一项新兴的图像分割任务，旨在评估模型对训练集中不存在的新视觉类别的泛化能力。大多数开放词汇全景分割方法遵循两阶段流水线。例如，MaskCLIP（郑钉，2023）利用基于Transformer的视觉编码器和相对 Mask 注意力机制来细化生成的 Mask ，并结合预训练的CLIP模型进行全景分割。

FreeSeg（ Qin等，2023）提出了一种统一且通用的框架，能够通过一次性训练无缝处理多种分割任务。OSPNet 精心设计了嵌入调制模块和多个细粒度组件以实现开放词汇分割。相比之下，一些方法采用单阶段框架。ODISE（ Xu等，2023a）使用文本到图像扩散模型生成 Mask 建议并执行分类任务。通过利用冻结的基于CNN的CLIP主干构建单阶段框架，显著超越了以前的两阶段方法。然而，这些方法存在计算开销高、专注于单一任务或缺乏空间位置信息的问题。作者的方法旨在研究如何具备空间感知能力时执行高效的开放词汇全景分割。

Method

问题定义。给定一个输入图像和一组候选类别标签，开源词汇全景分割的目标是将图像划分为一组 Mask ，每个 Mask 与一个类别标签关联，其中是 Mask 的数量。这一任务的关键挑战在于仅使用训练集中的类别进行训练，在推理时，测试集可能包含在训练集中未遇到的新类别。

Single-Stage, Shared, Efficient Framework

最初，作者设计了所提出EOV-Seg的基本架构，该架构由基于CNN的CLIP Backbone 网络的功能提取器、轻量级聚合器、轻量级解码器和CLIP文本编码器组成。在后面的章节中，作者将详细介绍如何将基本baseline提升为强大的EOV-Seg框架中的优雅设计。

特征提取器。由于基于ViT的 Backbone 网络对输入分辨率更为敏感，作者采用基于CNN的CLIP视觉编码器作为 Backbone 网络，从高分辨率图像中抽取多尺度的视觉特征，分辨率为和，分别对应。

Lite聚合器。在获得多尺度视觉特征，其中后，作者使用一种调制可变形卷积特征金字塔结构(Dai等，2017)来增强和融合不同尺度的特征，以获取中间的FPN特征，其中。为了进一步减少计算开销并捕获不同粒度的上下文信息，不同尺度的特征被聚合得到视觉聚合特征，如下所示：

其中，表示一个双线性插值操作，代表特征层的数量，onv 和分别是和卷积，用于调整特征维度并进一步融合视觉聚合特征。轻量级解码器。如图4中红色部分所示，与 Mask2Former (Cheng 等人，2022 年) 的重载 Mask 解码器不同，作者的解码器在每一层仅由三个模块组成：初始注意模块、动态深度卷积注意力模块和后期注意模块。具体而言，为了进一步减少后续特征交互的计算开销，初始注意模块通过执行视觉语义聚合特征（将在下一节中介绍的 VAS 模块产生）与初始 Mask 或前一层的 Mask 的点积，提取初始注意特征。接下来，动态深度卷积注意力模块用于在一组可学习的目标 Kernel 与初始注意特征之间进行跨维特征交互，生成精炼目标 Kernel 。

picture.image

其中，是一个线性层，用于将投影以生成深度卷积所需的核。是一个视图操作，将输入 Reshape 为形式的表示一个 Conv1d 操作，该操作使用作为参数，并以作为输入。经过进一步优化的目标核进一步强调了不同目标核之间的关系，通过多头自注意力机制和 FFN （FFN）来丰富信息。这些优化后的目标核类似于一个区域建议网络（Ren et al., 2016），具有生成 Mask 建议的潜力。然后，作者通过三层多层感知机（MLP）将优化后的目标核映射为 Mask 核。

每个二元 Mask 可以通过将第个 Mask 核与视觉语义聚合特征进行点积获得。此外，通过预测 Mask 对视觉语义聚合特征进行 Mask 池化，可以获得 Mask 嵌入。

给定个类别标签，作者遵循 Prompt 工程的惯例（Gu et al., 2021），为每个类别提供 M 个 Prompt 模板，例如“一张类的照片：”。作者使用冻结的 CLIP 文本编码器对所有文本 Prompt 进行编码，然后在模板数量维度上求平均值以获得文本嵌入。

Vocabulary-AwareSelection

为了减轻解码器在特征交互方面的负担并促进轻量化解码器的部署，作者提出了词汇感知选择（VAS） ，如图4黄色部分所示。它可以根据文本的语义重要性指导图像特征的选择，从而聚合与输入文本更相关的特征，并增强视觉特征的语义理解。具体来说，来自Lite Aggregator的视觉聚合特征和来自文本编码器的文本嵌入分别通过线性层映射到相同的特征维度。

接下来，它们在通道维度上被分割成多头视觉聚合特征和多头文本嵌入，其中表示头的数量。这使得作者能够以不同的子空间处理复杂的语义特征关系。然后，通过矩阵运算得到多头注意力，然后通过Softmax函数将其平滑化，生成逻辑值。随后，在词汇维度上选择最大值，以获取词汇感知注意力权重。

其中，((-1)) 表示词汇维度。此外，引入了两个可学习参数，即缩放因子 (7) 和偏移因子 (\delta)，以使网络能够在各种语义分布下自适应调整词汇感知注意力权重 (\ddot{A})。最后，将词汇感知注意力权重 (\ddot{A}) 在通道维度上扩展，然后与多头聚合特征 (\dot{F}_{agg}) 进行元素级乘法。随后， Reshape 加权特征以恢复到原始聚合特征的维度，从而获得视觉-语义聚合特征。

Two-way Dynamic Embedding Experts

根据引言部分的分析，空间位置信息对于只具有实例 Level 区分度的特征来说至关重要。为了高效地提取空间位置信息，作者采用CLIP ViT-B视觉编码器的第一块作为空间感知提取器。具体来说，输入图像通过ViT-B的第一块处理，生成不包括类 Token 的视觉Token，然后将其 Reshape 为二维空间维度，以获得视觉空间特征。随后，作者使用两次转置卷积进行上采样，以获得空间感知特征。类似于 Mask 嵌入，作者使用 Mask 聚合并从空间感知特征中提取感兴趣区域，得到空间感知嵌入。

此外，作者提出了一种名为双向动态嵌入专家(TDEE)的设计，如图4紫色部分所示，它可以适应性地将空间位置信息和实例 Level 区分信息融入到 Mask 嵌入中，在不同的数据分布和广泛的语义类别下提高 Mask 识别能力。受(Jacobs等人，1991)的启发，作者将 Mask 嵌入和空间感知嵌入分别视为具有空间感知能力和实例 Level 区分能力的专家。

它们应当各自发挥其作用，同时协同合作。然而，直接使用固定权重系数关联两者会使得网络难以感知嵌入的重要性变化，导致要么同等对待所有嵌入，要么引入偏差。

因此，作者引入一个权重分配路由器来估计当前专家嵌入的重要性，并自适应调整关联权重系数，从而促进两者的更好融合。具体而言，通过线性层生成 Mask 嵌入和空间感知嵌入的动态参数和。动态参数在通道维度上均匀分割成路由器参数和，以及融合参数和。接下来，通过元素级乘法聚合总路由器参数。随后，作者使用两个路由器线性层和Sigmoid激活函数，赋予专家自适应加权的能力，如下所示：

其中，和分别将和投影以生成动态参数。是沿通道维度进行的分割操作。表示 Sigmoid 激活函数，表示层归一化。这使得路由器能够自适应地分配权重给嵌入专家。最后，执行加权求和，如下所示：

为了进一步聚合，采用了一个线性层、LayerNorm（LN）和GELU来获取实例嵌入。一般来说，TDEE利用权重分配路由器根据嵌入的重要程度自适应地为每个嵌入专家分配个体权重。因此，具有强烈空间感知能力的空间 Aware 嵌入与仅包含实例区分信息的 Mask 嵌入进行了整合。这种整合改进了模型在开放场景中的空间和语义理解。

Experiments

Implementation Details

架构。作者采用基于CNN的CLIP（Radford等，2021）视觉编码器作为主干网络，其中S、M、L分别表示ResNet50、ResNet-50x4和ConvNeXt-L。此外，作者还利用ViT-B/16 CLIP模型的第一块作为空间 Aware 提取器。

训练策略。借鉴前人研究，作者将训练批大小设为16。作者使用4块NVIDIA 3090 GPU对EOV-Seg进行训练，总共进行20000次迭代。作者仅使用COCO Panoptic 数据集进行训练，并设置裁剪大小为1024×1024。所有的实验均重复进行了三次并取平均值以确保公平比较。

评价协议。作者在 ADE20K 数据集上评估了作者提出的 EOV-Seg 对于开放词汇语义分割、实例分割和全景分割的能力，并在 ADE20K 、PASCAL Context 和 PASCAL VOC（欧文汉等，2010 年）数据集上进行了语义分割的评估。在推理过程中，输入图像的较短边调整至 640，同时确保较长边不超过 2560。更多细节请参见附录。

Main Results

开放词汇全景分割。表1报告了不同开放词汇全景分割方法在ADE20k数据集上的性能。与现有先进方法相比，EOV-Seg (L) 运行速度更快且具有竞争力的表现。具体而言，尽管ODISE (Xu等，2023a) 使用了强大的文本到图像扩散模型作为 Backbone ，并在额外的COCO Caption 数据集上进行了训练，但EOV-Seg (L) 在更高的速度（21倍）、更少的参数（-1297M）和更低的计算复杂度（-601GFLOPs）的情况下仍优于ODISE，其PQ提高了+0.8。相比于FCCLIP (ΔYu等，2023)，EOV-Seg (L) 的运行速度是其的4倍，并且仍然具有竞争力。

值得一提的是，与MasQCLIP (Xu等，2023c)、OPSNet (Chen等，2023)、FreeSeg (Qin等，2023) 和MaskCLIP (Zheng Ding，2023) 等其他先进方法相比，EOV-seg 展现出了显著的提升，例如PQ提升了+0.7到+9.1，SQ提升了+0.5到+17.7，RQ提升了+0.8到+10.8，mIoU提升了+1.3到+7.9，推理速度提高了3.8到18.1倍。这些结果表明，作者的方法在性能和速度之间实现了最佳权衡。

picture.image

任务通用的EOv-Seg无需额外信息即可完成所有需要。作者的方法具有任务通用性，不仅可以进行全景分割，还可以进行语义分割。在表2中，作者评估了针对ADE20K（周等人，2017年，包含150类A150和847类A-847）、PASCAL Context（莫塔ghi等人，2014年，包含459类PC-459和59类PC59），以及PASCAL VOC（厄文海姆等人，2010年，PAS-20数据集）的开放词汇语义分割性能。

EOv-Seg的表现与当前最先进的模型相当，并且其推理速度最快。特别地，EOv-Seg (L) 在A-150数据集上的mloU性能比CAT-Seg (Cho等，2024年) 高出2.1%，并且快6倍，参数量少265M，且GLOPs也低于CAT-Seg。这些结果表明，尽管EOv-Seg仅在COCO全景分割数据集上训练并使用较少的语义类，但它仍成功适应了语义分割任务，能够高效泛化到未知类别，并实现精确分割，同时以更少的参数运行得更快。

picture.image

Ablation Study

空间 Aware 提取器。在表3中，作者比较了使用不同预训练模型的ViT-B版本作为空间 Aware 提取器的性能和效率。具体来说，当使用DINOv2主干网络的不同块作为空间 Aware 提取器时，显示出了较差的性能。如图3(b)所示，其包含了大量的噪声，并缺乏精细的空间信息，作者认为这是由于DINOv2的自监督预训练过程中难以学习到特征空间模式，加之使用了未标注数据，导致实例区分能力和空间 Aware 能力减弱。

由于SAM在细粒度SA-1B（Kirillov等, 2023）数据集上进行了预训练，其后期块显示出增强的细粒度空间表示能力，逐渐提高了分割质量。然而，RQ的增加幅度较小，这可能是由其类无差别预训练所限制的。一个关键发现是，基于ViT的第一个块在性能上与SAM相当，且具有更快的推理速度（快4倍）和更少的参数量（-8oM）。这与图3(d)中的观察结果一致。

这种改进是由于早期的自我注意机制能够处理全局信息，每一块图像都能捕获其各自的细节。随着块的数量增加，性能先是饱和然后呈下降趋势。为了在性能和推理速度之间取得最佳折衷，基于ViT的CLIP的第一个块是最优选择。

picture.image

作者的两项创新组件。在表4中，作者设计了两种额外的空间感知融合变体，分别为EAF和SDI，详细内容见附录。三种空间感知融合变体均显著提升了性能，展示了轻量级解码器中空间位置信息的重要性。当作者引入VAS模块用于EAF时，性能有所下降。这一现象归因于特征的早期融合改变了特征的空间分布，导致重要语义特征中的关键空间信息丢失。

然而，VAS可以与SDI或TDEE的空间感知融合模块相互配合，实现双赢，并带来额外的性能提升。总之，最终作者选择了TDEE和VAS模块作为两项创新组件，它们共同工作并带来了Oof的性能改进，具体数值为PQ提升2.1%，SQ提升2.9%，RQ提升2.7%，mloU提升1.3%，而无需引入额外的计算负担。

picture.image

特征交互方法。在表5中，作者探讨了跨注意力机制（CA）和动态深度注意力机制（DDA）这两种注意力模块及其与不同尺度特征的交互性能差异。当使用跨注意力机制时，仅利用多尺度特征，相较于作者的方法只带来微小提升，具体表现为PQ提高0.2%，mIoU提高0.3%，但会导致显著的运行速度下降，大约慢4倍FPS。由于单尺度特性避免了由空间维度对齐引起的模糊空间分布，并且预感知的VAS可以减少解码器的交互负担，因此使用单尺度的动态深度注意力机制相比多尺度的动态深度注意力机制能够提升1.5%的PQ和1.9%的mIoU。

picture.image

高效架构设计。在表6中，作者将性能和效率与之前的传统高效全景分割模型进行了比较。为了适应开放词汇的全景分割任务，作者用文本嵌入替代了分类器。EOV-Seg展示了更优的性能和更高的效率，进一步证明了作者架构设计的有效性和优越性。

picture.image

Qualitative Analysis

减轻 Mask 解码器的负担。如图5所示，作者可视化了单个文本嵌入与视觉语义聚合特征之间的相似性图。作者发现，在未使用VAS的情况下，特征可能会聚焦于与 Prompt 目标具有相似颜色或相近位置的目标上，从而干扰特征辨别。经过VAS增强后，特征会更加集中于文本引导的区域。

picture.image

注入空间 Aware 。作者分别可视化了含有和不含Two-way动态嵌入专家(TDEE)的分割结果。如图6红色框所示，仅使用轻量级解码器生成的 Mask 会导致类别混淆和分割不完整。例如，“人”的下身与“建筑”融合在一起，“门”的分割也不完整。这表明，空间 Aware 能力对于轻量级解码器来说非常重要。更多可视化结果请参见附录。

picture.image