语义分割新高度 | 英伟达提出SeNaTra空间分组层革新Backbone，性能效率双超Swin Transformer - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

统一的分割架构设计 ：现有的视觉Backbone网络通常依赖于统一的下采样操作，无法适应图像内容的变化。本文提出了一种基于内容感知的空间分组层，旨在替代传统的均匀网格下采样方法。

零样本分割能力 ：通过设计一种无需显式Mask监督的架构，本文探索了如何在无像素级监督的情况下生成高质量的分割Mask。

高效性与可扩展性 ：针对高分辨率输入，本文提出了一种局部分组策略，确保计算复杂度线性扩展，同时保持端到端可微分性。

本文的核心创新是什么

空间分组层的设计 ：提出了一种基于内容的空间分组层，能够根据图像边界和语义动态分配Token到一个缩减集合中，从而实现自适应特征下采样。

原生分割能力 ：通过堆叠分组层，形成了原生分割视觉Transformer（SeNaTra），能够在不依赖额外分割Head的情况下生成高质量的分割Mask。

局部与密集分组结合 ：早期阶段采用局部分组以降低计算复杂度，最终阶段启用密集分组以生成全图分割Mask，实现了效率与效果的平衡。

马尔可夫链建模 ：将分组层输出解释为状态转移矩阵，通过马尔可夫链的形式实现从低分辨率到高分辨率的映射。

结果相较于以前的方法有哪些提升

零样本分割性能显著提升 ：在多个基准数据集上，本文方法超越了现有技术，包括那些使用大规模预训练模型（如CLIP）的方法，尤其是在语义分割任务中表现优异。

参数与FLOPs效率更高 ：相比传统Backbone网络（如SwinTransformer和NAT），本文提出的SeNaTra在保持或提升性能的同时，显著减少了参数量和计算成本。

即插即用的多功能性 ：本文方法不仅可以作为独立的分割模型，还可以与专用分割Head（如Mask2Former）结合，进一步提升性能。

局限性总结

对超大分辨率的支持有限 ：尽管局部分组策略降低了计算复杂度，但在极端高分辨率输入下，仍可能存在性能瓶颈。

特定任务的适用性 ：虽然本文方法在分割任务中表现出色，但其在其他密集预测任务（如目标检测）中的表现尚未充分验证。

训练数据规模的影响 ：在语义粒度较高的数据集（如ADE20k和COCO-Stuff）上，本文方法的表现略逊于使用大规模预训练的模型，表明进一步扩展训练数据可能带来更大提升。

深入阅读版本

导读

统一下采样仍然是视觉 Backbone 网络降低空间分辨率的事实标准。在本工作中，作者提出了一种基于内容感知空间分组层的设计方案，该方案根据图像边界及其语义内容动态地将token分配到一个缩减的集合中。将作者的分组层堆叠在连续的 Backbone 阶段中，能够在特征提取过程中自然地产生分层分割，从而形成了作者提出的原生分割视觉Transformer。作者证明，作者架构的精心设计使得仅通过分组层就能产生强大的分割 Mask ，即无需额外的分割特定 Head 。这为新型的原生 Backbone 级分割范式奠定了基础，该范式能够在无需 Mask 监督的情况下实现强大的零样本结果，并提供一种最小化且高效的独立模型设计，用于下游分割任务。

1 引言

现状。现代层次化视觉 Backbone 网络[1, 2, 3]反映了早期卷积网络的设计原则[4]，通过在逐步降低的空间分辨率下组织多阶段的特征处理。尽管特征处理面临挑战，例如卷积与自注意力机制的对比，但下采样阶段基本保持不变。通常通过普遍使用的池化操作或更近期的步长卷积[1]实现，这些操作对网格中的所有空间位置进行统一处理，而不管图像内容如何。这种层次化特征提取构成了最先进图像分割方法的基础，其中专门的分割头[5, 6] 学习将结果特征上采样并组合成语义上有意义的区域。

在降采样过程中对特征进行均匀空间处理，在升采样操作中表现为特征错位，增加了解码器头补偿 Backbone 设计固有局限性的负担[7, 8]。为此，近期研究[9, 10, 11, 12]探索了预印本。审稿中。

基于语义内容的数据驱动自下而上像素分组的不同分割网络设计和策略。尽管这些方法在概念上具有吸引力，但由于以下原因，它们在现代架构面前显得不足：要么 (i) 算法的计算复杂度相对于输入分辨率呈二次方关系 [9, 10]，要么 (ii) 非可微分的分组操作限制了它们的可扩展性和广泛实际应用 [11, 12]，并需要为下游分割任务使用专门的分割头，而不是利用其像素分组能力。

原生分割。作者引入了原生分割视觉Transformer（SeNaTra），这是一种 Backbone 架构，其核心组件——空间分组层，用基于图像内容对视觉 Token 进行学习动态分配到语义连贯组来替代均匀网格下采样。 Backbone 架构各阶段的连续分组操作自然地组合成从输入像素到最终 Token 的映射，有效地为 Backbone 架构每个阶段的 Token 创建多尺度分割 Mask 层次结构。作者称这种能力为原生分割，因为它源于 Backbone 架构固有的区域感知表示，而非外部头[13, 6, 5]。这使得外部头不再是严格必需的，尽管经验上它们仍然可能有益。

作者的设计在 Backbone 层分组方法上具有两个主要的方法论优势：（i）与使用纯交叉注意力[9, 10]或不可微分的聚类[11, 12]的方法不同，作者采用了受感知分组算法[14, 15]启发的可微分迭代聚类，嵌入了一种结构化的归纳偏差，使得无需直接监督即可产生连贯的分组；（ii）作者通过在早期阶段使用具有受限上下文窗口的局部分组层来确保可扩展性——实现与输入分辨率的线性扩展——同时在最终阶段仅采用密集分组，以高效生成全图分割 Mask 。总体而言，作者的设计实现了可扩展的原生分割，同时保持了效率并保持端到端可微分。

主要发现。作者观察到，在没有任何 Mask 监督的情况下，由于作者的网络设计，会涌现出类似于超像素结构的结构（图1，底部），这与经典的超像素算法[16, 17, 18, 14]类似，而不是手工设计[19]，或明确作为输入[11]使用。这些结构在最终的密集分组层中被进一步分组为具有语义意义的区域。作者在多个已建立的基准数据集上的零样本分割任务中验证了作者的原生分割能力，并表明Native-Segmentation显著优于现有技术，包括在规模大一个数量级的训练数据集上训练的模型，这表明作者的架构具有数据效率，归功于作者的分组层。当在ADE20k[20]和COCO-panoptic[21]上进行语义和全景分割训练时，Native-Segmentation在没有任何专用分割头（例如RoI头[5]或Transformer解码器[6]）的情况下，优于多个强 Baseline ，并且参数和FLOP计数显著减少。此外，当与这些头结合使用时，SeNaTra始终提高顶级 Backbone 网络的表现。

picture.image

总之，作者(i)提出了一种原生分割视觉Transformer，该模型在没有任何像素/ Mask 监督的情况下学习视觉输入的层次化分割。作者网络的关键构建模块是(ii)作者的分组层，该层执行图像内容自适应特征下采样，有效地替代了整合式分割网络中采用的均匀、基于网格的特征下/上采样层。最后，(ii)作者揭示了一种精简的原生分割网络，该网络在没有任何专用头的条件下获得 Mask ，并在零样本分割方面表现出色，该网络在没有任何像素/ Mask 监督的情况下进行训练，同时在标准的语义/全景分割基准测试中表现优异。

2 相关工作

视觉 Backbone 网络自从Neocognitron [22] 和 LeNet [23] 的开创性工作以来，卷积神经网络（CNN）一直推动着数据驱动的计算机视觉领域的进步。这些网络通常采用一系列卷积层，将一组可学习的滤波器应用于输入特征图，并交替进行特征下采样操作，从而生成多尺度特征图的层次结构。尽管基于纯Transformer的架构 [24] 兴起，现代层次化 Backbone 网络 [1, 3, 25] 仍然在密集预测 [26] 中占据主导地位，并且仍然遵循相同的基本设计原则：它们由多个特征提取阶段组成，并在这些阶段之间进行统一的下采样操作。在本工作中，作者重点关注了在很大程度上被忽视的下采样操作，并表明通过将其替换为作者提出的空间分组模块，作者可以获得一个具有原生分割能力的 Backbone 网络。

密集预测。在过去的十年中，作者见证了密集预测网络设计的“寒武纪大爆发”。值得注意的例子包括全卷积网络[27]、编码器-解码器架构[28]以及[29, 30]的开创性工作。最近，DETR[31]使用Transformer以集合预测的方式处理端到端检测，将目标 Proposal 或分割视为可学习的 Query 。MaskFormer[13, 6]借鉴了这一设计，并增加了一个像素解码器来上采样特征图，并与其 Backbone 网络和Transformer解码器联合训练以处理 Query 。SeNaTra可与此类分割头结合使用以提高分割精度，或在缺少此类专用头的情况下生成高质量的原始 Mask 。

感知分组。在端到端分割方法出现之前，组合优化是执行该任务的主要算法工具。值得注意的例子包括[17]的开创性工作，该工作引入了基于图的分割方法，能够根据内部变化自适应地合并区域，以及归一化切割[32]。传统的超像素算法，如SLIC[14]，作为基于颜色相似性和邻近性的高效工具而出现，用于获取分割区域。认识到分割的固有模糊性，一些方法探索了在多个尺度上逐步将区域合并为分割层次结构[18, 33]。Native-Segmentation借鉴了这些思想，但在现代端到端可训练的视觉 Backbone 网络背景下重新进行了表述。

提出了几种基于学习机制的像素分组方法 [34] 引入了一种针对特定任务的SLIC算法的可微分变体。类似地，[15] 提出了一种用于无监督目标发现的K-Means可微分变体，该变体迭代地将图像像素分配到一组槽位中。虽然这些方法启发了作者的空间分组层，但作者提出了一种Sparse且高效的设计，并将其作为现代 Backbone 网络的基本构建模块进行集成。

视觉 Backbone 中的分组。GroupViT [9] 和 ClusterFormer [10] 开创了具有可学习下采样操作的数据驱动 Backbone 设计。它们使用（密集）交叉注意力层将图像成分分组为较少的 Token 集，但由于注意力操作相对于输入大小的二次复杂度，这限制了它们的可扩展性。相比之下，Native-Segmentation具有通用性，并扩展到较大的输入分辨率，因为早期的局部层减少了密集层操作的输入 Token 集基数。这使得Native-Segmentation适用于各种分割任务，并在文本监督的语义分割中显著优于基于交叉注意力的分组 [10]。或者，[11, 12] 使用不可微分的超像素方法 [19] 获取初始图像分割，然后进行数据驱动分组，而 TCFormer [12] 依赖于外部聚类方法跨多个网络层对图像成分进行分组。Native-Segmentation不需要这种不可微分的聚类方法，仅由可微分的分组层组成。作者的精简设计在零样本分割方面优于现有技术。此外，与上述工作不同，作者展示了它在下游分割任务中无论是否使用专门的分割头都表现良好。

3 局部分割视觉Transformer

作者的原生分割视觉Transformer（SeNaTra）遵循现代分层视觉 Backbone 网络的标准化结构[1, 2, 3]，由四个阶段组成，这些阶段逐步降低特征图的 spatial resolution，同时将通道维度加倍（图2）。

picture.image

给定一个大小为

的输入图像，初始阶段将其分割成

的块以获得初始 token embeddings，而每个后续阶段

在分辨率为

的水平上生成 tokens。在3.1节中，作者描述了作者的空间分组层，该层替换了网络阶段之间的均匀下采样层。通过组合这些分组层，作者的 Backbone 网络构建了一个分层图像表示，该表示将像素组织成越来越大的、具有语义意义的区域（图2 (a)）。虽然Native-Segmentation具有通用性和任务无关性，但作者学习的下采样操作进一步实现了边界保留的特征上采样，这在下游密集预测任务（如分割）中特别有利，如3.2节所述。

3.1 基于内容的空间分组层

学习语义上有意义的像素组。当前架构中实际标准化的均匀下采样操作，如池化或步长卷积，无论图像中的特征内容如何，平等对待所有特征位置，并对所有输入 Token 应用固定操作。这种方法在区分高低频区域和捕捉相关细节方面具有固有的局限性。为解决这一局限性，作者提出学习输入 Token 与下采样 Token 之间的映射关系，使其能够动态适应输入特征，而非仅依赖网格中的特征位置。具体而言，作者将具有相似特征嵌入的 Token 映射到下采样表示中的同一输出 Token ，这些 Token 属于同一目标或语义上有意义的区域。通过学习这种映射关系，Native-Segmentation能够在图像的连续网络阶段中保留语义上有意义的边界。

分组算法。基于这一直觉，作者将任务构建为一个受

-均值 [35, 36] 及其现代可微变体 [15] 启发的可微聚类过程，其中作者的输出下采样 Token 充当质心，输入 Token 被迭代分配给它们。形式上，设

表示一组

个

维输入 Token ，这些 Token 对应于像素嵌入或前一阶段的 Token 。作者的目标是将这些 Token 生成一个空间维度降低的

维 Token 的缩减集。遵循标准架构设计，作者设置所有层的 Nout = Nin/4。

作者的完整方法概述在算法1中。作者首先使用步长卷积初始化

，这是常见的做法[25, 3]。然后，在作者的实验中，对于

次迭代（

），作者交替进行两个关键步骤：(i) 通过类似交叉注意力的操作，从输入 Token 中计算一个软分配矩阵（L3-5），以及 (ii) 在列上重新归一化该矩阵，以使用输入 Token 的加权平均值来更新

（L6-9）。直观上，由于

是按行归一化的，每个元素

可以解释为每个输入 Token

被映射到输出下采样 Token

的概率。然后，使用这些分配概率来更新

的相应特征（L9），这些特征充当质心。通过在

步中重复此过程，作者迭代地优化分配概率以及生成的特征

。

picture.image

局部与密集分组。算法1的一个关键限制在于计算

（L3）的成本，其复杂度相对于输入 Token 集的基数

为二次方，这使得它在高分辨率特征图上不切实际。受超像素生成算法SLIC[14, 34]的启发，对于高分辨率特征图，作者将交叉注意力系数的计算限制在围绕

中每个输出 Token 中心的

局部窗口内（见图2 b）。直观上，这种机制保留了学习下采样算子的灵活性，其中输入 Token 可以动态映射到它们的下采样对应物，并注入局部先验：输入 Token 将被映射到在最终输出空间中位置相近的 Token 。这使输出 Token 具有局部性概念，使作者能够利用常用的局部注意力机制[1, 3]。从计算角度看，这种先验导致

和

矩阵高度Sparse，可以用CUDA Kernel 高效计算（见附录E.1），总体上将作者的分组层的计算复杂度从

降低到

，使其适用于高分辨率图。在作者的架构中，作者在第二和第三阶段使用局部分组，处理更高分辨率的特征图。在最终阶段，作者启用密集分组，即非Sparse分组，这确保了Native-Segmentation的输出 Token 可以跨越整个输入图像合并区域和目标。

与槽位注意力连接。作者分组层中的核心操作与Slot Attention [15]中引入的操作相似。作者的下采样 Token 可以解释为槽位，这些槽位不是从随机分布中采样，而是通过在输入 Token

上应用步长卷积层进行初始化。额外的技术差异包括用更简单的 Shortcut （算法1，L9）替换原本用于更新槽位（即像素组）的GRU，以及使用相对位置编码来编码输入和输出 Token 之间的空间关系（算法1，L3）。更重要的是，上一段中引入的交叉注意力操作中的Sparse性约束使得能够高效处理高分辨率输入，这使得这种可微分的分组机制对分层视觉 Backbone 网络是实用的。

3.2 局部分割

通过马尔可夫链编写作业。通过将图像传递到Native-Segmentation中，所有

个分组层的组合输出产生两组矩阵

和

，其中每个矩阵

（分别

）对应于第

阶段的分组层输出，维度为

。随着分组层在连续阶段中应用，对于每个

，有

。现在，回想一下，根据构造，

是一个行随机矩阵，其条目可以解释为每个输入 Token 被映射到后续下采样 Token 的概率。因此，每个矩阵

可以被解释为状态转移矩阵，并且从第

阶段的 Token 到更早阶段

的整体映射可以被解释为具有状态转移概率的马尔可夫链：

在类似的情况下，由于

是一个列随机矩阵，

定义了一个从阶段

到

的 Token 映射。因此，任何包含

个

维任意 Token Embedding 的集合

在阶段

都可以通过点积

（对应地）

上采样到阶段

（对应地）下采样到

的分辨率。由于除了最后分组层之外的所有层都使用局部分组，分配矩阵的乘积中最多只有一个矩阵是非Sparse的。所有涉及的Sparse矩阵的乘积也是块Sparse的，并且可以高效计算（见附录 E.1）。

Backbone 层分割。前一段的观察使概率

能够将输入 Token （即图像块）映射到

个互不相同的 Token （即分割块），其中

随

的增大而减小。作者的最终阶段4实现密集分组，允许 Token 编码跨越整个图像的分割 Mask 。值得注意的是，这可以在不显式监督中间过渡矩阵或其组合的情况下实现。由于分组层是可微分的，作者的整个架构可以通过对最终阶段 Token 进行全局池化，在标准图像级目标上进行端到端训练。在推理时，将学习到的分类头或文本嵌入应用于

归纳偏差，在此设置中产生高质量的 Mask ，如作者在第4.1节所示。

利用 Mask 监督。图像分割任务可以分为将图像分割成

个互不相交的片段，以及进行逐片段分类。尽管当前方法依赖于专门的 Head 来实现实例级高分辨率预测 [6, 37]，Native-Segmentation通过 Backbone 层中的输入输出 Token 映射

直接对图像片段进行编码。这使得作者能够采用一种极简的纯原生方法：仅训练多层感知机（MLPs）对最终 Token 进行分类，并使用二部匹配损失。此外，Native-Segmentation可以集成到标准的分割框架中，并有一个关键改进：通常在像素解码器中使用的特征图上采样和下采样操作可以被作者的基于分组的操作所替代，从而提高最先进方法的分割精度（第4.2节）。

4 实验

概述。在下文中，作者广泛评估了SeNaTra在不同监督机制和任务复杂度下的表现。在4.2节中，作者从无 Mask 监督开始，研究从图像类别（4.1.1节）和图像描述（4.1.2节）监督中涌现的分割，并将Native-Segmentation与最先进的零样本分割方法进行比较。在4.2节中，作者在标准的语义分割（4.2.1节）和全景分割（4.2.2节）数据集和基准上训练和评估Native-Segmentation，将作者的直接分割模型和 Backbone 网络作为即插即用的替代方案与最先进的方法进行比较。作者在4.3节分析了作者的设计选择和贡献。

模型。作者评估了三个SeNaTra模型：tiny（T）、base（B）和large（L），其输出嵌入维度分别为512、1024和1536，遵循[3]中的配置。完整配置在附录D中提供。

4.1 无 Mask 监督学习

4.1.1 ImageNet分类

作者在ImageNet-1k和ImageNet-22k [38]上训练SeNaTra，遵循文献[1]的训练设置。作者在图3中可视化了不同 Backbone 网络阶段的组表示，以及预测类别

的最终每组激活，并参考附录D.1进行定量分析和与标准 Backbone 网络[3]的比较。虽然作者的网络在ImageNet分类任务上的表现与当前最优水平相当，但作者观察到，作为作者网络设计的副产品，作者的网络产生了边界保持的超像素状组层次结构，在最后的密集分组层中组合成有意义的语义区域

。作者强调，作者仅使用输出 Level 的类别监督来训练Native-Segmentation。Native-Segmentation在分类方面保持了当前最优性能，并且值得注意的是，由于作者提出的架构变化，模型在无 Mask 监督的情况下直接学习到了像素 Level 的物体定位。

picture.image

4.1.2 基于视觉语言监督的零样本分割

设置。作者使用softmax对比目标[39, 40]和来自[41]的超参数，通过图像-文本对预训练SeNaTra。作者在零样本语义分割中评估Native-Segmentation。为了获得图像组嵌入，作者将线性投影层应用于最终图像（或文本）输出 Token ，并应用全局池化，然后进行

归一化。为了分类，作者将类名（针对每个数据集）通过文本编码器，使用标准模板 Prompt ，并选择与每个组嵌入最大余弦相似度的类，然后进行作者的上采样操作（第3.2节）。详情请参见附录D.2。

数据集。遵循[41]，作者从CC3M [42]和CC12M [43]数据集的并集（2000万对半人工标注的图像-文本对）上从头开始训练模型20个epoch，并集还包括RedCaps12M数据集[44]（+1200万对额外的图像-文本对）。遵循[45]，作者在Pascal VOC [46]、Pascal Context [47]、COCO [48]、COCO-Stuff [49]、ADE20k [20]和Cityscapes [50]上评估训练好的模型。这些数据集涵盖了多样化的场景，从城市街道场景（Cityscapes）、通用物体类别（COCO、Pascal VOC）到密集标注的细粒度场景（ADE20k、Pascal Context）。作者以标准平均IoU（mIoU）为指标讨论结果。

讨论。如表1所示，作者的SeNaTra在大多数基准测试中均优于专门设计的当前最优方法，包括那些利用CLIP在4亿图像-文本对上进行大规模预训练的模型，其训练集规模比作者的训练集大20倍。作者观察到，相对于未使用CLIP的方法，Native-Segmentation在所有数据集上的mIoU均取得了显著提升

。作者注意到，表现最优的方法（TCL [45]、CoDe [53]和SimSeg [41]）依赖于诸如PAMR [58]和密集CRFs [57]等后处理技术，这些技术使它们的性能提升了3-4 mIoU，如[45, 41]中所述。相比之下，作者凭借网络设计取得了优异结果，而无需应用任何后处理。Native-Segmentation在大多数数据集上超越了使用CLIP的方法，但在ADE20k和COCO-stuff（分别有150和133个类别）上仅次于CoDe。这些数据集的语义粒度增加得益于广泛的CLIP预训练。值得注意的是，通过仅使用RedCaps12M中的12M额外图像-文本对扩展作者的训练数据，作者显著缩小了这一差距，这展示了进一步扩展的潜力。

picture.image

4.2 带 Mask 监督的训练

概述。作者使用 Mask 监督在标准语义分割[46]和全景分割[21]数据集上训练SeNaTra。遵循常见做法，作者从ImageNet预训练初始化权重（第4.1.1节）。附录D.3提供了扩展结果和实现细节。

分割范式。对于每个任务，作者评估 (i) 作者的极简原生 Mask 模型，该模型通过 Backbone 层级的像素分配生成 Mask ，以及 (ii) 即插即用的 Backbone 替换与一个Mask2Former（M2F）[6]专用头相结合（见表2[c]）。

picture.image

原生分割：作者通过将主干网络的最终组 Token Embedding 输入到一个2层（512维）的MLP来生成逐像素分类预测。然后，作者使用学习到的像素分配（第3.2节）将这些（以32的步长）上采样到输入分辨率，并使用交叉熵损失进行分类预测。对于全景模型，作者使用一个额外的2层MLP来针对目标进行预测。作者将其应用于具有最大分配值的顶部100个最终组 Token ，这些 Token 代表目标候选。作者遵循[6]，并使用二分图匹配损失[31]对实例 Mask 和分类预测进行监督。

Ours+Mask2Former：作者的网络具有多功能性，也可作为可即插即用的替代方案，用于与结合了多尺度可变形注意力像素解码器和分割Transformer解码器的网络，例如广泛使用的M2F。在作者的版本中，作者用通过作者学习到的分配（第3.2节）获得的分配矩阵替换了标准的上采样操作。

Baseline 方法。作为 Backbone Baseline ，作者报告了遵循统一下采样设计的整合化方法，包括成熟的SwinTransformer[1]和NAT[3]，以及最近的自底向上分组方法[11, 12, 10]。作者结合专用分割网络报告这些方法，包括：UperNet[37]（通常用于视觉架构基准测试[1, 3, 25, 59, 60]）以及广泛使用的MaskFormer（MF）[13]和Mask2Former（M2F）[6]。作者评估SeNaTra作为 Backbone 网络，以及在不使用专用分割头的情况下生成原生 Mask 。

4.2.1 语义分割

设置。作者在ADE20k数据集[20]上训练模型，将像素分类为150个语义类别，并遵循常见做法，在验证集上报告结果。作者采用与 Baseline 类似的超参数配置（详情见附录D.3），但由于Native-Segmentation收敛速度更快，将迭代次数从

减少到

。

讨论。在表2a中作者观察到：(i)作者的原生 Mask 在采用成熟的分割头（UperNet [37]、Semantic FPN [61]、Segmenter [62]）的情况下，相较于标准和基于分组的 Backbone 网络均有显著提升，且在作者的较小变体中表现出卓越的计算和参数效率。SeNaTra-T达到了49.7 mIoU，比NAT与UperNet（47.1 mIoU，NAT-T）高出2.6 w.r.，但其FLOPs仅为其12%，参数量为其50%。当(ii)使用M2F头时，作者的基于分组的表示在各个变体中始终提升性能：相较于M2F+S win，提升1 mIoU，相较于M2F+NA，提升2.7 mIoU。总体而言(iii)，作者的 Backbone 网络在标准和基于分组的 Backbone 网络基础上增加了适度的5‰参数量和FLOPs。虽然将其与M2F结合会略微增加NAT的计算成本，但在原生设置中（移除分割头）该成本被有效分摊，使得整体方法在参数和FLOPs效率上更加优化。

4.2.2 全景分割

设置。作者在COCO-panoptic [21]上训练和评估模型，该数据集包含80个目标（things）和53个背景（stuff）类别，要求模型预测目标的语义类别和实例ID。Native-Segmentation训练了50个epoch，使用M2F的集成模型的原始超参数。对于作者的原生结果，作者使用了与语义分割相同的超参数。

讨论。作者从表2b中观察到：(i) 尽管参数数量更少（32M vs 42M），作者的微型原生结果（49.2 PQ）在性能上显著优于MaskFormer w/Swin-T（47.7 PQ）。这一趋势在不同模型尺寸下均保持一致，与表2a的结果相符。(ii) M2F+NAAT-T Backbone 网络（54.3 PQ）优于作者的基础原生 Mask ，然而SeNaTra-T+M2F（55 PQ）实现了最佳性能，并且随着 Backbone 网络规模的增大（SeNaTra-L，58.1 PQ）性能进一步提升。总体而言，作者的原生结果超越了整合 Baseline 模型，并且当与专门的分割头配合时，作者的 Backbone 网络能够提升当前最佳性能。

4.3 消融实验

不同主干阶段的分组。表3a将作者的空间分组层与均匀下采样结合步长卷积（如NAT [3]中未分组的做法）在每个主干阶段（S1、S2、S3）进行比较。 Baseline 方法在监督学习（413 mIoU - 8.4）和零样本学习（40.1 mIoU, -17.2）设置下均表现不如Native-Segmentation。该方法不依赖学习像素分配，而是通过双线性插值从粗步长32特征图预测高分辨率 Mask 。此外，作者观察到跨阶段引入分组空间层能单调提升性能。最后阶段的局部分组在两个指标上显著降低了性能。作者的设计通过早期阶段的高效局部分组实现了全图 Mask 生成。

picture.image

分组层设计。表3b将作者的分组层设计（第3.1节）与槽位注意力[15]进行了比较。用 Shortcut 替换GRU可提升+4.8 mIoU。实践中，作者观察到这种方法解决了ImageNet预训练过程中的数值不稳定性，并降低了内存需求。类似地，从学习到的高斯分布中采样初始嵌入（如[15]所述）也损害了稳定性。使用可学习嵌入进行初始化（如[63]所述），性能仍下降2.5/3.2 mIoU。进一步使用相对位置编码可再提升1 mIoU。总而言之，这些改进在ADE20k和ZS-vOC上分别显著提升了6.1/5.0 mIoU，同时增强了训练稳定性和内存占用。

分割范式。在表4中，作者消融了：(i) Backbone 网络选择（作者具有原生分割能力的网络与 Baseline [3]），以及(ii)两个关键的Mask2Former组件：用于多尺度特征融合的像素解码器和用于生成 Mask 嵌入的Transformer解码器。在前两行中，作者比较了NAT（无分组）与Native-Segmentation，且不添加任何额外组件。作者的 Baseline 在此任务上表现不佳（PQ 15.9，第2行），并且在语义分割中表现较差（-8.4 mIoU）。添加像素解码器（来自Mask2Former的MSDeformAttn，第3行和第4行）对Native-Segmentation影响甚微，但显著提升了NAT Baseline （+6.4 mIoU）。最后，第5行和第6行表明，分割解码器对于NAT分割实例至关重要（54.3 mIoU），并且有利于语义分割（+1.7 mIoU）。专用解码器在全景分割方面也使Native-Segmentation受益（55.0 PQ，+5.8 PQ），显示出改进的潜力。

picture.image

5 结论

这项工作介绍了一种特别适用于以作者提出的空间分组层为核心的分割任务的全新架构。作者的设计相较于现有技术具有显著的方法论优势，完全可微，具有强大的归纳偏置，并且能够扩展到较大的输入分辨率。通过实证结果，作者展示了无需显式 Mask 监督即可生成有意义的分割块，并提出了一个简化的下游分割范式。作者的研究表明，分割——这一基础感知任务——可以内在地编码在模型的内部表示中，而不是委托给专门的解码器模块，为以分割为中心的主干架构开辟了新的方向。

参考

[1]. Native Segmentation Vision Transformers.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image