超越 Transformer：MetaSeg 网络利用 MetaFormer 实现高效语义分割 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在Transformer之外，重要的是探索如何利用MetaFormer的潜力，这是一种对Transformer性能改进起基础作用的基本结构。以前的研究只利用了底层网络。与以前的研究不同，作者在语义分割任务中更广泛地探索了MetaFormer架构的能力。

作者提出了一种强大的语义分割网络MetaSeg，它利用了从底层到解码器的MetaFormer架构。作者的MetaSeg表明，MetaFormer架构在捕获解码器所需的有用上下文以及底层所需的情况下发挥了重要作用。

此外，最近的分割方法表明，使用基于CNN的 Backbone 网络提取空间信息和基于CNN的解码器提取全局信息比使用基于Transformer的 Backbone 网络和基于CNN的解码器更有效。

这促使作者采用使用MetaFormer模块的基于CNN的 Backbone 网络，并设计作者的基于MetaFormer解码器，它包括一个新颖的自我注意力模块来捕获全局上下文。

为了考虑语义分割中全局上下文提取和自我注意力的计算效率，作者提出了一种Channel Reduction Attention (CRA)模块，将 Query 和关键通道降维为一维。

这样，作者的提出的MetaSeg在普及的语义分割和医疗图像分割基准测试上（包括ADE20K，Cityscapes，COCO-stuff和Synapse）超越了先前的最先进方法，具有更高的计算效率。

代码可从https://github.com/hyunwool37/MetaSeg获得。

1 Introduction

语义分割（每个像素分类类别）是计算机视觉中的一个具有广泛应用的挑战性任务，包括自动驾驶和医学图像分割等。随着视觉 Transformer （ViT）在图像分类方面的巨大成功， Transformer 基础方法已经在语义分割领域得到引入。大多数以前的研究[30, 31, 32, 34, 36]主要利用 Transformer 块中的自注意力层来实现优越的性能。然而，近来的研究发现， Transformer 块的抽象结构（即元前缀块[即]混合层，通道MLP和剩余连接），在实现竞争力的性能方面比特定的 Token 混合器（例如关注、空间MLP）起着更重要的作用。因此，元前缀块的架构有可能根据具体目的的不同使用不同的 Token 混合器。

从元前缀块的架构，一些最近的研究[16, 29]衍生了自己的方法。例如，EfficientFormer[16]使用自注意力作为 Token 混合器来有效地捕获全局语义感知特征。 internImage [29] 还利用元前缀块[即]变分卷积作为 Token 混合器来捕获上下文信息。这些方法仅利用元前缀块架构的编码器部分。然而，与以往的研究不同，作者更充分利用元前缀块的潜力用于语义分割任务。因此，作者提出一个新颖而强大的分割网络，_MetaSeg_，它利用元前缀块直到解码器部分以获得增强的视觉表示。

此外，以前的分割方法[30, 34, 17]使用了基于 Transformer 的主干和基于CNN的解码器。然而，最近的研究[39, 13]表明，在本地信息提取方面使用基于CNN的主干和解码方面提取全局信息更有效，可以通过补偿局部上下文中的全局性来提高性能。根据这一观察结果，作者采用了基于CNN的主干(_即_，MSCAN[13])，其中包含使用卷积作为标记混合器的元Former模块，并设计了一种新的基于 Transformer 的解码器。由于在解码器中考虑全局性非常重要，以补偿基于CNN编码器的特征，所提出的解码器利用了元Former模块，该模块使用自注意力作为标记混合器来捕获全局上下文。然而，自注意力由于语义分割任务中的高分辨率特征具有较大的计算成本。

为了解决这个问题，作者提出了一种新颖且高效的自注意力模块，即《Channel Reduction Attention》（CRA），它将 Query 和键的通道维度嵌入到每个头在自注意力操作中的单一维度中。与传统未进行通道降低的自注意力方法[30, 32, 17, 34, 10]相比，作者的方法在计算减少的情况下获得了具有竞争力的性能。这表明，即使每个 Query 和键标记都是标量类型，而不是向量，CRA也能充分考虑全局性。因此，作者的CRA模块比以前的自注意力模块更加高效和有效。

为了证明作者方法的有效性和高效性，作者在三个具有挑战性的语义分割数据集（ADE20K [42]，Cityscapes [9]，COCO-stuff [1]）和医用图像语义分割数据集Synapse [15]上进行实验，以验证其在不同应用领域的适用性。如图1所示，作者的MetaSeg-T和MetaSeg-B在三个公开语义分割基准测试上超越了以前最先进的方法，包括ADE20K，Cityscapes和COCO-Stuff。特别是在ADE20K，Cityscapes和COCO-Stuff上，作者的MetaSeg-T分别比SegNeXt-T [13]提高了1.3%，0.3%和1.0%的mIoU提升，同时计算成本分别降低了16.7%，5.2%和16.7%。

picture.image

总之，作者方法的主要贡献如下：

提出的MetaSeg是一个强大的语义分割网络，能够有效捕捉局部到全局上下文，表明MetaFormer架构的能力可以扩展到解码器以及编码器。
作者提出了一种新的、高效的self-attention模块Channel Reduction Attention（CRA），用于语义分割，它可以通过将 Query 和键的通道维数降低到一维来高效地考虑全局性。
作者的MetaSeg在三个具有挑战性的语义分割数据集和一个医用图像语义分割数据集上的效率、准确性和鲁棒性都超过了以前最先进的方法，以展示作者在不同领域通用性。

2 Related Works

MetaFormer-based architecture

元Former[27]是 Transformer 的一个通用架构，其中没有指定 Token 混合器。最近的方法[25, 38, 26]在MetaFormer架构内探索了各种类型的 Token 混合器，以提高性能。Mlp-Mixer[25]和ResMLP[26]使用了类似于MLP的 Token 混合器。PoolFormer[38]简单地利用池化作为 Token 混合器来验证MetaFormer架构的力量。PVT[30], Swin[17], CvT[32],和EfficientFormer[16]采用自注意力作为 Token 混合器来聚合全局信息。这些研究主要集中在基于MetaFormer变体的 Token 混合器在编码器中的应用。因此，作者提出了一种新的元Former块，其中利用作者的Channel Reduction Attention (CRA)模块作为 Token 混合器。此外，与先前的方法不同，作者将元Former架构的能力扩展到解码器中，以考虑有助于提高分割性能的全局性。

Semantic segmentation

随着ViT在图像分类任务上取得了巨大成功，基于自注意力的 Transformer Backbone 网络也被探讨用于语义分割任务。SETR [41]是首个使用ViT作为 Backbone 的网络进行分割任务的。PVT [30], Swin [17], CvT [32],和LeViT [12]研究了层次化 Transformer Backbone 网络以利用多尺度特征。在引入 Transformer Backbone 网络进行分割的同时，Segformer [34]设计了轻量级 Transformer Backbone 和基于MLP的解码器以考虑计算效率。更多的方法 [13, 39]采用了基于CNN的 Backbone 网络和基于 Transformer 解码器的集成，以聚合局部到全局信息。TopFormer [39]通过MobileNetV2 [22]编码器，然后将编码器输入到 Transformer 块。在SegNeXt [13]中，基于卷积的编码器提取空间信息， Transformer 解码器提取全局上下文。这些方法 [13, 39]表明，使用基于CNN的 Backbone 网络和基于 Transformer 解码器的集成对于语义分割是有效的。根据这些研究，作者采用了CNN Backbone 和基于 Transformer 解码器的组合。

此外，基于 Transformer 分割方法 [17, 30, 34]考虑了由于高分辨率特征导致的计算效率。Swin [17]提出了一种移位窗口自注意力，通过将特征图划分为窗口进行划分。一些最近的方法 [30, 34] 采用了空间降采样的自注意力，以降低键值分辨率。在本文中，作者引入了一种名为Channel Reduction Attention (CRA)的创新自注意力模块，它将 Query 和键的通道维度减至一维，以实现自注意力的高效计算成本。

3 Method

以下部分描述了作者的MetaSeg架构，一种高效且强大的分割网络。基本上，作者采用基于卷积网络的编码器（CNN-based encoder）和基于MetaFormer的解码器（Metaformer-based decoder）来聚合局部和全局信息。首先，作者解释了整体架构，然后解释了编码器和解码器。最后，作者描述了全局元模块（Global Meta Block，GMB）和提出的通道减少注意力（Channel Reduction Attention，CRA），这是一种高效的自注意力模块。

Overall Architecture

如图2(a)所示，作者的MetaSeg是基于MetaFormer模块的，该模块包含一个分四级分层 Backbone 网络。作者采用基于CNN的编码器作为序列混合器，将输入的信息聚合到局部信息中。对于解码器，作者设计了一个新颖的CRA模块作为序列混合器，以捕捉低成本的全球上下文。

picture.image

3.1.1 Hierarchical convolutional encoder

为了获取多尺度特征，作者采用了基于卷积神经网络（CNN）的分层编码器。遵循先前的编码器-解码器结构分割网络，给定一个图像作为输入，每个编码器阶段的特征提取如下降采样特征，其中，分别表示编码器阶段的索引和通道维数。这些特征提供了从粗粒度到细粒度的特征，从而使得语义分割性能得到提高。具体而言，作者采用了 MSCAN [13] 作为编码器，它由使用基于卷积的 Token 混合器的元Former 块组成。

3.1.2 Lightweight decoder

Figure 2: (a) 整体架构MetaSeg包含两部分：基于层卷积神经网络(CNN)的编码器和教育元模块(GMB)的解码器。 (b) GMB的详细信息，包括提出的通道减少注意力(CRA)模块和通道MLP。作者的MetaSeg从编码器的多尺度特征中提取局部信息，并在解码器的GMB中补充全局信息。

作者发现，自注意力模块作为元Former块的token混合器，在收集编码器的多尺度特征中的全局上下文方面具有非凡的能力。解码器由以下组件构成：全局元模块（GMB），上采样层，MLP层和预测层。上采样层将特征分辨率扩展到，统一每个阶段的GMB的输出特征大小。由于第一阶段编码器输出的特征包含过多的低级信息，并增加计算成本，因此作者排除了第一个阶段的特点。MLP层然后将上采样特征拼接在一起。最后，预测层预测分割 Mask 。解码器的整体过程如下：

其中表示输入维度为，输出维度为的线性层，表示MLP的通道维度，表示类别数。

Global Meta Block (GMB)

所提出的GMB利用解码器中的MetaFormer模块进一步增强了由编码器提取的特征表示的全球上下文，这主要关注局部上下文。如图2(b)所示，GMB采用两个残差子模块的MetaFormer模块，并采用一种新型的通道减少自注意力(CRA)模块作为 Token 混合器。作者的CRA模块有效地捕捉了具有高效计算成本的特征的全球上下文。GMB在除第一阶段外的每个阶段执行。整体操作定义如下：

其中和分别表示层归一化和通道MLP层。

3.2.1 Channel Reduction Attention

作者提出了一种名为通道约简注意力（CRA）的模块，作为在GMB中使用的新的标记混合器，该模块考虑了全局提取和自注意力计算的计算效率。作者的CRA是基于多头自注意力。首先对键和值进行平均池化，然后在注意力操作之前进行前处理。如图3所示， Query 和键的通道维度被嵌入到一维中，以进一步提高计算效率。作者发现，通道被压缩的 Query Q和键K可以足够提取全局相似性。CRA操作的公式如下：

picture.image

其中，, ，是投影参数。表示注意力头数。是在每个阶段使用的规模进行平均池化。与SRA[30]这种先前的有效自注意力方法相比，作者的CRA的计算复杂性如下：

其中，表示像素标记的数量。在等式（4）中，左边的和右边的部分分别表示 Query -键操作和注意力权重-值操作的计算，CRA通过减少 Query -键操作的计算次数C倍，将注意力操作的总计算次数降低约2倍。

3.2.2 Channel MLP

通道MLP用于整合作者使用的标记混合器处理的特征。通道MLP由两个1x1卷积层和一个GELU激活层组成。操作定义如下：

MLP(x)=Conv1x1(GELU(Conv1x1(x))) (5) 其中Conv1x1表示1x1卷积层。

4 Experiment

作者将在本实验中研究如何构建和训练神经网络来解决一个具体的应用问题。实验的目标是开发一个基于深度学习的系统，能够识别手写数字，如0-9。

实验方法

在本实验中，作者将采用卷积神经网络（CNN）作为作者的模型。CNN 是一种适用于图像识别的深度学习模型，它在实践中已经取得了显著的成功。

具体而言，作者将使用 TensorFlow 库构建和训练自定义 CNN 模型。作者的模型将包括卷积层、池化层和全连接层等组件。作者希望利用这些组件来实现图像的卷积操作、池化操作以及最终的全连接操作。

作者首先将加载、预处理和归一化输入图像。然后，作者将通过卷积层和池化层对图像进行操作，以提取图像的特征。接下来，作者将通过全连接层将特征映射到输出层，得到最终的分类结果。

作者将在训练过程中使用交叉熵损失函数作为作者的损失函数。

Experimental Settings

数据集作者在四个公开可用的数据集上进行了实验，分别是ADE20K [42]，Cityscapes [9]，COCO-Stuff [1]，和Synapse [15]。ADE20K是一个具有150个语义类别，由20,210/2,000/3,352张图像组成的挑战性场景解析数据集。 Cityscapes是一个包含5,000张经过精细标注（19个类别）的都市驾驶场景数据集，由2,975/500/1,525张图像组成。 COCO-Stuff也是一个具有172个语义类别和164,062张图像的挑战性数据集。 Synapse是一个包含30个计算机断层扫描（CT）和3779个轴向对比增强型腹部CT图像的腹部器官数据集。如TransUNet [3]的实验设置一样，作者将Synapse数据集划分为18个切片用于训练，12个切片用于验证。

实现细节作者在4个英伟达RTX 3090 GPU上使用mmsegmentation代码base对模型进行训练。作者使用MSCAN [13]作为backbone网络。作者的MSCAN-T和MSCAN-B背backbone模型分别命名为MetaSeg-T，MetaSeg-B，而作者的解码器则随机初始化。在进行语义分割评估时，作者采用ADE20K，Cityscapes和COCO-Stuff数据集的均值交点渗透率（mIoU），以及Synapse数据集的Dice相似度得分（DSC）。在训练过程中，作者应用了常见的数据增强方法，如随机水平翻转、从0.5到2.0比例的随机缩放和大小为512 512，1024 1024和512 512的随机裁剪，ADE20K，Cityscapes和COCO-Stuff数据集。对于Synapse数据集，作者使用随机旋转和翻转进行数据增强，大小为224 224。作者在ADE20K和Cityscapes上训练作者的模型，总共迭代160K次，在COCO-Stuff上迭代160K次，在Synapse上迭代30K次。 ADE20K和COCO-Stuff的批处理大小为16，Cityscapes为8，Synapse为24。使用AdamW优化器在ADE20K和Cityscapes上训练160K次，在COCO-Stuff上训练160K次，在Synapse上训练30K次。采用1.0倍的多项式LR调度，初始学习率6e-5。

Comparison with State-of-the-Art Methods

在表1中，作者将MetaSeg在ADE20K、Cityscapes和COCO-Stuff数据集上的性能与先前的最先进方法进行了比较。比较包括参数数量，浮点运算（FLOPs），在单尺度（SS）和多尺度（MS）翻转推理策略下的mIoU。表1显示，MetaSeg-T仅使用4.7M参数和5.5 GFLOPs在ADE20K上实现了42.4%的mIoU，相比SegNeXt-T使用了相同主干[13]的MetaSeg-T，其mIoU实现了1.3%的提高和16.7%的降低。此外，MetaSeg-T在Cityscapes和COCO-Stuff上的mIoU分别比SegNeXt-T提高了0.3%和1.0%，在GFLOPs上分别降低了5.2%和16.7%。作者的较大模型MetaSeg-B在比较上也展现了竞争力的性能。其在ADE20K上的mIoU为48.5%，计算量为SegNeXt-B的12.9%。此外，MetaSeg-B在Cityscapes和COCO-Stuff上的mIoU分别做到了82.7%和45.8%，GFLOPs降低了8.9%和12.9%。这些结果表明，作者的MetaSeg通过使用MetaFormer架构和高效的token混合器CRA，可以有效捕捉局部到全局的上下文。

picture.image

速度基准对比。在表2中，作者呈现了没有任何加速技术的速度基准对比。为了公平对比，作者在一个Cityscapes的单张图片（1536×768）上测速，使用了单个RTX3090 GPU。相比先前的方法，作者的方法在更高的mIoU分数中取得了优越的速度。这一结果表明，作者的方法在GPU内，FLOPs的降低可以带来处理速度的提高。

picture.image

Synapse数据集。在表3中，作者将在Synapse数据集上与之前的各种方法进行了比较，使用的为DSC（%）[14]。为了公平比较，作者在考虑与之前方法相似的模型大小后将MetaSeg-B用于医学图像分割任务。如图表3所示，MetaSeg-B在Synapse数据集上取得了新的最先进结果，DSC为82.78%，比HiFormer高了2.09%。这表明MetaSeg对医学图像分割任务也具有有效性。因此，作者展示了MetaSeg在应用领域的高性能。

picture.image

Ablation Study

表4：元解码器在各种基于CNN的 Backbone 上的有效性。在语义分割中，ConvNeXt采用UperNet作为其解码器，MobileNetV2采用DeepLabV3作为其解码器。对于这些基于CNN的 Backbone ，作者的解码器展示了具有显著的计算减少86%和93.9%的竞争力。这表明作者的 MetaSeg解码器是用于各种基于CNN的 Backbone 的高效且有效的架构，通过增强编码器特征来自视觉表示上进行改进。

picture.image

表5：全局元模块在解码器中的有效性。在表5中，作者验证了对全局元模块在每一阶段（2,3,4）上应用或不应用的有效性。作者遵循文献[13]的实验设计，排除了编码器的第一阶段中的特征，因为它们包含过多的低级信息，这会降低分割性能。结果表明，将全局上下文通过全局元模块捕获的解码器阶段2、3和4应用是最有效的结构，相比其他情况。特别是在比较阶段3和4时，将全局元模块应用到阶段2、3、4实现了0.8%的更高mIoU性能，尽管参数和GFLOPs几乎相同。这一结果表明，使用由编码器阶段2、3和4提取的全特征来捕获全局上下文可以有效地提高语义分割性能。

picture.image

表6：在基于作者提出的元模块解码器中应用各种标记混合器的实验。通过这个实验，作者验证了当使用MSCAN-T，一种基于CNN的 Backbone 时，哪种标记混合器是最有效和最有效的结构。全局上下文建模标记混合器（如SRA和作者的CRA）与局部上下文建模标记混合器（如池化、深度卷积和传统卷积）相比，显示了更好的mIoU性能。这一结果表明，在使用基于CNN的 Backbone 时，在解码器中考虑全局上下文的重要性。

picture.image

表7：通道约简自注意力在MetaSeg-T和MetaSeg-B上的有效性和效率。作者主要关注CRA(通道约简自注意力)和SRA(空间约简自注意力)的参数大小和计算成本，以比较在捕获全局上下文中哪种方法更为高效。SRA是一种广泛使用的自注意力方法，通过将标记看作向量来处理，以减少键值的空间分辨率。相比之下，作者的CRA将每个 Query 和键的通道维数降为一维。如图7所示，作者的CRA的计算量比SRA在MetaSeg-T和MetaSeg-B上分别降低了48%和49%。这表明作者的CRA比前期的自注意力方法更高效，同时捕获全局上下文效果显著。

picture.image

作者在ADE20K数据集上的视觉感受。与SegNet[13]相比，作者的MetaSeg对各类别的预测更为详细

作者对特征进行可视化

作者可视化了作者的MetaSeg-T的预测图和注意力得分图[4]。注意力得分图是 Query 和键之间的相似性得分，这些是基于元解码器中的通道约简自注意力方法。如图4（a）和（b）所示，注意力得分图在同一个人远离的情况下显示出显著的相似性。在图4（c）和（d）中，大型区域（如桥和房子）的相似性也被清晰地捕捉到。这些结果表明，作者的CRA可以捕获提取全局上下文特征的有意义的相似性得分，即使每个像素标记的通道维数已经降为单一维。考虑到全局性，作者的最终预测图准确地分割了远离物体和大区域。

picture.image

Qualitative Results

在图5和6中，作者分别展示了MetaSeg [13]和SegNext在ADE20K和Cityscapes数据集上的分割结果。与SegNext相比，作者的MetaSeg在分割靠近边界的物体细节方面表现更好。这表明，通过利用MetaFormer架构的计算能力，作者的模型能够捕捉到更有用的视觉语境，从而充分利用了解码器的能力。此外，作者的方法在大区域（如道路和桥梁）的分割上更加精确。此外，作者的模型对于属于同一类别（如远离的人和房屋）的远距离物体进行了准确的预测。这些结果表明，作者的CRA可以在计算效率高的情况下有效地考虑全局语境。在图7中，作者将作者的预测与HiFormer [14]在Synapse数据集上的预测进行了比较。作者的方法在详细区域上预测更准确。这表明，作者的MetaSeg在应用领域中是有效的。

picture.image

5 Conclusion

本论文提出了一种名为MetaSeg的新型强大语义分割网络，它通过利用 MetaFormer 架构捕获局部到全局上下文，甚至延伸到解码器部分。作者的MetaSeg表明，MetaFormer的容量也可以扩展到解码器以及 Backbone 网络。

此外，作者还提出了一种用于高效语义分割的新颖注意模块，即Channel Reduction Attention(CRA)模块，该模块通过减少 Query 和键的通道维度，实现了低计算成本下的全局考虑。

实验结果表明，作者的方法在三个公共语义分割数据集和一个医学图像分割数据集上表现出了有效性和高效性，并用于应用。

参考

[1].MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号