轻量化分割SASFormer | 通过在多级特征聚合中引入连续跨注意力，减少计算开销同时提高了准确性 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

多尺度架构，包括分层视觉 Transformer ，通常被应用于高分辨率语义分割以处理计算复杂度，同时最小化性能损失。

在本文中，作者针对此提出了一种新的语义分割解码方案，该方案采用具有多尺度架构的编码器的多级特征。基于多级视觉 Transformer 的解码方案旨在通过引入连续的跨注意力在多级特征的聚合中，不仅减少计算开销，同时也提高分割准确性。此外，还提出了一种通过聚合语义增强多级特征的方法。这一努力集中在从注意力分配的角度保持上下文一致性，并且以显著降低的计算成本带来性能提升。

在流行数据集上的一系列实验证明了所提出方案在计算成本上不损失准确性的情况下，优于现有的最先进的语义分割模型，大量的消融研究证实了所提想法的有效性。

1 Introduction

语义分割是计算机视觉中的一个基本任务，它预测图像中每个像素的类别，这项技术已经被应用于自动驾驶[1]和医学图像分析[2]等各个领域。随着视觉Transformer（ViT）在整个计算机视觉领域显示出显著的成就，ViT在语义分割中的应用也变得屡见不鲜。然而，ViT固有的单尺度特征表示和多头自注意力（MHA）对于大尺寸图像导致了高昂的计算成本，这阻碍了语义分割的实际应用。

基于分层视觉Transformer（HVT）的模型，其中包含了多尺度特征的注意力机制，已被提出以降低原始注意力方案的计算复杂度，因此HVT模型也被普遍采用作为语义分割的编码器。图1展示了采用基于HVT编码器的语义分割结构。这些语义分割方法的表现因此强烈依赖于解码器如何有效地探索多尺度特征来进行分割。到目前为止，大量设计的方法主要集中在这个方面。

picture.image

SegFormer提出了一种基于HVT编码器的有效自注意力机制，称为混合Transformer（MiT），并采用了一个轻量级的全多层感知机（ALL-MLP）解码器。它通过简单的MLP解码器提出了一种融合多级特征的方法，这得益于编码器中生成的特征的大接受域，但改进程度相当有限。这种轻量级的ALL-MLP解码器可能导致效率降低，因为它仅仅依赖于增加编码器的模型容量来提高性能。

因此，已经提出了具有更优化解码器的模型。例如，Lawin Transformer采用了一个使用大窗口（Lawin）注意力的优化解码器。Lawin注意力通过不同的窗口大小捕捉补充的多尺度上下文信息，从而减少计算资源。在实现中，解码器早期的不同 Level 的特征被连接起来。然而，在注意力的分配中保持上下文一致性方面，连接和处理结果的方式可能不够高效。此外，对于大尺寸图像，由于聚合特征图的增大，通道数也会增加，这限制了降低计算复杂性的能力。

在本文中，作者提出了一种新颖的解码方案，用于语义分割，旨在不仅降低计算成本，同时提高分割精度。图2展示了所提出方案的整体结构：SASFormer - 基于层次化视觉Transformer的用于语义分割的逐级多级特征聚合。图中所示的聚合语义提取器（ASE）在SASFormer中扮演着核心角色：

执行逐级跨注意力机制以提取保持注意力分配在上下文一致性方面的聚合语义，以提高分割精度；
积极利用来自不同 Level 的降采样特征图，以显著降低计算成本。另一方面，语义组合模块（SCM）被设计用来利用聚合语义作为权重，增强多尺度特征，从而提高准确性。

所提出方案的关键贡献总结如下：

连续聚合多尺度特征，通过引入聚合语义提取器（ASE）和语义组合模块（SCM），既提高了分割精度又降低了计算成本。
在ADE20K和Cityscapes数据集上与现有技术水平（SOTA）模型进行比较时，展现了在准确性和计算成本之间优异的平衡，并通过广泛的消融研究验证了引入概念的有效性。

2 Related Work

Hierarchical Vision Transformer

ViT[3]是第一个在图像分类中取得出色性能的视觉转换模型。然而，直接将ViT应用于需要高计算量的语义分割任务并不合适，因为它从固定分辨率生成特征图。

为了解决这些问题，提出了基于HVT的模型。这些模型不仅生成多尺度特征，还提出了降低计算成本的有效的注意力方法。PVT和Swin使用块合并来生成多尺度特征。它们分别引入空间缩减注意力和移位窗口，使自注意力对于高分辨率图像在计算上更加高效。

随后，像LVT和PoolFormer这样的模型旨在在保持相似架构结构的同时提高注意力效率。然而，HVT模型的一个显著局限性在于缺乏从多 Level 特征中获取上下文信息，因为它们只在每个阶段的输入特征上执行自注意力。

Semantic segmentation

语义分割涉及将图像中的每个像素分类到特定的目标类别。随着HVT模型的引入，它们被用作语义分割的编码器。这导致了配备有专门设计的解码器以改善多级连接的模型的发展。例如，SegFormer试图通过一个All-MLP解码器来改善这些连接，但整体性能受到MLP特性的限制。

在SegFormer之后提出的模型，如SenFormer，MaskFormer和Mask2Former，引入了基于Transformer的解码器，通过可学习的 Query 集来细化多尺度特征。然而，由于除了基于Transformer的解码器之外，还有一个额外的像素解码器，这导致了计算成本显著增加。Lawin Transformer采用了基于Transformer的解码器，引入了大的窗口注意力（Lawn注意力）来捕捉上下文信息。这种方法带来了性能的提升和计算成本的降低，但在处理被认为是主要负担的高分辨率特征方面，似乎还有改进的空间。

因此，作者旨在设计一个基于Transformer的解码器，通过增强多级特征的注意力机制来提高性能和降低计算成本。

3 The Proposed Method

本节详细介绍了所提出的模型。接下来首先描述了构成模型的两个关键模块：聚合语义提取器（ASE）和语义组合模块（SCM），然后是整体结构。

Overall Architecture

picture.image

所提出的轻量级语义分割模型如图2所示。编码器处理输入图像的大小为。四阶段的编码器生成多尺度特征，大小为，其中代表阶段索引。

在SASFormer中，每一个多尺度特征在传递到ASE之前被调整到固定大小。ASE从调整大小的特征中提取聚合语义。随后，聚合语义通过SCM与相应的多尺度特征相结合，然后通过分割头生成最终的分割图。

Accumulated Semantics Extractor (ASE)

ASE被精心设计以优化不同层级特征的计算负担与高效利用之间的权衡。直接利用多尺度特征可以提高分割精度，但由于特征维度较大，这会导致更高的计算复杂度。

为了减轻高计算负担，作者将来自四阶段解码器的多尺度特征，，下采样为单一尺度的特征，其固定大小为，其中表示该层级中的通道数。作者设计的连续跨注意力机制不仅是为了补偿在下采样过程中发生的信息丢失，同时也是为了保持不同层级特征之间的上下文一致性。

ASE由四个 Transformer 块组成，每个块包含基于MHA的连续交叉注意力（SCA）和前馈网络（FFN），如图2所示。由特征线性投影生成的具有Q（ Query ）、K（Key）、V（Value）的MHA层按以下方式处理：

在这里，表示Key的嵌入维度。如图2所示，多头注意力（MHA）层和前馈神经网络（FFN）是相连的，其操作可以用公式（2）和（3）来描述：

在何处，代表 Transformer 块的索引，代表作为 Query 使用的特征索引，而LN表示层归一化。对于第一个 Transformer 块，即，和由（4）表示，

对于其余的 Transformer 模块，和由（5）表示。

在FFN中，作者通过在两个卷积层之间集成深度卷积层来增强局部连接。通道扩展比例设置为4。

需要指出的是，由公式（2）到（5）表示的过程是连续的跨注意力（SCA），在如何设置 Query （query）、键（key）和值（value）方面，它与自注意力（self-attention）和常规跨注意力机制不同。

在这方面，作者可以将 , , 称为聚合语义，这些是通过四个 Transformer 块提取的。在不同层次上的连续过程有效地聚集了富含上下文信息的语义。

Semantic Combining Module (SCM)

SCM被引入以细化多尺度特征的环境信息。如图2右侧所示，对于，SCM将来自ASE提取的聚合语义与相应的多尺度特征相结合，以增强表示。在这个过程中，聚合语义充当权重，并与相应的多尺度特征相乘，最低 Level 的特征除外。

为了将聚合语义视为权重，它们需要通过3.2节所述的下采样因子的上采样，以匹配相应多尺度特征的维度。同时，和通过卷积层，随后进行如图所示的批量归一化。获取增强特征的过程可以用（6）式描述：

在（6）式中，将加到乘积结果上是为了补偿在将下采样到过程中产生的损失。增强后的特征与连接在一起，并通过分割头预测分割图。

4 Experiments

Datasets

两项广泛用于实验和消融研究的流行数据集是：ADE20K和Cityscapes。ADE20K数据集包含150个类别，总计25K张图像，分为20K用于训练，2K用于验证，3K用于测试。Cityscapes数据集包含19个类别，总计5,000张图像，分为2975张用于训练，500张用于验证，以及1525张用于测试。

Implementation Details

性能评估和消融研究是基于MMsegmentation进行的，使用了两块RTX 3090 GPU。作者采用在Imagenet-1K数据集上预训练的MiT作为编码器。

对于所有数据集和评估，训练进行了160K次迭代，使用了AdamW优化器。作者没有使用BatchNorm层，而是采用了同步BatchNorm，这可以在训练期间跨多个GPU聚合BatchNorm的平均值和标准差。对于ADE20K数据集，批处理大小设置为16；对于Cityscapes数据集，批处理大小设置为8。初始学习率设置为0.0001，并使用了系数为1.0的多项式LR调度。

在SegFormer中使用了数据增强方法。mIoU和FLOPs是在单尺度推理下报告的，并且所提出模型的性能是通过ADE20K和Cityscapes验证数据集进行评估的。

Comparisons with the State-of-the-Art

所提出的方法与最先进模型在ADE20K和Cityscapes数据集上的性能对比已经完成。如表1所示，在轻量级配置下，作者的模型在ADE20K上达到40.1%的mIoU，5.0 GFLOPs的计算量以及4.8M的参数量，在Cityscapes上达到78.3%的mIoU和99.3 GFLOPs的计算量。

与SegFormer-B0相比，SASFormer-B0在ADE20K上显示高出2.7%的mIoU和减少40.4%的计算量，在Cityscapes上则高出1.9%的mIoU和减少20.9%的计算量。

picture.image

此外，与Lawin Transformer-B0相比，SASFormer-B0在ADE20K上显示高出1.2%的mIoU和减少5.6%的计算量。在Cityscapes上，SASFormer-B0实现了高出1.2%的mIoU，而计算成本大致相同。

在中等配置下，SASFormer-B2在ADE20K数据集上达到48.0%的mIoU和36.6 GFLOPs，参数量为30.7M；在Cityscapes数据集上达到81.7%的mIoU和512.7 GFLOPs。

与SegFormer-B2相比，SASFormer-B2在ADE20K上减少了41.3%的计算量，mIoU提高了1.5%；在Cityscapes上减少了28.5%的计算量，mIoU提高了0.9%。与Lawin-Transformer-B2相比，在ADE20K上，SASFormer-B2减少了18.7%的计算量，mIoU高出0.2%。SASFormer-B2在Cityscapes上实现了与Lawin Transformer-B2相同的mIoU，但计算量减少了8.9%。

总体而言，与语义分割领域的SOTA模型相比，精心设计的解码器在参数数量大致相似的情况下，带来了更高的mIoU和更少的FLOPs。

Ablation study

在消融研究中，作者使用MiT-B0作为编码器，并使用ADE20K的相应数据集进行训练和评估。为了评估应用于解码器上的所 Proposal 方案，所有的评估都是在与 Baseline 模型相同的条件下进行的。

picture.image

要验证应用于跨注意力机制的连续方法的有效性，进行了两种不同注意力方法的实验。第一种方法如图3(a)所示，在连接的形成的特征上使用自注意力。由自注意力提取的语义被分割，除了最低 Level 之外的所有语义都提供给SCM。第二种方法如图3(b)所示，使用跨注意力，但缺少连续连接。

picture.image

如表2所示，SCA的性能优于这两种方法。因此，这表明通过所提出的连续配置应用于跨注意力机制提取的语义，通过保持注意力分配的上下文一致性，有效地聚合了上下文信息。

在SCM中的组合方式。为了评估作为（6）实现的组合方式的有效性，对两种不同的组合配置进行了实验，分别表示为（7）和（8）。

如表3所示，公式（6）中的组合方案比另外两种配置产生了更高的mIoU，而FLOPs和参数数量没有变化。

picture.image

因此，结果表明，（6）中多尺度特征的残差连接在最小化因下采样过程中产生的损失所引起的不利影响方面是有效的。

转换块的数量。表4中的性能指标是通过使用不同数量的转换块实现获得的。鉴于参数数量的增加是微小的，将块的数量设置为4，以在FLOPs和mIoU之间达到最优的平衡。

picture.image

SASFormer作为解码器的适用性。在这种工作中，一个想法的适用性是首要关注的问题。为了证明所 Proposal 的解码器适用于语义分割，已经进行了一系列实验，在这些实验中，将几个现有的基于HVT的语义分割模型的解码器替换为SASFormer。

picture.image

表5的结果证明，所提出的解码方案能够有效地适应多级特征，不仅降低了计算成本，还提高了准确度。需要注意的是，当SASFormer与基于HVT的编码器结合用于语义分割时，可以有效地处理这类模型固有的缺陷。

picture.image

图4展示了将三个基于HVT的模型的结果与将解码器替换为SASFormer的模型获得的结果进行了定性比较。图中方框指示了存在多尺度目标的位置，装备了SASFormer的模型在复杂区域展示了精确分割的能力。

5 Conclusion

在本文中，提出了一种简单而强大的语义分割解码器架构，称为SASFormer。这种轻量级的基于 Transformer 的解码器设计考虑了在关注分配的视角下保持上下文一致性的方式，并通过从基于HVT的编码器中连续聚合多尺度特征，来优化计算成本和分割精度之间的权衡。

通过与各种轻量级语义分割模型进行比较，并通过一系列实验和广泛的消融研究，证明了所提出方案的有效性。作者认为，所提出的方案适用于其他需要权衡的计算视觉任务。

参考

[1].A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号