超快语义分割｜超越TopFormer，SeaFormer成就移动端友好型语义分割模型 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

自从Vision Transformers问世以来，许多计算机视觉任务（如语义分割）的格局最近发生了重大变革，而这些任务一直由CNNs主导。然而，计算成本和内存需求使得这些方法不适用于移动设备，特别是对于高分辨率的每像素语义分割任务。

在本文中介绍了一种用于移动语义分割的squeeze-enhanced Axial Transormer（SeaFormer）新方法。具体来说，设计了一个以squeeze Axial和detail enhancement为特征的通用注意力块。它可以进一步用于创建具有优异成本效益的主干架构系列。结合轻量化分割头，在ADE20K和Cityscapes数据集上实现了基于ARM的移动设备上分割精度和延迟之间的最佳权衡。

至关重要的是，本文方法以更好的性能和更低的延迟击败了 mobile-friendly对手和基于Transformer的对手。除了语义分割，作者还将所提出的SeaFormer架构应用于图像分类问题，展示了作为通用mobile-friendly骨干的潜力。

代码和模型在https://github.com/fudan-zvg/SeaFormer

1、简介

语义分割是计算机视觉中的一个基本问题，其目的是为图像中的每个像素分配一个语义类标签。传统的方法依赖于叠加局部卷积核来感知图像的长距离结构信息。

自从Vision Transformers问世以来，语义分割领域发生了重大变革。基于Transformer的方法已经显著地展示了全局上下文建模的能力。然而，Transformer的计算成本和内存需求使得这些方法不适用于移动设备，尤其是高分辨率图像输入。

遵循高效操作的传统智慧，引入了基于局部/窗口的注意力、轴向注意力、动态图消息传递和一些轻量级注意力机制。

picture.image

然而，由于高分辨率输入的高延迟，这些进步仍然不足以满足移动设备的设计要求和约束（见图1）。最近，人们对构建基于Transformer的语义分割产生了极大的兴趣。为了在高分辨率下降低计算成本，TopFormer致力于在原始输入的1/64尺度上应用全局注意力，但这肯定会损害分割性能。

为了以性能无害的方式解决像素级分割任务的高分辨率计算和移动设备上的低延迟要求的困境，作者提出了一系列基于移动友好Transformer的语义分割模型，称为SeaFormer，它将轴向注意力的计算复杂性从O((H+W)HW)降低到O(HW)，以在移动设备上实现卓越的精度-效率权衡，并填补移动友好型高效Transformer的空缺。

核心构建块为squeeze-enhanced Axial attention（SEA注意力）试图将输入特征图沿水平/垂直轴挤压（合并）成紧凑的列/行，并计算自注意力。通过concat query、key和value以补偿在压缩过程中牺牲的细节信息，然后将其馈送到深度卷积层以增强局部细节。

picture.image

再加上一个轻量化分割头，在小规模特征中采用了拟议的SeaFormer层，能够在移动设备上进行低延迟的高分辨率图像语义分割。如图1所示，所提出的SeaFormer在ADE20K数据集上以较低的延迟优于其他有效的神经网络。特别是，SeaFormer Base在基于ARM的移动设备上具有较低的延迟（106ms vs.126ms），优于轻量级的CNN对手MobileNetV3（41.0 vs.33.1mIoU）。

主要贡献：

引入了一种用于移动语义分割的squeeze-enhanced Axial Transformer（SeaFormer）框架；
设计了一个以 squeeze Axial 和 detail enhancement公式为特征的通用注意力块；它可用于创建一系列具有卓越成本效益的主干架构；
在ADE20K和Cityscapes数据集上表现出色，以明显的优势击败了移动友好竞争对手和基于Transformer的细分模型；
除了语义分割之外，还将所提出的SeaFormer架构应用于图像分类问题，证明了作为通用移动友好骨干的潜力。

2、本文方法

2.1、整体架构

picture.image

受这两种分支架构的启发，作者设计了一种squeeze-enhanced Axial Transformer（SeaFormer）框架。如图2所示，SeaFormer由以下部分组成：共享STEM、上下文分支、空间分支、融合块和轻量化分割头。为了公平比较，遵循TopFormer设计STEM。它由一个stride为2的卷积和4个MobileNet block组成，其中第一个和第三个块的stride是2。上下文分支和空间分支共享生成的特征图，这允许构建快速的语义分割模型。

1、上下文分支

上下文分支被设计为从特征图中捕获上下文丰富的信息。如图2的红色分支所示，上下文分支分为3个阶段。为了获得更大的感受野，在将MobileNet block应用于下采样和扩展特征维度之后堆叠SeaFormer层。与作为下采样模块的标准卷积相比，MobileNet block增加了模型的表示能力，同时保持了较低的计算量和延迟。

对于除SeaFormer Large以外的变体，SeaFormer层应用于最后两个阶段，以在精度和效率之间实现卓越的权衡。对于SeaFormer Large，在上下文分支的每个阶段插入SeaFormer层。为了在分割精度和推理速度之间实现良好的权衡，设计了一个SEA注意力。

2、空间分支

空间分支被设计为获得高分辨率的空间信息。与上下文分支相同，空间分支重用特征映射。然而，早期卷积层的特征包含丰富的空间细节，但缺乏高级语义信息。因此，设计了一个融合块，将上下文分支中的特征融合到空间分支中，将高级语义信息引入到低级空间信息中。

3、融合Block

如图2所示，空间分支中的高分辨率特征图之后是1×1卷积和批量归一化层，以生成要融合的特征。上下文分支中的低分辨率特征图被馈送到1×1卷积层、批归一化层、sigmoid层，并被上采样到高分辨率，以通过双线性插值产生语义权重。

然后，上下文分支的语义权重被元素乘以空间分支的高分辨率特征。融合块使得低级空间特征能够获得高级语义信息。

4、轻量化分割Head

最后一个融合块后的特征被直接输入所提出的分割头，如图2所示。

为了快速推理，轻量化分割头由2个卷积层组成，然后分别是批归一化层，并将批归一化层的特征输入一个激活层。

2.2、 SQUEEZE-ENHANCED轴向注意力

全局注意力可以表示为

picture.image

其中，。q，k，v是x的线性投影，例如，，，，其中，是可学习的权值。表示位置的特征图上的所有位置。

当将传统的注意力模块应用于H×W×C的特征图上时，时间复杂度可以为，导致效率低，延迟高。

picture.image

为了提高效率，在局部区域内有一些计算自注意力的工作。在等式2、3中展示了两个最具代表性的高效Transformer。

方程2由基于窗口的注意力表示，成功地将时间复杂度降低到，其中表示O的相邻m×m位置，但失去了全局感受野。

方程3由轴向注意力表示，其仅将时间复杂度降低到，其中表示O列的所有位置；表示o行的所有位置。

根据它们的缺点，作者提出了一种移动友好的 squeeze-enhanced Axial 注意力，它具有用于全局语义提取的 squeeze Axial attention和用于 local details supplement的高效卷积细节增强内核。

picture.image

1、Squeeze Axial attention

为了实现更高效的计算并同时聚合全局信息，采用了更激进的策略。同样，q，k，v首先从x得到，。根据等式4首先通过在水平方向上获取query特征图的平均值来实现水平挤压。同样，右侧显示垂直方向上的垂直挤压。z→(·)表示按给定排列张量z的维数，并且是所有元素都等于1的向量。对q的挤压操作也在k和v上重复，因此最终得到。挤压操作将全局信息保留到单个轴，从而大大减轻了等式5所示的以下全局语义提取。

picture.image