Cityscapes全新SOTA | SERNet-Former用新的高效残差模块，打造语义分割高效部署之星 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

提高语义分割领域最先进方法的效率，需要克服不断增加的计算成本以及诸如融合来自全局和局部上下文的语义信息等问题。

基于卷积神经网络（CNN）在语义分割中取得的成功和遇到的问题，本研究提出了一种具有独特“高效残差网络”的编码器-解码器架构。通过部署注意力增强门（AbGs）和注意力增强模块（AbMs），旨在将基于特征的语义信息与编码器中高效残差网络的全局上下文融合。相应地，解码器网络是在AbM启发下的附加注意力融合网络（4fNs）发展而来。AFN旨在通过在解码器部分部署附加的卷积层，提高一对一转换语义信息的效率。

SERNet-Former在具有挑战性的CamVid和Cityscapes数据集上进行测试，SERNet-Former在现有 Baseline （如ResNet-50）上显示了显著的改进。据作者所知，SERNet-Former在CamVid数据集上达到了最先进的结果（84.62%平均IoU），在Cityscapes验证数据集上取得了具有挑战性的结果（87.35%平均IoU）。

1 Introduction

语义分割是计算机视觉研究领域中一个基本的计算任务，广泛应用于2D场景理解。在语义分割中，通过图像输入的 GT 标签语义类别，将每个像素进行映射，最新的网络和方法试图预测这些类别。在语义分割的众多益处中，自主驾驶和机器人在识别室内外场景、医学成像、虚拟现实、增强现实、实时监控、场景理解、摄影、图像的创建和编辑等领域，可以被看作是广泛应用和新兴的研究领域。许多不同类型的深度神经网络（DNNs），包括全连接网络（FCN）和卷积神经网络（CNNs），应用编码器-解码器架构和基于注意力的模型，已经取得了显著的进展。最近，带有Swin Transformer 的视觉 Transformer （ViT）和CNN架构在语义分割中实现了最先进的表现。

融合多尺度语义信息是分割任务中的关键问题之一，除了对开发网络和方法的计算成本和效率的关注之外。在2D场景的语义分割中识别物体的挑战是双重的：在图像通过网络处理的过程中，标记的物体可能会失去其空间信息或丰富的特征属性。最近的最新网络也试图克服给定图像输入的全局和局部上下文之间语义信息的不一致性。因此，在本研究中，旨在深入发现CNN中的空间信息和特征图，以实现高效和精确的语义分割。

一个有趣的事实是，增加卷积层的数量并不总是能与其计算成本成正比地提高效率，例如在不扩大其解码器部分的情况下，使用Inception-ResNet-v2作为基准架构（图1）。在这方面，本研究并未采用最大的卷积神经网络，而是深入探讨了通过额外方法提高卷积神经网络性能的潜力。这项工作重新评估了基于卷积神经网络编码器-解码器架构的效率，该架构结合了基于注意力的融合网络和模块。研究发现了融合注意力门（fused attention gates）的潜力，不仅在其SERNet-Former架构 Head 使用，也融合在解码器内。

picture.image

因此，首先探索了最有效的基础架构，这种架构能够快速训练且应该是轻量级的（图1）。在这项研究中，将ResNet-50 作为分析的 Baseline ，以进一步改进编码器网络的 Head 。同时，在编码器和解码器部分，开发了不同类型的注意力门与卷积层相结合。通过在编码器和解码器网络中的正确步骤精心放置跳跃连接，也揭示了空间信息与基于通道的语义信息融合的作用。

因此，SERNet-Former的编码器通过增强注意力门（AbGs）得到改进，从而形成了一个“高效残差网络”，提高了训练性能和预测效率。尽管如此，在更长的训练期内，较大型网络的表现可以远远超过较浅的网络。在这方面，为了提高网络解码 Head 的容量，通过在上采样过程中存储、融合并处理来自编码器的丰富的语义信息，采用了注意力融合网络（AfNs）作为另一种方法。

因此，注意力融合网络被设计用来叠加全局空间上下文与基于特征的丰富语义信息，以提高层数较少的卷积神经网络的表现。SERNet-Former在CamVid数据集的初期训练阶段对训练基准架构表现出显著的改进。图1展示了使用卷积神经网络作为基准架构的某些网络的初始训练性能比较。相应地，SERNet-Former在CamVid数据集上的训练过程中，比最快的基准学习架构ResNet-50（应用于DeepLabv3+架构）学习得更快。

简要来说，SERNet-Former是在残差CNN的基础上发展起来的，通过增加注意力增强门和注意力融合网络。作者的附加方法通过跳跃连接与编码器和解码器部分相连，以融合来自不同语境的特征图的丰富信息，并通过叠加有用的语义信息以提高最高效率。

据作者所知，发展了一个在文献中独一无二的“高效残差网络”，作为SERNet-Former的 Head 和编码器。SERNet-Former通过注意力增强门和注意力融合网络进行改进，在预测和识别较小物体及其特征方面提高了效率和精度。受到RGB-D网络的启发，基于注意力的融合模块和网络方法也得以部署，旨在使作者的模型适应不同的分类任务和RGB-D输入及3D点云的特征图，为未来的工作做准备。

作者的贡献可以简要概括如下：

开发了一种独特的“高效残差网络”作为编码器，通过注意力增强门（AbGs）的额外激励寻求CNN的最优训练性能和计算成本
通过注意力融合网络（AfNs）提高了网络解码器部分的能力，增加了获取和处理富含特征语义信息的效率
设计了跳跃连接，将解码器部分转变为叠加网络，以融合和连接来自全局和局部语境的多尺度信息
SERNet-Former在CamVid和Cityscapes验证数据集上取得了最先进的表现。

2 Methodology

在这项研究中，旨在开发一种编码器-解码器架构，并通过考虑如何融合来自不同语境的语义信息的问题来提高网络的性能。在探索如何改进高效 Head 网络以实现快速且准确的训练同时不丢失基准架构的现有进展时，设计了注意力增强门（AbGs）和注意力增强模块（AbMs），以激发并将丰富的特征空间信息融合到现有网络中。研究发现，在短期内，基于ImageNet数据集预训练的ResNet-50可以是在少数几个周期内学习大部分特征的最有效且最快的残差网络（图1），尽管它可能对新特征的容纳能力有限。

相应地，通过将注意力增强门引入到选定的基准网络，作者的 Head 网络得到了提升，因为它们有效地提高了在生成特征图时激发语义信息的概率。注意力增强模块将AbGs与 Head 网络的空间语境融合，从而产生了一种新颖的“高效残差网络”，用作SERNet-Former的编码器部分。为了在开发架构的编码器和解码器网络之间提供有效的转换，使用了基于膨胀的卷积层。

在语义分割的预测中，需要减少训练过程中的损失，这直接与所应用的损失函数以及从编码器网络获取的数据的一对一转换有关，这些数据被传递到分类层。因此，这也与解码语义信息的效率有关。

受到AbG的启发，设计了注意力融合网络（AfNs），以提高网络解码部分在信号处理中的效率，通过融合编码器中的富含特征语义信息。为了克服小型和中型残差网络的容量问题，注意力融合网络中也使用了卷积层。相应地，跳跃连接被设计为在网络的解码部分最有效地融合多尺度特征图。

最终，SERNet-Former的损失函数和像素分类层是依据文献中通常应用的评价方法以及实验数据集中每个类别的类别权重来设置的。以下可以简要描述作者在提高网络效率方面所应用的方法：

一个高效的残差网络被开发作为SERNet-Former的编码器部分，其中包括AbGs和AbMs。
基于空洞卷积网络被引入到编码器和解码器部分之间。
SERNet-Former的解码器部分通过辅助的非线性注意力（AfNs）以及跳层连接的帮助进行了改进。
损失函数和像素分类层是针对所应用的评估方法和数据集进行优化的。

The efficient residual network head: Encoder with attention-boosting modules

注意力增强门旨在激发可能未通过ReLU层过滤的通道丰富语义信息。Sigmoid函数的输出可以增加生成和评估可能未通过残差网络激活的特征图的可能性。

在这方面，Sigmoid函数，它在注意力网络中广泛应用，被选为操作符以增加获取和处理通道和特征基础的丰富语义信息的可能性，这些语义信息在常用的 Baseline 架构中可能未被激活。门操作AbG可以在方程(1)中迭代如下：

其中表示第 n 个卷积及其后续的批量归一化层的输出，方程（1）定义了一个乘法函数。AbG 通过通道语义信息的获取特征的概率与卷积层结果的乘积，返回丰富的特征图。

相应地，注意力增强模块，AbM，将获取并处理过的基于特征的语义信息与残差网络的空间上下文融合在一起，如图2 (a) 所示。该乘积通过逐元素加法融入到残差网络中，并与卷积层的过滤输出相结合。由于将注意力增强门引入到编码器中，头网络中处理的语义信息发生了变化，并发展出一种新颖的“高效残差网络”架构（图2）。

picture.image

AbMs在每一个第_n_个卷积层的末尾被添加到基准中。它作为一个数学运算符，用于激发并融合富含特征的空间语义信息。它也可以被引入到不同的网络中，以获取和处理来自3D点云或RGB-D网络的不同任务的特征图。

Dilation-based separable convolution network

基于膨胀的卷积网络（DbN）被应用于通过将输出分解为更小的特征图[9]（图2），来增加编码器和解码器部分之间搜索、识别和比较局部、基于通道的和丰富的语义信息的概率。因此，编码器架构的输出被送入具有12、16和18膨胀因子的卷积层，紧随其后的是批归一化和ReLU层，并在解码器网络之前将它们融合在一起。

Decoder with attention-fusion networks

受到AbG和AbM方法启发，通过注意力融合网络提高了将全局和局部语境融合到网络解码器部分的效率。尽管CNN的初始层在全局语境中富含了清晰的边缘和明显的物体形状的语义信息，但在网络解码器部分的上采样任务中传输和重建这些语义信息，对于高效的一对一图像处理是非常有意义的。

因此，在解码器网络中引入了AfNs来处理并融合语义信息以及编码器部分的全局和局部上下文。这也是为了在网络的解码器部分增加存储语义信息的能力，以弥补较小和较简单残差网络的局限性。

相应地，AfNs被设计和融合到卷积层中，如图2（b）所示。通过深度拼接层（图2）收集不同步长的反卷积层中的基于空间和通道的上下文语义信息，这是通过AfN乘积的拼接实现的。在这方面，使用跳跃连接来提高网络在获取编码器中的空间信息时的效率，在上采样操作期间与基于通道的特征进行拼接。

Loss function and the classification layer

为了计算作者语义分割网络的分类性能，通过像素分类层部署了交叉熵损失函数，如公式（2）所示。

在文本中，表示目标，是数据集中标记类别中的一个类别。因此，代表预测的像素。在实验之前，通过分别为每个数据集中的每个标记类别计算类别权重来执行像素分类层。然后，部署交叉熵函数，使用方程式(2)来计算网络预测与真实值之间的损失。

Evaluation metrics

在评估语义分割任务时，像素准确度（_pa_）是通过将正确预测的像素数与总像素数之比计算得出的，其中具有个分类标签以及背景，如公式（3）所示。

在这里，代表被预测为分类标签的像素数量，而是真实情况，它也包括属于其他标签的像素数量。在这方面，平均像素准确度是通过方程式 (4) 计算的。

此外，分割任务的确切性能是通过使用交并比（IoU）方法计算的，该方法采用Jaccard索引，如公式（5）所示。

在文中，“”代表预测的分割图，而“”代表真实值。因此，平均交并比（mean IoU(m(IoU)）是通过所有类别的平均交并比来计算的。

4 Experiments and Results

在本节中，首先介绍了实验数据集和实施细节。通过讨论应用于发展SERNet-Former的方法的影响，分析每个开源数据集的结果，以与文献中的其他最先进网络进行比较。据此，进行了消融研究，以分析每种方法的贡献。

Datasets

剑桥驾驶标记视频数据库（CamVid）是首批场景理解数据库之一，它基于为目标类别的语义分割而记录的驾驶场景的运动视频收集。该数据库包含701帧大小为720960像素的图像，这些图像是通过安装在车上的固定位置模拟闭路电视风格的摄像机在五个视频序列中拍摄的。这些密集标注的图像最初是通过32个类别手动生成的，后来又合并为11个类别。原始数据集按照大多数文献的做法，被划分为367个训练图像，101个验证图像和233个测试图像。

Cityscapes 是针对城市街景语义分割的最具挑战性的数据集之一。它包含了5000张图像的高质量像素级标注，以及20000张粗略标注的图像。该数据集包含了多样化的立体视频序列，分辨率为10242048像素，这些视频序列是在几个月内（春季、夏季和秋季）访问50个欧洲城市时，在白天良好或一般天气条件下录制的。

5000张精细标注的数据集被分为三部分：2975张用于训练，500张用于验证，1525张用于测试。该数据集包括了30个类别的语义、实例级和密集像素标注，这些类别被划分为八个大类别。然而，大部分文献使用的是20个类别的标注，其中19个是包含物体和材料的语义标签，此外还有一个额外的无效类别用于不关心区域。

Implementation details and experiment results

在CamVid数据集的实验中，使用了11个分类类别。在训练过程中，图像保持了原始的大小，即720乘以960像素。因此，在训练和测试数据集时只使用了单一尺度（SS）方法。数据集的划分保持了与文献中通常应用选项相似的设置。分别地，小批量大小设置为3，初始学习率设置为，SERNet-Former训练了80个周期。网络是在MATLAB中安排的CamVid测试数据集上进行训练和测试的。关于分类类别的每个类别的mIoU结果在表1中报告。

picture.image

与知名的最先进模型相比，SERNet-Former的实验结果在表2中报告。

picture.image

在克服不同类别实例数量不平衡的问题时，首先分析了CamVid和Cityscapes数据集中每个类别的加权分数。据此，在像素分类层中分配权重值。在两个数据集的所有训练过程中，均采用带有动量的随机梯度下降（SGDM）优化器作为优化算法。在整个训练计划中使用了不同的L2正则化值，以降低损失并提高两个数据集上SERNet-Former的效率。对于这两个数据集，没有采用多尺度（MS）方法。所有实验都使用了英特尔(r) Core(tm) i5-6200 CPU，主频为2.30-2.40 GHz，配备16GB内存的硬件资源。

在Cityscapes数据集上进行训练时，小批量大小设置为1，以测试在有限硬件资源下的真实世界场景下的网络。来自leftImg8bit数据集的图像与带有精细标注的instanceIDs一起训练，初始学习率设置为。为了克服训练过程的长期性，实验中采用了高效的自训练方法，通过从数据集中选择样本以加快训练速度。网络最初通过选择的715个样本进行训练，包含20个类别，包括背景。然后，SERNet-Former进一步用包含所有样本的19个类别进行训练。

picture.image

因此，在MATLAB中，这个在CamVid数据集上预训练的网络为了性能评估被训练了80个周期。在训练期间，图像保持其原始尺寸，即1024乘2048像素。在Cityscapes上的每类mIoU结果在表3中报告。SERNet-Former在Cityscapes数据集上的实验结果在表4中报告，并与知名的最先进方法的结果一起呈现。

picture.image

Comparison with regard to state-of-the-art

在CamVid数据集的实验中，在MATLAB中训练了不同基准的DeepLabv3+模型，如ResNet-18、ResNet-50、ResNet-101、Xception和Inception-ResNet-v2，并与SERNet-Former结果（图1）进行了比较。相应地，由于ResNet-50的规模和学习进度，作者发现它效率较高，因此作为作者的编码器进行修改和进一步改进。

从结果可以看出，即使没有部署MS方法，借助一种新颖的“高效残差网络”和解码器，以及改进的AfNs（表1和表2），SERNet-Former在CamVid数据集上仍取得了最先进的结果。公布的每个类别的准确性表明，与其它网络相比，应用了这些方法的SERNet-Former在效率上的优势，特别是在识别画布上像素面积较小的微小物体，如杆子或自行车，以及可能会与其他类别（如建筑物）混淆的遮挡物体，如树木和围栏（表1）。

与其它方法相比，SERNet-Former在大小和使用的参数数量上也表现得更好，如表2所示。结果还表明，AbM和AfN成功降低了初始训练周期的损失，提高了分割网络的实际测试性能和准确度。

picture.image

基于在Cityscapes验证集和测试数据集上的结果，SERNet-Former成功地识别了远离 ego-vehicle 的物体（图3），特别是能够识别诸如人行道、天空、人、汽车、卡车、火车和自行车等类别（表3）。在考虑其大小和所使用的参数数量时，SERNet-Former实际上比大多数现有最先进的方法表现得更好，而这些方法的参数数量是不可比拟的，并且在Cityscapes验证数据集上提出了具有挑战性的性能结果（表4）。

另一方面，大多数在其他Cityscapes数据集上公布的最先进模型和方法的结果都采用了多尺度（MS）裁剪大小以及额外的粗略数据集。在这方面，尽管每个分类标签的结果都显示了SERNet-Former的显著性能，但基于Cityscapes数据集的结果，与其他最先进的方法进行公平的比较仍然很难。此外，图像比较显示，尽管实际场景与预测的相似（图3），作者的模型有时无法预测 GT 中声称的非常尖锐的几何形状，这还有待进一步分析。

基准架构。然而，从残差网络的初始卷积层中移除AbM可以完全改变网络的输出结果。在这方面，AbM的效率最好可以在编码器最后一个卷积层的末端观察到。

根据消融研究，将注意力增强模块（AbMs）添加到 Head 网络的最后一个卷积层中，增强了网络的基于特征和通道的上下文语义信息，并提高了其效率1.656%（表5）。因此，从理论上讲，每个AbM可以在网络改进中占有1.99%的份额。相应地，DbN在网络性能改进中占有2.79%的份额（表5）。

picture.image

AfNs旨在提高解码器的性能，相应地降低训练损失。在网络的解码器部分引入不同步长的反卷积层中的AfNs，其影响被视为极其重要。当AfN被引入到后续步长为1的反卷积层（AfN1）时，它将测试性能整体提升了3.893%，并将网络性能提升了4.69%（表5）。当AfN与后续步长为4的反卷积层（AfN2）融合到解码器中时，它使网络的性能提升了超过7.5%。根据早期的测试结果（表5），AfN2由于同时处理融合到网络中的不同大小和上下文的空间信息，对网络的改进贡献了9%。

5 Conclusion

关于融合不同上下文中的语义信息的问题，作者在编码器-解码器架构中开发了一种新颖且高效的残差网络。采用注意力增强门和注意力融合网络，其中Sigmoid函数用于提高基于通道的特征图激活的可能性，通过融合局部和全局上下文中的语义信息，提升了网络的效率及性能。

作者的 Head 网络和SERNet-Former的编码器部分仍有待改进，并在具有挑战性的数据集上进行分类任务的测试。SERNet-Former的解码器部分还可以通过AfNs进行改进。分别来说，将SERNet-Former应用于具有更多层的更大残差网络和卷积神经网络，通过扩大基准架构的解码器部分，仍然是未来的工作。

此外，还有一些在实验中未应用的方法，例如多尺度（MS）图像裁剪大小以及大多数文献应用的其他粗数据集，这些也可以提高SERNet-Former的性能。此外，SERNet-Former被开发为具有使用RGB-D网络和3D点云特征图的潜力，可以用于不同的任务，并且可以在有限硬件资源的条件下测试用于实时分割任务和现实世界应用，这也仍然是未来的工作。

参考

[1].SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks.

点击上方卡片，关注「AI视界引擎」公众号