HAFormer：融合 CNN 与 Transformer 的高效轻量级语义分割模型！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在语义分割任务中，卷积神经网络（CNNs）和Transformer都表现出了巨大的成功。人们已经尝试将CNN与Transformer模型集成在一起，以捕捉局部和全局上下文交互。然而，在考虑计算资源限制时，仍有提升的空间。

在本文中，作者介绍了HAFormer模型，该模型结合了CNN的分层特征提取能力与Transformer的全局依赖建模能力，以应对轻量级语义分割挑战。具体来说，作者设计了一个分层感知像素激活（HAPE）模块，用于自适应多尺度局部特征提取。

在全局感知建模过程中，作者设计了一个高效Transformer（ET）模块，简化了传统Transformer中的二次计算。此外，一个相关性加权融合（cwF）模块有选择地合并不同的特征表示，显著提高了预测准确性。

HAFormer以最小的计算开销和紧凑的模型尺寸实现了高性能，在Cityscapes上的mIoU达到了74.2%，在CamVid测试数据集上的mIoU达到了71.1%，在单个2080Ti GPU上的帧率分别为10SFPS和118FPS。

源代码可在https://github.com/XU-GITHUB-curry/HAFormer获取。

I Introduction

语义分割涉及给给定图像中的每个像素分配标签的任务，这是计算机视觉中的基本密集预测任务，应用于自动驾驶[1]，医疗保健[2]，卫星遥感[3]等领域。先前的方法，如[4, 5]，利用深度卷积神经网络（CNN）进行特征提取，结合特征金字塔结构以感知多尺度信息[6]，以及注意力模块以感知全局上下文[7, 8, 9]。尽管这些方法已经取得了相当的准确度，但它们通常需要大量的计算资源，并且由于较深的网络堆叠以获得更大的感受野和更高的语义层次，其推理速度相对较慢。

为了适应计算资源有限的设备，最近的研究专注于开发轻量级的分割模型。例如，ERFNet[11]采用一维非瓶 Neck 减少计算量，而ICNet[13]利用不同分辨率的输入增强不同分支之间的信息流动。FBSNet[15]使用对称的编码器-解码器结构，带有空间细节分支和语义信息分支以细化上下文细节。通常，这些模型简化了基本模块结构以最小化计算成本。然而，在提高计算效率的同时，由于其局部限制和网络深度较浅，它们的分割准确度往往受到影响。

最近，Transformer 在计算机视觉社区中取得了显著的成功。受到这一进展的启发，研究行人开始将ViT[18]架构整合到解决语义分割挑战中。与CNN不同，Transformer 通过其广泛的全球注意力机制内在地提供了广阔的全局感受野。使用Transformer作为图像编码器的模型在全球上下文建模方面表现出色，与基于CNN的方法相比，在分割准确度上有了显著的提升。尽管UNETR[19]和其他方法[20, 21]基于Transformer编码器的最后一层进行预测，但它们往往忽略了图像中的较小尺度目标，影响了较小元素或像素的精确分类，如图1所示。SegFormer[22]引入了一个分层注意力模型，结合分层 Transformer编码器和轻量级多层感知机（MLP）解码器以增强分割精度。MPViT[23]有效地将多尺度特征输入整合到Transformer操作中，取得了令人印象深刻的结果。

picture.image

这些方法优先考虑高的分割准确度，但常常忽视模型效率。首先，基于Transformer的方法缺乏归纳偏置，使得其训练缓慢且难以收敛。此外，它们通常需要更大的数据集和更长的训练时间，导致训练开销巨大。其次，由于多头自注意力（MHSA）操作耗时，导致推理速度变慢。随着高分辨率输入的计算负担加剧，尤其是MHSA的二次复杂度。此外，由于它们有限的精细局部建模能力，这些方法在捕捉细节和小目标方面可能存在困难。

在这项工作中，作者的目标是开发一个轻量级的语义分割模型，该模型同时利用CNN和Transformer，专注于最小化模型大小和计算需求。作者推出“HAFormer”模型，将Transformer的全局感受能力与 CNN 的局部感知优势结合起来，释放分层感知特征的力量。

本文的核心贡献有三方面：

作者提出了一种新颖的分层感知像素激活（HAPE）模块，利用分层和内容感知注意力机制来减少计算负担，同时从各种感受野下的像素中提取更深的语义信息。
作者开发了一种有效的特征融合机制，名为相关加权融合（cwF），以协同整合由CNN和Transformer学习的局部和全局上下文特征，有效提高准确度。
作者提出了一种有效的Transformer，分解，和矩阵，有效地解决了传统Transformer模型中的二次计算复杂性挑战。

在两个广泛使用的基准上进行的广泛实验表明，作者的HAFormer在分割准确度和效率之间取得了平衡。

本文的其余部分结构如下：第二节全面回顾了相关工作。第三节详细介绍了作者提出的HAFormer，重点关注其三个关键组成部分。第四节描述了详细的实验设置并呈现了评估结果，包括消融研究和讨论。最后，第五节通过总结关键发现和讨论未来方向来结束论文。

II Related Work

Hierarchical Methods in Semantic Segmentation

在密集预测任务中，准确分类多尺度和小目标目标是一个普遍的挑战。这在语义分割中尤为明显，其中小目标的分类可能会受到邻近较大目标的影响，导致误分类。分层方法通过使用不同膨胀率的卷积或不同速率的池化层有效地解决了这一挑战。然后将这些结果级联或连接起来，以整合来自不同尺度的信息。这种多尺度整合增强了感受野 Level ，减轻了来自不同局部区域大小的模糊性，并提高了目标细节处理能力。现有的分层方法可以分为整体分层结构或特定分层模块，总结如下：

分层结构。一些方法采用了多尺度设计，具有处理不同分辨率输入或特征图的独特网络分支。遵循此方法的著名方法是ICNet[13]，它融合了三个编码分支（低分辨率、中分辨率和高分辨率），各自擅长在不同尺度上提取细粒度信息，以增强输出中的边界信息。相比之下，HRFormer[24]有效结合了健壮的语义信息与精确的位置细节。而HSSN[26]是一种分层方法，它专注于分类如“人-骑车者-自行车”之类的目标，而不是解决小目标在像素级分类的挑战。其他方法，包括，通过并行多个分辨率分支并促进它们之间的连续信息交互，利用多尺度结构。

分层模块。众多方法在架构的特定层中集成了分层模块，允许在特征图上使用不同的感受野。例如，在DeepLab[28, 29]和DenseASPP[6]中使用的ASPP模块，通过带孔卷积有效地从不同尺度提取特征，解决图像内外的目标尺度变化问题。PSPNet[30]因其金字塔池化模块而出众，该模块从四个尺度整合特征。通过从不同尺度收集和合并上下文信息，该模块生成了比仅全局池化更具有代表性和区分性的特征。使用此模块的模型可以增强对各种大小目标的识别能力。受到“更宽”模块[30, 31]的启发，在本研究中，作者证明利用多个不同的卷积核有效地增强了表达性，以最小的计算和参数开销提高了性能。

Vision Transformer in Semantic Segmentation

开创性的ViT [18] 为图像识别引入了一个纯粹的 Transformer 框架，将图像视为通过多层处理的图像块序列。后续模型如DeiT [32]、Fact [33]、CrossFormer [34] 和 DViT [35] 在图像处理任务上进一步取得了卓越表现。SETR [16] 是一种为分割定制的范式，它在编码器中使用纯Transformer模型，并搭配不同的CNN解码器组合，以实现最先进的结果。Swin-Transformer [17] 解决了冗余计算的问题，在一定程度上减轻了计算负担。然而，这些方法仍然需要大量的训练数据来匹配CNN的性能，这在需要详细标注的密集预测领域提出了挑战。基于Transformer的模型如 [23, 27] 已经认识到在密集预测任务中分层感知的重要性，并在其设计中融入了多尺度结构和金字塔模块。

近期研究注意到，Transformer通常会优先考虑全局长距离依赖关系，可能忽视了CNN所特有的局部连接和位移不变性等关键特征。因此，各种方法 [2, 36, 37, 38] 试图结合CNN和Transformer的优势。然而，这些努力在实时推理需求和低延迟能力之间难以平衡。轻量级技术如LETNet [39] 将Transformer定位为胶囊网络，而像TopFormer [40] 这样的方法则在解码器中将它作为一个辅助组件来增强边界恢复。尽管如此，有效结合全局和局部信息的确切解决方案仍然难以捉摸。

为了解决在结合CNN和Transformer时的高计算需求以及有效整合局部信息与全局背景的挑战，作者的HAFormer引入了高效Transformer (ET) 模块来管理计算复杂度，并提出了一个相关性加权融合（cwF）机制来调和来自CNN和Transformer的特征。

Attention Mechanisms in Semantic Segmentation

受到人类视觉感知的聚焦特性的启发，注意力机制强调显著特征，同时忽略不相关的特征。这些机制主要分为两类：通道注意力与空间注意力。在通道注意力方法中，SKNet [41]使神经元能够根据输入尺度动态调整其感受野大小。空间注意力方法，如非局部神经网络 [8]，在语义分割中捕捉长距离依赖关系。然而，对所有位置之间的关系进行建模可能计算成本很高。非对称非局部神经网络 [9]试图减少计算成本，但它们仍然可能需要大量资源，特别是在处理高分辨率输入特征时。

研究者们已经探索了结合通道和空间注意力机制来从多个角度增强特征。例如，CBAM [7] 依次沿着两个独立维度（通道和空间）操作，生成注意力图，然后将这些注意力图与输入特征相乘以进行自适应特征优化。DANet [4] 和 CCNet [42] 并行整合通道和空间注意力，使用自注意力操作并将生成的特征结合起来。CAA [43] 解构了轴向注意力并整合了通道注意力以管理冲突并优先考虑特征。这些利用自注意力机制的方法已经显示出积极的结果。

一个普遍的挑战涉及到像素级的远距离建模，这会带来高昂的计算成本，使得它不适合在资源受限的情况下部署。本研究引入了一种轻量级模型，该模型优化了CNN的局部感知能力和Transformers的全局建模能力。作者通过在作者的提出的Efficient Transformer（ET）模块中使用空间缩减-线性投影和分割操作策略来处理计算复杂性问题。

III The Proposed Method

Overall Architecture

作者的HAFormer的整体架构如图2所示，该架构包括三个组件：一个带有层次感知像素激活增强的CNN编码器，一个高效的Transformer编码器，以及一个轻量级的解码器。

picture.image

对于一个给定的输入图像，其尺寸为，模型首先使用CNN编码器，生成特征。同时，输入在经过Transformer茎块处理后，进入Transformer编码器，得到特征嵌入，其中表示标记数量，表示每个标记的维度，表示标记大小。随后，作者新设计的相关性加权融合（cwF）模块有效地将这两种不同类型的上下文特征和协同起来。这种相关CNN和Transformer特征的融合增强了边界信息与轻量级解码器分割头的恢复。

具体来说，为了优化CNN编码器，作者在CNN茎块中使用了三个卷积层。在这种配置中，最后一层具有2的步长，从而得到特征图大小为，其中表示输出通道数。相比之下，Transformer编码器中的Transformer茎块在提取特征表示的同时降低分辨率，通过最小化计算负载，为模型的轻量级设计做出贡献，因为更高的分辨率意味着更多的计算。因此，在Transformer茎块中，作者使用了四个卷积层，步长为2，得到输出特征大小为。

Hierarchy-Aware Pixel-Excitation (HAPE) Module

采用同一层内具有不同 Kernel 大小的卷积，结合像素激活，有助于从不同大小的目标中提取特征。基于这一概念，并借鉴了如[30, 44]等作品，作者采用了多尺度策略来捕获不同感受野 Level 的独特像素特征。与ESPNet [12]中的逐层合并和Inception [45]中的拼接不同，作者的模块避免了冗余计算，在保持特征有效性的同时，使得网络更加精简。此外，为了进一步改善不同尺度上的像素表示，作者在本研究中引入了创新的层次感知像素激活（HAPE）模块。该模块增强了模型有效识别图像中各种大小目标的能力，最终降低了像素误分类率。

具体来说，如图3所示，给定一个特征输入，作者首先将其输入到一个卷积层，将其通道维度减少到，即输出特征图表示为

picture.image

这里，表示一个 Kernel 大小为的卷积操作。这种维度减少便于后续层次卷积层中的通道操作。

随后，作者执行四个并行的卷积操作，包括分解卷积和深度可分离卷积， Kernel 大小分别为3、3、5和7。此外，最后三个卷积层使用膨胀卷积来增强感受野，如图4所示。这一策略使得模型能够捕捉到跨各种尺度的图像特征，确保了全面和详细的信息提取。

picture.image

上述过程可以表示为

其中表示中间特征，是一个核大小为的1-D卷积操作，表示膨胀率。为了简单起见，方程中省略了一些激活和批量归一化操作。

一个关键元素在于像素激发模块（PEM），它通过一种内容感知的空间注意力机制负责增强特征的表现力。如图3所示，该过程首先将输入送入全局平均池化（GAP）层，生成。随后，对其进行 Reshape 和平展操作，然后输入到函数中计算权重矩阵。这个权重矩阵随后与输入特征相乘，得到一个内容感知的注意力增强输出。

这个过程可以表示为

以及

这里，和分别表示 Reshape 操作及其逆操作，是一个激活函数，表示逐元素乘法。

最后，采用残差结构保留原始特征，得到最终输出。四个卷积层被联合添加到一个卷积中用于特征融合和通道恢复。模块内保持残差连接，通道混洗操作有效地促进了通道间的信息交互，表达为

其中

其中表示通道混洗操作，而是一个激活函数。

Efficient Transformer

传统的Transformer方法，如文献[17, 46]所示，对于轻量级和实时模型可能过大，尤其是在处理高分辨率输入时。这凸显了更高效Transformer的迫切需求。受文献[31, 47]的启发，作者的方法着重于在不显著损失图像细节的情况下，通过减少特征维度来降低计算成本。为此，作者引入了一种空间缩减线性投影方法，该方法首先将特征映射到一个具有降低维度的潜在嵌入空间，然后再用于多头自注意力计算。这种方法称为带有学习投影和分割操作的高效多头自注意力（eMHSA），如图5所示。

picture.image

将输入特征表示为，其中、和分别表示特征图中的通道数、高度和宽度。在操作之后，得到一系列扁平的非重叠 Patch ，结果是，其中表示 Patch 数（即输入序列长度），每个 Patch 大小为。随后，这些 Patch 通过一个可学习的线性投影层映射到一个潜在维嵌入空间，记作。这个过程可以表示为

其中表示第个 Patch 。请注意，故意省略位置嵌入是为了允许不同输入大小更大的适应性。

随后，Transformers中的三个矩阵，即 Query 、键和值，通过它们的线性投影、和得到。这可以表示为

此外，多头自注意力中的头数也是一个用户定义的参数，确保每个头的维度等于。因此，第个头中的、和的维度为。在第个头中，和通过一个因子进行空间缩减，其中是缩减比，设置为2。然后，由特征分裂操作产生的子标记与仅代表原始感知的字段进行矩阵乘法，其中表示特征分裂的次数，设置为4。这个过程可以描述为

因此，空间分布变为，，以及。这个想法与组卷积的概念相似，可以有效地减少内存消耗。因此，第个头中的自注意力计算为

以及

其中表示连接操作。

因此，eMHSA的最终输出表示为

其中表示eMHSA中的头数，而作为一个线性投影来恢复维度。因此，通过上述结构设计，作者已经将复杂性从降低到。

值得注意的是，Transformer系列[16, 17, 23]也使用了一种自注意力机制，包括多头注意力。然而，它们的方法在捕捉特征间详细关系方面计算密集，这与作者的目标不符。

在MLP层中，作者遵循文献[31, 48]中描述的方法，用零填充位置编码替换固定大小的位置编码。此外，作者在全连接（FC）层和前馈网络中的GELU之间引入了填充大小为1的深度卷积，以捕获输入张量中的局部连续性。通过消除固定大小的位置嵌入，模型在处理不同分辨率的输入时变得更加灵活。因此，高效的MLP层的输出，记作“”，可以写成

其中表示FC层操作，代表GELU激活函数，表示深度卷积，是eMLP的输入。

Correlation-weighted Fusion

许多研究，如[2, 36, 40, 46]，探讨了将Transformers和CNNs的特征整合在一起。例如，SegTransConv [36]提出了一种混合架构，串行和并行结合了Transformers和CNNs，但并未完全发挥两者的协同潜力。鉴于Transformers和CNNs在特征和计算机制上的明显差异，传统的逐元素加法或拼接操作可能不会产生最佳结果。因此，利用两者的互补优势对于提高提取特征的表现力以及解码过程中信息恢复至关重要。

在本文中，作者提出了一种有效策略来弥合这一差距。作者的方法通过相关加权整合无缝结合了由Transformers和CNNs提取的不同类型的特征。通过融合具有高相关性的CNN和Transformer特征，作者开发了一个新的相关加权融合（cwF）模块。

如图6所示，和分别表示来自Transformer和CNN的中介特征。首先，将Transformer特征 Reshape 以匹配CNN特征的相同形状，然后进行这两个特征集的后拼接操作。为了降低计算成本，采用深度可分离卷积进行通道维度降低。在全局平均池化（GAP）和Sigmoid操作之后，计算表示为的相关系数矩阵。然后将该矩阵与原始特征相乘得到和，两者相加得到最终输出。

picture.image

这个过程可以表示为

其中（），表示拼接操作，表示大小为的特征图被恢复到大小。然后，相关系数矩阵可以计算为

其中，是Sigmoid函数，表示全局平均池化操作，表示具有核大小的卷积操作。

因此，结果cwF特征，表示为，可以表示为

其中，是ReLU激活函数，表示逐元素乘法。

值得注意的是，特征相关性也在CTCNet [38]中得到了探索，其中计算了来自Transformers和CNNs的特征之间的相关性。然而，在CTCNet中，该模块只是将相关性拼接在Transformer和CNN特征之后，这不能有效地对齐这两种类型的特征，可能导致由于特征不匹配而性能下降。

IV Experiments

为了定性和定量地展示作者的HAFormer及其各个模块的有效性，作者在基准数据集上进行了比较实验，并与现有最佳（SOTA）方法进行了比较。在本节中，作者首先概述了实验中所使用的数据集、损失函数、硬件平台配置和参数设置。然后，作者介绍了为验证各个模块有效性而进行的一系列消融实验。最后，进行了比较实验，以展示作者方法相对于SOTA方法的优越性。

Datasets

作者的HAFormer模型旨在解决街道场景中与尺度变化和上下文信息相关的挑战。Cityscapes [49] 和 CamVid [50] 数据集是街道场景分割研究中广泛使用的两个主要基准。因此，为了展示作者模型的效能，作者在这两个数据集上进行了系列的全面实证评估。

Cityscapes. 这个数据集包含5,000张高质量图像，这些图像在像素 Level 进行了标注。这些图像来自50个城市中的不同城市环境，分辨率为，主要描绘的是驾驶场景。数据集分为三个子集：2,975张用于训练，500张用于验证，1,525张用于测试。尽管数据集包括了34个类别的标签，但作者的研究特别关注19个基本语义类别。作者使用Cityscapes内置的工具调整标签以适应作者的研究需求。

CamVid. 这是剑桥大学发布的公共城市道路场景数据集。这些图像从驾驶视角捕捉，分辨率为，增加了观察目标的多样性。该数据集包含超过700张标注图像，适用于监督学习。CamVid数据集通常采用11个常见类别来评估分割准确性。这些类别全面代表了城市道路场景中的目标，使它们成为宝贵的研究资源。

8.1 该架构从零开始训练，不使用任何预训练模型。作者采用动量为0.9，权重衰减为的随机梯度下降（SGD），并使用“Poly”学习率策略进行优化。

对于Cityscapes，初始学习率为，批量大小设置为5以最大化GPU内存使用。对于CamVid，初始学习率为，批量大小为8。按照现有做法，作者应用数据增强技术，包括水平翻转、随机缩放和随机裁剪，以引入训练数据的多样性，随机缩放比例从0.25到2.0，Cityscapes的裁剪大小为，持续1,000个周期。为了公平比较，不进行后处理。

最后，按照现有做法，通过所有类别的平均交并比（mIoU）对性能进行定量评估，同时考虑参数数量、FLOPs、GPU使用和处理速度。

Ablation Studies

在本部分中，作者进行了一系列消融实验，以验证方法中每个模块的有效性。

HAPE模块的消融研究。

在作者的HAPE模块（见第三节-B）中，作者提出了四种并行的卷积操作，以全面捕捉不同层次上的图像特征。这之后是PEM，通过一种内容感知的空间注意力机制来增强特征表示能力。在本节中，作者分别展示了作者HAPE模块中的层次方法（记为“HM”）和PEM方法的有效性。

用于比较的 Baseline 模型结构为单线型（如图7所示），包含了标准的残差模块（RMs）。为了展示HM和PEM带来的性能提升，作者首先用HM模块替换 Baseline 模型的RM，省略PEM部分，然后包括HM和PEM模块以测试整个HAPE模块的有效性。

picture.image

表1突显了HM的优越性能，相较于RM，mIoU分别提高了1.47%和1.53%。HM在提取健壮特征方面表现出色，有效地促进深层语义信息的提取。此外，多尺度结构显著增强了模型在特征提取和小目标识别方面的性能。引入PEM进一步将两个数据集上的分割精度分别提高了2.13%和2.74%。

picture.image

在整个实验中，HM和HAPE中的膨胀卷积率均设置为1，以确保公平比较。图8还验证了将HAPE模块与Transformer模块集成时的有效性。

picture.image

膨胀率的消融研究。在本节中，作者探讨了选择的膨胀率如何影响分割性能。在模块数量保持一致的情况下，较大的膨胀率扩大了感受野，使模型能够感知更广泛的范围，因此对于全面特征提取至关重要。

表2显示的结果表明，将膨胀卷积中的膨胀率从全部1变为全部2（前两行）可以提高mIoU约0.5%。进一步地，通过在第二和第三阶段逐步增加膨胀卷积率，作者在两个数据集上观察到性能分别提升了1.21%和1.73%。因此，为了保留空间细节，在作者的方法中，作者在第一阶段和第四阶段分配三个模块，在第二阶段和第三阶段使用六个模块来捕捉网络深度内的复杂语义信息。这种策略优化了 Transformer 编码器的计算，提高了长距离依赖建模。

picture.image

高效 Transformer 的消融研究。

如第三节C部分详细所述，作者在HAPFormer中的另一项关键贡献是高效 Transformer （ET）模块，该模块通过在计算自注意力之前将特征投影到最优的潜在嵌入空间来降低特征的维度。《表3》展示了ET模块与传统 Transformer （记为“TT”）在Cityscapes和CamVid数据集上在分割准确性和计算复杂性方面的性能提升。

picture.image

如表3所示，ET设计在效率和准确性之间展示了优越的平衡。与传统 Transformer “TT”相比，ET在参数数量上减少了18%，计算负载降低了17%，而mIoU仅损失了0.4%。这使得模型在性能影响最小的同时更加高效，甚至提供更快的推理速度。此外，表4的结果也揭示了在整合通过 Transformer 学习的特征后，mIoU显著提升了2.16%。这强调了 Transformer 捕捉长距离依赖关系的卓越能力，这是仅凭CNN无法实现的。

picture.image

另外，在所提出的HAPFormer中，ET层的数量故意限制为2，考虑到计算硬件的限制，并且在约束下力求实现最佳平衡。尽管堆叠更多的ET层可能会带来更好的准确度结果，如图8所示，当大于2时，性能提升幅度显著减缓。而且，在像Cityscapes这样的高分辨率数据集上添加过多的ET层可能会对参数、计算和推理速度产生负面影响，甚至可能导致过拟合。

相关加权融合的消融研究。为了解决CNN和 Transformer 之间的特征不匹配问题，并确保在解码过程中有效恢复特征，作者在第三节D中引入了cw机制。《表4》比较了使用作者的cwF方法与其他两种融合技术（即逐元素加法和连接）获得的结果。该表显示了在整合CNN和 Transformer 特征时，使用这三种融合方法都能增强分割准确性。特别是，作者的cwF在使用一个ET层时比 Baseline 性能提高了2.38%，在使用两个堆叠层时提高了4.06%。**

此外，从表4中作者可以观察到：(a) 与简单的逐元素加法融合方案相比，作者的cwF在两种情况下的性能分别提高了1.27%和1.90%，而在参数数量和FLOPs上仅略有增加；(b) 作者的cwF相对于计算成本较高的拼接操作，分别实现了0.84%和1.01%的mIoU增益，同时在参数数量上减少了大约5%，计算负载降低了15%。这些实验结果进一步证明了作者cwF的有效性。

Comparisons with SOTA Methods

在本节中，作者广泛评估并比较了作者的方法与一些最先进方法的表现和效率，以展示作者提出方法的优点。作者的评估主要关注三个关键方面：分割准确性、模型参数和浮点运算（FLOPs）。

在Cityscapes上的评估结果。表5呈现了在Cityscapes测试集上与先进的语义分割方法的定量比较。每类结果的详细信息在表6中给出，可视化结果在图9中展示。为确保公平性，在测试期间未使用增强技术，其他网络的数据来自相关来源。当代的语义分割模型主要分为两类：一类强调更大尺寸和高精度，另一类优先考虑实时实用性，并在准确性和效率之间取得平衡。

picture.image

虽然大型模型实现了高精度，但它们的FLOPs和速度落后于轻量级模型，这使得它们不适用于资源有限的设备上的实时处理。相比之下，像ENet [10]，ESPNet [12]，CGNet [53]和FPENet [59]这样的轻量级模型在计算上效率较高。尽管它们的参数数量减少了，但它们的整体性能尤其在准确性方面有所不足。在准确性方面，EFRNet-16 [66]与作者的结果相似。然而，值得注意的是，它的参数数量和GFlops是作者的两倍。显然，作者的模型需要更少的参数和计算，突出了作者方法的效率。

在CamVid上的评估结果。为进一步验证作者模型的有效性和泛化能力，作者在表7上与其他轻量级方法在CamVid数据集上的比较。虽然MGSeg [64]在准确性上超过了作者的方法1.6个百分点，但其参数数量却是作者的22倍，这表明了不利的权衡。另一方面，SGCPNet [51]在速度上表现出色，但缺乏准确性。相比之下，作者的HAFormer在各个方面取得了更好的平衡。与Cityscapes相比，在CamVid数据集上的总体性能较低，这是由于其较小的尺寸和较低的分辨率，这突显了作者方法的强大泛化能力。图10中的可视化结果进一步展示了作者HAFormer的优势。

picture.image

速度比较。为确保公平比较，所有方法都在同一平台上执行，因为计算负载直接影响推理速度，而推理速度可能会根据设备的不同而变化。在作者的受控评估中，使用单个NVIDIA RTX 2080Ti GPU来测量模型执行时间。表8详细比较了作者的提出的HAFormer与其他轻量级方法的速度和运行时间。实验涉及用于评估的空间分辨率为，与官方代码的方法保持一致以确保公平性。表8展示了HAFormer令人印象深刻的速度，处理大小为的图像流时达到105 fps，使其成为最快的几种方法之一。尽管DABNet以139 fps的速度运行，但HAFormer的竞争力准确性74.2%对于自动驾驶等现实世界应用非常重要。在速度（105 fps）和准确性之间取得有效平衡，HAFormer成为了实际应用的强有力候选者。

picture.image

V Conclusions

在本研究中，作者引入了HAFormer，这是一种新的轻量级语义分割方法。作者设计了分层感知像素激活模块（HAPE）以提取增强的分层局部特征。

此外，一个高效的Transformer模块能够在有限的计算负载下有效地捕获广泛的全球特征。

然后，作者融入了一种相关性加权融合（cwF）机制，以结合高相关的CNN和Transformer特征，从而改进表示学习。

通过在基准数据集上的大量实验，作者的方法显示了其有效性和泛化能力，突显了HAFormer在以下方面的能力：

参考

[1].HAFormer: Unleashing the Power of.

点击上方卡片，关注「AI视界引擎」公众号

HAFormer：融合 CNN 与 Transformer 的高效轻量级语义分割模型 ！

I Introduction

II Related Work

Hierarchical Methods in Semantic Segmentation

Vision Transformer in Semantic Segmentation

Attention Mechanisms in Semantic Segmentation

III The Proposed Method

Overall Architecture

Hierarchy-Aware Pixel-Excitation (HAPE) Module

Efficient Transformer

Correlation-weighted Fusion

IV Experiments

Datasets

Ablation Studies

Comparisons with SOTA Methods

V Conclusions

参考