BAFNet 双边注意力融合网络用于轻量级城市遥感图像语义分割 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

大规模语义分割网络通常具有高性能，但在样本量有限和计算资源有限的情况下，其应用具有挑战性。在网络大小和计算复杂性受限的场景中，模型在捕捉长时间依赖关系和恢复图像中的详细信息方面面临显著挑战。

因此，作者提出了一个名为双边注意力融合网络（BAFNet）的轻量级城市遥感图像语义分割模型，以有效地分割高分辨率城市遥感图像。

该模型包括两条路径，即依赖路径和远程局部路径。依赖路径利用大核注意来捕获图像中的长时间依赖关系。

此外，作者还设计了多尺度局部注意和高效远程注意来构建远程局部路径。最后，作者设计了一个特征聚合模块来有效地利用两条路径的不同特征。

作者的提出的方法在两个高分辨率城市遥感数据集Vaihingen和Potsdam上进行了测试，mIoU分别达83.20％和86.53％，证明了作为轻量级语义分割模型，BAFNet不仅优于一些先进的轻量级模型，在两个数据集上与非轻量级最先进的方法相比具有可比的性能，尽管 floating-point 运算量和网络参数存在十倍差和十五分之一差异。

unset

unsetI Introductionunset

unset

图像语义分割的目的是将图像中的所有像素进行分类，将其划分为多个特定的语义区域，以便更容易理解和分析图像。由于语义分割是一种强预测任务，神经网络因为具有强大的特征提取能力，成为图像分割的关键工具[1,2,3,4,5]。然而，由于语义分割是一种计算密集型任务，神经网络需要从特征图提取高分辨率特征图，并包含像素级精度的语义信息才能产生满意结果。因此，轻量级分割网络受到关注。在遥感图像领域，轻量级遥感图像分割模型在暴雨检测[6]、燃烧区域检测[7]和农田中的杂草检测[8]等场景中发挥着重要作用。在本文中，作者开发了一种轻量级遥感图像分割模型，并展示了其在增强轻量级模型的分割性能方面的有效性。比较实验的结果如图1所示。

picture.image

语义分割不仅需要足够的上下文信息，还需要详细信息以获得满意结果。因此，通常使用编码-解码结构。编码器从不同尺度的特征图提取上下文信息，而解码器负责恢复空间分辨率，并生成原始图像大小的分割图。为了优化分割模型，主要从两个方面进行优化。一个方面是增强特征提取过程，以捕获更全面上下文，从而获取与不同类别相关的信息。另一个方面是设计一个网络结构，可以完全恢复详细信息，使目标轮廓或小目标得到分割。为了优化上下文信息，捕捉图像中长程依赖性已被证明是非常有效的。图像中的长程依赖性可以指导基于周围物体类别的区域，从而提高分割准确性。卷积神经网络（CNN）由于卷积操作的局部性，在提取局部细粒度信息方面表现出色，但它们在图像中的长程依赖性捕捉方面能力有限。一些方法通过扩大感受野来捕捉图像中的各种依赖性，例如膨胀卷积[9]、大核卷积[10]。为了精确保留详细信息，常用的方法是特征融合，它充分利用多尺度特征恢复空间细节。U-Net[11]采用了逐步上采样策略，并提出了 Short-Cut ，逐步将从编码过程中融合特征图以恢复详细信息。MANet[12]进一步增强了 Short-Cut 的融合过程，通过引入注意力操作将编码过程中的特征图合并。DC-Swin[13]设计了一种新的密集连接特征聚合模块（DCFAM），以充分利用多尺度信息。FT-UNetFormer[14]采用U形的编码器-解码器结构并设计了一个全局-局部注意力模块，同时关注解码器中的全局和局部信息。

然而，由于受制于性能驱动的方法往往使用较大的编码器进行特征提取，并设计复杂的解码器以融合特征，导致参数量大量增加，分离网络的计算量也显著增大。为了适应需要在高效性和计算能力不足的应用场景，有必要提供轻量级且有效的分割模型。除了减少网络规模和计算复杂度之外，轻量级分割模型还需考虑两个方面：获取上下文信息和保持尽可能详细的信息以保持分割性能。目前，轻量级分割网络通常采用较轻的网络进行特征提取，如ShuffleNet、MobileNet、ResNet18等。利用这些网络进行特征提取可以显著减小分割网络的大小。为了保留详细信息，轻量级分割网络设计了两种主要的架构。一种是在编码器-解码器架构中继续使用融合来自编码过程的跳接特征[18, 19]。然而，在特征提取过程中由于多次下采样操作而丢失的详细信息，无法通过简单的解码结构完全恢复。因此，BiseNet[20]提出了一个双路径分割架构，将上下文信息提取和解细节信息提取分离开来。具体来说，输入图像进入两个并行的路径。一个路径上下采样，以获取丰富的语义信息；另一个路径保持高分辨率，使用简单的卷积操作提取局部详细信息。这条独立路径设计实现了获取上下文信息和使用局部详细信息的效果，网络足够轻量。Fast-SCNN[21]提出了自下而上的降采样策略，以提高双边分割网络的性能。由于上下文路径的前几层提取低 Level 特征和细节，因此两个路径可以共享这些 early 层的计算，而不是从头构建详细的或空间路径。DDRNet[22]采用双路径结构，并集成自下而上的降采样和连接两个路径以增强上下文路径和详细路径之间的信息交流。

上述轻量级分割网络仍面临计算限制带来的挑战。首先，在从 RS 图像中提取上下文信息时，必须承认不同的目标通常会显示高度相似的光谱。仅依赖局部信息可能导致不准确的分割。因此，获取图像内的长期依赖关系对于实现精确的 RS 图像分割至关重要。ResNet18，广泛用于轻量级分割模型，是高效的。但是，小尺寸卷积无法有效地捕获图像中的长期依赖关系或大尺寸上下文信息。这一局限性阻碍了分割网络在编码阶段的性能。其次，在恢复详细信息时，使用轻量级编码器-解码器结构，在解码阶段进行卷积核反卷积以恢复高分辨率特征图会增加计算负担。此外，由于富语义信息和高分辨率详细信息特征图的信息内容存在差异，直接连接不能有效地恢复大部分详细信息。对于大多数双边网络，详细路径过于简单。仅依赖少数基本卷积层来提取详细信息，会包含大量未知或无关的信息，从而引入噪声并限制通过详细路径增强分割性能的有效性。上下文和详细信息的不足最终导致了需要进一步改进的轻量级分割模型。在 RS 图像分割领域，缺乏轻量级且令人满意的分割模型。这一驱使作者更深入地研究这个特定领域。

鉴于以上的限制，作者提出了一种双边网络，包含依赖路径和远程局部路径。依赖路径整合了视觉注意力网络（VAN）[23]，使用VAN中的大规模 Kernel 注意力（LKA）以高效捕捉长期依赖。远程局部路径源于依赖路径的浅层，并始终保持高分辨率。对于远程局部路径，作者设计了一个高效的远程注意力模块（ERAM）以及一个多尺度局部注意力模块（MSLAM），以促进其构建。这些模块使路径能够捕获图像中的长期依赖和详细信息。此外，当通过两个路径提取特征时，依赖路径上获得的特征与远程局部路径上提取的特征进行了两次交换。这些交换使远程局部路径能够获取更深入的语义信息，而具有较低分辨率特征图的依赖路径则可以获取一些详细信息。最后，作者开发了一个特征聚合模块（FAM），以将两个路径生成的特征集成，以增强融合结果。

本文的贡献如下：

提出了一种高效的远程注意力模块，用于捕捉大规模上下文信息或长期依赖，并设计了一种新颖的多尺度局部注意力模块，用于捕捉详细局部信息。
构建了一个远程局部路径，该路径以高效远程注意力模块和多尺度局部注意力模块为核心组件。此外，将视觉注意力网络集成作为依赖路径，以高效捕捉长期依赖。作者还开发了一个特征聚合模块，以将两个路径的特征聚合，从而创建了一种双边的轻量级分割网络，称为BAFNet。
通过在公共数据集Vaihingen和Potsdam上的实验验证了所提方法的有效性，实现了83.20%和86.53%的mIoU。这一提升使得与当前轻量级分割模型相比，分割性能得到提高。此外，当与利用大规模Transformer作为编码器的最先进的高性能分割网络进行比较时，BAFNet展示了可比的分割性能，同时将浮点运算次数减少了一个数量级。

unset

unsetII Related Workunset

unset

在本节中，作者主要讨论了代表性的非轻量级高性能分割模型和轻量级分割模型。

unset

unset High Performance Segmentation Model unset

unset

基于CNN的编码器-解码器（Encoder-Decoder）早期的结构在语义分割任务中取得了成功[11,24,25]。CNN生成的空间约束导致了感受野的约束。因此，这些网络可能很难有效地捕捉大规模的上下文信息或长程依赖关系，这可能导致某些物体的误分类。此外，特征提取过程中的下采样可能会导致小规模特征的消除，从而在解码阶段无法有效检索小目标。为了解决受限的感受野和缺乏长程依赖关系的问题，一些研究增强了卷积操作以增加其感受野。一些研究选择了集成注意力机制来增强传统CNN。一些研究利用了Transformer[30]进行视觉分割任务，从而在分割性能上取得了显著提升。

为了解决失去小目标或详细信息的问题，主要的方法包括降低下采样率或实现特征融合。对于降低下采样率的方法，Deeplab系列使用了带特定扩张率的膨胀卷积来扩展感受野，并从高分辨率特征图中捕获复杂的语义特征。HRNet[39]通过使用具有不同分辨率的并行分支在特征提取过程中保持原图像分辨率。这种方法可以在提取高级语义信息的同时有效地保留详细信息。对于特征融合策略，一些研究利用了CNN捕获局部细粒度信息的优势，通过在编码器中集成特征[40]。Transfuse[41]并行集成Transformer和CNN，并提出了一种新颖的BiFusion模块将两者提取的特征融合。Transunet[42]顺序集成CNN和Transformer。它从CNN中获取特征，对其进行维度转换，并将转换后的输入序列作为解码器块的输入以捕捉全局上下文。在解码阶段，解码器上采样编码特征并与CNN产生的高分辨率特征图进行融合，以确保精确的局部化。

其他研究重点在于精心设计解码器以集成来自编码器的各种尺度特征并恢复复杂的细节。FT-UNetFormer利用UNet结构并在解码过程中集成具有全局-局部注意力的Transformer块以有效保留全局和局部信息。此外，引入了一个特征细化头，以增强跳跃连接并促进包含空间详细信息特征图与包含高级语义信息特征图的融合发展。DC-Swin在其解码阶段提出了一种DCFAM，用于提取通过多尺度关系增强的语义特征进行精确分类。FT-UNetFormer和DC-Swin均使用了Swin Transformer[43]进行特征提取，这样编码器可以获得丰富的长程依赖关系。此外，这两种方法都包含精心设计的模块以确保详细信息的恢复，从而在RS数据集上的性能优越。然而，尽管它们的准确度高，但庞大的编码器和解码器结构导致参数数量和计算复杂性的增加，这可能导致其实际应用的阻力。

unset

unset Lightweight Segmentation Model unset

unset

unsetIi-B1 Lightweight encoder-decoder structureunset

unset

轻量级编码-解码分割模型通常避免计算密集型操作，如膨胀卷积或大型核卷积。相反，它们主要利用使用小规模或可分离卷积构建的轻量级网络进行特征提取。例如，ShelfNet [18]在每个空间 Level 上包含多个编码器-解码器分支对，利用 Short-Cut 将编码器和解码器的信息集成到不同特征图尺度。此外，该网络在残差块内实现权重共享策略，以显著降低计算复杂度。类似地，SwiftNet [19] 采用了U型编码器-解码器架构，具有轻量級ResNet18编码器。它引入了一种轻量级上采样机制，具有水平连接来进行密集预测，以确保效率和金字塔池化技术来组合不同空间 Level 的表示，从而扩展感受野并提高整体性能。

DFANet [44] 引入了一种基于深度可分卷积[45]的轻量级Xception网络作为分割网络的 Backbone 。这种方法通过串叠子网络和子阶段来聚合各种尺度的特征。ShuffleSeg [46] 使用ShuffleNet [15]作为其 Backbone ，包含了来自ShuffleNet的通道重排和组卷积技术，以降低计算成本。CgNet [47] 引入了CG块，可以有效地从局部、周围和全局背景中提取特征，从而减少参数和内存使用。

FANet [48] 通过快速的注意力模块和下采样策略实现了速度和平衡。SFNet [49] 引入了流对齐模块（FAM）来改善特征图的对齐。

UNetFormer [14] 采用了ResNet18作为编码器，并使用类似Transformer的解码器来捕获解码过程中的全局和局部上下文信息。

unset

unsetIi-B2 Dual-path structureunset

unset

轻量级分割方法基于编码器-解码器结构，在编码过程中执行多次下采样阶段以提取与类别相关的高级语义信息。然而，由于下采样丢失的空间细节无法完全由解码器恢复，这影响了分割结果。BiseNet [20] 提出了一种双路径法，其中输入图像被分成两个独立的路径：上下文路径，该路径快速下采样图像以捕获语义信息，而位置路径，该路径利用基本卷积操作在高分辨率下提取详细信息。这种架构提高了轻量级分割网络的性能。BiseNetv2 [50] 设计了一个定向聚合层，旨在通过集成不同路径的特征表示加强语义路径和细节路径之间的连接性。此外，还设计了一种增强的训练策略来提高分割性能，而不会增加任何推理成本。ContextNet [51] 具有两个输入，其中具有不同分辨率的图像被分成两个不同的分支。为了实现实时性能，深度和低分辨率的分支用于感知上下文并提供类别信息，而高分辨率分支则较浅，用于细化分割边界。Fast-scnn [21] 提出了 learn-to-downsample 结构，该结构使两个独立的路径共享初始下采样层，从而减少了计算复杂性。DDRNet [22] 采用了共享下采样层和两个路径之间的信息交换，以进行特征提取。此外，还设计了一个深度聚合金字塔池ing 模块（DAPPM），以增强语义路径获得的语义信息。

在遥感图像分割领域，ABCNet [52] 采用了与BiseNet相同的双边架构，并将线性注意力引入轻量级分割模型以增强上下文路径输出的特征，并设计了一个以线性注意力为核心的核心特征聚合模块来完全聚合上下文和空间路径输出的特征。同时，BANet [53] 引入了轻量级Transformer Backbone [54] 在语义路径中提取特征，使轻量级分割模型能够捕获图像中的长程依赖关系。然而，这些以双路径结构为基础的分割模型对非常简单的基本路径关注甚少。尽管保持较小模型大小，但仍有一定的改进空间在准确性方面。

unset

unsetIII Networksunset

unset

BAFNet 的整体结构如图2 (a) 所示，它是一个双边结构，由依赖路径和远程局部路径组成。依赖路径利用 VAN 捕获特征提取过程中的 long-range dependencies，通过对 four 倍下采样，前四阶段的特征图分别占原始图像大小的 1/4, 1/8, 1/16 和 1/32。VAN 阶段由如图2 (b) 所示的 VAN 块堆叠而成。远程局部路径使用远程局部注意力块 (RLAB，如图2 (c) 所示)，三个阶段的块数分别为 2, 1 和 1，分别对应 2, 1 和 1。为了提取 long-range dependencies 并捕捉足够的详细信息，特征图保持相对较高的分辨率，即原始图像大小的 1/8。当作者从两个独立路径提取特征时，两个路径之间的信息交换在两次。最后，作者使用 FAM 聚合高分辨率路径和低分辨率路径的特征图并输入到分割头。分割头包括一个 3x3 卷积和一个个 1x1 卷积。在 3x3 卷积之后，特征图的通道数减半，然后通过 1x1 卷积映射到类别数。通过 8x 双边插值上采样得到原始图像的分割图。

picture.image

unset

unset Dependency Path unset

unset

作者提出了VAN作为依赖路径的特征提取网络。相比于ResNet使用的小型卷积，大核卷积具有更大的感受野，可以有效地捕获长程依赖。然而，更大的卷积核显著增加了计算复杂性。VAN通过降低计算成本进一步改进了大核卷积，使得在图像内部高效地捕获长程依赖。具体地，VAN使用局部卷积、局部膨胀卷积和1x1卷积分解大核卷积，证明分解的三个成分可以有效地取代大核卷积。基于这一思想，作者提出了LKA，如图3所示。LKA采用分解的大核卷积计算输入的注意力图。然后，它将注意力图与原始输入相乘以生成输出。计算过程如图1和图2(b)所示。

picture.image

其中，代表局部卷积，代表局部膨胀卷积，代表1x1卷积。输入依次经过局部卷积、局部膨胀卷积和1x1卷积以得出注意力值，然后与输入元素相乘。

picture.image

VAN专注于LKA且构建了一个VAN模块，如图2(b)所示。模型采用分层的Transformer样式的架构，提供了7种版本，分别表示为VAN-B0到VAN-B6，根据网络大小有所不同。为了构建轻量级的分割模型，作者使用最小且预训练于ImageNet数据集上的VAN-B0作为依赖路径的特征提取网络。四个阶段的输出特征图通道数分别为32、64、160和256。

unset

unset Remote-local Path unset

unset

分布式远程路径是通过利用远程局部归一化（RLAB）如图2（c）所示。分布式局部自注意模块（RLAM）的详细结构如图4所示。在图4中，窗口分区是指在Swin Transformer中使用的窗口分区操作。

picture.image

III-B1 多尺度局部自注意模块

作者设计了一个多尺度局部自注意模块，如图4所示，以 fully 捕捉高分辨率特征图上的详细局部信息。如图5（a）所示的倒置瓶颈，通过1x1卷积将特征图的通道数增加到了原来的两倍。然后通过1x1卷积将通道数降至原始输入。这个过程最终提高了准确性。作者使用多个尺度不同的深度可分卷积来提取详细信息，然后将其集成到倒置瓶颈结构。为了减少计算量，作者将通道数扩展因子设为2，从而得到了多尺度倒置瓶颈（MSIB），如图5（b）所示。与需要生成 Query （q）、键（k）和值（v）三部分以计算注意力是基于q和k之间相似度的自注意机制不同，作者提出的MSLAM 仅通过 MSIB结构获取注意力。如等式3至等式6所示，给定输入，首先，通过1x1卷积将输入通道c扩展为2c。然后，使用 Kernel 大小为3、5和7的深度可分卷积为提取特征。三个单独尺度分支的输出之和 subsequent，通过对1x1卷积将特征维数降至c，得到注意力，最后将其与线性变换输入相乘。然后应用1x1卷积以获得 MSLAM 的输出。

picture.image

unset

unsetIii-B2 Efficient remote attention moduleunset

unset

除了捕捉多尺度详细信息外，远程局部路径还具有提取长程上下文信息的具体能力。为了从依赖路径中提取包含长程依赖的语义信息，以便指导详细信息的提取，远程局部路径必须具备相应的安全结构来捕获这些长程依赖。在视觉Transformer[55]中使用的自注意力机制展示了全局建模的能力，允许在特征图内捕捉全局信息。然而，随着输入图像分辨率的增加，计算复杂性显著提高，因为需要计算整个图像范围内的注意力值。

Swin Transformer将特征图划分为非重叠窗口区域，在每个窗口内计算注意力值，并使用位移操作促进不同窗口之间的信息交流。然而，位移操作过程耗时。因此，Swin Transformer块包含两个不同的注意力计算过程，即多头自注意力（MHSA）和位移窗口多头自注意力（SW-MHSA）。在轻量级分割网络中，将注意力计算过程堆叠两次可能并不最优化。为了充分利用Swin Transformer中的窗口自注意力并促进其有效地轻量级分割网络，作者已移除位移操作。

相反，引入了7x7的深度卷积以促进不同窗口间的信息交换，遵循窗口注意力。因此，作者提出了ERAM，如图4所示。ERAM具有捕获长程上下文信息或依赖的能力，其计算过程如公式7和8所示。

其中，代表第-个ERAM的输入，表示层规范化操作，表示窗口中的多头自注意力，表示Swin Transformer块中的MLP模块，表示7x7的深度卷积，表示整个ERAM的输出。

unset

unset Information Exchange Between Paths unset

unset

构建了两条路径后，作者在特征提取过程中将这两个路径之间交换信息两次。这些交换旨在将特定详细的上下文信息合并到依赖路径中，并将来自依赖路径的深刻语义信息整合到远程-本地路径中，从而提高每个路径的表示能力。在交换过程中，通过逐元素相加的方式将两个路径的特征图融合。由于打算融合的两个路径的特征图的分辨率和通道数不同，因此必须调整特征图以对齐。具体而言，要将用于融合到另一条路径的特征图调整以匹配目标特征图在两个通道和分辨率上。这种方法涉及使用1x1卷积和归一化来修改通道数，以及使用双线性插值来调整分辨率。为了降低计算复杂性，远程-本地路径中每个输出特征图的通道数被设置为128。

unset

unset Feature Aggregation Module unset

unset

依赖路径提供较低的分辨率和对抽象语义信息的表示，而远程本地路径则包含一系列上下文信息和丰富的详细信息。这两路径的内容和分辨率差异明显。作者的目标是充分利用两路径的输出特征来提高分割结果。为此，作者设计了一个FAM（融合模块）来整合两路径的输出特征，如图6所示。

picture.image

对于两个路径的输出和，其中表示依赖路径输出特征的低分辨率特征图，表示远程本地路径输出特征的高分辨率特征图。作者首先使用1x1卷积对中的通道与中的通道进行对齐。然后将输出进行上采样以匹配的特征图分辨率，得到转换后的输出。

其中代表双线性插值上采样操作，上采样因子为4。

FAM首先将具有相同通道数和分辨率的特征图和拼接在一起，以生成特征图。然后，经历线性变换、全局池化和5x5卷积。使用 sigmoid 函数获得通道权重。然后通道权重与相乘，相当于进行不同通道的选择和组合。类似于通道注意力[56]，FAM更好地利用了由两路径生成的不重叠特征。具体过程见公式10和11。

picture.image

其中，表示远程本地路径的特征图输出，表示对特征图在通道维度上的拼接操作，表示拼接后的特征图，表示线性变换，表示全局平均池化操作，表示5x5卷积，是批标准化，表示 sigmoid 函数。

unset

unset Loss Function unset

unset

在遥感数据集（RS datasets）中，一个常见的现象是类别不平衡，即不同类别之间的样本数量存在显著差异。由于类别不平衡，整体分割性能往往表现不佳。类别样本数量较少的往往很难获得令人满意的分割结果。 dice 损失（57）已被证明在类别数量较多的情况下防止过拟合的同时，确保对类别数量较少的样本给予足够的关注。作者使用了一个混合损失函数，该函数将交叉熵（CE）损失和 dice 损失相结合。混合损失使模型更关注难以分割的类别，从而提高了在类别不平衡数据集上的模型性能。方程12和13分别表示 CE 损失和 dice 损失，方程14表示网络训练中所采用的混合损失。

其中，代表样本数量，代表类别数量，表示标签的一维热编码，表示分割网络的软max输出，是样本属于类别的置信度。

unset

unsetIV Experimentsunset

unset

unset Experimental Setup unset

unset

unsetIv-A1 Datasetsunset

unset

在本次实验中使用了两个数据集，分别是Vaihingen和Potsdam。

Vaihingen: Vaihingen数据集包括33个正射的顶部图像，每张图像有三个多光谱波段（红，绿，近红外）和一个数字表面模型（DSM）。地面采样距离（GSD）为9厘米，图像的平均大小为2494x2064像素。数据集中包括五个前景类别（改善表面，建筑物，低植被，树，汽车）和一个杂波。与以前的工作一样，作者使用了17张图像进行测试，ID：2，4，6，8，10，12，14，16，20，22，24，27，29，31，33，35，38。其余16张图像用于训练。在实验过程中，作者没有使用DSM。

Potsdam: Potsdam数据集包括38个正射的顶部图像，每张图像有四个多光谱波段（红，绿，蓝，近红外）以及DSM和标准DSM。GSD为5厘米，每张图像的大小为6000x6000像素。该数据集的数据类别与Vaihingen数据集相同。作者使用了14张图像进行测试，ID：2_13, 2_14, 3_13, 3_14, 4_13, 4_14, 4_15, 5_13, 5_14, 5_15, 6_13, 6_14, 6_15, 7_13。在移除错误的annotations后，剩下了23张图像用于训练。在实验过程中，只使用了红，绿和蓝通道。

unset

unsetIv-A2 Evaluation indicatorsunset

unset

图5：不同的瓶颈结构，（a）反转瓶颈，（b）多尺度反转瓶颈

模型在数据集上的性能通过两个方面进行评估。在分割性能方面，通过整体准确性（OA）、平均交点与 union（mIoU）和累积混淆矩阵上计算的平均F1分数来衡量。

其中, , , 和分别表示被列为类别的目标的真正 positive、假正

unset

unsetIv-A3 Comparison methodsunset

unset

比较方法包括高效轻量级分割模型和非轻量级高性能模型。轻量级分割模型包括编码器-解码器结构的网络：SwiftNet [19]，ShelfNet [18]，UNetFormer [14]，以及双侧结构的网络：BiseNet [20]，ABCNet [52]，BANet [53]，DDRNet [22]。还有两个非轻量级模型，FT-UNetFormer [14]和DC-Swin [13]，它们是Vaihingen和Potsdam的当前最先进方法。

unset

unsetIv-A4 Implementation detailsunset

unset

在本次实验中，所有模型均使用PyTorch框架实现，并在一个NVIDIA GTX 3090 GPU上执行。使用的优化器是AdamW，并将初始学习率设定为2e-4，权重衰减设定为1e-4。学习率使用余弦策略进行调整。

对于两个数据集，大型图像块被裁剪为512x512像素。在训练过程中，使用了增强技术，如随机缩放([0.5, 0.75, 1.0, 1.25, 1.5]),随机垂直翻转，随机水平翻转以及随机90度旋转，每次训练周期为60，批量大小为16。在测试阶段，采用了测试时间增强（TTA）技术，如多尺度和随机翻转增强。

unset

unset Experimental Results unset

unset

表1展示了各种对比方法在Vaihingen数据集上的分割结果，其中每个项目的最佳值用粗体标注。作者提出的BAFNet在平均F1、OA和mIoU方面优于其他轻量级网络，同时保持网络参数和FLOPs较低。值得注意的是，与目前在Vaihingen数据集上的最先进轻量级模型UNetFormer相比，BAFNet在Imp. Surf、Building、Low veg和Car类别上的改善程度不同，尤其是在Car类别中，改善了1.2%以上，表明作者提出的BAFNet在小目标上表现最佳。与在Vaihingen数据集上的两个最佳非轻量级模型DC-Swin和FT-UNetFormer相比，显然DC-Swin使用了更强的Swin-Small作为特征提取器，它具有10倍于BAFNet的参数数量和6倍于BAFNet的FLOPs。尽管BAFNet具有微弱的优

unset

unset Ablation Experiment unset

unset

Ablation实验在Vaihingen和Potsdam数据集上进行，以评估提出的模块，结果如表3所示。在网络不同部分的Ablation实验中，使用了先前所述的混合损失进行训练。训练过程中持续数据增强应用，测试阶段相同增强策略被使用。表3中，Cp代表仅包含依赖路径的网络，RA代表仅包含所提出的有效远程注意力模块的远程局部路径，LA代表仅包含所提出的多尺度局部注意力模块的远程局部路径，而FAM则表示所提出的特征聚合模块。

picture.image

基准: 使用ResNet18 [17]作为基准，最后阶段的特征图直接上采样到原始输入图像的大小。

Ablation依赖路径: 通过比较VAN-B0和ResNet18在表3中的分割结果，可以看到VAN-B0的效果优于ResNet18，同时在Vaihingen和Potsdam数据集上，均实现了轻微的平均F1，OA和mIoU提升。值得注意的是，VAN-B0的参数量少于ResNet18，这意味着在轻量级分割网络中，具有较大核注意力特征提取网络比传统的小规模卷积更有效。

Ablation MSLAM: 与CP和CP+LA相比，后者包含多尺度局部注意力模块作为核心，建立了额外的分割路径，从而有效提升了分割性能。在Vaihingen数据集上，平均F1分数提高了3.04，OA提高了1.01%，mIoU提高了4.6%。在Potsdam数据集上，平均F1分数提高了1.06，OA提高了0.66%，mIoU提高了1.85%。这表明，在分割网络中除了依赖路径，还集成了一个能捕捉多尺度局部详细信息的路径，可以显著提升其性能。

Ablation远程局部路径: 使用有效远程注意力和多尺度局部注意力建立远程局部路径。比较CP和CP+RA+LA Ablation FAM: 作者设计了一个FAM，可以有效地整合两个不同路径生成的特征图。对于CP+RA+LA+FAM，即作者提出的BAFNet。在表3的结果中，与CP+RA+LA+FAM和CP+RA+LA（总和）相比，FAM优化了整体分割性能。平均F1评分、OA和mIoU都优于直接加权融合方法，表明FAM的有效性。

unset

unset Visualization of Feature Maps unset

unset

为了探索作者提出的MSLAM和ERAM的预期影响，作者通过图9中的远程-局部块相关特征图来可视化与强化学习相关的复杂细节。MSLAM旨在从图像中提取丰富的细节，其结果特征图被称为局部上下文。在Swin变换中提出的原生窗口注意力旨在在特定窗口内计算自注意力。这产生的特征图被称为窗口上下文。ERAM通过移除窗口平移操作并采用深度卷积来改进窗口自注意力，以促进各种窗口之间的交互。这产生的特征图被称为远程上下文。最终，局部上下文和远程上下文的融合结果为远程-局部上下文，这是每个RLAM输出的特征图。

picture.image

通过对图9中第二列的Local Context的分析，作者可以观察到MSLAM有提取大量详细信息的能力。然而，卷积操作的局部性质和长期依赖性缺乏引导导致特征图出现许多不必要的线条。例如，第一行图像的道路特征图由于树木阴影和车道标线的不同显示了不同的颜色。同样，原始图像中相同低植被区域的多种颜色导致特征图出现许多斑点。建筑上的天窗轮廓在第二行过于明显，而天窗没有落入特定的类别，为详细信息的复杂性增加了难度，可能导致分割的困惑。在图9的第三列，通过窗口注意力，同一窗口内的特征相对平滑。然而，整个特征图有许多不规则的分界，这是由于窗口划分操作引起的。图9的第四列，由窗口注意力形成的Remote Context，这种方法有效地降低了不规则边缘。然而，特征图范围内广泛的上下文中存在缺乏细度的缺陷。最终的Remote-Local Context结合了局部模块获得的详细信息和远程模块获得的长期依赖性。来自两个特征图融合的同类特征一致，不同类别的特征明显区分，从而得到明确的边界，有助于分割。这证明了作者构建的RLAM的合理性。

unset

unset总结unset

unset

在本文中，作者提出一种用于具有有限计算资源的RS图像分割任务的新型轻量级双边网络BAFNet。它采用了一个轻量级背心和大的核注意力来提取语义信息，有效地捕捉到在不同计算约束下的图像中的远程依赖性。

同时，作者提出了一种高效的远程注意力模块和一个多尺度局部注意力模块作为基本组成部分，以建立远程-局部路径。此外，作者还引入了一个特征聚合模块以有效地利用这两个路径中的提取特征。

在Vaihingen和Potsdam数据集上的实验表明了所提出模块的有效性，并且BAFNet进一步改进了轻量级分割网络的性能。与多个先进的轻量级分割模型相比，BAFNet在分割准确性和网络复杂性方面均具有优势。

与数据集上的非轻量级state-of-the-art模型相比，BAFNet在可比分割性能的同时，将网络参数和浮点运算降低了十倍。

作者希望未来的研究能够优先探索轻量级背心，充分发掘其潜力，并开发更加合理的网络架构以提高准确性和实用性。

点击上方卡片，关注「AI视界引擎」公众号