AtrousMamba:融合空洞窗口扫描与视觉状态空间,实现局部与全局感知平衡的新型Mamba框架 !

大模型数据中台机器学习

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

近期,一种新型视觉状态空间(Vss)模型Mamba在长序列建模方面取得了显著进展,其线性复杂度与Transformer模型相当,从而增强了处理视觉数据的适应性。尽管大多数方法通过直接修改Mamba的扫描机制来扩大全局感受野,但它们往往忽视了密集预测任务中局部信息的关键重要性。

此外,Mamba能否像卷积神经网络(CNN)那样有效提取局部特征,仍是一个值得进一步研究的问题。在本文中,作者提出了一种新型模型AtrousMamba,该模型有效地平衡了细粒度局部细节的提取与全局上下文信息的整合。

具体而言,引入了空洞窗口选择性扫描机制,能够以可调节的速率逐渐扩展扫描范围。这种设计缩短了相邻token之间的距离,使模型能够有效捕获细粒度局部特征和全局上下文。

通过利用空洞窗口扫描视觉状态空间(Awvss)模块,作者设计了专门用于二值变化检测(BCD)和语义变化检测(SCD)的端到端Mamba框架,分别称为AWMambaBCD和AWMambaSCD。

在六个基准数据集上的实验结果表明,所提出的框架优于现有的基于CNN、基于Transformer和基于Mamba的方法。这些发现明确表明,Mamba不仅能够捕获视觉数据中的长程依赖关系,而且能够有效保留细粒度局部细节。

unsetunset1. 引言unsetunset

遥感变化检测(RSCD)是指利用卫星或航空影像检测地球表面在不同时间周期内的变化的过程。该技术在环境监测、城市扩张分析和农业土地利用评估等多种应用中发挥着重要作用(Peng等人,2025)。随着遥感技术的快速发展,大量具有不同空间分辨率和传感器模式的影像变得可用,从而加剧了对自动识别双时相影像对中土地覆盖变化的自动化方法的需求(Zhu等人,2024b)。

根据输出变化图中的语义标签要求,变化检测任务通常分为二值变化检测(BCD)和语义变化检测(SCD)(Ding等人,2022年;Zhang等人,2020a)。

BCD的目标是利用二值分类标签,在双时相影像中区分变化像素与未变化像素。相比之下,SCD具有更大的挑战性,因为它不仅检测变化区域,还为变化分配语义类别,从而在像素 Level 提供细粒度的“从-到”转换(Daudt等人,2019年;Peng等人,2021年;Zheng等人,2022年)。大多数现有方法专门针对BCD或SCD进行设计,而一个统一框架能否有效提升两项任务的表现,仍是一个悬而未决的问题。

为了从高分辨率光学遥感图像中提取复杂模式,卷积神经网络(CNNs)和视觉Transformer(ViTs)两种主流架构被广泛应用于生物多样性分类(BCD)和时空分类(SCD)任务中。CNNs的一个显著缺点在于其建模全局上下文信息的能力有限,这源于其固有的感受野限制。相比之下,ViTs由于引入了自注意力机制(Dosovitskiy et al., 2020; Vaswani et al., 2017),能够动态加权且不受感受野限制,因此在捕捉全局依赖关系方面通常更有效。然而,这一优势是有代价的:自注意力操作随输入规模呈平方级扩展,导致处理高分辨率数据时产生显著的计算负担。为缓解这一问题,研究行人提出了通过限制窗口大小或调整计算步长来提高效率的自注意力变体。尽管这些方法有所改进,但它们本质上需要在计算效率和建模长程空间交互能力之间进行权衡。

结构化状态空间序列模型最近在序列建模任务中引起了广泛关注,作为一种有吸引力的替代方案。结构化状态空间序列模型(S4)[Gu et al., 2021]引入了一种创新的参数化方法,将状态空间系统的连续时间、循环和卷积公式统一,从而实现长距离依赖关系的高效建模。为了克服S4的某些局限性,Mamba[Gu and Dao, 2023]在序列传播过程中引入了动态权重调制,显著扩展了有效感受野。这些模型以其线性计算复杂度为特征,在处理长序列方面表现出色,在计算机视觉(Liu et al., 2024; Xiao et al., 2024; Zhu et al., 2024a)和医学图像分割(Ma et al., 2024a; Ruan and Xiang, 2024)等领域取得了显著成功。然而,这些架构中使用的扫描机制往往导致相邻像素之间存在空间不连续性,从而阻碍了信息的平滑传播。此外,当应用于遥感影像时,这些模型仍然存在不足,突显了在不同变化检测子任务中进一步探索其有效性的必要性。

本研究介绍了AtrousMamba,一种基于Mamba框架构建的高效架构,专门针对RSCD任务进行设计。所yinqing-AtrousMamaba_2507利用Mamba的能力,有效建模局部和全局上下文依赖关系,同时从多时序输入中捕获时空模式。通过整合多尺度上下文特征,该模型能够准确识别多样化的土地覆盖转变,并在BCD和SCD子任务中均表现出优异性能。具体而言,如图1所示,所提出的模块采用具有多种膨胀率的空洞窗口扫描视觉状态空间模型,将图像划分为四个不同尺度的窗口组。在每个组内,来自所有窗口的图像块被展开并沿水平遍历路径排列成序列。这四个窗口组的图像块序列并行地使用独立的S6模块进行处理,确保同一2D语义区域内的标签被一起处理,同时建立不同窗口间语义标签之间的连接。通过逐步扩展感受野,模型能够捕获更多的局部特征信息。

picture.image

总之,本研究的主要贡献如下:

  1. 作者提出了一种用于状态空间模型(SSMs)的新型扫描方法,称为孔径窗口扫描视觉状态空间(AWVSS),该方法集成了四种具有不同窗口率的可选扫描机制,增强了模型捕捉详细局部信息的能力,同时保留了全局上下文。
  2. 基于VSS和AWVSS,作者提出了一种定制化的端到端Mamba网络,专门用于两种变化检测任务,即BCD和SCD,从而显著提高了模型的准确性和计算效率。
  3. 调整窗口扫描模块(AWSM)旨在保持相邻 Token 在不同窗口扫描序列中的空间邻近性,从而同时建立全局和局部感受野,同时增强通道间信息交互。
  4. 作者在六个广泛使用的BCD和SCD遥感图像数据集上进行了大量实验。结果表明,AtrousMamba在精度上与最先进的基于CNN和Transformer的方法相比具有竞争力,并且超越了最近提出的基于Mamba的变更检测方法。

unsetunset2. 相关工作unsetunset

2.1. 二进制变化检测

基于Siamese网络的变更检测方法首次由(Zhan et al., 2017)提出。当前大量变更检测方法采用Siamese网络框架,该框架能够并行编码双时相遥感影像。由于卷积神经网络(CNN)在从空间数据中提取有意义特征方面具有强大能力,尤其是在遥感应用领域,因此已被广泛应用于变更检测(BCD)任务。研究行人已投入大量工作通过多种技术提升变更检测效果,包括多级特征融合(Zhang et al., 2020a; Zhao et al., 2023)、基于差异的表征建模(Shu et al., 2022; Song et al., 2022)以及注意力机制的应用(Fang et al., 2021; Wang et al., 2021; Yin et al., 2023)。

已提出三种全卷积神经网络(FCNN)架构(Daudt等人,2018),用于对多时相地球观测图像进行变化检测,这标志着首次使用具有 Shortcut 的两个全卷积孪生架构。FDCNN(Zhang等人,2020b)利用CNN从遥感图像中提取深度特征,并通过迁移学习构建一个具有共享权重的双通道网络,以生成用于建筑变化检测(BCD)的多尺度多深度特征差异图。SAGNet(Yin等人,2023)提出了一种用于BCD的关注引导孪生网络,该网络在空间上下文、高层和低层特征之间建立内部联系,同时融合全局和差异信息。GAS-Net(Zhang等人,2023)利用自注意力机制增强上下文学习和特征提取,并利用前景感知模块强化前景信息,从而促进场景与前景之间关系的探索。考虑到高分辨率遥感(HRRS)图像中局部特征细节的退化可能导致“非语义变化”的错误识别以及边界提取不完整或不规则。CF-GCN(Wang等人,2024c)基于非局部块的概念构建了基于空间交互的图卷积,并引入特征交互分支以促进通道交互。这使得能够捕捉每个区域的上下文及其与相邻区域的关系,从而实现变化区域的有效推理。

上述方法通过有效提取局部特征,显著提升了变化检测的性能。然而,卷积架构的内在局部性限制了其建模长距离依赖的能力,当变化区域在大背景下Sparse且分散时,这一问题尤为突出。为应对这些挑战,越来越多的研究开始探索使用注意力机制来增强特征表示并提升整体检测性能。BIT(Chen等人,2021)引入Transformer来高效地建模双时序图像中的上下文,将输入图像表示为一系列token,并在紧凑的基于token的时空表示中建模上下文。ChangeFormer(Bandara和Patel,2022)采用基于Transformer的Siamese网络架构,使用一对配准的遥感图像进行BCD。SwinSUNet(Zhang等人,2022)设计了一个纯Transformer网络,具有Siamese U形结构,从双时序图像中提取多尺度特征,从而更好地提取全局时空信息。ICIFNet(Feng等人,2022)提出了一种尺度内交叉交互和尺度间特征融合网络,有效结合CNN和Transformer,共同利用局部和全局特征。DMINet(Feng等人,2023)将自注意力和交叉注意力统一到一个模块中,以引导每个输入的全局特征分布,促进层内表示之间的信息耦合,同时抑制任务无关的干扰。

尽管现有方法在变化检测方面取得了一定的改进,但它们通常在平衡准确性与计算复杂度方面面临挑战。这主要归因于卷积网络的局部感受野以及基于Transformer的模型的资源需求较高。大多数现有方法优先考虑检测精度,但往往忽视了计算效率。此外,它们在识别“非语义变化”区域方面的能力有限,这削弱了它们的整体有效性。相比之下,基于Atrous Window Scan Visual State Space(AWVSS)建模提出的BCD和SCD架构,在全局上下文感知与局部细节提取之间取得了良好的平衡,从而能够在遥感图像中进行高效且有效的变化检测。

2.2. 语义变化检测

现有关于变化检测的研究主要针对变化检测(BCD),其目的是确定多时相影像中变化的位置。相比之下,语义变化检测(SCD)不仅识别变化区域,还为检测到的变化分配土地覆盖类别,从而揭示变化的性质。为了解决SCD任务,已经提出了多任务学习框架。一种典型的设计采用具有三个独立分支的编码器,每个分支分别用于变化检测和两个语义分割(SS)子任务(Daudt等人,2019)。或者,引入了一种双分支编码器结构,其中在变化检测(CD)和SS子任务之间共享特征表示(Ding等人,2022)。

SCDNet(Peng等人,2021)采用具有共享权重的Siamese UNet架构,以促进双时序图像的有效多级特征表示与融合。为捕获多尺度变化,编码器集成了多尺度空洞卷积单元。此外,在解码阶段引入了注意力机制和深度监督,以提升特征融合并缓解梯度消失问题。基于新型CNN架构(SSCD-l),BiSRNet(Ding等人,2022)整合了两个Siamese语义推理模块,以建模每个时序分支中的语义信息。此外,采用跨时序语义推理模块捕获时序相关性,同时使用语义一致性损失函数对齐语义与变化表示。ChangeMask(Zheng等人,2022)将SCD任务解耦为时序语义分割任务和BCD任务,然后将这两个任务整合到利用语义变化因果关系和时序对称性的通用编码器-Transformer-解码器框架中。

卷积神经网络在从整体视角建模不同特征层之间的交互时存在局限性,这常常导致在检测变化时出现误差,特别是在包含多样化目标的复杂场景中。因此,近期的研究工作集中于通过注意力机制和多尺度特征融合等技术来增强变化差异提取和语义特征表示。MTsCD-Net(崔江,2023)是一种多任务学习方法,通过结合卷积神经网络和Transformer架构,旨在充分利用语义分割任务与BCD任务之间的相关性。SCanNet(丁等人,2024)采用三重“编码器-解码器”卷积神经网络架构来提取语义和变化特征,并引入SCanFormer来显式建模双时相遥感图像(RSI)之间的“从-到”语义转换。此外,它还结合了与SCD任务对齐的时空约束,以有效指导语义变化的识别学习。CdSC(王等人,2024b)网络开发了一个三维交叉差异模块,用于探索时空实例特征中的深层差异。此外,引入了SCE模块以增强差异特征与双时相表示之间的一致性。HGINet(龙等人,2024)利用图学习来建模不同特征层之间的交互,提升复杂SCD场景中的检测性能。此外,它还采用交叉学习策略来提高未变化区域的识别能力。

当前大多数变化检测技术都是独立设计用于处理BCD或SCD。相反,所yinqing-AtrousMamaba_2507展现出强大的泛化能力,并在BCD和SCD任务中均提供一致的性能。

2.3. 状态空间模型

主流基础模型主要采用CNN和Transformer架构,这两种架构在视觉和语言领域都非常普遍。然而,CNN固有的感受野受限以及Transformer巨大的计算需求,在性能与效率之间实现最佳平衡方面构成了挑战。状态空间模型(SSMs)(Gu等人,2021;Smith等人,2022)通过递归方式建模序列来应对这一挑战。增强机制Mamba(Gu和Dao,2023)在传播过程中引入权重调制,有效扩展了感受野,并在NLP任务中取得了优异成果。在此基础上,大量研究尝试通过将2D图像特征转换为1D序列来将Mamba应用于计算机视觉,并采用了多种预定义方法。

为解决单向建模和缺乏位置编码的约束,引入了一种新型通用视觉 Backbone 网络Vim(Zhu等人,2024a)。Vim结合位置嵌入来编码图像序列中的空间信息,并采用双向状态空间模型(SSMs)有效压缩视觉表征。单次扫描操作难以同时捕获多方向上的依赖信息。为克服这一限制,将交叉扫描模块(CSM)融入VMamba(Liu等人,2024),实现在二维图像空间中的一维选择性扫描,从而促进全局感受野的形成。然而,Vim和VMamba等先前方法由于空间距离的扩展,在有效捕获同一语义区域内相邻像素间的依赖关系方面面临挑战。相比之下,LocalMamba(Huang等人,2024)将token划分为不同窗口,允许在每个窗口内遍历,从而提升捕获局部依赖的能力。GrootVL(Xiao等人,2024)网络基于空间关系和输入特征动态生成树状拓扑,有效消除了原始序列的约束,进而增强网络的表征能力。

在遥感领域,RSMamba(Chen等人,2024b)引入了一种动态多路径激活机制,克服了原始Mamba模型中单向建模和位置不敏感性的局限性,在多种遥感图像分类数据集上实现了优越的性能。RS3Mamba(Ma等人,2024b)通过协作完成模块(CCM)将VSS与自注意力机制相结合。尽管这种集成有助于提高分割精度,但由于引入了自注意力机制,模型复杂度显著增加。RSM(Zhao等人,2024)集成了全向选择性扫描模块,以多方向全局建模上下文信息,提取多方向的大空间特征,并高效地执行密集预测任务。ChangeMamba(Chen等人,2024a)采用最前沿的视觉Mamba架构作为其编码器,能够从输入图像中全面学习全局空间上下文信息。CDMamba(Zhang等人,2024)旨在利用Mamba的全局特征提取能力,同时通过卷积增强局部细节。尽管该方法取得了有前景的性能,但需要300个epoch的较长训练时间。先前研究调查了多种扫描策略以序列化图像并提高Mamba对视觉数据的解释能力。然而,无论采用单向还是组合扫描方向,这些方法通常处理整行或整列,导致在建模同一语义区域内相邻像素之间的依赖关系时产生过长的空间距离。此外,此类策略在相邻像素之间引入空间不连续性,从而阻碍了信息沿序列的平滑传播。

相比之下,本研究通过采用渐进式空洞窗口扫描策略,探究了Mamba在局部特征提取方面的能力,并提出了AtrousMamba架构。该框架成功结合了全局上下文表示与细粒度局部细节的保留,从而显著提升了变化检测性能。

unsetunset3. 方法论unsetunset

3.1. 预备知识

3.1.1. 状态空间模型

SSMs(Gu等人,2021)通过隐藏状态表示

处理输入序列

以生成输出响应

。这些模型使用线性常微分方程进行数学表述,如下所示:

在AeRNxN中,

,以及Ce RNx分别是权重参数。

在实际应用中,连续系统采用零阶保持法进行离散化,将连续时间参数

在采样间隔

内转换为它们的离散对应形式

这导致方程(1)转化为离散化模型公式:

为提高计算效率,可通过全局卷积利用并行计算加速方程(3)中所述的迭代过程,具体如下:

其中

表示卷积操作,

作为SSM的核。该方法利用卷积同时在整个序列上生成输出,从而提高计算效率和可扩展性。

3.1.2. 选择性状态空间模型

传统的序列状态空间模型(SSMs),如S4(Gu和Dao,2023年),旨在以线性时间复杂度捕捉序列上下文。然而,它们对静态参数化的依赖限制了其内容依赖推理的能力。为克服这一限制,选择性SSMs——即Mamba(Liu等人,2024年)——引入了对系统矩阵A、B和C的动态调制,使其能够响应输入信号,从而转向数据驱动范式。通过直接从输入序列u(t)计算B、C以及离散化步长和Δ,Mamba增强了灵活性并提升了序列感知能力。除了在序列长度方面保持线性可扩展性,Mamba还为视觉相关任务的应用开辟了新的途径。

3.1.3. 视觉状态空间模型

基于Mamba高效建模长序列的能力,VMamba(Liu等人,2024)提出了一种通用的视觉 Backbone 网络,该网络在保留视觉Transformer(ViT)表示能力的同时显著降低了计算开销。如图2所示,VMamba通过集成交叉扫描模块(CsM)进一步提升了与视觉数据的兼容性,该模块能够在二维空间域中进行一维选择性扫描,从而建立全局感受野并提升整体性能。

picture.image

VMamba首先使用一个stem模块将输入图像分割成多个patch,生成一个二维特征图,其空间维度为

。后续的架构由多个层次化的阶段组成,每个阶段都使用包含S6模块的VSS块构建,以实现针对2D视觉输入的选择性扫描。这些VSS块是VMamba的核心组件,除第一个阶段外,所有阶段之前都设有下采样层。通过这种设计,模型逐步生成具有不同空间分辨率的特征表示,分别为

。下采样操作通过patch merging实现,而VSS块的具体架构如图3所示。VMamba以三种配置实现:VMamba-Tiny、VMamba-Small和VMamba-Base。基于VMamba主干网络,所提出的两种架构的编码器结构分别如图4和图5所示。从四个层次化阶段提取的多尺度特征随后分别输入到BCD解码器和SCD解码器中。

picture.image

picture.image

picture.image

图6. 螺旋窗口扫描机制示意图 a) 螺旋窗口视觉状态空间 b) 螺旋窗口s2 c) 螺旋窗口扫描合并模块

3.2. 网络架构

作者提出了一种基于Mamba的端到端网络架构用于变化检测,利用了AtrousMamba和VMamba,分别命名为AWMambaBCD和AWMambaSCD用于二值和语义变化检测。如图4和图5所示,BCD和SCD网络的编码器采用基于VMamba的权重共享Siamese架构,而解码器则使用AtrousMamba框架设计。VMamba是一个基于SSMs构建的通用视觉 Backbone 网络,具有全局感受野和动态权重特征,能够提升视觉表征学习的效率。AtrousMamba架构使模型能够有效捕获全局上下文信息,同时保留细粒度的局部特征,从而增强其变化检测能力。

3.2.1. AWMambaBCD:

AWMambaBCD是一种专为BCD任务设计的专用架构。它首先采用Siamese编码器从双时序输入图像中提取多级特征。这些特征随后被输入到一个基于AtrousMamba框架的任务特定变化解码器中。通过逐步扩展感受野,解码器能够有效捕捉不同特征级之间的时空依赖关系,从而实现精确的二值变化检测。BCD解码器的详细架构在D节中提供。

3.2.2. AWMambaSCD

采用三分支解码架构的多任务SCD网络在近期研究中已被广泛采用(Ding等人,2022)。基于AWMambaBCD框架,作者提出的AWMambaSCD包含三个解码分支:一个中心分支作为变化检测(CD)头,以及两个辅助分支(顶部和底部)作为语义分割(SS)头。语义变化检测解码器的详细设计在D节中描述。

3.3. 膨胀窗口扫描用于视觉表示

当前基于Mamba的方法(Chen等人,2024a;Chen等人,2024b;Ma等人,2024b;Wang等人,2024a)继承了VMamba图像展平方法的一个显著局限性,即导致变化区域中的局部性丧失,且未能充分利用时空上下文信息。为解决这些问题,作者引入了一种新方法,称为AWvsS,如图6(a)所示,该方法利用空洞窗口进行渐进式扫描。残差网络包含两个分支:一个分支用于特征提取,采用深度卷积后接空洞窗口SS2D(AWss2D)层;另一个分支用于计算乘法门控信号,通过线性映射后接激活层实现。yinqing-AtrousMamaba_2507集成了可调节速率的空洞窗口选择性扫描机制,促进扫描范围的逐步扩展。这种设计使模型能够捕获详细的局部特征和全局上下文,从而提高其在变化检测任务中的性能。

如图6(b)所示,数据通过Awss2D模块的过程包括三个步骤:空洞窗口扫描(AWScan)、利用S6块的选择性扫描以及空洞窗口扫描合并(AWSMerg)。空洞窗口扫描与空洞窗口合并的组合统称为空洞窗口扫描模块(AwsM)。给定编码阶段的特征图,AWss2D首先采用四种不同的速率(例如2、5、7、9)将图像分割成四组不同尺寸的窗口。在每个组内,所有窗口的图像块被展开并沿水平遍历路径排列成序列(如图1所示)。然后,这四组图像块序列并行地使用独立的S6模块进行处理,每个扫描窗口独立地捕获相关信息。这种空洞窗口渐进式扫描方法确保了每个选择性扫描块内的全面分析,在全局上下文和局部细节之间取得了平衡。最后,使用AWSMerge对处理后的序列进行 Reshape 和合并,生成输出特征图。

为增强通道间的交互,作者提出一种AWSMerge方法来重新校准特征图的权重,从多窗口扫描特征中选择性激活最相关的变化特征。如图6(c)所示,通过全局平均池化操作,

的空间维度被降维为向量

。因此,向量中的每个元素包含了其对应通道的全局信息。具体而言,向量中第

个元素的计算公式如下:

接下来,通过两个连续的全连接层生成权重向量

。该过程的公式如下:

其中

分别代表两个全连接层。最后,权重向量

与输入特征

进行逐元素相乘,以生成最终输出张量

。该操作可以表示如下:

AwsMerge计算每个特征通道的重要性权重,使网络能够自动放大重要特征的响应,同时抑制相关性较低的特征。

3.4. 变化检测解码器

3.4.1. 二元变化检测解码器

学习多时相图像的时空关系对于变化检测任务具有重要意义。如图4所示,变化解码器的特定结构基于所提出的AWVSS模块构建。通过充分挖掘编码器四个阶段特征图中的时空相关信息,最终生成高精度的二值变化检测结果。作者首先对编码阶段获得的时序前特征图和时序后特征图进行重新排列,计算过程如下:

随后,AWVSS模块被应用于独立扫描

,每个模块有效捕获细粒度局部特征和全局上下文。下一步,将三个扫描的结果进行拼接,随后通过卷积层进行通道调整和特征提取。最终,当前阶段的输出特征与前一阶段的特征图进行融合,然后进行上采样,再传递到下一阶段。

3.4.2. 语义变化检测解码器:

所提出的AWMambaSCD架构如图5所示。AWMambaSCD由一个具有两个分支的编码器和一个具有三个分支的解码器组成。受U-Net架构的启发,在每次解码阶段的开始处采用AWvss模块来捕获输入数据的局部和全局空间上下文。随后,对特征图进行上采样,并与来自更高分辨率更低层特征图的信息相结合。最后,通过残差层对生成的特征图进行平滑处理。计算步骤如下:

3.5. 损失函数

3.5.1. BCD损失函数 :

由于BCD可以表述为一个像素级的二分类问题,作者采用分类损失函数来指导网络训练。具体而言,采用二元交叉熵(BCE)损失来提供像素级监督,通过测量预测变化图与真实值(GT)之间的差异来定义。BCE损失的定义如下:

其中

表示预测概率,

表示真实标签。

3.5.2. SCD损失函数

语义分割损失使用多类交叉熵损失函数进行优化,该函数用于衡量预测语义标签与真实标签之间的差异。其形式化定义如下:

其中

表示语义类别的数量,

分别表示第

个类别的真实标签和预测概率。

为了在两个预测的语义分割图中实现语义一致性,作者引入了一种基于对比学习原则的语义变化损失,其计算方法如下:

其中

表示真实标签,

分别指代这两个语义分割图的像素向量。

总损失计算如下:

unsetunset4. 实验与分析unsetunset

在本节中,作者通过与其他方法在六个数据集上的比较,评估了所提出模型的性能。

4.1. 数据集描述

CLCD:CLCD数据集(Liu等人,2022)由GF2卫星于2017年和2019年在中国广东省获取,其空间分辨率范围为0.5米至2米。该数据集包含600对农田变化样本,涵盖了多种土地类别,如建筑物、道路、湖泊和裸土。每个样本包括两张512×512双时相图像以及相应的二元标注,用于指示农田变化。在模型训练和评估过程中,图像被进一步划分为256×256的块,最终得到1440个训练块、480个验证块和480个测试块。

SYSU-CD:SYSU-CD(Shi等人,2021)包含20,000对航空图像,每对图像的空间分辨率为0.5米,固定尺寸为

像素,拍摄于2007年至2014年间的新加坡。该数据集由于存在阴影干扰和空间错位,在城区和沿海环境中尤为具有挑战性。它涵盖了多种复杂变化类型,包括高层建筑、基础设施建设、船舶、道路和植被。该数据集按6:2:2的比例分为训练集、验证集和测试集。

WHUCD:WHU-CD数据集(Ji等人,2018)是一个公开可访问的基准数据集,专注于建筑物变化检测。该数据集包含一对高分辨率航空图像,每张图像的空间分辨率为每像素0.2米,尺寸为

像素,捕捉了2012年4月至2016年间新西兰基督城附近的建筑物变化。为了便于模型训练和评估,这些大规模图像对被预处理为

像素的非重叠块。生成的块对随后被划分为训练集、验证集和测试集,分别包含5,204、743和1,487个样本。

其次:第二个数据集(Yang等人,2021)包含2968对图像,每对图像的分辨率介于0.5至3米之间,空间维度为512×512像素。它包含一个“无变化”类别以及六个地物类别:水体、地面、低矮植被、树木、建筑物和游乐场。为了便于处理,大规模图像对被裁剪成不重叠的块,每个块的空间大小为256×256像素。这些块对随后被划分为训练集、验证集和测试集,分别包含11872、3388和3388个样本。

Landsat-SCD:Landsat SCD数据集(Yuan等人,2022年)由1990年至2020年间获取的Landsat影像构成,覆盖中国新疆塔克拉玛干沙漠边缘的图木舒克地区。该数据集包含8,468对影像,每对影像的空间分辨率为30米,尺寸为

像素。在排除通过翻转、 Mask 和调整大小等空间增强方法生成的样本后,数据集保留了2,425对原始影像。这些原始样本被划分为包含1,455对、485对和485对影像的训练集、验证集和测试集。

JL1: JL1数据集(Wang等人,2024b)是一个专门为农田变化检测竞赛精心策划的数据集。该数据集的影像由吉林一号遥感卫星获取,每张影像的空间分辨率为每像素0.75米,RGB格式尺寸为256×256像素。该数据集为双时相影像对提供了九种不同的“从-到”变化类别,明确标注了获取日期之间土地覆盖转变的类型。该数据集分为训练集、验证集和测试集,分别包含4,050、1,950和1,950个样本。

4.2. 实验细节

所有实验均在配备NVIDIA Tesla A40 GPU(48GB显存)的Ubuntu系统上进行。所提出的架构使用PyTorch实现。除Landsat数据集外,所有数据集的图像对及其对应标签在输入网络前均裁剪为256×256像素。每个数据集进一步划分为训练集、验证集和测试集。训练过程中,使用学习率为1e-4、权重衰减为5e-3的AdamW优化器进行网络优化,未采用任何学习率衰减策略。批处理大小设置为8,所有六个数据集的训练迭代次数均固定为50,000次。为增强模型泛化能力,在训练过程中应用了数据增强技术,包括随机旋转、左右翻转和上下翻转。为促进可复现性和鼓励社区内的进一步研究,作者的源代码将公开提供。

4.3. 评估指标

为了全面评估模型在不同CD子任务上的性能,作者采用了一套专门设计的指标,以应对BCD和SCD任务的不同需求。对于BCD子任务,评估指标包括:

TP、FP、TN和FN分别表示真阳性、假阳性、真阴性和假阴性的数量。对于SCD任务,除了之前提到的F1分数,评估还包括mIoU和SeK等指标。它们的计算方法定义如下:

其中

分别表示不变区域和变化区域的IoU(IoU)。

ImageA ImageB 真实标签ChangeFormer GASNet SwinUNet TransUNetCD ChangeCLIP ChangeMamba AtrousMamba 图7. 不同模型在CLCD上的可视化结果。白色、黑色、绿色和红色分别代表真阳性、真阴性、假阳性和假阴性。

picture.image

\hat { \eta } { = } \sum _ { j = 1 } ^ { C } { \left( \hat { q } _ { _ { j + } } { \cdot } \hat { q } _ { _ { + j } } \right) } \mathord { \left/ { \vphantom { \sum _ { i = 1 } ^ { C } \sum _ { j = 1 } ^ { C } { q _ { _ { i j } } } - { q _ { _ { 0 0 } } } } \kern - \nulldelimiterspace } \left( \sum _ { i = 1 } ^ { C } \sum _ { j = 1 } ^ { C } q _ { _ { i j } } { - q _ { _ { 0 0 } } } \right) }\right.

其中

表示被分类为第

种变化类型但实际上属于第

种变化类型的像素数量,而

分别表示混淆矩阵的行总和和列总和,不包括

4.4. 基准方法

为评估作者提出的AtrousMamba的优越性,作者将其与几种近期的基于CNN、Transformer和Mamba的先进算法进行了比较。对于BCD任务,比较的方法包括CF-GCN(Wang等人,2024c)、ICIF-NET(Feng等人,2022)、GAS-Net(Zhang等人,2023)、ChangeFormer(Bandara和Patel,2022)、TransUNetCD(Li等人,2022)、SwinSUNet(Zhang等人,2022)、ChangeCLIP(Dong等人,2024)、MambaBCD(Chen等人,2024a)、CDMamba(Zhang等人,2024)和CD-Lamba(Wu等人,2025)。对于SCD任务,比较的方法包括SSCDl(Ding等人,2022)、BiSRNet(Ding等人,2022)、DEFO-MTLSCD(Li等人,2024)、SCanNet(Ding等人,2024)、CdSC(Wang等人,2024b)和MambaSCD(Chen等人,2024a)。作者使用各自原始论文中指定的超参数、数据增强策略和损失函数,在作者的预处理数据集上对这些方法进行了训练、验证和测试。

图8 SYSU-CD上不同模型的可视化结果。白色、黑色、绿色和红色分别代表真阳性、真阴性、假阳性和假阴性。

picture.image

ImageA ImageB Ground truth ChangeFormer GASNet SwinUNet TransUNet CD ChangeCLIP ChangeMamba AtrousMamba. 图9. WHUCD上不同模型的可视化结果。白色、黑色、绿色和红色分别代表真阳性、真阴性、假阳性和假阴性。

picture.image

4.5. 在三个BCD子任务中的基准比较

如表1所示,作者在三个高分辨率数据集CLCD、SYSU-CD和WHUCD上比较了AWMambaBCD与现有方法。其中,“CNN”指基于CNN的模型,“Trans”指基于Transformer的模型,“Mamba”指基于Mamba的模型。本研究中比较的所有方法均使用CNN、Transformer和Mamba等分层 Backbone 网络作为特征提取器。可以看出,yinqing-AtrousMamaba_2507显著优于基于CNN、基于Transformer以及其他基于Mamba的方法。所提出的AWMambaBCD实现了最佳整体性能,其小变体AWMambaBCD_S在Crop地CD(CLCD)和单目标CD(WHU-CD)任务上分别取得了最高的OA(97.33%/99.49%)IoU(68.35%/88.32%)和F1分数(81.20%/93.80)。对于类无关CD(SYSU数据集),它实现了最高的IoU(70.94%)和最高的OA(92.51%),而其F1分数(83.00%)略低于ChangeCLIP。此外,它还优于近期的基于SSM的方法,如ChangeMamba、CD_Mamba和CDLambda。

图7至图9展示了yinqing-AtrousMamaba_2507在三个数据集测试集上预测的二值变化图。很明显,所yinqing-AtrousMamaba_2507能够有效检测不同类型、尺度和大小的变化,并精确捕捉这些图像对中存在的变化的边缘细节。作者的AWMambaBCD方法很少产生误报或漏报。由于其增强空间局部细节和全局上下文的能力,它成功检测到了其他方法无法识别的变化。这些结果充分证明了AtrousMamba架构在复杂多样的场景下对BCD任务具有强大的特征提取和表示能力。

4.6. 在三个SCD子任务中的基准比较

为了全面评估所提出的AWMambaSCD的性能,作者在SECOND、Landsat和JL1数据集上将其与七种方法进行了比较。其中,SSCDl、BiSRNet和DEFOMTLSCD是基于CNN的方法,而SCanNet和CsSC是基于Transformer的方法,MambaSCD是基于Mamba架构的方法。除了SSCDl和BiSRNet,其他方法都是最近提出的,并在遥感变化检测数据集上表现出良好的性能。

4.6.1. 第二数据集:

定量结果如表2所示,AWMambaSCD_S架构在SCD任务的四个评估指标上均表现出色。AWMambaSCD架构在SCD任务的四个评估指标上均优于所有SOTA基于CNN、基于Transformer和基于Mamba的方法。值得注意的是,其小型变体AWMambaSCD_S实现了最高性能,F1分数为64.24%,mIoU为73.66%,SeK为24.95%。图10展示了AWMambaSCD与其他方法在SECOND数据集上的视觉比较结果。作者的AWMambaSCD能有效识别并精确定位各类变化类别和区域,边界清晰。特别是在多类别相互干扰的场景中,作者的AWMambaSCD更能区分变化差异。第六行中三个被 Token 为红色框的小型 未标注 低植被区域也成功被识别。AWMambaSCD在生成更完整和准确的地物表示的同时,有效降低了误识别的概率。

picture.image

4.6.2. Landsat数据集:

作者在LandsatSCD数据集上,该数据集包含中分辨率图像,将yinqing-AtrousMamaba_2507与现有方法进行了比较。yinqing-AtrousMamaba_2507不仅在所有评估指标上达到了最高精度,而且展示了在处理不同分辨率图像数据方面的强大适应性。如表2所示,AWMambaSCD在Landsat-SCD数据集上实现了最高精度,其小变体AWMambaSCD_S获得了97.37%的OA,89.03%的F1分数,89.07%的mIoU,以及60.43%的SeK。虽然CdSC和DEFO-MTLSCD在SECOND数据集上表现良好,但它们明显落后于基于Mamba的方法,精度较低。这些结果突出了Mamba架构在SCD任务上的有效性以及yinqing-AtrousMamaba_2507在处理不同分辨率图像方面的鲁棒性。

图11直观展示了不同方法在Landsat-SCD数据集上的SCD(语义变化检测)结果。可以看出,yinqing-AtrousMamaba_2507在检测和定位与农田、水体、建筑物和沙漠相关的语义变化区域方面表现优于其他方法。值得注意的是,它在精确识别细尺度特征、土地覆盖类别和目标边界方面表现出色。

picture.image

4.6.3. JL1数据集

如图12所示,通过视觉对比结果展示了所提出的AWMambaSCD在识别耕地变化方面的有效性。尽管CdsC和ChangeMamba的结果覆盖了大部分变化区域,但它们仍然存在一些误报和漏报。在第二、三、四行中,yinqing-AtrousMamaba_2507完全检测了耕地、建筑物、裸土和道路,而其他方法则表现出不完全检测或误报/漏报。在第一、五、六行中,基于Mamba的方法对耕地、道路和裸土的检测更为全面,而其他方法仍然存在误报和漏报。

picture.image

4.6.4. 复杂度分析

unsetunset5. 消融实验unsetunset

5.1. 与其他 Backbone 网络的比较

作者对Mamba与代表性的CNN(ResNet)和Transformer(Swin Transformer) Backbone 网络在BCD和SCD任务中进行了全面对比。如表3和表4所示,Mamba在BCD和SCD任务上均优于基于CNN和基于Transformer的 Backbone 网络,展现了其作为遥感变化检测强大 Backbone 网络的优势。此外,与Transformer的计算复杂度随输入大小呈平方级增长不同,Mamba在FLOPs上呈现线性增长,同时仍能取得优异性能,突显了其在处理更大输入规模方面的优势。

5.2. 不同扫描方法的比较:

为进一步评估AtrousMamba在RSCD任务中对变化特定特征建模的能力,作者进行了不同扫描策略的比较分析。 Baseline 模型采用全局扫描策略,通过结合多个方向性扫描路径(图4),而yinqing-AtrousMamaba_2507在空洞窗口内执行局部水平扫描(图1)。如表5所示,所提出的空洞窗口扫描策略解码器进一步提升了 Baseline 网络的表现,从而展示了AtrousMamba在有效提取细粒度局部特征方面的强大能力。作者提供了在CLCD、WHU-CD和SYSU-CD数据集上比较不同扫描策略的热力图。如图13所示,高亮区域表明所选前景点与其他属于同一语义类别的像素之间存在强相关性,反映了集中注意力响应。与 Baseline 模型相比,AtrousMamba在捕获前景、变化区域以及全局-局部上下文交互方面表现出更强的能力,从而实现更精确的目标定位和更清晰的边界界定。此外,yinqing-AtrousMamaba_2507在检测细粒度结构和先前 未标注 的变化区域方面更为有效,进一步验证了所提出的空洞窗口扫描机制在RSCD任务中的鲁棒性。

picture.image

unsetunset6. 结论unsetunset

本文提出了一种名为AtrousMamba的新型视觉状态空间模型,该模型在增强局部依赖建模的同时,保留了全局上下文理解能力,特别适用于变化检测(CD)任务。

通过引入具有可调膨胀率(dilation rate)的空洞窗口(atrous window)选择性扫描机制,yinqing-AtrousMamaba_2507能够逐步扩展感受野(receptive field)。基于AwvsS架构,作者提出了两个专用框架:AWMambaBCD用于变化检测(BCD)任务,AWMambaSCD用于语义变化检测(SCD)任务。

此外,作者引入了空洞窗口状态模块,以保持相邻 Token 之间的空间连续性,并促进全局和局部感受野的构建,同时增强通道间特征交互。作者的变化解码器兼容不同空间尺度的遥感图像,并能无缝集成到基于金字塔的网络中。

在六个基准数据集上的大量实验表明,与基于CNN、Transformer和Mamba的方法相比,AtrousMamba实现了最先进的(SOTA)性能。这些结果突出了其在多个CD子任务上的强大泛化能力,并为多时相遥感图像的时空表征学习提供了新的见解。

unsetunset参考unsetunset

[1]. AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection.

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论