CD-Lamba 横空出世!基于Mamba 融合局部自适应策略,多策略协同问鼎SOTA !

向量数据库大模型云通信

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Mamba凭借其全局感知和线性复杂度的优势,被广泛应用于识别在复杂场景和多变条件下捕获的遥感(RS)图像中目标区域的改变。

然而,基于Mamba的现有遥感变化检测(RSCD)方法在感知变化区域的固有局部性方面往往难以有效识别,因为它们直接平铺和扫描RS图像(即,变化区域同一区域的特征在序列中并非连续分布,而是与其他区域的特征在整个序列中混合)。

在本文中,作者提出了一种新型的基于局部自适应状态空间模型(SSM)的方法,称为CD-Lamba,该方法在保持全局感知的同时,有效地增强了变化检测的局部性。

具体而言,作者的CD-Lamba包括用于局部性增强的局部自适应状态空间扫描(LASS)策略、用于双时相特征融合的跨时态状态空间扫描(CTSS)策略,以及用于增强分割窗口间交互的窗口平移和感知(WSP)机制。

这些策略被集成到一个多尺度跨时态局部自适应状态空间扫描(CT-LASS)模块中,以有效地突出变化并细化变化表示的特征生成。CD-Lamba显著增强了双时相图像中的局部-全局时空交互,在RSCD任务中提供了更好的性能。

大量的实验结果表明,CD-Lamba在四个基准数据集上实现了最先进的性能,并实现了令人满意的效率-准确性权衡。

作者的代码在https://github.com/xwmaxwma/rschange上公开发布。

引言

遥感(RS)变化检测(CD)旨在比较两张或更多描述同一地理区域但在不同时间捕获的图像。它定量和定性评估了感兴趣地理实体和环境因素的变化[1]。这项技术在检测和理解地表活动和变化方面至关重要,这在城市扩张[2]、森林砍伐[3]、土地利用[4]和损害评估[5]等众多现实世界应用中发挥着重要作用。

现有RsCD模型旨在有效地聚合双时态图像特征中的语义变化[6, 7, 8],同时抑制由外部因素(例如,天气、光照条件、季节变化以及由人类活动引起的频繁不相关变化)引起的非兴趣变化,并准确捕捉目标变化。尽管某些研究集中在设计有效的双时态特征融合机制,以增强时空上下文交互和感知,但通过改进卷积神经网络(CNNs)和Transformer 也得到了显著的进展,以实现增强的CD结果。然而,在保持低计算复杂性的同时,准确建模与变化相关的时空上下文是关键挑战,尤其是在处理高分辨率遥感(RS)图像时。具体而言,基于CNN的RSCD模型通常由于卷积操作的局部性而受到有限上下文感受野的限制。尽管通过更深的架构、扩张卷积和注意力机制的努力尝试克服这一问题,但它们仍难以捕捉密集的远程关系[3, 18, 20]。另一方面,基于Transformer的模型虽然能够通过自注意力建模全局上下文,但在计算复杂性方面面临重大挑战。这主要是由于自注意力的二次计算成本,这限制了它们的实际应用[7, 14]。

受到状态空间模型(SSMs)[23]的潜力鼓舞,尤其是关键模型Mamba [24],以及其在处理计算机视觉任务中平衡全局 Aware 和线性计算复杂性的挑战,大量研究致力于对SSMs进行适应和扩展,以用于遥感变化检测(RSCD)任务。例如,RSMamba [30] 提出了一种针对遥感图像非方向性的全方位扫描策略,而ChangeMamba [31] 则提出了一种时间交叉扫描策略,以适应RSCD任务从单图像输入到双时相输入的转变。这些创新通过引入全局 Aware 为RSCD带来了新的视角,这对于在大规模背景特征中识别变化区域至关重要。然而,这些扩展继承了VMamba的图像平铺方法的重大局限性[21],这导致变化区域的局部性丢失(即在序列中,相邻的变化行可能夹杂着来自许多其他区域的特征,导致变化特征变得分散,破坏其空间连贯性),如图1(b)所示。

因此,为了保持空间连贯性,并因此提升基于SSM的RSCD方法的表现,解决这一缺陷是至关重要的。如图1(c)所示,最近提出的LocalMamba [22] 通过将图像分为四分之一并分别扫描每个部分来引入局部性。结果,同一目标的特征在序列中分布得更紧密。然而,这种固定窗口策略不可避免地存在两个关键问题:1) 它引入了不相关的背景局部性,如从"49"到"64"的序列局部性,这可能会误导变化区域的区分;2) 它导致变化局部性的不完全融合,如变化1区域在中间被截断,并在两个独立的扫描序列中分开。

picture.image

图1:VMamba [21]、LocalMamba [22] 和 CD-Lamba 之间的状态空间扫描(SS)策略比较。(a)一对地理配准的遥感图像示例及其变化区域的 GT 情况。(b)VMamba 中的 SS 策略导致局部性丢失,降低了模型捕捉局部细节的能力。(c)LocalMamba 中的 SS 策略受固定窗口的限制,降低了其适应性。(d)作者提出的局部自适应状态空间扫描(LAsS)策略的逐步过程。粉色窗口基于最高

得分图选择。序列首先将所有黄色像素展开,然后依次将粉色窗口中展开的连通区域附加到序列中。例如,在减少局部性丢失方面,与 LocalMamba 相比,当比较 LocalMamba 和 VMamba 时,变化2中两个特征行之间的差距已从原始的6个像素减少到仅2个像素。此外,当将作者的 CD-Mamba 与 LocalMamba 进行比较时,这个差距减少到0个像素。

本文提出了一种新的CD-Lamba算法,这是首个不仅继承了LocalMamba[22]局部扫描机制中的强大局部表征能力,还提升了Mamba在RSCD任务中局部增强功能的算法。具体来说,作者的CDLamba包括一个创新提出的多尺度跨时间局部自适应状态空间扫描(CT-LASS)模块,以及用于调节多尺度特征生成的Siamese Backbone 网络和轻量级变化检测器以生成最终的变化 Mask 。如图1(d)所示,作者新颖的CT-LASS模块旨在增强变化区域的局部性,同时保留全局上下文。这是通过引入一种新的局部自适应状态空间扫描(LASS)策略实现的,该策略采用动态自适应窗口,包括相邻连接窗口的合并,以适应变化区域的大小和形状的多样性。作者还执行跨时间状态空间扫描(CTSS)策略,以像素级方式增强双时相局部性的跨融合。为了缓解由于在特征图边界进行裁剪操作而导致的连续感知损失,作者借鉴了Swin Transformer[32](如图1(d1)所示)的移位窗口设计。作者进一步通过在CT-LASS模块中实施窗口移位和感知(WSP)机制来增强这一概念,实现了所有方向的连接,而不仅仅是隔离每个窗口。

此外,与之前的架构不同,作者的CD-Lamba模型同时捕捉时空上下文信息。Siamese Backbone 网络的每一层都将前一层的输出与CT-LASS模块细化的双时相变化特征结合起来。这些经过良好调节的变化特征表示允许轻量级变化检测器有效地生成变化检测图。作者的主要贡献包括:

表1展示了典型RSCD方法在性能上的比较。所提出的CD-Lamba方法通过引入状态空间模型,实现了有效的全局感知能力。特别是,CD-Lamba方法具有线性计算复杂度和低内存消耗的特点,同时相较于基于CNN、基于Transformer以及其他基于SSM的RSCD方法,保证了更优的变化局部性。

picture.image

  1. 作者提出了一种新型的CD-Lamba算法,首次将一种新颖的局部自适应增强策略集成到基于SSM的RSCD中。它克服了常规Mamba在局部感知方面的局限性,如表1所示。

  2. 作者设计了一种局部自适应状态空间扫描策略,以增强双时态局部性同时保留全局上下文,并辅以一种专为像素级跨融合设计的跨时态状态空间扫描策略。

  3. 作者开发了一种窗口移位和感知机制,以改善分割窗口之间的交互,解决由特征图边界处的裁剪操作引起的感知不连续性问题。

  4. 在四个RSCD基准数据集上进行的实验表明,作者提出的CD-Lambda模型在F1分数上优于先前的基于SSM的方法,分别在WHU-CD、SYSU-CD、DSIFNCD和CLCD数据集上比ChangeMamba [31]实现了2.43%、3.28%、5.72%和8.06%的显著提升。

  5. 相关研究


在探讨人工智能在特定领域的应用之前,有必要对现有相关研究进行综述。这一部分将涵盖与本研究主题密切相关的先前工作,包括但不限于以下几个方面:

  1. 技术方法 :回顾不同研究者所采用的技术方法,分析其优缺点。
  2. 数据集 :总结现有研究中使用的数据集,并讨论其质量和适用性。
  3. 评价指标 :比较不同研究者所使用的评价指标,分析其适用性和局限性。
  4. 实验结果 :对比现有研究的实验结果,总结其在特定领域的应用效果。

2.1. 状态空间模型

状态空间模型(SSMs)在处理序列数据中的长距离依赖关系方面已成为深度学习的关键 [23, 33, 34]。传统的模型如循环神经网络(RNNs)[35]、卷积神经网络(CNNs)[36]和Transformer [37]在处理长期相互关系时存在困难。HiPPO初始化方法 [38] 提升了SSMs捕捉长期依赖关系的能力,而线性状态空间层(LSSL)[33, 39]解决了连续时间记忆问题,但受限于计算需求。S4模型 [23] 优化了速度和内存效率,优于LSSL。

后续的进步包括复杂对角结构[40, 41]、多输入多输出支持[34]以及对角加低秩操作[42],以增强跨任务的一般化能力。这些策略已扩展到大型表示模型[43, 44, 45]。SSMs在计算机视觉领域的成功始于S4ND[46],该模型能够模拟一维、二维和三维视觉数据,但在图像适应性方面存在困难。为了应对这一挑战,近期涌现出许多基于Mamba[24]提出的选取机制的方法。Vim[25]利用双向状态空间来模拟依赖数据的全局视觉上下文,而不偏向特定图像。同时,Vmamba[21]开创性地提出了一种四向扫描模块,以解决由一维序列和多通道图像之间的差异引起的方向敏感性问题。

然而,与自然语言中的一维序列不同,二维数据如图像表现出强烈的局部性,每个像素通常与其周围的像素紧密相关。通过按行或列将图像压扁成一维序列会破坏这种固有的局部性,削弱模型捕捉细微细节的能力。为了解决这一问题,LocalMamba [22] 引入了一种窗口选择扫描机制,能够有效捕捉图像内的局部依赖关系,同时保持全局上下文。尽管如此,LocalMamba 将图像划分为四个固定的窗口,这种严格的分区可能引入不必要的背景局部性,并且经常导致靠近窗口边界的物体被切断,使其局部性分散在多个窗口中。这一局限性突显了需要一种更灵活和自适应的局部窗口扫描策略,以更好地保持和捕捉细节局部性。

2.2. 遥感变化检测

传统的RSCD方法可以分为基于代数的方法[47, 48, 49]、基于转换的方法[50, 51, 52]和基于分类的方法[53, 54]。然而,这些方法的有效性往往高度依赖于经验设计的手工特征质量。

基于双时态信息的融合阶段,基于CNN的RSCD方法可以分为三类。早期融合方法[3, 55, 56]首先将双时态图像拼接成一个单一输入,然后直接连接到语义分割网络。中期融合方法[57, 58, 59, 60, 61, 62]结合从神经网络中提取的双时态特征,并基于融合特征生成变化图。晚期融合方法[63, 64]首先分别对双时态图像进行分类,然后比较它们的分类结果以获得变化区域。为了增加感受野的大小,现有方法包括使用更深的CNN模型[3, 18, 20]、采用扩张卷积[65]以及应用注意力机制[66, 67, 68]。然而,大多数方法仍然难以充分模拟图像特征之间密集的长距离关系[66, 67, 68]。

基于Transformer的RsCD方法利用自注意力机制进行全局特征依赖建模。ChangeFormer[15]将Transformer直接应用于RSCD任务,但面临着高计算复杂性的问题。主流方法将CNN和Transformer结合,以平衡局部和全局信息建模的效率。BIT[14]利用Transformer编码器来建模从卷积特征中提取的语义标签所形成的环境。ICIF-Net[69]通过利用跨尺度的交叉交互和特征融合,实现了CNN与Transformer的集成。SARASNet[16]专注于双时态图像之间的交互,运用关系感知、尺度感知和跨变换技术,以实现更精确的场景变化检测。然而,这些方法往往使用非轻量级检测器放大双时态特征中的差异,降低了模型的有效性,尤其是在高分辨率遥感图像中。

基于SSM的RSCD方法在VMamba[21]中首次提出的SS2D策略(即二维选择性扫描策略)的基础上进行了改进,通过优化扫描机制,使其更好地适应双时相遥感图像的独特特征。具体来说,RSMamba[30]引入了一种全方位扫描策略,旨在解决遥感数据非方向性的问题。同时,ChangeMamba[31]采用了一种时间交叉扫描策略,以处理RSCD任务从单图像输入到双时相输入的过渡,有效地融入了时间维度。这些进步通过整合全局上下文为RsCD提供了新的视角,这对于在广泛背景特征中准确识别变化区域至关重要。然而,这两种方法都存在一个显著的局限性:它们的扫描策略直接使用VMamba将图像扁平化,导致关键变化区域局部性的丧失。

  1. 前言与发现

为了便于理解作者提出的CD-Lamba的工作机制,作者首先介绍与状态空间模型(SsMs)相关的基本概念,包括它们的连续和离散形式,以及基于选择性扫描机制的SSM的高效计算。此外,作者还提供了关于Mamba扫描策略在从遥感图像中提取RsCD相关线索方面的有效性的研究结果。

3.1.1 前言

3.1.1. 状态空间模型(S4)

状态空间模型(SSMs)是广泛应用于序列数据分析的深度学习模型[23]。这些模型起源于控制系统,其设计目的是描述每个时间步的序列状态表示,并根据输入预测下一个状态。具体来说,它们通过一个可学习的潜在状态

,将输入序列

转换为输出序列

。这个过程可以用以下数学公式表示:

在本文中,

属于

属于

,它们代表可学习的参数,

表示偏置,而

表示状态大小。

3.1.2. 离散化

原始的SSM(状态空间模型)属于连续时间系统类别,因为深度学习模型通常处理离散数据(例如矩阵和向量)。因此,进行离散化是必要的,以便使模型与输入信号的采样频率相匹配,从而提高计算机系统中的计算效率[33]。遵循之前的研究[41],考虑到采样时间尺度Δ,上述连续系统通过零阶保持法则进行离散化,从而将连续时间参数(A, B)转换为它们的离散对应参数(̅A, ̅B)。

为了简化,作者省略了常数偏差

。方程(1)中

的离散化形式可以展开为:

图2:VMamba [21] 中的SS2D和作者的LASS在CD-Lamba之间的频谱分析。低频的全局特征更靠近中心,而高频的局部特征则远离中心。像素越亮,能量越大。因此,该图表明LASS不仅(a)增强了SS2D识别的局部性,而且(b)激活了SS2D无法识别的局部性。

picture.image

图3:对基于SSM的典型RSCD方法(例如,RSMamba[30]和ChangeMamba[31])的更多光谱分析。比较的重点在于,将它们的选择性扫描策略替换为VMamba[21]中的SS2D方法或CD-Lamba中提出的LASS。低频全局特征更靠近中心,而高频局部特征则更远离中心。像素越亮,能量越大。因此,该图表明LASS不仅增强了SS2D识别的局部性,还激活了SS2D无法识别的局部性。

picture.image

为了提高计算效率,方程(3)的迭代过程可以通过全局卷积的并行计算模式[24]进行,具体如下:

尽管它们受到静态参数化的限制,无法进行基于内容的推理[24]。为了解决这个问题,提出了选择性空间状态模型(例如S6或Mamba[24]),这些模型使得矩阵

)能够根据输入动态变化,使过程数据驱动。这使得模型可以根据当前 Token 的特性,在序列长度上选择性地传播或遗忘信息。在S6中,参数

是直接从输入序列

计算得出,从而实现了序列感知参数化。

在本文中,

表示卷积操作,而

作为SSMs的核。

3.1.3. 选择性状态空间模型

传统状态空间模型(例如,S4)已被实现以在线性时间复杂度下捕捉序列上下文。

3.2.1 研究发现

如图1(b)所示,以往基于SSM的RSCD方法主要采用VMamba的SS2D扫描策略,该策略按行或列逐行逐列平坦特征图进行扫描。从概念上讲,这种策略不可避免地会牺牲图像的固有局部性。为了验证作者的假设,如图2所示,作者在CD-Lamba中将LASS替换为SS2D,并比较了结果输出特征图中的信息差异。为确保更严格和全面的分析,作者还对RSMamba和ChangeMamba进行了类似的比较实验,如图3所示。

图4:(a)CD-Lambda的整体架构包括一个Siamese Backbone 网络,(b)一个跨时间局部自适应状态空间扫描(CT-LASS)模块,以及(c)一个轻量级变化检测器(LCD)。在CT-LASS模块中,作者提出了一种新的局部自适应状态空间扫描(LAsS)策略,其中分数窗口是通过平均池化双时相特征的差异生成的。CT-LASS模块有效地模拟了全局-局部时空上下文,使特征生成可以根据双时相特征流进行调节,并选择性地增强感兴趣的变化。(d)此外,作者引入了一个窗口移动和感知(WSP)机制,在每个尺度上对CT-LASS进行五次操作,四个方向上每次移动1/8的长度,确保双时相特征之间有足够的交互。

picture.image

为了验证LASS策略的局部增强能力,作者进行了频谱分析,因为频谱图可以直观地观察图像中全局和局部信息分布。具体来说,靠近中心的频率代表更高的频率(精细细节),而远离中心的频率则表示较低的频率(粗糙结构)。如图2和图3所示,作者绘制了这些模型中基于SSM模块输出的最浅特征图的频谱图,其大小为

。这个特征图包含最丰富的局部信息,使得观察模型如何感知图像固有的局部特性更加容易。从图2和图3可以看出,作者的LASS策略不仅增强了SS2D已识别的局部特征,还激活了SS2D未能识别的局部特征,有效地提升了模型感知图像固有局部特性的能力。

  1. 1 研究方法

在本节中,作者详细介绍了如何修改Mamba以捕捉RS图像固有的局部性,同时保持其全局 Aware ,使其适用于RSCD任务。具体来说,第4.1节首先介绍了CD-Lamba的整体架构,随后作者对其具体组件进行了阐述,包括Siamese Backbone(第4.2节)、提出的状态空间扫描策略(第4.3节)、跨时序局部自适应状态空间扫描模块(CT-LASS,第4.4节)以及轻量级变化检测器(LCD,第4.5节)。最后,第4.6节描述了用于训练作者的CD-Lamba的损失函数。

CD-Lamba:通过跨时态局部自适应状态空间模型提升遥感变化检测 图5:展示了带有双时相选择性扫描策略的跨时态状态空间扫描(CTSS)策略示意图。作者首先将双时相窗口沿四个方向展开成一维序列。对于每个方向获得的双时相特征序列,作者在相同位置对双时相特征进行交叉扫描。最后,将四个方向的输出特征合并,构建最终的特征窗口。

picture.image

4.1.总体架构

在第三节的3.2部分中,目前基于SSM的RSCD方法在保留遥感图像的局部和全局特征方面存在困难。为了解决这一挑战,作者提出了新颖的CD-Lamba,它专门设计用于增强扫描策略的局部感知能力。如图4所示,给定输入图像

,通过一对权重共享的 Backbone 网络提取双时相特征

。值得注意的是,权重共享的Siamese Backbone 网络的每一层都整合了上一层的输出以及由CT-LASS模块调节的双时相特征。在这里,LASS策略(如图1(d)所示)是CT-LASS模块的核心组成部分,其中基于双时相特征差异生成的得分窗口,能够有效且同时捕获局部和全局上下文。CTLASS在每个尺度上执行五次,四个方向上每次移动1/8的长度。因此,在调节双时相特征后,作者的LCD模块被用于生成最终的变化图,确保CD-Lamba的高效性和有效性。

4.2. 对称型eBackbone

作者遵循[30]使用Siamese Backbone 网络来生成多尺度双时态特征,其中采用了SeaFormer

[70]。在每个阶段,双时态特征输出

将由CT-LASS模块进行调制,具体细节请参阅第4.4节。随后,在每个阶段,双时态输入

通过将调制后的特征添加到前一个阶段的输出中得到。这个过程可以表示为:

这种策略通过融合由SSMs生成的局部-全局时空上下文,丰富了双时态特征,凸显了SSMs在RsCD任务中的优越性。

4.3. 提出的状态空间扫描策略

4.3.1. 局部自适应状态空间扫描策略

为了解决第3.2节中指出的挑战,即现有的基于SSM的RSCD方法在保持RS图像的局部和全局特征方面存在困难,作者提出了跨时序局部自适应状态空间扫描(LASS)策略。如图1(d)所示,LASS策略主要包括三个步骤。首先,为了在特征图

中粗略识别富含局部性的区域,作者应用

平均池化构建一个得分窗口,在识别得分最高的

个窗口时,应用Gumbel Softmax引入对离散选择的可微分近似:

其中,

表示 Gumbel Softmax 函数。

其次,作者识别并合并这些前

个窗口内的连通组件,以适应局部变化区域形状和大小的变化,具体如下:

表示将连通组件合并成

个连通窗口的操作,随后进行上采样过程。矩阵 Loc_wins

包含了前

个窗口,通过连通窗口重新编号,这些窗口分配的值为集合

,而非前

个窗口则分配一个固定的值为 0。

最终步骤旨在在增强局部感知的同时维持全局 Aware 。具体来说,将图1(d3)中所示的序列

“ Token 1”外的窗口视为一个单一实体,并将其展平成序列进行扫描。同时,前

个窗口分别被展平并按顺序扫描(如图1(d3)中的序列“

”、“

”和“

”及“ Token 4”所示)。最后,将最终的序列

连接成一个统一的顺序:“

”,然后输入Mamba(

)以学习内在关系。这一步骤可以表示为:

表2展示了RSCD在WHU-CD和SYSU-CD数据集上的性能比较。最高分以粗体显示。所有得分均以百分比表示。失败计数以

的图像大小计算。

picture.image

Loc_wins 代表分配给编号

的部分;

表示逐元素乘法,而

表示序列拼接。

4.3.2. 跨时间状态空间扫描策略

为了将LASS策略适应RsCD任务的时序输入(先时和后时图像),作者在CT-LASS模块中引入了跨时态状态空间扫描(CTSS)策略。对于根据第4.3.1节创建的、大小为

的特征窗口对,它们生成双时序序列,作者采用像素级交叉扫描策略。如图5所示,作者遵循避免增加额外空间和计算复杂度的原则。作者定义

。在这个意义上,作者首先将先时和后时特征的双时窗扫描成四个长度为

的序列,以满足图像的无序性,如VMamba [21]所述。随后,作者逐像素地交叉拼接相应的序列,形成四个长度为

的新序列,确保在每一个位置上完全对齐双时信息。将这些序列输入到S6 [21]中,任何双时特征中的像素都会整合来自不同方向和时态状态的其他所有像素的信息。随后,这四个序列被重新塑形回四个大小为

的双时窗,接着将这些四个窗口在像素 Level 相加到一个最终窗口中。在实现过程中,作者首先在每个序列

的末尾扩展一个维度以便合并。然后,沿着这个新维度执行合并操作。最后,将最后两个维度展平,生成像素级合并序列

,如下所示:

在这里,

分别代表对最后一个和倒数第二个维度进行的操作,而

表示拼接操作。

总的来说,作者的跨时态状态空间扫描策略确保了选择性扫描机制直接与空间和时间维度相互作用,充分发挥其潜力以捕捉双时窗中的复杂动态。

4.3.3 窗口平移与感知机制

由于LASS策略将特征图分割成

的窗口,在这些分割特征窗口的边界不可避免地会出现信息损失。为了减轻和补偿这种损失,作者从Swin-Transformer [32]中设计的移位窗口中获得灵感,据此作者提出了一种新型的窗口移位与感知(WSP)机制,如图3(d)所示。具体来说,作者在每个空间尺度上对特征图应用LASS五次,其中第一次LASS操作直接在原始特征图上执行,而其余四次操作则分别以1/8的长度沿

的对角方向循环移位特征图。

表3展示了在DSIFN-CD和CLCD数据集上RSCD的性能比较。最高分数以粗体显示。所有分数均为百分比。错误(Flops)的计算基于图像尺寸为

picture.image

4.4. 跨时间局部自适应状态空间扫描模块

作者将本节4.3中提出的LASS策略、CTSS策略和WSP机制整合为一个跨时间局部自适应状态空间扫描(CT-LASS)模块,以有效提取和增强从先时和后时特征中的双时态局部性。

最初,从Siamese Backbone 网络中学习到的双时序特征

在通道维度上被连接成

,随后通过层归一化步骤,再经过线性变换以调整维度。随后,应用深度卷积以进一步提取空间特征:

在本文中,符号“

”表示通道 Level 的连接操作。

为了促进相邻窗口之间的交互并减少窗口边界处的空间信息损失,特征图

通过使用窗口平移和填充(WSP)机制,沿一个方向平移其总长度的1/8。

双时态特征随后沿通道维度从

分割为

,并采用LASS策略进行处理。在此步骤中,通过应用具有

Kernel 的平均池化操作,生成一个得分窗口,用于处理双时态特征的差异

表示逐元素减法。

然后计算Loc_wins,其公式由(6)和(7)给出。接着,使用公式(15)和(16)计算双时间序列

表示逐元素相乘,

代表序列连接。

在遵循上述

之后,作者的CTsS策略被用于扫描LASS过程中的双时序序列,具体如下:

在应用CTSS策略处理

之后,原始的双时态特征图维度得到恢复,形成了

。随后,处理过的双时态特征在通道维度上进行拼接,并应用逆向WsP操作以恢复原始像素位置。最后,该流通过另一层归一化和线性变换。

图6:从WHU-CD数据集的测试集中使用RSCD方法输出的示例结果。像素被不同颜色区分以提高可视化效果(例如,白色代表真正阳性,黑色代表真正阴性,红色代表假阳性,绿色代表假阴性)。

picture.image

图7:从SYSU-CD数据集的测试集中使用RSCD方法输出的示例结果。像素被不同颜色区分,以增强可视化效果(例如,白色代表真正阳性,黑色代表真正阴性,红色代表假阳性,绿色代表假阴性)。

picture.image

表示通道级联。

这个过程在每个尺度上重复五次,每次迭代的WsP平移方向交替。然后,使用一个1×1卷积层将这些五次迭代的输出

进行聚合,以生成最终的时态输出

表示通道级联。

最后,通过沿通道维度拆分

,得到了输出的双时态特征

4.5. 轻量级变化检测器

由于作者的CT-LASS模块可以根据双时间特征流调节特征生成,因此CD-Lamba在本质上能够执行鲁棒的时空上下文建模。因此,在每个空间尺度上获取的双时间特征在感兴趣区域变化方面表现出显著的差异。从这个意义上讲,为了避免向模型引入额外的参数和计算复杂度,作者提出了一种轻量级变化检测器(LCD),以融合多尺度变化表示,并进一步导出最终的变化 Mask 。

图8:从DSIFN-CD数据集的测试集中使用RSCD方法输出的示例结果。像素以不同的颜色区分,以便更好地可视化(例如,白色代表真阳性,黑色代表真阴性,红色代表假阳性,绿色代表假阴性)。

picture.image

图9:RSCD方法在CLCD数据集测试集上的示例结果输出。像素以不同的颜色着色以增强可视化效果(例如,白色代表真正阳性,黑色代表真正阴性,红色代表假阳性,绿色代表假阴性)。

picture.image

具体来说,作者的液晶显示屏以在四个不同尺度上输出的双时态特征

作为输入。随后,通过逐元素减法操作

,得到四个变化表示

表示逐元素减法。

接下来,这些变化表示

被上采样至与最浅变化表示

相同的分辨率,在作者的实际实现中,这被设置为原始图像分辨率的四分之一,遵循文献[31]。然后,沿着通道维度将表示

拼接,以获得多尺度变化表示,记作

。随后,采用一个简单的多层感知器(MLP)进行特征整合

。此外,作者还引入深度卷积以增强空间细节[74]。这里的MLP模块包括两个简单的

卷积和GeLU激活函数。这个过程可以表示为:

图10:展示了不同阶段通过跨时局部自适应状态空间扫描(CT-LASS)模块调节的特征变化类别的激活图,基于grad-cam[75]。示例图像来自WHU-CD测试集。

分别对应于输入图像的

分辨率。

picture.image

表示通道级联,而

代表最终的变更 Mask 。

因此,变化检测器以轻量级的方式执行,显著提升了模型的计算效率。

4.6 损失函数

作者的CD-Mamba模型通过结合二元交叉熵损失和Dice损失[76]来监督变化 Mask

的学习过程。最终的损失函数包括 Mask 损失和分类损失,其公式为:

训练过程采用端到端的方法。

5.1 实验部分

5.1. 实验设置

5.1.1. 数据集

作者在四个广泛使用的公开数据集上评估了作者的方法:武汉大学数据集(WHU-CD [77])、中山大学数据集(SYSU-CD [78])、数据科学学院数据集(DSIFNCD [79])和清华大学数据集(CLCD [80]),具体信息如下。

WHU-CD[77]是一个建筑CD数据集。它包含了一对尺寸为

的双时相航空图像,空间分辨率为

。遵循之前的研究[14],该论文将图像裁剪成

大小的块,并将它们随机分为训练集(6096幅图像)、验证集(762幅图像)和测试集(762幅图像)。

SYSU-CD[78]是一个高分辨率的时序变化检测数据集,包含20,000对256×256像素大小、0.5米空间分辨率的正射航空影像,主要收集于香港地区。该数据集涵盖了多种地表覆盖目标,包括建筑物、船只、道路和植被,为变化检测任务提供了重大挑战。就数据分布而言,该数据集被划分为训练集(12,000张图像)、验证集(4,000张图像)和测试集(4,000张图像)。

DSIFN-CD[79]是一个高分辨率的双时相CD数据集。它包含了多种土地覆盖目标的变化,如道路、建筑、农田和水体。论文遵循了作者提供的默认裁剪样本,其大小为

,并且按照默认方式将它们分为训练集(3600张图像)、验证集(340张图像)和测试集(48张图像)。

图11:展示了基于Grad-CAM [75]的Cross-Temporal Locally Adaptive State-Space Scan (CT-LASS)模块在不同阶段对特征变化类别的激活图。示例图像来源于SYSU-CD测试集。

分别对应输入图像的1/4、1/8、1/16和1/32分辨率。

picture.image

CLCD [80] 是一个包含600对

尺寸、空间分辨率介于

的遥感图像的农田变化检测数据集。论文将其随机分为训练集(360张图像)、验证集(120张图像)和测试集(120张图像)。

5.1.2. 评估指标

作者测量并报告了模型及其竞争对手在测试集上预测变化类别方面的精确率(Pre.)、召回率(Rec.)、交并比(IoU)和总体准确率(OA)。这些指标分别定义为:

TP、TN、FP和FN分别代表真正例、真反例、假正例和假反例的数量。

作者采用测试集中变化类别的F1分数(F1)作为主要评估指标。F1分数由测试集的精确度和召回率计算得出,这两个指标通过调和平均值得到,具体如下:

5.1.3 实施细节

作者使用基于PyTorch库的Python实现了作者的CD-Lamba,其中采用了一台工作站,配备了两块NVIDIA GTX A6000显卡和四块NVIDIA GTX A5000显卡(总GPU内存为192GB)。作者以0.01的学习率开始训练,使用了配备动量因子0.9和权重衰减0.0005的SGD优化器。在训练期间,作者采用了具有O.9幂的幂学习率衰减策略。对于WHU-CD和SYSUCD,批次大小设置为8,而对于DSIFN-CD和CLCD,批次大小设置为4。此外,作者还通过应用数据增强技术,如图像翻转和模糊,来增强训练过程,旨在提高模型的泛化能力和鲁棒性。

5.2.1 主要结果

作者与多种最先进的方法进行了结果比较。基于CNN的方法包括FC-EF [71]、FC-SiamDi、FC-Siam-Conc、IFNet [9]、DTCDSCN [11]、SNUNet [10]、ChangeStar(FarSeg [81]) [72]、LGPNet [73]、USSFCNet [12]和AFCF3D-Net [13]。基于Transformer的方法包括DMATNet [82]、BIT [14]、ChangeFormer [15]和SARASNet [16]。基于SSM的方法包括RS-Mamba [30]和ChangeMamba [31]。

图12:展示了不同阶段下,由跨时局部自适应状态空间扫描(CT-LASS)模块调节的特征变化类别的激活图,该图基于grad-cam[75]。示例图像来自DSIFN-CD测试集。

分别对应输入图像的1/4、1/8、1/16和1/32分辨率。

picture.image

5.2.1. 定性分析

实验结果展示在表2和表3中。可以观察到,所提出的CD-Lamba在五个变化检测数据集上实现了最先进的性能。具体来说,CD-Lamba在WHU-CD、SYSU-CD、DSIFN-CD和CLCD数据集上分别实现了2.43%、3.28%、5.75%和8.06%的F1度量提升,相较于基于SSM的近期方法ChangeMamba。由此可以看出,CD-Lamba在更复杂的场景、更丰富的目标分布和更多样化的变化(如CLCD和DSIFN-CD数据集)中能实现更显著的改进。此外,CD-Lamba仅有28.74M个参数和15.26G浮点运算次数,相比ChangeMamba仅需59.18%的参数需求和39.65%的计算消耗。与AFCF3D-Net、SARASNet和ChangeFormer等其他模型相比,CD-Lamba在性能和效率之间的平衡上有了更显著的提升。

5.2.2. 定性可视化

作者也对四个RSCD数据集进行了可视化比较。如图6(WHU-CD)、图7(SYSU-CD)、图8(DSIFN-CD)和图9(CLCD)所示,所提出的CDLamba在可视化性能方面优于之前的最新方法,如SNUNet、BIT、SARASNet、AFCF3DNet、RS-Mamba和ChangeMamba。具体来说,作者的CD-Lamba似乎有更少的误报(例如,图6的第一行、图7的第四行和图9的第一行)和漏报(例如,图7的第三行和图9的第二行)。此外,CD-Lamba输出的 Mask 具有更清晰的边界(例如,图6的第四行和图9的第三行),以及更完整的拓扑形状(例如,图6的第二行、图8的第四行和图9的第四行)。值得注意的是,CD-Lamba由于其增强空间局部细节的能力,可以识别出其他基于SSM的方法(例如RS-Mamba和ChangeMamba)完全无法检测到的变化(例如,图6的第一行和第三行)。这些可视化比较进一步验证了作者的CD-Lamba在有效增强感兴趣的变化并捕捉复杂场景中变化细节区域的能力。

为了验证模型的有效性,作者还可视化了在CLCD数据集上基于Grad-CAM实现的跨时间状态空间扫描(CTSS)块调节的Siamese主干网络在四个阶段的特征激活图。如图10(WHU-CD)、图11(SYSU-CD)、图12(DSIFN-CD)和图13(CLCD)所示,随着模型深度的增加,变化区域的激活值逐渐上升,这证明了CT-LASS模块在增强变化区域语义特征差异方面的有效性。

picture.image

图13:展示了不同阶段下,由跨时间局部自适应状态空间扫描(CT-LASS)模块调节的特征变化类别的激活图,基于grad-cam [75]。示例图像来自CLCD测试集。

分别对应输入图像的1/4、1/8、1/16和1/32分辨率。

表4:在CLCD数据集上对扫描策略的消融实验。

picture.image

表5 在CLCD数据集上对跨时态状态空间扫描(CTSS)策略的消融实验。

picture.image

5.3. 消融研究

一系列消融实验在CLCD数据集上实施,以实现最优模型结构设计,具体如下。

5.3.1 扫描策略消融研究

作者对CLCD数据集进行了消融分析,以证明CT-LAsS模块能够有效地实现全局时空上下文建模,同时增强局部性以进一步提升性能。具体来说,作者保留了CD-Lambda的主干和LCD,并在VMamba和LocalMamba中将CT-LASS替换为SS2D进行对比。为了适应RSCD任务,作者还保留了CTSS交叉融合策略以整合双时态特征。变量设计采用了两种经典方法:直接展平以进行序列扫描和构建固定窗口以进行单独扫描。如表4所示,CT-LASS以78.06的F1分数取得了优越的性能,超过了其他变量。

5.3.2.关于跨时局部自适应状态空间扫描模块组件的消融研究

作者对CD-Lamba关键组件CT-LASS中的某些变量进行了初步实验,以确定最合适的数值。

首先,作者测试了Top

的价值。这一步骤旨在大致识别具有强局部性的区域。考虑到总共16个窗口,其中变化区域通常占比较小,作者针对

的五个不同值进行了实验:{4, 5, 6, 7, 8}。如表6所示,将

设置为6时,F1分数达到最高值78.06,表明模型性能最优。

picture.image

表6:在CLCD数据集上关于选择Top

的消融实验。

表7:在CLCD数据集上对窗口移位和感知(WSP)机制的消融实验。

picture.image

接下来,作者对WSP(窗口平移策略)中的i值进行测试。作者比较了三种配置:(1) 将i设置为{0},排除任何平移策略;(2) 将i设置为{0, 1},仅包含来自Swin Transformer的平移策略;以及(3) 作者提出的完整配置,其中i设置为{0, 1, 2, 3, 4},使窗口能够与相邻窗口完全交互。如表7所示,作者的完整WSP配置实现了最佳模型性能。

5.3.3. 对交叉时间状态空间扫描策略的消融研究

作者探讨了不同双时态扫描策略对模型性能的影响,如表5所示。作者首先尝试在宽度维度上进行拼接,然后按照图14中CDS策略描述的,向四个方向进行扫描。这种由CDS提出的方案实现了F1值为77.04。随后,另一个过程,如图14中RRS策略所示,涉及从图像

的一行(或一列)开始扫描,然后从图像

的一行(或一列)开始扫描,在图像

之间交替进行扫描过程。这种由RRS提出的方案实现了F1值为76.73。显然,作者的逐像素扫描策略已被证明是最有效的,F1得分为78.06。

picture.image

结论

Mamba近期为RSCD领域带来了新的视角,凭借其强大的全局感知能力和线性计算复杂度。然而,现有的基于SSM的RSCD方法,尽管改变了扫描方向并引入了跨时序策略,但在应用Mamba之前通常采用一种简单的方法,即将图像展平成序列。

这种做法严重破坏了变化区域的固有局部性。这些限制阻碍了现有RSCD方法的性能提升。

在本文中,作者提出了CDLamba,它有效地利用增强的局部性对时空上下文进行建模。具体而言,作者设计了局部自适应状态空间扫描策略,以增强局部性同时保持全局感知;跨时序状态空间扫描策略促进了双时序特征融合;窗口移动和感知机制提高了分割窗口之间的交互。

这些策略被整合到一个多尺度的跨时序局部自适应状态空间扫描模块中,有效地突出了变化并细化了特征。所提出的CD-Lamba在四个RSCD数据集上实现了最先进的性能,在准确性和效率之间取得了更好的平衡。

然而,CD-Lamba在获取局部窗口时,目前在区分感兴趣的实际变化和伪变化方面存在差距。它仍然倾向于将一些高变化可能性的区域分类为局部窗口。在未来工作中,作者计划引入适当的状态转移机制和知识蒸馏,以实现自主窗口学习,因为作者相信这将进一步推进SSM在RsCD任务中的应用发展。

图14:双时间选择性扫描策略的不同形式。对于给定的双时间图像

,作者将其性能与两种额外的扫描策略进行了比较:

1) ConCat 并直接扫描(CDS);2)逐行扫描(RRS)。

参考

[1]. CD-Lamba: Boosting Remote Sensing Change Detection via a Cross-Temporal Locally Adaptive State Space Model .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论