点击下方卡片,关注 「AI视界引擎」 公众号
「AI视界 引擎交流群」
遥感图像分类构成了各种理解任务的基础,在遥感图像解释中起到了至关重要的作用。
卷积神经网络(CNNs)和Transformers的最新进展显著提高了分类的准确度。
然而,遥感场景分类依然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的变化。
全图像理解能力可以为场景识别提供更精确的语义线索。
在本文中,作者介绍了RSMamba,一种新型的遥感图像分类架构。RSMamba基于状态空间模型(SSM),并融入了一种高效、硬件感知的设计,称为Mamba。
它结合了全局感受野和线性建模复杂度的优点。为了克服原始Mamba的限制,即只能建模因果序列,不适用于二维图像数据,作者提出了一种动态多路径激活机制,以增强Mamba对非因果数据建模的能力。
值得注意的是,RSMamba保持了原始Mamba的内在建模机制,同时在多个遥感图像分类数据集上展现出卓越的性能。这表明RSMamba具有成为未来视觉基础模型 Backbone 的巨大潜力。
I Introduction
遥感技术的进步大大提高了人们对高分辨率地球观测的兴趣。作为遥感图像智能解释的基础,遥感图像分类对于后续下游任务至关重要。它在土地测绘、土地利用和城市规划等应用中发挥着关键作用。然而,遥感场景的复杂性和多样性,以及可变的时空分辨率,给自动化遥感图像分类带来了重大挑战。
研究行人一直努力工作以减轻这些挑战,并在各种不同的应用场景中提高模型的适用性。早期的方法论主要关注特征构建、提取和选择,研究了以SIFT、LBP、颜色直方图、GIST、BoVW 等为代表的特征工程机器学习方法。近年来,深度学习的出现彻底改变了以往过分依赖专业人类先验知识的传统范式。深度学习能够自主地从数据中挖掘有效的特征,并以端到端的方式输出分类概率。
在网络架构方面,它主要可以分为卷积神经网络(CNNs)和注意力网络。前者通过二维卷积操作逐层抽象图像特征,如ResNet 所示。
后者通过注意力机制捕捉整个图像局部区域之间的长距离依赖关系,从而实现更鲁棒的语义响应,如ViT 、SwinTransformer 等所示。在遥感图像分类方面也取得了实质性进展。例如,ET-GSNet 将ViT的丰富语义先验知识融入到ResNet18中,充分利用了两者的优势。P2Net 引入了一种异步对比学习方法,以解决细粒度分类中类间差异小的问题。
在一定程度上,分类准确性严重依赖于模型有效处理复杂多样的遥感场景影响以及可变时空分辨率的能力。Transformer 基于注意力机制,能够从整个图像中有价值的区域获取响应,为这些挑战提供了最优解。然而,其注意力的计算具有平方复杂度,随着输入序列长度的增加或网络的加深,在建模效率和内存使用方面带来了重大挑战。
状态空间模型(SSM)可以通过状态转换建立长距离依赖关系,并通过卷积计算执行这些转换,从而实现近线性的复杂度。Mamba 通过将时变参数引入普通SSM并开展硬件优化,使得训练和推理都极为高效。Vim 和 V Mamba 成功将Mamba引入到二维视觉领域,在多个任务上实现了性能和效率的令人称赞的平衡。
在本文中,作者介绍了RSMamba,这是一种用于遥感图像分类的高效状态空间模型。由于其在一个完整图像内建模全局关系的强大能力,RSMamba也可能在广泛的其他任务中展现出潜在的多功能性。RSMamba基于先前的Mamba,但引入了动态多路径激活机制来缓解普通Mamba的局限性,后者只能单向建模且对位置不敏感。值得注意的是,RSMamba被设计为保留原始Mamba块的内在建模机制,同时在块外部引入非因果性和位置增强的改进。具体来说,遥感图像被分割成重叠的斑块标记,并加上位置编码形成一个序列。作者构建了三条路径副本,分别为前向、反向和随机。这些序列通过使用共享参数的Mamba块建模以融入全局关系,并通过不同路径的线性映射进行后续激活。鉴于Mamba块的效率,RSMamba的大规模预训练可以以低成本实现。
本文的主要贡献可以概括如下:
作者提出了 RSMamba,这是一种基于状态空间模型(SSM)的高效全局特征建模方法,用于遥感图像。
这种方法在表征能力和效率方面具有显著优势,预计将成为处理大规模遥感图像解释的一个可行解决方案。
ii) 特别地,作者引入了一种位置敏感的动态多路径激活机制,以解决原始Mamba的限制,它仅限于建模因果序列,并对空间位置不敏感。
iii) 作者在三个不同的遥感图像分类数据集上进行了全面的实验。结果表明,RSMamba相较于基于卷积神经网络(CNNs)和 Transformer (Transformers)的分类方法具有显著优势。
II Methodology
利用SSM模型的固有特性,RSMamba擅长有效地捕捉遥感图像中的全局依赖关系,从而产生丰富的语义类别信息。本节将首先介绍SSM的基础知识,然后概述RSMamba。随后,作者将深入探讨动态多路径激活块。最后,作者将详细说明三种不同版本的RSMamba的网络结构。
Preliminaries
状态空间模型(SSM)是从现代控制理论的线性时不变系统中衍生出的概念,它将连续的刺激映射到响应。这个过程可以通过以下线性常微分方程(ODE)来表述,
其中 是由输入信号 和隐藏状态 导出的。 表示状态转移矩阵。 和 是投影矩阵。为了将方程1中描述的连续系统以离散形式实现并将其整合到深度学习方法中, 和 使用零阶保持(ZOH)以时间尺度参数 进行离散化。这个过程如下所示,
在离散化之后,方程式1可以重写为,
其中 代表 。最后,输出可以用卷积表示进行计算,如下所示,
在 这里, 表示输入序列的长度,而 表示结构化的卷积核。
RSMamba
RSMamba将2-D图像转换为1-D序列,并使用多路径SSM编码器捕捉长距离依赖关系,如图1所示。给定一个图像 ,作者采用一个 Kernel 为,步长为的2-D卷积将局部图像块映射到像素级的特征嵌入。随后,将特征图展平成一个1-D序列。为了保持图像内相对空间位置关系,作者融入位置编码。整个流程如下,
图1:所提出RSMamba的概述。
其中 表示2-D卷积,而 代表展平操作。 和 分别对应输入的1-D序列和位置编码。
在RSMamba中,作者没有像在ViT中那样使用[CLS]标记来聚合全局表示。相反,该序列被输入到多个动态多路径激活Mamba块中,用于长距离依赖建模。随后,通过将平均池化操作应用于该序列,得到用于类别预测的密集特征。这个过程可以迭代地描述如下,
其中 表示第 层,而 代表第 层的输出序列,有 。 表示动态多路径激活Mamba块,总共有 个。 代表对序列维度的均值池化操作,而 是层归一化。 用来将潜在维度 投影到类别数量上。
Dynamic Multi-path Activation
Mamba基本模型被用于一维序列的因果建模。在建模空间位置关系和单向路径时遇到困难,这限制了它在视觉数据表示中的适用性。为了增强其处理二维数据的能力,作者引入了一种动态多路径激活机制。
重要的是,为了保持基本Mamba模块的结构,该机制只在模块的输入和输出上操作。
具体来说,作者将输入序列复制三份以建立三条不同的路径,即前向路径、反向路径和随机Shuffle路径,并利用具有共享参数的普通Mamba混合器分别对这三条序列中的标记之间的依赖关系进行建模。
随后,作者将序列中的所有标记恢复到正确的顺序,并使用线性层压缩序列信息,从而构建三条路径的门控。然后,这个门控被用来激活如图1所示的三种不同信息流的表示。第个块的过程描述如下,
其中 表示第 层的输入序列。 表示第 个序列路径,包括前向路径、反向路径和随机Shuffle路径。 是带有参数 的普通Mamba混合器。 表示将所有标记恢复到前向顺序的操作。 表示沿着特征维度的序列连接。 表示沿序列长度维度的平均池化。 线性将 维度投影到3,以激活序列信息。 表示Softmax操作。 从三个不同的信息流中收集特征。
Model Architecture
Mamba混合器 代表了Mamba [13] 框架内的标准混合器模块。借鉴了ViT的原理,作者开发了三种不同参数大小的RSMamba版本:基础版、大型版和巨型版。每个版本的具体超参数详见表1。关于超参数含义的详细信息可以在[13]中找到。
III Experimental Results and Analyses
Dataset Description
为了评估所提出方法的有效性,作者对三个不同的遥感数据集进行了广泛的实验:UC Merced土地利用数据集(UC Merced)[2],AID [1],以及NWPU-RESISC45数据集(RESISC45)[3]。每个数据集都包含了一套独特的类别和图像数量。
UC Merced[2]: UC Merced 数据集包含21个不同的场景类别,每个类别包含100张分辨率为像素的航拍图像。这些图像具有0.3米的 spatial 分辨率,总计2100张图像。作者从每个类别中随机提取70张图像用于训练。
AID[1]:AID包含了30个类别,总共汇集了来自谷歌地球的10,000张图片。不同场景类型的样本数量不等,从220到420不等。每张航拍图像的尺寸为像素,空间分辨率从8m到0.5m不等,因此涵盖了多种分辨率情景。作者将每个类别的50%的图片指定为训练数据。
RESISC45[3]:RESISC45 数据集包含了从 Google Earth 获取的 31,500 张遥感图像,分为 45 个场景类别。每个类别包含 700 张 RGB 图像,像素分辨率为 。空间分辨率在大约 30m 到 0.2m 每像素之间波动。作者从每个类别中分配了 70% 的图像用于训练目的。
Implementation Details
在作者的论文中,作者采用了固定的输入图像尺寸,并实现了包括随机裁剪、翻转、光度畸变、mixup、cutMix等数据增强技术。图像通过一个尺寸为16 () 的二维卷积核和步长为8 () 的卷积处理成序列数据。位置编码由随机初始化的可学习参数表示。对于有监督训练,作者采用了交叉熵损失函数,并使用AdamW优化器,初始学习率为,权重衰减为0.05。学习率采用余弦退火调度器进行衰减,并带有一个线性预热。训练的批大小设置为1024,训练过程总共跨越500个周期。作者使用精确度(P)、召回率(R)和F1分数(F1)作为性能指标。
Comparison with the State-of-the-Art
作者对比了作者所提出的RSMamba方法与其他流行的深度学习图像分类方法,包括基于卷积神经网络(CNN)结构的ResNet [6]系列,以及基于Transformer结构的DeiT [16]、ViT [7]和Swin Transformer [8]系列。这些方法在UC Merced、AID和RESISC45数据集上的比较分类性能展示在表2中。实验结果表明:i) RSMamba在不同大小的数据集上展现出稳健的性能,其效果受训练数据量的影响最小。这可能归因于它相对较少的参数,无需大量数据就能诱导偏差。ii) RSMamba的深度和宽度的增加有利于在三个数据集上性能的提升。然而,与ResNet和Transformer系列相比,改进的速度不太明显。这可能是因为RSMamba的基本版本已经相对于其他方法实现了较高的准确度,表明基本版本可能是其他应用任务的可行起点。iii) 作者的实验还表明,尽管CNN架构容易收敛,但Transformer架构的优越性能依赖于在大规模训练数据中诱导和偏向一般特征。相比之下,RSMamba的性能不依赖于广泛的数据积累,但较长的训练时间可以进一步带来显著的性能提升。
Ablation Study
为了验证每个组件的有效性,在AID数据集上进行了消融实验。除非明确指出,否则使用了模型的基准版本,且没有对相关的超参数进行修改。
Iii-D1 Effect of Class Tokens
为了获得用于分类的密集语义特征,作者利用了RSMamba中的平均池化来融合全局信息,而不是像ViT [7]那样使用类标识符。表3描述了在不同位置加入类标识符以及序列上平均池化对分类性能的影响。实验结果表明,在序列的开始、结束或同时添加类标识符并不会带来更优的性能。然而,在序列中间插入类标识符可以显著提高性能。此外,对序列进行平均池化可以展示出最佳性能。这些观察结果表明,信息流在Mamba中的方向显著影响性能。同时,实验中还观察到平均池化可以加快网络的收敛速度。
Iii-D2 Effect of Multiple Scanning Paths
原始的Mamba模型,源自对因果序列的建模,在应用于缺乏因果关系的二维图像数据时,面临一个重大挑战。为了解决这个问题,作者提出了多种扫描路径机制,即前向、反向和随机Shuffle。为了融合来自这些不同路径的信息流,最直接的方法将是平均化。然而,作者的目标是自适应地激活来自每条路径的信息。因此,作者设计了一个门控机制来调节来自各种路径的信息流。表4展示了通过这些设计实现的性能提升。路径数量的增加与分类有效性的提高相关联。门控机制相比于特征平均化也具有一定的优势。值得注意的是,在这个实例中,作者使用平均池化特征进行分类。如果作者采用类似ViT的类别标记设计,缺乏多路径方案将导致性能大幅下降。
Iii-B3 Effect of Positional Encoding
为了增强RSMamba对相对空间关系建模的能力,作者将位置编码融入到扁平化的图像序列中。表5描述了位置编码的存在、缺失及类型对分类性能的影响。缺乏位置编码会导致性能下降,而傅里叶编码和学习性编码都有助于性能的提升。需要注意的是,鉴于RSMamba能够将不同路径的标记恢复到其原始顺序的能力,位置编码存在与否的影响在一定程度上得到了缓解。然而,整合位置编码仍然可以带来轻微的改进。
Iii-B4 Effect of the Number of Tokens
RSMamba在全球特征抽象方面的熟练能力显著减轻了与标记长度相关的复杂性。因此,在本文中,作者采用了重叠图像块划分方法。表5阐明了重叠存在与否以及图像大小的放大的影响。带有重叠的图像块划分使得每个标记能够封装更详尽的信息,从而带来了性能的提升。增加图像尺寸有助于包含更多细节,相应地也带来了显著的性能增益。SSM采用的线性建模复杂度使得即使在资源受限的条件下,也能显著增加序列长度。
IV Discussion and Conclusion
在本文中,作者介绍了一种新型的远程遥感图像分类状态空间模型,称为RSMamba。RSMamba同时利用了卷积神经网络(CNNs)和Transformer的优点,尤其是它们的线性复杂度和全局感受野。作者引入了一种动态多路径激活机制,以缓解原始Mamba中固有的单向建模和位置不敏感的限制。RSMamba保持了Mamba的内部结构,并提供易于扩展参数的灵活性,以适应各种应用场景。在三个不同的遥感图像分类数据集上进行的实验评估表明,RSMamba可以优于基于CNN和Transformer的其他最先进的分类方法。因此,RSMamba具有作为下一代视觉基础模型的 Backbone 网络的巨大潜力。
参考
[1].RSMamba: Remote Sensing Image Classification.
点击上方卡片,关注 「AI视界引擎」 公众号