点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
尽管Mamba模型显著提升了高光谱图像(HSI)分类性能,但构建Mamba序列的效率是一个关键挑战。本文提出了一种Sparse可变形Mamba(SDMamba)方法,用于增强HSI分类,主要贡献如下。
首先,为增强Mamba序列,设计了一种高效的Sparse可变形序列(SDS)方法,以自适应学习“最优”序列,从而生成Sparse且可变形的Mamba序列,提高细节保留能力并减少计算量。
其次,为提升空间-光谱特征学习,基于SDS,设计了一种Sparse可变形空间Mamba模块(SDSpaM)和一种Sparse可变形光谱Mamba模块(SDSpeM),用于对空间信息和光谱信息进行定制化建模。最后,为改进SDSpaM和SDSpeM的融合效果,设计了一种基于注意力的特征融合方法,以整合SDSpaM和SDSpeM的输出。
该方法在多个基准数据集上与多种最先进方法进行了测试,结果表明,该方法能够以更少的计算量实现更高的分类精度,并具有更好的细节和小类别保留能力。
高光谱图像(HSI)分类是一项基本任务,它将原始HSI数据转化为支持多种关键环境和资源开发任务的有价值地图。然而,由于HSI具有高维性、噪声、空间光谱异质性和有限训练样本等复杂特性,高效的HSI分类具有挑战性。鉴于这些困难,提取能够有效捕捉HSI类别之间细微差异的判别性特征具有挑战性。因此,利用先进的机器学习(ML)和深度学习(DL)方法设计高效的特征学习技术是一项关键的研究课题。
在过去的几十年中,针对高光谱图像(HSI)的特征学习,已经提出了多种方法。例如,主成分分析(PCA)[1]和独立成分分析。这项工作得到了加拿大自然科学与工程研究委员会(NSERC)的资助,项目编号为RGPIN-2019-06744。
Motasem Alkayid 是加拿大卡尔加里大学测绘工程系的成员,同时也是约旦安曼大学文学院地理系的成员(邮箱:motasem.alkayid
ucalgary.ca)
(独立成分分析) [2] 已被用于从高光谱图像(HSI)中提取紧凑的频谱特征。一种形态学方法 [3] 也被用于增强空间特征提取。然而,这些方法属于特征工程方法,无法以自适应的方式充分捕捉HSI的判别信息。深度学习方法已被广泛用于改进HSI特征提取。卷积神经网络(CNN) [4]-[6] 改进了HSI时空谱特征的学习,但在强归纳偏置和局部性方面存在局限,难以捕捉HSI中的长程时空谱相关效应。Transformer [7]-[9] 更灵活且能更好地适应长程空间上下文,但它们需要大的注意力矩阵,从而导致巨大的计算成本。与Transformer相比,Mamba模型由于其 Token 序列结构,能够在保持长程建模能力的同时显著减少计算量。因此,许多Mamba方法 [10]-[12] 已被提出用于改进HSI分类。
然而,对于Mamba模型[13]而言,一个关键问题是如何以紧凑高效的方式构建序列。首先,紧凑性对于实现长序列学习、降低token的计算成本和冗余至关重要。其次,Mamba序列中token的顺序对于提升Mamba的建模能力和克服相关性消失问题至关重要。因此,与其以密集、预定义和确定性的方式扫描token,以Sparse、自适应和可学习的方式定义token序列对于提升Mamba的建模能力至关重要。
因此,本文提出了一种Sparse和可变形的Mamba(SDMamba)模型,以改进高光谱图像分类,其主要贡献如下。
为了提升Mamba token序列的紧凑性和效率,而非采用确定性密集扫描方法,设计了一种Sparse可变形序列(SDS)方法,该方法以可学习和自适应的方式识别并序列化有限数量的相关token,从而形成Sparse和可变形的序列模式,以减少Mamba中的冗余、刚性和计算成本。如图1所示,与各种预定义的扫描方法相比,所提出的SDS方法倾向于克服潜在的冗余和刚性、不必要的计算成本以及选择不同扫描方法时的困难。
为了提升空间-频谱特征学习,基于SDS,分别设计了用于定制化空间信息建模的Sparse可变形空间Mamba模块(SDSpaM)和用于定制化频谱信息建模的Sparse可变形频谱Mamba模块(SDSpeM)。
为了增强SDSpaM和SDSpeM的融合,设计了一种基于注意力的特征融合方法,以整合SDSpaM和SDSpeM的输出。该方法在多个基准数据集上与许多最先进的方法进行了测试,结果表明,该方法能够实现更高的准确性和更好的小类细节保留能力。
本文其余部分组织如下。第二节阐述了所提出的SDSMamba方法的细节。第三节介绍了实验设计和结果。第四节总结了本研究。
A. Sparse可变形Mamba模型概述
unsetunsetB. Sparse可变形序列 (SDS)unsetunset
提出了SDS方法来解决以下两个关键问题。
Sparse性:与经典扫描方法在图1(a)-(h)中使用的所有 Token 不同,如何通过构建仅使用最相关 Token 的Sparse紧凑序列来减少潜在冗余和计算成本?
可学习性与适应性:与经典扫描方法在图1(a)-(h)中确定性预定义方式定义序列不同,如何以可学习的方式自适应构建可变形序列,以克服经典扫描方法的僵化性?
首先,如图2所示,所提出的SDMamab是Sparse的,因为输入到Mamba模块的序列,即
和
,分别比
和
具有更少的token数量。
其次,在SDMamba中,
和
中token的顺序是可变形和可学习的,因为使用了两个自适应注意力矩阵,即SparseSpatialAttn和Spar seSpectralAttn,用于对token进行排序并识别有限数量的token。
因此,所提出的SDMamba方法具有Sparse和可变形的序列模式,能够减少经典Mamba模型中的冗余、刚性和计算成本。
unsetunsetC. Sparse可变形空间Mamba模块 (SDSpaM)unsetunset
基于所提出的SDS方法,作者设计了一个SDSpaM模块,用于专注于学习高光谱图像中的空间信息。
在图2中,SDSpaM模块将
作为输入,
包含总共
个token,每个token是一个
向量。作者没有直接使用
的
个token作为MambaBlock的输入,而是生成一个Sparse可变形空间序列,记为
(5个token),以输入MambaBlock,以减少潜在的冗余和计算成本。SparseSpatialAttn是一个
矩阵,用于通过根据相关性对这些token进行排序来识别这5个token。因此,该序列是可变形且可学习的,因为SparseSpatialAttn是从数据中自适应学习的。Mamba Block的输出,记为
,被分散到
的空间维度上,这作为神经网络架构中常用的残差 Shortcut 。
更具体地说,使用一个stem层来获取初始特征:
其中
是输入数据立方体,
是特征图。
作者将
重构为
,一个
的矩阵,其中
是 token 的数量,每个 token 是一个
的向量。
作者随后选择中心 Token
作为 Anchor 点,用于测量其与
中所有 Token 的余弦相似度。Sparse空间注意力矩阵 SparseSpatial Attn E RHW 的第 i 个元素可以通过以下公式计算:
其中
是
中的第
个token作者根据它们的幅度对所有元素在SparseSpatialAttn中排序,并识别出一小组排序的token以实现Sparse可变形token序列。使用Sparse率
来控制子集的大小。这里作者设置
。
unsetunsetD. Sparse可变形频谱Mamba模块 (SDSpeM)unsetunset
基于所提出的SDS方法,作者设计了一个SDSpeM模块,用于专注于学习高光谱图像中的光谱信息。
在图2中,SDSpeM模块还以
A作为输入,该输入包含总共
个token,每个token是一个
向量。作者不是直接将
C
个token)作为输入传递给MambaBlock,而是生成一个Sparse可变形频谱序列,记为
(3个token),以将其输入给MambaBlock,从而减少潜在的冗余和计算成本。
SparseSpectralAttn是一个
向量,用于对这些token进行排序并识别这3个token。因此,序列是可变形和可学习的,因为SparseSpectralAttn是从数据中自适应学习的。
MambaBlock的输出,记作
,被分散到
的空间维度上,该连接作为残差 Shortcut ,在神经网络架构中常用。
更具体地说,作者将
重构为
,一个
矩阵,其中
是token的数量,每个token是一个
向量。
作者随后选择一个随机token
作为 Anchor 点,用于测量其与
中所有token的余弦相似度。Sparse空间注意力矩阵 SparseSpectral Attn
的第i个元素可以通过以下公式计算:
其中
是
中的第
个token。
作者将SparseSpectralAttn中的所有元素按照其幅度进行排序,并识别出一小部分排序后的token子集,以实现Sparse可变形token序列。使用Sparse率
来控制子集的大小。在此作者设置
unsetunsetE. 注意力数据融合模块unsetunset
基于SDSpaM模块和SDSpeM模块的输出
,作者设计了一种注意力融合方法,利用注意力机制来提升空间信息与光谱信息的融合。如图3所示,首先,作者使用SDSpaM的输出计算大小为
的
,并使用SDSpeM的输出计算大小相同的
和
。通过将
与
相乘得到注意力矩阵,该矩阵用于更新
,从而实现融合特征图。
unsetunsetA. 实现方案unsetunset
作者将所yinqing-SDMamba_2504与多种当前最优方法进行比较,即SSRN [5]、SS-ConvNeXt [6]、MTGAN [14]、SSFTT [9]、SSTN [7]、GSC-ViT [8]、MambaHSI [10]、3DSS-Mamba [11]、HyperMamba [12],在一些基准数据集上进行,即印度松树林(IP)和帕维亚大学(PU)。对于IP,作者使用10%和10%的样本进行训练和验证,其余样本用于测试。对于PU,作者使用3%和1%的样本进行训练和验证,其余样本用于测试。作者使用总体精度(OA)、平均精度(AA)和kappa系数来评估方法的性能。对于yinqing-SDMamba_2504,作者为IP使用13的patch-size,为PU使用19的patch-size,两个数据集都使用64的batch-size,学习率为0.0001,100个epoches,256的隐藏维度,两个数据集的Sparse率均为30%。
印度森林数据集由AVIRIS传感器在美国西北部印第安纳州收集。该数据集包含
像素,220个光谱波段,覆盖波长范围
。在实验中,去除了24个水吸收波段和噪声波段,选择了200个波段。该研究场景中有16个调查类别。
帕维亚大学数据集由ROIS传感器在意大利帕维亚大学及其周边地区获取。该数据集包含103个光谱波段,范围从430至860纳米。其空间分辨率为1.3米,图像尺寸为610×340。涵盖了九种土地覆盖类别
unsetunsetB. 结果unsetunset
表3展示了Sparse率与浮点运算次数(FLOPs)的影响。如作者所见,作者的Sparse方法不仅具有更低的FLOPs和减少的计算成本,而且比经典的密集 Token 方法(即表中未使用Sparse性的方法)具有更高的精度。事实上,使用5%的 Token (即Sparse率0.05)在印度松林数据集上优于经典的Mamba方法,并在Pavia数据集上实现了相当的性能,这表明减少Mamba序列中的冗余具有显著的优势。
表1展示了不同方法在IP数据集上取得的数值结果。yinqing-SDMamba_2504在所有指标上均优于其他方法。特别是,yinqing-SDMamba_2504在AA指标上取得了显著更好的结果,表明所yinqing-SDMamba_2504在保留和分类小类方面优于其他方法。
表2展示了不同方法在PU数据集上取得的数值结果。从表中可以看出,yinqing-SDMamba_2504在所有指标上均持续优于其他方法。yinqing-SDMamba_2504在AA指标上取得显著更好的结果,这表明所yinqing-SDMamba_2504在保留和分类小类方面优于其他方法。
此外,图4 (m)-(n) 和图5 (m)-(n) 展示了由所提出的SDMamba模型提取的特征的t-SNE可视化。作者可以清楚地看到,yinqing-SDMamba_2504能够将隐藏在原始空间中的不同类别进行解耦。
在本文中,作者提出了一种Sparse可变形Mamba(SDMamba)方法来增强高光谱图像(HSI)分类。作者做出了以下贡献。首先,设计了一种高效的Sparse可变形序列(SDS)方法来学习“最优”序列,该方法不仅优化了Mamba模型的学习能力,还通过更少的计算提高了其效率。其次,将SDS方法与空间模块和光谱模块相结合,形成了两个专门用于HSI特征学习的模块,即Sparse可变形空间Mamba模块(SDSpaM)和Sparse可变形光谱Mamba模块(SDSpeM),分别用于学习空间上下文信息和光谱信息。最后,基于注意力机制设计了一种新的特征融合方法,可以有效地整合SDSpaM和SDSpeM的输出,用于HSI分类。
所yinqing-SDMamba_2504在印第安纳州Pines和帕维亚大学HSI数据集上与其他多种最先进的方法进行了比较,结果表明yinqing-SDMamba_2504在准确性和计算成本方面均优于其他方法。
点击上方卡片,关注「AI视界引擎」公众号