SDMamba:基于 Sparse 可变形序列及定制模块的高光谱图像分类方法,以低计算量实现高精度与细节保留 !

机器学习大数据大模型

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

尽管Mamba模型显著提升了高光谱图像(HSI)分类性能,但构建Mamba序列的效率是一个关键挑战。本文提出了一种Sparse可变形Mamba(SDMamba)方法,用于增强HSI分类,主要贡献如下。

首先,为增强Mamba序列,设计了一种高效的Sparse可变形序列(SDS)方法,以自适应学习“最优”序列,从而生成Sparse且可变形的Mamba序列,提高细节保留能力并减少计算量。

其次,为提升空间-光谱特征学习,基于SDS,设计了一种Sparse可变形空间Mamba模块(SDSpaM)和一种Sparse可变形光谱Mamba模块(SDSpeM),用于对空间信息和光谱信息进行定制化建模。最后,为改进SDSpaM和SDSpeM的融合效果,设计了一种基于注意力的特征融合方法,以整合SDSpaM和SDSpeM的输出。

该方法在多个基准数据集上与多种最先进方法进行了测试,结果表明,该方法能够以更少的计算量实现更高的分类精度,并具有更好的细节和小类别保留能力。

一 引言

高光谱图像(HSI)分类是一项基本任务,它将原始HSI数据转化为支持多种关键环境和资源开发任务的有价值地图。然而,由于HSI具有高维性、噪声、空间光谱异质性和有限训练样本等复杂特性,高效的HSI分类具有挑战性。鉴于这些困难,提取能够有效捕捉HSI类别之间细微差异的判别性特征具有挑战性。因此,利用先进的机器学习(ML)和深度学习(DL)方法设计高效的特征学习技术是一项关键的研究课题。

在过去的几十年中,针对高光谱图像(HSI)的特征学习,已经提出了多种方法。例如,主成分分析(PCA)[1]和独立成分分析。这项工作得到了加拿大自然科学与工程研究委员会(NSERC)的资助,项目编号为RGPIN-2019-06744。

Motasem Alkayid 是加拿大卡尔加里大学测绘工程系的成员,同时也是约旦安曼大学文学院地理系的成员(邮箱:motasem.alkayid

ucalgary.ca)

(独立成分分析) [2] 已被用于从高光谱图像(HSI)中提取紧凑的频谱特征。一种形态学方法 [3] 也被用于增强空间特征提取。然而,这些方法属于特征工程方法,无法以自适应的方式充分捕捉HSI的判别信息。深度学习方法已被广泛用于改进HSI特征提取。卷积神经网络(CNN) [4]-[6] 改进了HSI时空谱特征的学习,但在强归纳偏置和局部性方面存在局限,难以捕捉HSI中的长程时空谱相关效应。Transformer [7]-[9] 更灵活且能更好地适应长程空间上下文,但它们需要大的注意力矩阵,从而导致巨大的计算成本。与Transformer相比,Mamba模型由于其 Token 序列结构,能够在保持长程建模能力的同时显著减少计算量。因此,许多Mamba方法 [10]-[12] 已被提出用于改进HSI分类。

然而,对于Mamba模型[13]而言,一个关键问题是如何以紧凑高效的方式构建序列。首先,紧凑性对于实现长序列学习、降低token的计算成本和冗余至关重要。其次,Mamba序列中token的顺序对于提升Mamba的建模能力和克服相关性消失问题至关重要。因此,与其以密集、预定义和确定性的方式扫描token,以Sparse、自适应和可学习的方式定义token序列对于提升Mamba的建模能力至关重要。

因此,本文提出了一种Sparse和可变形的Mamba(SDMamba)模型,以改进高光谱图像分类,其主要贡献如下。

为了提升Mamba token序列的紧凑性和效率,而非采用确定性密集扫描方法,设计了一种Sparse可变形序列(SDS)方法,该方法以可学习和自适应的方式识别并序列化有限数量的相关token,从而形成Sparse和可变形的序列模式,以减少Mamba中的冗余、刚性和计算成本。如图1所示,与各种预定义的扫描方法相比,所提出的SDS方法倾向于克服潜在的冗余和刚性、不必要的计算成本以及选择不同扫描方法时的困难。

picture.image

为了提升空间-频谱特征学习,基于SDS,分别设计了用于定制化空间信息建模的Sparse可变形空间Mamba模块(SDSpaM)和用于定制化频谱信息建模的Sparse可变形频谱Mamba模块(SDSpeM)。

为了增强SDSpaM和SDSpeM的融合,设计了一种基于注意力的特征融合方法,以整合SDSpaM和SDSpeM的输出。该方法在多个基准数据集上与许多最先进的方法进行了测试,结果表明,该方法能够实现更高的准确性和更好的小类细节保留能力。

本文其余部分组织如下。第二节阐述了所提出的SDSMamba方法的细节。第三节介绍了实验设计和结果。第四节总结了本研究。

研究方法

A. Sparse可变形Mamba模型概述

unsetunsetB. Sparse可变形序列 (SDS)unsetunset

提出了SDS方法来解决以下两个关键问题。

Sparse性:与经典扫描方法在图1(a)-(h)中使用的所有 Token 不同,如何通过构建仅使用最相关 Token 的Sparse紧凑序列来减少潜在冗余和计算成本?

可学习性与适应性:与经典扫描方法在图1(a)-(h)中确定性预定义方式定义序列不同,如何以可学习的方式自适应构建可变形序列,以克服经典扫描方法的僵化性?

首先,如图2所示,所提出的SDMamab是Sparse的,因为输入到Mamba模块的序列,即

,分别比

具有更少的token数量。

picture.image

其次,在SDMamba中,

中token的顺序是可变形和可学习的,因为使用了两个自适应注意力矩阵,即SparseSpatialAttn和Spar seSpectralAttn,用于对token进行排序并识别有限数量的token。

因此,所提出的SDMamba方法具有Sparse和可变形的序列模式,能够减少经典Mamba模型中的冗余、刚性和计算成本。

unsetunsetC. Sparse可变形空间Mamba模块 (SDSpaM)unsetunset

基于所提出的SDS方法,作者设计了一个SDSpaM模块,用于专注于学习高光谱图像中的空间信息。

在图2中,SDSpaM模块将

作为输入,

包含总共

个token,每个token是一个

向量。作者没有直接使用

个token作为MambaBlock的输入,而是生成一个Sparse可变形空间序列,记为

(5个token),以输入MambaBlock,以减少潜在的冗余和计算成本。SparseSpatialAttn是一个

矩阵,用于通过根据相关性对这些token进行排序来识别这5个token。因此,该序列是可变形且可学习的,因为SparseSpatialAttn是从数据中自适应学习的。Mamba Block的输出,记为

,被分散到

的空间维度上,这作为神经网络架构中常用的残差 Shortcut 。

更具体地说,使用一个stem层来获取初始特征:

其中

是输入数据立方体,

是特征图。

作者将

重构为

,一个

的矩阵,其中

是 token 的数量,每个 token 是一个

的向量。

作者随后选择中心 Token

作为 Anchor 点,用于测量其与

中所有 Token 的余弦相似度。Sparse空间注意力矩阵 SparseSpatial Attn E RHW 的第 i 个元素可以通过以下公式计算:

其中

中的第

个token作者根据它们的幅度对所有元素在SparseSpatialAttn中排序,并识别出一小组排序的token以实现Sparse可变形token序列。使用Sparse率

来控制子集的大小。这里作者设置

unsetunsetD. Sparse可变形频谱Mamba模块 (SDSpeM)unsetunset

基于所提出的SDS方法,作者设计了一个SDSpeM模块,用于专注于学习高光谱图像中的光谱信息。

在图2中,SDSpeM模块还以

A作为输入,该输入包含总共

个token,每个token是一个

向量。作者不是直接将

C

个token)作为输入传递给MambaBlock,而是生成一个Sparse可变形频谱序列,记为

(3个token),以将其输入给MambaBlock,从而减少潜在的冗余和计算成本。

SparseSpectralAttn是一个

向量,用于对这些token进行排序并识别这3个token。因此,序列是可变形和可学习的,因为SparseSpectralAttn是从数据中自适应学习的。

MambaBlock的输出,记作

,被分散到

的空间维度上,该连接作为残差 Shortcut ,在神经网络架构中常用。

更具体地说,作者将

重构为

,一个

矩阵,其中

是token的数量,每个token是一个

向量。

作者随后选择一个随机token

作为 Anchor 点,用于测量其与

中所有token的余弦相似度。Sparse空间注意力矩阵 SparseSpectral Attn

的第i个元素可以通过以下公式计算:

其中

中的第

个token。

作者将SparseSpectralAttn中的所有元素按照其幅度进行排序,并识别出一小部分排序后的token子集,以实现Sparse可变形token序列。使用Sparse率

来控制子集的大小。在此作者设置

unsetunsetE. 注意力数据融合模块unsetunset

基于SDSpaM模块和SDSpeM模块的输出

,作者设计了一种注意力融合方法,利用注意力机制来提升空间信息与光谱信息的融合。如图3所示,首先,作者使用SDSpaM的输出计算大小为

,并使用SDSpeM的输出计算大小相同的

。通过将

相乘得到注意力矩阵,该矩阵用于更新

,从而实现融合特征图。

picture.image

III. 结果与分析

unsetunsetA. 实现方案unsetunset

作者将所yinqing-SDMamba_2504与多种当前最优方法进行比较,即SSRN [5]、SS-ConvNeXt [6]、MTGAN [14]、SSFTT [9]、SSTN [7]、GSC-ViT [8]、MambaHSI [10]、3DSS-Mamba [11]、HyperMamba [12],在一些基准数据集上进行,即印度松树林(IP)和帕维亚大学(PU)。对于IP,作者使用10%和10%的样本进行训练和验证,其余样本用于测试。对于PU,作者使用3%和1%的样本进行训练和验证,其余样本用于测试。作者使用总体精度(OA)、平均精度(AA)和kappa系数来评估方法的性能。对于yinqing-SDMamba_2504,作者为IP使用13的patch-size,为PU使用19的patch-size,两个数据集都使用64的batch-size,学习率为0.0001,100个epoches,256的隐藏维度,两个数据集的Sparse率均为30%。

印度森林数据集由AVIRIS传感器在美国西北部印第安纳州收集。该数据集包含

像素,220个光谱波段,覆盖波长范围

。在实验中,去除了24个水吸收波段和噪声波段,选择了200个波段。该研究场景中有16个调查类别。

帕维亚大学数据集由ROIS传感器在意大利帕维亚大学及其周边地区获取。该数据集包含103个光谱波段,范围从430至860纳米。其空间分辨率为1.3米,图像尺寸为610×340。涵盖了九种土地覆盖类别

unsetunsetB. 结果unsetunset

表3展示了Sparse率与浮点运算次数(FLOPs)的影响。如作者所见,作者的Sparse方法不仅具有更低的FLOPs和减少的计算成本,而且比经典的密集 Token 方法(即表中未使用Sparse性的方法)具有更高的精度。事实上,使用5%的 Token (即Sparse率0.05)在印度松林数据集上优于经典的Mamba方法,并在Pavia数据集上实现了相当的性能,这表明减少Mamba序列中的冗余具有显著的优势。

picture.image

表1展示了不同方法在IP数据集上取得的数值结果。yinqing-SDMamba_2504在所有指标上均优于其他方法。特别是,yinqing-SDMamba_2504在AA指标上取得了显著更好的结果,表明所yinqing-SDMamba_2504在保留和分类小类方面优于其他方法。

picture.image

表2展示了不同方法在PU数据集上取得的数值结果。从表中可以看出,yinqing-SDMamba_2504在所有指标上均持续优于其他方法。yinqing-SDMamba_2504在AA指标上取得显著更好的结果,这表明所yinqing-SDMamba_2504在保留和分类小类方面优于其他方法。

picture.image

此外,图4 (m)-(n) 和图5 (m)-(n) 展示了由所提出的SDMamba模型提取的特征的t-SNE可视化。作者可以清楚地看到,yinqing-SDMamba_2504能够将隐藏在原始空间中的不同类别进行解耦。

picture.image

IV. 结论

在本文中,作者提出了一种Sparse可变形Mamba(SDMamba)方法来增强高光谱图像(HSI)分类。作者做出了以下贡献。首先,设计了一种高效的Sparse可变形序列(SDS)方法来学习“最优”序列,该方法不仅优化了Mamba模型的学习能力,还通过更少的计算提高了其效率。其次,将SDS方法与空间模块和光谱模块相结合,形成了两个专门用于HSI特征学习的模块,即Sparse可变形空间Mamba模块(SDSpaM)和Sparse可变形光谱Mamba模块(SDSpeM),分别用于学习空间上下文信息和光谱信息。最后,基于注意力机制设计了一种新的特征融合方法,可以有效地整合SDSpaM和SDSpeM的输出,用于HSI分类。

所yinqing-SDMamba_2504在印第安纳州Pines和帕维亚大学HSI数据集上与其他多种最先进的方法进行了比较,结果表明yinqing-SDMamba_2504在准确性和计算成本方面均优于其他方法。

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论