点击下方卡片,关注
「AI视界引擎」
公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
高光谱图像分类由于光谱冗余和复杂的时空依赖关系而面临挑战。本文提出了一种新颖的框架,即DCTMamba3D,用于高光谱图像分类。DCTMamba3D包含以下三个部分:
(1)一个3D时空去相关模块,该模块应用3D离散余弦变换基函数以减少光谱和空间冗余,增强跨维度的特征清晰度;
(2)一个3D-Mamba模块,该模块利用双向状态空间模型来捕捉复杂的时空依赖关系;
(3)一个全局残差增强模块,该模块稳定特征表示,提高鲁棒性和收敛性。
在基准数据集上的大量实验表明,作者的DCT-Mamba3D在具有挑战性的场景,如同一物体在不同光谱和不同物体在同一光谱中的情况下,优于当前最先进的方法。
- 引言
高光谱图像(HSI)分类在遥感应用中至关重要,如环境监测、农业和矿产资源勘探[14, 34]。然而,HSI数据中的高维性和光谱冗余——通常被称为“维度诅咒”——带来了独特的挑战,使得有效分类变得复杂[8, 11]。
这种冗余会阻碍性能,尤其是在不同物体具有相似光谱或同一物体在不同条件下表现出光谱变化的情况下[21, 31]。图1展示了这些现象,强调了需要采用能够捕捉基本空间光谱特征同时减少冗余信息的方法[5, 12]。
同一物体,不同光谱:玉米类型(玉米不翻耕和玉米薄荷)的光谱可变性。高亮曲线代表特定类型,而灰色曲线显示其他玉米样品,反映了由光谱冗余和高相关性引起的类内可变性。
(b) 不同物体,相同光谱:建筑物-草地-树木-道路与石头-钢铁-塔楼之间的光谱相似性。突出显示的曲线代表这些类别,灰色曲线展示其他地表覆盖类型,说明了由于光谱重叠和强烈相关性导致的类别间相似性。
光谱可变性和冗余的挑战:光谱可变性(由光照变化、大气条件或内在材料差异引起)以及材料间的相似性加剧了分类难题[9, 21, 31]。高波段间相关性导致冗余信息,增加了区分的复杂性,尤其是在混合像素中,每个像素可能代表多种材料[3]。
频域变换用于增强特征提取:频域变换可以改善高光谱图像分类(HSI)中的光谱分离和特征提取[15, 27]。离散余弦变换(DCT)特别通过将数据转换到频域来实现去相关性,从而促进更精细的特征提取[19,22,23,26]。
近年来,HSI分类领域的研究方法主要集中在基于CNN、基于Transformer和基于Mamba的架构。基于CNN的方法,例如2D-CNN [28]、3D-CNN [29]和HybridSN [16],主要关注空间特征,但往往忽略了复杂的光谱相关性[4, 10, 23, 25]。基于Transformer的模型,包括ViT [6]、HiT [30]、CAT [7]和MorphF [17],利用自注意力机制来捕捉光谱依赖性,但计算量大,通常需要大量数据集[7, 18]。基于Mamba的模型,如MiM [35]、SpectralMamba [31]、WaveMamba [1]和Vision Mamba [36],采用状态空间表示来模拟空间-光谱关系,不使用卷积结构,但在处理光谱冗余和频带间相关性方面存在局限性。
本文提出了一种名为DCT-Mamba3D的HSI分类模型,该模型集成了三维空间-光谱去相关模块(3D-SSDM)、三维Mamba模块和全局残差增强(GRE)模块,以减少光谱冗余并增强特征提取。3D-SSDM利用三维DCT基函数将数据转换到频域,实现光谱和空间去相关,并提高后续提取层特征清晰度。3D-Mamba模块利用三维状态空间模型捕捉复杂的空间-光谱依赖关系。最后,GRE模块稳定特征表示,增强鲁棒性和收敛性。
作者的贡献如下:
-
基于三维SSDM的频谱-空间去相关:三维空间-频谱去相关模块(3D-SSDM)利用三维DCT基函数减少频谱和空间冗余,在复杂的HSI场景中实现全面的特征分离。
-
基于三维Mamba的高效空间-频谱依赖建模:三维Mamba模块捕捉局部和全局的空间-频谱依赖关系,提高效率并增强特征交互。
-
基于GRE的鲁棒特征稳定性:全局残差增强(GRE)模块稳定特征表示,提升鲁棒性和收敛性。
-
相关研究工作
本节回顾了高光谱图像(HSI)分类的关键方法,重点介绍了频域分析、基于Transformer的模型以及基于Mamba的模型,以捕捉空间-光谱依赖关系。
2.1. 频域图像分类技术
频域技术,包括离散余弦变换(DCT)、离散傅里叶变换(DFT)[24, 33]和小波变换[32],已被证明在增强图像分类的特征提取方面非常有效。诸如谐波神经网络(HNN) 等技术,将二维DCT应用于捕捉频域中的细微变化,利用DCT去相关和集中能量的能力,从而减少冗余并提高自然图像分类中的分类性能[2]。
类似地,基于二维FFT的方法[15, 24, 33]利用频域信息提取HSI分类的判别特征。WaveViT[32]使用离散小波变换进行多尺度特征提取。
2.2. 基于Mamba的HSI分类方法
基于Mamba的模型为高光谱图像(HSI)分类提供了一种极具潜力的方法,该方法着重于通过状态空间表示捕捉空间-光谱依赖关系。这些模型特别适合HSI数据的高维特性,能够在不依赖传统卷积或注意力机制的情况下进行有效的特征提取。
一些显著的基于Mamba的方法,如MiM [35]、SpectralMamba [31]和WaveMamba [1],利用状态空间模型来捕捉空间-光谱关系,展示了Mamba在HSI分类中的潜力。最近的进展,包括Li等人[13]的研究,强调了整合空间和光谱特征的重要性。尽管这些方法在建模长距离依赖关系方面取得了成功,但它们仍然面临着与光谱波段之间冗余相关的重大挑战,这仍然是当前基于Mamba的方法中的一个关键差距。
- 研究方法
作者提出的DCT-Mamba3D系统包含三个主要部分,如图2所示。首先,3D空间-频谱去相关模块(3D-SSDM)应用3D离散余弦变换(DCT)基函数,将空间像素转换为去相关频谱分量,从而减少冗余并隔离关键特征。
其次,3D-Mamba模块通过状态空间建模和选择性扫描,捕捉去相关数据中的复杂空间-频谱依赖关系。最后,GRE模块通过整合全局上下文,稳定特征表示,增强鲁棒性和分类精度,跨越层间。
3.1.3三维-单尺度深度监督模块
3D-SSDM模块首先进入干细胞阶段,用于浅层特征提取和归一化。高光谱图像(HSIs)包含数百个连续的光谱波段,并且波段间具有高度相关性。
为了解决这个问题,3D-SSDM采用了三维DCT(离散余弦变换)基函数,将空间像素转换为空间和光谱维度上的去相关频率成分。如图3所示,它通过将大部分能量集中在特定的频率成分中,从而提高了特征的清晰度。
3D离散余弦变换(DCT)生成一系列空间-频谱频率成分,捕捉不同的HSI特性。在
的配置中,3D DCT产生27个基函数,低频成分捕捉平滑变化,高频成分捕捉精细细节。
将高光谱图像(HSI)表示为
(其中
、
和
分别表示空间维度和光谱维度),三维离散余弦变换(3D DCT)的应用如下:
代表3D离散余弦变换(DCT)基函数,它能够在空间和频谱维度上进行去相关,并提取空间-频谱频率特征。
基础函数
定义如下:
正则化因子
为:
以
代表
、
或
。
3.2.3 3D-Mamba模块
3D-Mamba模块采用双向状态空间模型(SSM)来捕捉来自3DSSDM的频率域数据
中的空间-频谱依赖关系。它直接作用于去相关数据,区分相似特征,并在所有维度上细化空间-频谱信息。
在去相关处理后,输入
经历以下阶段:
Patch 嵌入:3D-Mamba模块通过频域中的专用嵌入层将
分解为空间、频谱和残差组件。这种设置分离了关键特征,并为选择性扫描数据做准备。
频率空间和频谱双向SSM:利用SiLU激活函数实现非线性,
和Cspectral在SSM框架内进行选择性扫描,捕捉独立频率成分中的空间-频谱依赖关系。
和
分别表示潜在的空间和频谱状态,而
和
则是输出结果,旨在增强不同频域之间的独立性。
特征聚合与归一化:空间特征输出
和光谱特征输出
与残差
结合,并进行归一化处理以确保稳定性。
表示最终的时空特征图,它将初始的去相关特征与精细更新的特征相结合。
3.3. 图神经网络模块
GRE模块通过将3D-Mamba模块提取的空间-光谱特征与全局上下文相结合,增强了特征的鲁棒性。通过引入残差连接,GRE模块稳定了训练过程,并在各层之间保留了关键信息。
GRE模块接收来自3D-Mamba模块的
,并将其与来自3D-SSDM的
结合,形成最终的输出
。
输出特征图
,其中
是一个可学习的参数,用于平衡
和
的贡献。输出
被送入分类层,从而完成高光谱图像分类的特征提取流程。
为了优化,采用了组合损失函数,该函数结合了交叉熵损失和可选的正则化项以实现频谱去相关性:
在交叉熵损失
的基础上,
对光谱冗余进行惩罚,而
是一个正则化权重。
- 实验
4.1. 数据集与设置
作者对DCT-Mamba3D在三个基准高光谱图像(HSI)分类数据集上进行评估:印第安纳松林、肯尼迪航天中心(KSC)和Houston2013。这些数据集包含具有不同光谱特性的多样土地覆盖类别。印第安纳松林数据集具有诸如“同一物体,不同光谱”和“不同物体,相同光谱”等挑战,特别适合分析作者模型的谱去相关性能力。所有数据集均分为10%用于训练和90%用于测试,并通过10次运行的平均模型性能来确保鲁棒性。评估指标包括总体精度(OA)、平均精度(AA)、Kappa系数以及每类的F1分数。作者的方法与领先模型进行了比较,包括2D-CNN [28]、3D-CNN [29]、HybridSN [16]、ViT [6]、HiT [30]、MorphF [17]、SSFTT [20]和MiM [35]。
4.2. 频谱相关性 Heatmap
图4展示了在印度松林数据集上针对(a)2D-CNN、(b)HiT和(c)DCTMamba3D的Spearman相关 Heatmap 。在每个 Heatmap 中,
和y轴代表光谱波段,高非对角线值表示光谱冗余。2D-CNN保留了大量冗余,HiT减少了一些冗余但相邻波段仍保持冗余,而DCT-Mamba3D实现了显著的去相关性,有助于提高分类性能。
4.3. 分类准确率比较
作者比较了DCT-Mamba3D在分类性能上与领先模型的表现,包括2D-CNN、3DCNN、HybridSN、ViT、HiT、MorphF、SSFTT和MiM。如表1所示,DCT-Mamba3D在超光谱图像分类中表现出有效的性能,尤其是在挑战性案例中。
作者的方法在处理具有挑战性的案例时显示出独特的优势:- 同一物体,不同光谱:对于如“免耕玉米”和“玉米种植”这样的类别,DCT-Mamba3D显著提高了分类准确率,有效地捕捉了类内光谱的变异。三维光谱 decorrelation 模块提供的去相关性使得模型能够区分相似类别中的细微光谱变化,从而提高了这些类别的 Fl 分数。- 不同物体,相同光谱:对于“建筑物-草地-树木-道路”和“石头-钢铁-塔”等类别,DCT-Mamba3D优于其他模型,凸显了其减少光谱冗余和提高具有相似光谱特征类别可分离性的能力。
4.3.1 t-SNE可视化分析
作者进行了t-SNE可视化分析,以评估DCT-Mamba3D在特征区分方面的有效性,如图5所示。结果显示,DCT-Mamba3D能够生成紧凑且分离良好的聚类,展示了其在去相关复杂光谱和空间特征方面的强大能力。这种增强的去相关通过减少类间误分类提高了类别可分性,并加强了类内凝聚力,解决了高光谱成像中的关键挑战,如“同一物体,不同光谱”和“不同物体,相同光谱”。通过利用3D-SSDM,DCT-Mamba3D有效减少了光谱和空间冗余,从而实现了清晰且独特的特征表示,在具有重叠或冗余光谱信息的场景中尤为有益。
4.4. 训练损失函数比较
为了进一步展示作者提出模型的高效性,作者比较了DCTMamba3D模型与2D-CNN和HiT的训练损失曲线,如图6所示。每个模型的训练损失在训练迭代过程中被记录下来,以便分析收敛行为。结果表明,与2D-CNN和HiT Baseline 相比,DCT-Mamba3D模型实现了更快且更稳定的收敛。
训练损失曲线突显了DCT-Mamba3D模型在收敛速度方面的显著优势。它比2D-CNN和HiT在更少的迭代次数内实现了接近零的训练损失,展示了其在频域内高效的特征提取和去相关能力。这种快速收敛不仅减少了训练时间,还展示了模型在处理复杂空间光谱依赖性方面的鲁棒性,进一步支持了其在高光谱图像分类中的有效性。
在Houston2013数据集上与顶级Transformer和Mamba模型的对比分析(训练样本占比10%)
4.5. 消融研究及复杂度分析
作者进行了一项消融研究,以评估DCT-Mamba3D模型中关键组件的贡献。
三种配置被进行了测试:
仅使用3D-SDM:排除3D-MambaNet,专注于光谱去相关,实现了93.55%的OA(总体准确率)、82.63%的AA(平均准确率)和92.65%的Kappa得分。
3D-MambaNet仅:排除3D-SDM,专注于空间特征提取,实现OA(总体准确率)为94.97%,AA(平均准确率)为85.56%,Kappa系数为94.26%。
- 无GRE(全局残差增强):排除GRE,实现OA为94.62%,AA为85.08%,Kappa系数为93.87%。表4总结了每种配置的OA、AA和Kappa系数,以及完整的DCT-Mamba3D模型。结果表明,该模型在集成空间光谱特征提取方面具有优势,尤其是在“同一物体,不同光谱”和“不同物体,相同光谱”的情况下。
为了进一步检验DCT-Mamba3D的性能,作者在印度松、KSC和Houston2013数据集上,针对不同大小的训练样本进行了评估,特别是在训练样本有限的条件下,结果如表5所示。结果表明,即使在样本有限的情况下(例如1%和3%),DCT-Mamba3D仍能保持较高的平均精度(OA)和Kappa系数,这突显了其强大的特征提取能力。这种有效性可以归因于3D-SSDM的光谱-空间去相关,它减少了冗余并提高了特征的可分离性。随着样本量的增加,模型在OA和Kappa系数上持续改进,证明了其在不同数据条件下的可扩展性和鲁棒性,使其特别适合于具有挑战性的高光谱图像(HSI)分类任务。
4.5.1. 复杂性分析
作者评估了DCTMamba3D在印度松数据集上相对于 Baseline 模型的计算复杂度,具体信息详见表6,重点关注了浮点运算次数(FLOPS)和参数数量。虽然DCT-Mamba3D的计算成本高于CNN模型,但这种成本通过显著的性能提升得到了补偿。与MiM等基于Mamba的其他架构相比,DCT-Mamba3D展示了在复杂度、准确性和去相关性有效性之间的优化平衡,使其非常适合既需要精度又需要计算效率的应用场景。
- 讨论部分
作者的DCT-Mamba3D模型通过利用光谱-空间去相关性和通过其集成模块(3D-SSDM、3D-Mamba和GRE)进行有效的特征提取,解决了HSI分类的挑战。
3D-SSDM光谱去相关和特征提取:通过使用3D离散余弦变换(DCT)基函数,3D-SSDM在跨维度提取关键特征的同时,降低了光谱和空间冗余。其增强的去相关性提高了模型处理高光谱相似性案例的能力,如“不同物体,相同光谱”的情况。消融研究表明,仅3D-SSDM本身就能达到有竞争力的准确率,突显了其在隔离相关特征方面的有效性。
3D-Mamba用于增强空间-光谱依赖性:3D-Mamba通过双向状态空间层有效捕捉空间-光谱依赖性,尤其在区分细微的光谱变化方面表现出色,如在“同一物体,不同光谱”的场景中。这种结构在保持复杂性与高效的空间-光谱维度特征交互之间实现了平衡。
GRE(梯度反转增强)用于稳定性和鲁棒训练:GRE结合了残差空间光谱特征,稳定了层间的特征表示。这种稳定性加速了收敛速度,为DCT-Mamba3D的高效训练时间和学习过程中的鲁棒性做出了贡献,尽管其架构复杂。
在数据有限和复杂度效率方面表现出色:DCT-Mamba3D即便在训练数据有限的情况下,也能展现出强大的特征区分能力,在小样本量下实现高准确率和Kappa评分。如表6所示,其平衡的计算复杂度使得相较于其他模型,在可管理的FLOPS和参数数量下仍能保持较高的准确性,使其适用于资源受限的应用场景。
本文提出了一种名为DCT-Mamba3D的超光谱图像(HSI)分类框架,旨在解决光谱冗余和复杂的空间-光谱依赖性问题。该架构集成了三个核心模块:一个3D空间-光谱去相关模块(3D-SSDM),它利用3D离散余弦变换(DCT)基函数来减少冗余并提高特征清晰度;
一个3D-Mamba模块,通过双向状态空间模型捕捉复杂的空间-光谱关系;以及一个全局残差增强(GRE)模块,以稳定特征表示,提高鲁棒性和收敛性。
作者使用基准HSI数据集进行的实验表明,DCT-Mamba3D在具有高光谱相似性或光谱变化性的挑战性场景中超越了现有方法。
参考
[1]. DCT-Mamba3D: Spectral Decorrelation and Spatial-Spectral Feature Extraction for Hyperspectral Image Classification .
点击上方卡片,关注
「AI视界引擎」
公众号