Transformer 在超光谱图像(HSI)分类领域已经取得了令人满意的结果。
然而,现有的 Transformer 模型在处理具有多样化土地覆盖类型和丰富光谱信息特征的HSI场景时面临两个关键挑战:
(1)固定感受野表示忽略了有效上下文信息;
(2)冗余自注意力特征表示。为了解决这些问题,作者提出了一种新颖的选择性 Transformer (SFormer)用于HSI分类。
SFormer旨在动态地选择感受野来捕捉空间和光谱上下文信息,同时通过优先考虑最相关的特征来减轻冗余数据的负面影响。这使得HSI中的土地覆盖分类变得非常准确。
具体来说,首先利用核选择性 Transformer 块(KSTB)动态地选择一个适当的感觉野范围来有效地提取空间-光谱特征。
此外,为了捕捉最重要的 Token ,引入了 Token 选择性 Transformer 块(TSTB),它根据每个 Query 的注意力得分对最相关的 Token 进行排序。
在四个基准HSI数据集上的广泛实验表明,所提出的SFormer优于最先进的HSI分类模型。代码将发布。
I Introduction
随着超光谱成像技术的不断进步,超光谱图像(HSIs)现在提供了越来越丰富的空间-光谱信息,使得地球观测变得精确。利用其独特的光谱特性,HSIs能够执行各种任务,包括分类,目标检测,变化检测,以及图像质量增强。值得注意的是,HSI分类已成为遥感领域的一个基本任务,因为它在诸如灾害监测[14],精准农业[15],以及城市规划[16]等领域有广泛的应用。HSI分类的主要目标是将特定的类标签分配给HSI中的每个像素。
深度神经网络在HSI分类领域已经成为主导力量,包括堆叠自动编码器(SAEs)[17],深度信念网络(DBNs)[18],循环神经网络(RNNs)[19],图卷积网络(GCNs)[20],卷积神经网络(CNNs)[21],视觉 Transformer (ViTs)[22],以及最近涌现的状态空间模型(SSMs)[23]。深度学习方法具有自动从输入图像中学习判别性深度特征的优势,无需依赖手工设计的特征。
由于它们强大的特征表示能力,卷积神经网络(CNNs)吸引了大量关注。一种一维卷积神经网络(1D-CNN) [27] 提出,通过多个卷积层实现有效的局部光谱特征提取。进一步,赵等人 [28] 引入了二维卷积神经网络,该网络提取空间-光谱特征并使用平衡局部判别嵌入。
后来,HSI立方体 [29, 30] 直接提取联合空间-光谱特征的 3D-CNNs [29, 30] 得以发展。然后,一些多尺度卷积网络提出,用于提取深度多尺度特征。然而,这些基于CNN的网络受到其固有局部感知限制,这限制了它们可以捕获的信息量,从而影响了准确性。
随后,具有注意机制的HSI分类方法出现并取得了显著的分类结果,尤其是自注意力机制,因为它们能够提高远程感知能力。之后,基于 Transformer 的网络因其使用多头自注意力(MHSA)实现优越的上下文建模而广泛采用。这些方法显著优于传统卷积神经网络(CNNs),由于CNNs受其感受野限制。
Hong等人[22]提出了SpectralFormer,通过使用 Transformer 和层间 Short-Cut 捕获HSI带之间的谱序列信息来增强HSI分类。进一步,Sun等人[43]提出了光谱-空间特征 Token Transformer (SSFTT),其中浅层特征通过卷积提取,语义特征通过高斯加权 Token 模块处理,并使用单层 Transformer 进行特征表示。
然后,Zou等人[47]引入了 LESSFormer,它使用HSI2Token模块提取自适应的空间-光谱 Token ,并使用局部 Transformer 增强局部光谱表示。受光谱分区的有效性启发,Mei等人[48]提出了分组像素嵌入策略和层次结构,以提取具有区分性的多尺度空间-光谱特征。
Roy等人[49]通过结合光谱和空间形态卷积操作与注意力机制将形态特征集成到其提出的MorphFormer中。
此后,赵等人[45]介绍了一种轻量级的ViT网络变体,该变体在特征提取块中结合了组分可分离卷积和多头自注意力模块,以有效地捕捉局部和全局空间特征,同时降低了参数复杂度。
然而,大多数 Transformer 结构通常使用固定感受野进行特征提取,忽视了不同类型土地覆盖需要不同的上下文信息的事实[50, 51]。如图1(a)所示,有限感受野的HSI可能出现分类问题。不同类型的土地覆盖通常需要不同的上下文信息范围,以便在HSI内准确分类像素。
此外,大多数基于 Transformer 的HSI分类模型通常使用常规多头自注意力来构建全局特征[48]。图1(b)说明了与 Query Token 相关的土地覆盖类别 Token 以及一些与土地覆盖目标类型无关的 Token 。此外,现有的基于 Transformer 的HSI分类模型主要关注空间注意力或频谱注意力[22],忽视了在HSI数据中空间和频谱上下文信息的集成建模。
为了解决这些问题,本文提出了一种新的选择性Transformer(SFormer)用于HSI分类,该方法在合理的感受野内选择最具价值和相关性空间-频谱信息。SFormer的设计考虑到了不同尺度的目标需要不同的上下文信息。为了适应这一点,模型集成了一个核选择性Transformer块(KSTB),该块动态地选择适当尺寸的核,以优化有效的空间-频谱特征提取感受野。
此外,SFormer并没有利用所有 Token 进行稠密注意力计算,而是引入了一个 Token 选择性Transformer块(TSTB)。这个块使用群策略直接利用3D HSI特性选择具有最高注意力值的最具相关性的 Token 。这些选择性机制使得SFormer能够捕获在最佳感受野内最具意义和合适的空间-频谱信息。本研究的贡献总结如下:
本文提出了一种新的选择性Transformer(SFormer)用于HSI分类。SFormer有效地选择感受野以提取空间和频谱上下文信息,同时通过关注最相关的特征减少冗余信息干扰。这种方法使得HSI地面物体的精确分类成为可能。
为了自适应地选择合适的上下文信息,作者设计了一种核选择变换块(KSTB)。这种机制确保特征提取从空间和频谱两个最优感受野进行,从而增强模型有效地学习和区分各种土地覆盖特征的能力。
作者进一步开发了一种Token Selective Transformer Block(TSTB),该机制能够有策略地选择最相关的 Token 以提取有价值的信息。这种机制在整合必要信息的同时,降低了冗余和无关信息的影响,从而提高了在视觉任务中空间-频谱特征的表示。
广泛实验在四个基准HSI数据集上进行:帕维亚大学、休斯顿、印度针枞和WHU-HongHu。结果表明,所提出的SFormer,利用适当且有价值的上下文信息,在其他最先进方法之上表现更好。
II Proposed Methods
在本节中,作者介绍了作者的SFormer的实现细节。SFormer由卷积层、选择性Transformer组(STG)和分类头组成。作者首先概述了SFormer,然后详细解释了其组成部分:核选择性Transformer块(KTAB)和 Token 选择性Transformer块(TSTB)。
Overview of SFormer
如图2所示,HSI首先经过PCA进行降维处理,然后提取重叠的块状立方体,,其中每个块都根据中心像素进行分类。这里,和分别表示高度和宽度,表示块大小,是降维后的光谱维数。将像素 Level 的块状立方体作为输入,作者首先使用一个3x3卷积层来捕获浅层特征,称为。接下来,作者使用两个连续的选择性自注意力组(STGs)对进行深度特征提取。这个过程可以表示为:。最后,应用层归一化以及分类头中的全连接层来获得最终的分类结果。
Kernel Selective Transformer Block
在引言中分析的,HSI中的不同覆盖类别需要不同的上下文信息。现有方法通常受限于网络的感受野大小,或者不能动态地适应特定类型的覆盖。为了解决这个问题,作者设计了核选择性变换块(KSTB)。首先,它使用膨胀的逐点卷积来构建一个更大的感受野,用于多尺度建模。其次,它引入了一个空间-频谱选择机制,以自适应地确定不同类型覆盖所需的最适感受野大小。具体来说,KSTB主要由核选择性自注意力(KSA)模块和 FFN (FFN)组成。
图3显示了KSA的结构。对于输入,采用了两个独立的深度卷积(DwConv)。分解后的核特征然后通过11卷积层处理,以集成通道信息和统一维度,从而获得具有不同感受野的上下文特征:
33 DwConv和55 DwConv分别表示一个 dilation 为2的33和55的DwConv。
考虑到不同类型土地覆盖所需的不同上下文信息尺度,作者采用了一种空间-频谱选择机制来增强网络的动态适应性。具体而言,作者首先将卷积核提取的特征 进行拼接:
随后,对分量进行平均池化和最大池化,以捕获空间描述符。为了实现不同空间描述符之间的信息交换,作者首先将上述池化特征拼接,然后使用一个简单的11卷积层将两个池化特征转换为个空间注意力图,作者在作者的结构中设置为2。这个过程可以如下表示:
接下来,对每个空间注意力特征图应用 sigmoid 激活函数 ,生成对应不同卷积核的独立空间选择 Mask :
考虑到HSIs中各种复杂土地覆盖类型所需的不同上下文光谱信息,作者设计了一种光谱选择机制来满足这一需求。首先,作者利用空间全局平均池化将特征压缩为光谱特征描述符。接下来,作者使用全连接层来产生更紧凑的光谱注意力特征。这些操作可以用如下数学表达式表示:
随后,通过softmax运算生成光谱相关的注意力,以指导选择过程,从而产生光谱选择 Mask ,其获取方式如下:
其中 表示向量 的第 个注意力值,, 表示矩阵 的第 行,类似地 和 ,以及 、 是两个最初定义的可学习向量。
此外,空间-频谱选择权重是通过与相应空间-频谱选择 Mask 进行矩阵乘法获得的:
经过分解得到的增强特征图通过各自的空间-频谱选择权重 进行加权。然后通过 卷积层 进行组合,可以得到注意力特征 :
KSA模块通过将输入特征与进行逐元素乘法来生成其最终输出:
FFN模块包括一个全连接层、一个深度卷积、一个GELU激活函数以及第二个全连接层。
Token Selective Transformer Block
以往的研究通常利用Transformer中的自注意力机制来捕捉长期依赖关系,从而促进全局空间或频谱关系的建模[22]。然而,HSI通常包含各种各样的复杂土地覆盖类型。传统的Transformer架构倾向于计算所有 Query 键对之间的注意力,这不可避免地导致冗余和不相关信息的交互,最终降低解释的准确性。
为了克服这个限制,作者提出了一种新颖的多头选择性注意力(MSA)机制来替代传统的多头自注意力(MHSA)机制。此外,作者的MSA通过分组操作保留HSI三维立方体数据特性,并使用3D卷积提取具有空间和频谱特性的 Token 。在计算自注意力时,MSA有选择地关注最相关的 Token ,有效地忽略了最不相关的信息。这种方法在提高解释准确性同时减少冗余计算。
如图4所示,作者首先将输入特征划分为组,每组生成一个大小为的特征图。然后,作者将这些特征图通过一个大小为的3D点乘卷积,接着通过一个大小为的3D深度卷积。这个过程可以生成相应的 Query ,键和值。为了便于计算自注意力,作者对,和进行 Reshape 和转置,调整其维度,通过展开操作使每个形状为。这些过程可以扩展到多头场景,并可以表示如下:
其中 表示第 i 个头中的特征, 分别对应第 i 个头的 , , 和 , 表示组数。 函数表示在通道维度上执行的块操作。接下来,通过 和 的点积生成一个稠密注意力矩阵 :
λ = √(C/h),其中h表示头数。接下来应用 Token 选择机制在A中识别出最相关的前k%元素。例如,当k=0.8时,前80%的元素用于激活,而剩余的20%元素被屏蔽为0。为了实现这一目标,创建一个矩阵M^k,其操作如下:
表示第个头经过选择性关注后的输出。
由于作者采用了多头设计,作者将每个 Head 的输出结果进行拼接,然后使用1x1卷积进行聚合,如下所示:
作者的Tokens选择性关注力的详细实现已在算法1中呈现。
III Experiments
在本节中,作者首先概述了数据集和实现细节。
然后,作者对所提出的算法进行了全面的评估,包括深入的参数分析和模块裁剪研究。
这之后,作者与当前最先进的方法进行了定性定量比较。最后,作者评估并讨论了作者的模型与其他方法的运行效率。
Data Descriptions
Iii-A1 Pavia University
该数据集是在2001年,由位于意大利北部帕维亚大学校园的反思光学系统成像光谱仪(ROSIS)获取的。该数据集包含103个光谱带。数据集的尺寸为610 by 340像素,覆盖了9个主要的感兴趣类别。
Iii-A2 Houston
休斯顿数据集在2012年 [52]期间,在休斯顿大学校园及其周边地区获取。它包含400-1000 nm波长范围内的144个光谱带,空间分辨率为2.5米。数据集包含349行1905个像素,共15个类别。
Iii-A3 Indian Pines
AVIRIS传感器在1992年在印第安纳州西北部获取了该数据集。该数据集的尺寸为145×145像素,空间分辨率为20米。在移除水吸收带后,该数据集涵盖了400-2500纳米范围内的200个光谱带。数据集中包括16个植被类别。
Iii-A4 Wu-HongHu
该数据集是在2017年使用无人机平台在香港市收集的[53]。它包括从400到1000 nm的270个光谱波段,具有约0.04m的高空间分辨率。图像的尺寸为940 by 475像素,包括17种典型的农作物类型。
Experimental Settings
在本研究中,作者在PyTorch平台上进行了实验,使用了英伟达GeForce RTX 3090 GPU。对于Pavia大学数据集,作者随机选择了每个类别的30个样本作为训练集,而对于其他三个数据集,作者选择了每个类别50个样本,所有剩余的 Token 样本都用作测试集。
训练过程使用了AdamW优化器,初始学习率为,权重衰减为,共运行了500个epoch。所有数据集都提取了大小为的patch cube,transformer中的patch大小为2,嵌入维数为128。
为了定量评估分类性能,作者使用了三个广泛认可的评估指标:总体准确率(OA)、平均准确率(AA)和卡帕系数()。每个实验重复了10次,使用不同的随机种子,分类结果以平均值和标准差表示。
Parameter Analysis
Iv-C1 Effect of Different Values
在TSTB模块中,选择个 Token 作为核心参数之一是的值。为了确定的最优值,作者进行了四组实验,其中分别设置为0.2,0.4,0.6,0.8和1。当设置为0.8时,TSTB模块选择最相关的80% Token 用于空间-频谱上下文建模,而剩下的20% Token 被认为是最不相关的,因此被排除在信息交互过程之外。当设置为1时,TSTB模块中的注意力机制退化为传统的全自注意力形式。图5展示了四组数据集(具有不同值的四个数据集)的OA结果。
实验结果表明,当设置为0.2时,分类准确性相对较低,因为可用于长程建模的信息不足。随着的值增加,OA提高,表明更多的像素有助于构建上下文关系,使网络能够捕获更丰富、更有效的信息进行分类任务。
然而,当超过最优值时,OA开始下降,可能是因为在剩余的1-k Token 中包含大量无关或冗余信息,这 negatively 影响了分类性能。最后,根据实验结果,作者在四个数据集上选择了值分别为0.4,0.6,0.8和0.8,以实现最佳的分类性能。此外,大多数配置的表现优于传统的自注意力机制,验证了 Token 选择策略的有效性。
Iv-C2 Effect of Different Group Numbers
SFormer架构中的一个关键参数是组数,用g表示。为了确定g的最优值,作者进行了四组实验配置,分别将g设置为1、2、4和8。通过使用分组和3D卷积,TSTB模块保持了HSIs的空间-频谱特性,使得可以提取出同时包含空间和频谱特征的 Token 。
g的值直接影响注意力矩阵的大小,更大的g值导致矩阵的扩展,从而增加了计算复杂性。当g设置为1时,TSTB模块简化为纯粹的空间 Token 选择,没有分组。实验结果显示,当g设置为1时,没有应用分组策略来保留空间-频谱特性,导致四个数据集上的分类准确率相对较低。相比之下,分组策略显著提高了分类性能。值得注意的是,在四个数据集上,当g设置为4时,最优分类性能得到实现,同时保持了相对高效的计算复杂性。如图6所示。
Ablation Study
Iv-D1 Performance Contribution of Each Module
作者通过消融研究探索了SFormer中每个模块对其分类性能的影响,如表1所示。 Baseline 架构使用单个3x3卷积层,以及一种采用连续9个堆叠的3x3卷积层的方法,以与SFormer网络的深度相匹配。研究结果表明,KSTB和TSTB模块显著提升了网络的分类性能。例如,在帕维亚大学数据集上,单个卷积层 Baseline 仅达到87.67%的OA。然而,增加网络层数并未提高准确率。
实际上,使用9个卷积层仅达到86.33%的OA。引入KSTB模块后,OA提高至93.44%,而应用TSTB模块后,OA提高至95.81%。每个模块都通过各自的作用机制提高了分类性能。具体而言,KSTB模块通过使网络能够自适应地选择适当的感受野范围,从而改善了不同尺度物体的识别准确性。
而TSTB模块通过选择性地计算最相关的 Token 并进行分组策略,有效地过滤和利用上下文信息,从而提高了分类效果。当同时应用KSTB和TSTB模块时,分类性能进一步提高,OA达到96.59%。
总之,消融研究的结果表明,KSTB和TSTB模块在所有四个HSI数据集上以不同程度的改进了网络的分类性能,而两个模块的结合表现出协同作用,实现了最佳OA,证实了这些模块在增强网络分类性能方面的有效性。
Iii-B2 Performance Contribution of Spatial-Spectral Mechanism
作者进一步探讨了KSTB中的空间-光谱选择机制对分类性能的影响。如表2所示,当单独使用空间或光谱选择分支时,四个数据集的分类性能降低。这突显了在HSI中准确识别地面物体需要考虑空间和光谱信息的重要性。不仅需要自适应选择空间感受野,还需要仔细选择合适的光谱信息,因为所需的色谱上下文信息在不同土地覆盖类型之间差异显著。
例如,在帕维亚大学数据集中,使用单独的空间或光谱选择机制时,OA分别达到96.09%和96.01%。而当同时应用空间和光谱选择机制时,OA达到96.59%。总之,这项消融研究证明,同时使用空间和光谱选择机制可以实现最佳分类性能,从而验证了所提出的空间-光谱选择机制的有效性。
Performance Comparison and Analysis
在本小节中,作者将比较所提出的方法与其他经典和最新方法。实验中包含的每种方法的简要介绍如下。
3D-CNN [29]: 利用3D-CNN进行空间-频谱分类。作者遵循原始文章的实现方式。
SSFCN [26]: 空间-频谱分类的端到端全卷积网络。该模型使用Adam优化器以学习率和动量0.9进行训练。
SACNet [38]: 一种将自注意力学习与上下文编码相结合的空间-频谱分类方法。该网络使用Adam优化器进行训练,学习率为,权重衰减为。
FcontNet [36]: 多尺度跨空间、带宽和尺度的非局部上下文注意力多尺度分类。基本学习率为0.01,使用多项式调度策略调整。使用具有0.9的动量和1e-4的权重衰减的SGD优化。
光谱前馈[22]:这是一种基于Transformer的架构,采用顺序学习,关注相邻的波段和块。该模型使用Adam优化器进行训练,学习率为,在总训练轮次达到每十分之一的时刻,学习率会衰减为原来的0.9倍。
SSFTT [43]: 空间-频谱分类方法将卷积神经网络(CNN)与单层Transformer和高斯分布加权分词模块相结合。该模型使用Adam优化器进行训练,学习率为。
GAHT [48]: 层次 Transformer 中的分组像素嵌入实现空间-频谱分类。模型使用SGD优化器,动力学因子为0.9,权重衰减为,学习率为进行训练。
形态 Transformer (MorphFormer)[49]:一种基于ViT的空间-频谱分类方法,该方法将注意力机制与形态运算相结合。该模型使用Adam优化器进行训练,权重衰减为,学习速率为。
GSCViT [45]: 一种轻量级的网络,利用群组可分可分离卷积和ViT在特征提取层中。
块。该模型使用AdamW优化器进行训练,学习率设置为,权重衰减系数为0.05。
Iv-B1 Quantitative and Qualitative Results Analysis
定量结果包括每个类别的准确性、OA、和AA,如表3至表6所示,其中最佳结果用粗体突出显示。以Pavia大学数据集为例,基于CNN的HSI分类方法,如在patch Level 的3D-CNN,其分类性能受到输入patch大小的限制,导致OA仅为77.01%。对于基于图像的方法,如SSFCN,尽管整个图像作为输入,但卷积层的有限感受野阻碍了上下文信息的有效提取,导致OA为81.48%。SACNet方法引入了自注意力学习机制和上下文编码,以建立长期依赖关系,但其性能提升受到自注意力机制计算时的空间分辨率限制,得到OA为83.27%。
相比之下,FcontNet通过结合尺度、空间和通道注意力机制实现多尺度分类,实现了相对较高的准确性,OA为90.54%。然而,该方法在计算自注意力机制和多尺度特征设计方面需要大量计算资源和较低的操作效率。
对于基于 Transformer 的算法,SpectralFormer和SSFTT都基于ViT结构进行构建,并通过构建相邻频带的数据进行学习。然而,由于频带之间的冗余以及缺乏空间上下文建模,这些方法的表现略逊于基于卷积神经网络的HSI分类方法,其OA分别为76.46%和75.79%。
GAHT在ViT基础上构建了一个分层的 Transformer ,通过集成分组像素嵌入,MorphFormer将形态操作融入ViT注意力机制,而GSCViT使用ViT进行分组可分离卷积以提取局部和全局特征。这些方法都实现了较高的准确率,其OA分别为90.69%、90.6%和93.40%。
然而,这些方法忽视了在HSI中识别不同类型土地覆盖所需的不同范围背景信息,传统自注意力机制在计算过程中包括冗余和不相关的信息。此外,在捕获光谱上下文方面缺乏足够的精炼,限制了现有 Transformer 基于HSI分类方法的准确度。
为了解决上述问题,作者采用了KSTB进行自适应接收域选择,然后使用TSTB智能选择最相关的 Token 进行自注意力计算。作者的方法SFormer实现了最佳的OA为96.59%,比第二好的方法高出3.2个百分点。值得注意的是,SFormer在几乎所有每个类别的准确性指标上都取得了最佳结果,除了第九类阴影,它在MorphFormer的轻微超过。
这可能归因于将形态操作集成到注意力机制中,这可能为阴影识别提供了更有效的语义特征。同样,作者提出的这种方法在三个额外的数据集上展示了优越的准确性,突显了其优势和适用性。
作者还在图7-10中呈现了分类图来评估各种方法。以WHU-HongHu数据集为例,作者观察到3D-CNN和SSFCN等方法存在明显的盐与胡椒噪声。
相比之下,FcontNet和最新的基于Transformer的方法产生了更平滑、更好的结果。特别值得注意的是,在棉花的分类中,大多数现有方法倾向于将棉花误分类为棉柴。
然而,作者的SFormer模型显著减少了这些错误,产生了更接近 GT 值的输出。这一优势已在多个数据集上得到验证,突显了SFormer模型在处理复杂分类任务方面的优越性能。
V-D2 Robustness with different training samples
为了评估所提出的SFormer方法的可稳定性,作者在四个不同的数据集上进行了广泛实验,每个数据集的训练样本数量不同。具体来说,作者随机选择了每个类别中的25、50、75和100个训练样本来构建训练集。
图11比较了不同样本数量下的分类性能。结果表明,随着训练样本数量的增加,SFormer的分类准确性稳步提高,证明了其鲁棒性。此外,SFormer始终优于现有最先进的现有方法,在所有训练样本配置中实现了最高的准确性。
V-D3 Computation Cost Analysis
考虑到之前的比较实验表明,基于 Transformer 的模型通常具有更高的准确性,作者对所有基于 Transformer 的方法进行了关于参数、推理时间和OA结果的全面比较,如表7所示。在作者的性能评估中,提出的SFormer展示了强大的竞争力,并在四个基准数据集上实现了精确度和效率的良好平衡。
关于模型参数,作者的SFormer参数比 Transformer 基态最先进的方法GAHT和GSCViT更少。尽管SFormer的推理时间略高于比较方法,但它优于SpectralFormer。这些结果表明,SFormer成功地实现了计算资源利用和捕捉复杂特征之间的最优折衷。
Visualization
V-F1 Different Objects of Selection Weights
为了验证HSI分类中不同类型土地覆盖物对感受野需求的差异,作者提出了具有不同选择权的感受野的目标可视化。图12(a)展示了Pavia大学数据集中三种土地覆盖物:沥青、草地和裸露土壤及其对应位置。图12(b)显示了在KSTB中用于最终融合的不同感受野所使用的权重值和。
权重结果表明,P1中对应较大感受野的权重为54.07%,这确认了作者之前分析的结果,即沥青需要更多的上下文信息来进行精确分类。相反,在P2和P3这两个具有空间连续性的位置,较小的感受野特性就足以满足分类需求。
V-F2 Attention Matrix Change of Token Selection
为了进一步理解 Token 选择操作的影响,作者展示了在操作前后注意矩阵的变化。如图13所示,作者使用了Pavia大学数据集,将组数设置为2,选择率为40%。具体来说,作者从多头自注意力机制的第一头选择了密集注意力矩阵。从图中可以看出,在 Token 选择操作后,原始密集注意力矩阵中只有40%的元素保持其值,而其余60%被设置为0,从而产生了稀疏选择性注意力 Mask 。经过TSTB进行深度特征提取后,保留分类相关信息,同时丢弃无关和冗余信息。
IV Conclusions
在本文中,作者介绍了一种新颖的SFormer用于HSI分类。SFormer被设计用来动态选择感受野,以捕获空间和光谱上下文信息,同时通过强调最相关的特征来减少冗余数据的影响。
认识到HSI中不同尺度的对象需要不同的空间-光谱上下文信息,SFormer融入了一个KSTB,它动态选择适当的感受野以有效地提取空间-光谱特征。
此外,考虑到传统的自注意力机制可能容易受到冗余和无关信息的影响,这可能会负面作用于分类性能。
作者引入了一个TSTB,它选择注意力值最高的最有价值的标记,而不是对所有查询-键对应用密集注意力。
这些选择机制允许SFormer在最佳感受野内捕获相关信息,增强其有效提取有价值空间-光谱特征的能力。
在四个基准HSI数据集上进行的广泛实验表明,所提出的SFormer与现有最先进的方法相比具有竞争性的性能,从而验证了所提出的SFormer的有效性。
[0]. Selective Transformer for Hyperspectral Image Classification.