HSR-Mamba 解决 Mamba 在HSISR难题,设计双策略,实验显示效果远超现有方法 !

大模型向量数据库机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Mamba凭借其强大的全局建模能力和线性计算复杂度,在视觉任务中表现出色,在超光谱图像超分辨率(HSISR)领域具有巨大的潜力。

然而,在HSISR中,Mamba面临着挑战,因为将图像转换为1D序列时忽略了相邻像素之间的时空结构关系,其性能高度敏感于输入顺序,这影响了空间和光谱细节的恢复。

在本文中,作者提出了HSR-Mamba,一种用于HSISR的上下文时空建模状态空间模型,以解决局部和全局问题。

具体来说,设计了一种局部时空分区机制,以在3D特征中建立相邻像素间的块状因果关系,缓解局部遗忘问题。此外,采用基于光谱相似性的全局光谱重排策略,以增强空间和光谱维度上相似像素的因果关系。

最后,实验结果表明,作者的HSR-Mamba在定量质量和视觉效果方面优于现有方法。

unset

unset

  1. 引言

unset

unset

在人工智能领域,随着深度学习、强化学习等技术的飞速发展,AI技术已广泛应用于各个行业,为人类生活带来了巨大的便利。本文旨在探讨人工智能在当前社会中的发展现状、面临的挑战以及未来的发展趋势。通过对相关文献的梳理和分析,以期对人工智能的发展有更深入的理解。

高光谱图像(HSIs)通常包含数十到数百个紧密相连的光谱波段,覆盖广泛的频谱范围,从而能够同时捕获丰富的光谱和空间信息[Xiao和Wei,2023]。这种能力使得对材料固有光谱特性的表征更加精确,以及对材料细微变化的捕捉更加精细,从而促进了其在农业[Lu等,2020]、医学诊断[Lu和Fei,2014]和遥感[Deng等,2023]等领域的广泛应用。

然而,由于成像硬件和程序固有的限制,实现高光谱分辨率通常需要牺牲空间分辨率。高光谱图像超分辨率(HSISR)通过将低分辨率(LR)HSIs转换为高分辨率(HR)图像来解决这一挑战。图1:在Chikusei数据集上,以缩放因子

比较模型性能与有效性的权衡。作者的方法实现了最佳平衡,以相对较低的计算成本展现出卓越的性能。

picture.image

人机交互系统,从而在保留丰富光谱信息的同时增强了空间细节。

一般来说,高光谱图像超分辨率(HSISR)可以根据是否采用辅助信息分为基于融合的方法[郭等,2023]和单高光谱图像超分辨率(SHSR)[张等,2023]。虽然基于融合的策略在借助精确对齐的多光谱图像和全色图像等辅助图像时可以提供更优的结果,但在实际场景中获取辅助信息往往是一个重大挑战。因此,SHSR受到了越来越多的关注。在过去十年中,基于深度学习的SHSR方法在模拟复杂非线性关系方面展现出与传统先验相比的显著优势[陈等,2023a]。

在这些方法中,基于Transformer的网络[刘等,2022;陈等,2023b]通过捕捉空间和光谱维度的长距离依赖关系,显著提升了HSISR的性能,从而突出了在HSISR中建模长距离依赖关系的至关重要性。然而,由于Transformer中的注意力机制,这些模型常常面临全局感受野与计算效率之间的权衡[马等,2022;李等,2023;戴等,2024],这严重限制了HSISR的进一步发展。

图2:提出的HSRMamba概览。HSRMamba主要由多个上下文空间-光谱Mamba组(CSMGs)组成。每个CSMG包含若干连续的上下文空间-光谱Mamba块,这些块进一步由局部空间-光谱Mamba模块(LSSM)和全局光谱相关性Mamba模块(GSCM)构成。

picture.image

最近,Mamba作为一种新兴的状态空间模型(SSM),因其能够以线性计算复杂度捕捉长距离依赖性而受到广泛关注。尽管它在理论上能够解决注意力机制中的挑战,但在高光谱图像超分辨率重建(HSISR)方面仍存在一些问题。具体来说,当将高光谱图像转换为1D序列时,Mamba模型忽略了局部相邻像素之间的空间光谱结构,严重限制了其性能。此外,Mamba的输出高度依赖于输入顺序,而简单的展开过程忽视了高度相似像素之间的空间光谱关系建模,这对于高光谱图像恢复任务至关重要。

为了应对这些挑战,作者提出了HSRMamba,这是一种旨在高效捕捉局部和全局长程空间-光谱依赖关系的状态空间模型。据作者所知,HSRMamba是首次尝试为SHSR定制Mamba的尝试。具体来说,作者设计了一种局部空间-光谱划分(LSSP)机制,将三维特征划分为局部空间和光谱窗口。通过引入双向状态空间模型(BSSM)[Fu等,2024],构建了一个局部空间-光谱Mamba模块(LSSM),以在这些局部三维窗口内建立相邻像素之间的因果关系,从而增强了网络的本地区分能力。此外,作者还设计了一种全局光谱重排机制(GSRM),根据全局光谱相似性重新排列全局光谱。

随后,作者利用全局光谱相关Mamba模块(GSCM)来加强高度相似像素之间的因果关系建模,促进高光谱图像的细节重建。这一过程进一步增强了在空间和光谱维度上具有高度相似性的像素之间的因果关系。总之,作者工作的主要贡献如下:

  1. 作者提出了HSRMamba,这是首个针对SHSR的SSM模型,该模型能有效建立局部和全局的长距离空间-光谱因果关系。
  2. 作者设计了一个局部空间-光谱Mamba模块,能够在3D窗口内捕捉图像块间的长距离空间-光谱依赖关系,从而缓解了局部像素遗忘问题。
  3. 作者开发了一个全局光谱相关性Mamba模块,通过基于全局光谱相似性重新排序光谱,全局提取长距离空间-光谱特征,从而加强高度相似像素间的因果关系建模。
  4. 在多个数据集上的广泛实验证明了作者提出的技术相较于现有方法的优越性和有效性。

unset

unset

  1. 相关研究工作

unset

unset

2.1 单光谱图像超分辨率

在没有额外的辅助数据(例如,全色或多光谱图像)的情况下,与基于融合的方法相比,SAR图像同化(SHSR)具有更广泛的应用性。SHSR可以根据手工先验和基于深度学习的方法[Wang等,2023]进行分类。在过去十年中,众多基于学习的方法,如基于3D卷积的方法,基于组策略的方法,以及基于Transformer的方法,相较于传统方法,均表现出显著优越的性能。

在上述方法中,基于卷积的2D或3D卷积主要关注局部空间-光谱特征,忽略了长距离空间-光谱依赖性。近期,蔡等人[Cai et al., 2022]提出了用于HSI重建的频谱多头自注意力机制。王等人[Wu et al., 2023]引入了3D-THSR,将频谱自注意力与3D卷积相结合,以在全局感受野中建模空间-光谱特征。

胡等人[Hu et al., 2024]利用频谱非局部注意力将HSI超分辨率扩展到丰度域,有效地融合了有价值的信息。然而,Transformer网络的计算复杂度随着输入大小的平方增长,在处理高维数据,如高光谱图像时,显著增加了对硬件资源的需求。虽然基于窗口的自注意力机制通过限制注意力范围降低了计算成本,但它们未能完全解决高复杂性问题。

为了克服这一限制,作者提出了Mamba网络,这是一个线性建模框架,旨在高效实现高光谱图像超分辨率重建。

2.2 状态空间模型

状态空间模型[Gu等人,2022]是一种旨在高效地建模时间或序列依赖关系的数学框架。最近,Mamba模型,一种基于状态空间模型且具有线性计算复杂度的模型,因其在大规模自然语言处理[Gu和Dao,2023]和计算机视觉[Zhu等人,2024;Huang等人,2024]任务中优于Transformer而受到了广泛关注。随后,一些针对低级视觉任务设计的Mamba网络[Guo等人,2024;Qiao等人,2024;Xiao等人,2024;Zhi等人,2024;Fu等人,2024]被提出。

然而,这些方法并不适用于高光谱图像。首先,它们未能考虑到高光谱数据中固有的丰富光谱信息和空间与光谱维度的相关性。其次,Mamba网络存在局部像素遗忘问题,限制了其在空间和光谱维度上建模结构信息的能力。

最后,Mamba网络的表现高度依赖于输入序列的顺序,使其无法充分挖掘高度相似像素之间的关系,而这些关系对于图像恢复任务至关重要。

unset

unset

  1. 方法

unset

unset

3.1 前言:状态空间模型

SSMs提供了一种数学框架,用于对由潜在状态及其随时间变化的转换所控制的系统进行建模。SSMs有效地模拟了序列数据中的时间依赖性,可以被表述为线性常微分方程。

在时间

属于

的隐藏状态向量,

属于

属于

属于

属于

是权重参数,其中

为隐藏状态的大小。

然后,可以使用零阶保持(ZOH)法则对方程1进行离散化处理。这种法则通过时间尺度参数Δ将连续参数

转换为离散参数

。其定义如下:

在离散化之后,方程1的离散形式可以定义如下循环神经网络(RNN)的形式:

此外,SSM计算可以扩展为卷积形式,如下所示:

代表输入序列的长度,因此

是卷积操作,

表示一个结构化的卷积核。近期,通过利用动态表示机制,选择性状态空间模型(Mamba)提升了状态空间模型的远程建模能力,同时保持了线性计算复杂度。

3.2 概述架构

如图2所示,HSRMamba的整体架构包含三个主要组件:一个浅层特征提取模块、一个深层特征提取模块和一个上采样模块。假设输入的低分辨率高光谱图像表示为

,其中

分别代表空间高度、宽度和光谱带的数量。超分辨率重建的SR高光谱图像表示为

,其中

是超分辨率重建的缩放因子。浅层特征通过使用

卷积层提取。此过程捕捉结构信息并调整特征通道维度,可以表示为:

代表

卷积,

表示提取的浅层特征。接下来,浅层特征被送入由多个级联的上下文空间光谱Mamba组(CSMG)组成的深层特征提取模块。在深层特征中,局部和全局提取了长程空间光谱依赖性。该过程定义为:

表示第

个CSMG的函数,

代表由第

个CSMG提取的深度空间-光谱特征。每个CSMG由多个连续的上下文空间-光谱Mamba模块(CSSM)组成,每个CSSM由一个局部空间-光谱Mamba块(LSSG)和一个全局光谱相关性Mamba模块(GSCG)构成。此外,在每个组尾端使用卷积,以便向网络中引入归纳偏置。

图3:设计的LSSM(左)和GSCM(右)的流程图。

picture.image

通过利用浅层和深层特征之间的长 Shortcut ,该网络专注于学习对图像重建有益的高频信息,从而提高了训练效率和重建性能。随后,合并的深层特征通过一个像素重排层处理,生成上采样后的深层特征。最后,通过输入特征在双三次上采样后与深层特征之间的长 Shortcut ,获得超分辨率高光谱图像。

3.3 本地空间-光谱马amba模块

由于Mamba的性能高度依赖于输入顺序,将高光谱图像转换为1维序列进行顺序扫描,在有效建立空间和光谱维度上相邻像素之间的因果联系方面存在重大挑战。这种固有的限制极大地阻碍了Mamba网络在HSISR(高光谱图像超分辨率重建)中的有效性。因此,作者设计了一种局部扫描机制,能够精确捕捉局部相邻像素之间的详细联系,有效解决Mamba在局部因果建模方面的局限性。

如图2所示,LSSB由层归一化、LSSM、通道注意力(CA)和线性映射层组成。LSSM从局部扫描区域提取长程空间-光谱信息。此外,引入CA机制以向网络添加归纳偏置属性。最后,通过线性层对处理过的信息进行细化,增强模块深度特征提取的能力。假设上下文空间-光谱Mamba组件中第j个局部空间-光谱Mamba模块的输入为

,上述过程可以表示为:

层归一化函数用

表示,局部空间-频谱曼巴块用

表示,通道注意力机制用

表示,线性层函数用

表示,

是模块的最终输出。LSSM由LSSP和BSSM组成[傅等,2024]。如图3所示,空间-频谱划分机制将输入特征划分为

个局部3D特征块,每个块的大小为

,沿着空间和频谱维度。BSSM在每个3D局部特征块内捕捉长距离空间-频谱依赖关系。这个过程有效地解决了传统曼巴模块中固有的局部像素遗忘问题。

图4:所提出的多源分离方法(BSSM)的流程。

picture.image

在这篇论文中,作者提出了一种基于稀疏表示模型(BSSM)作为长距离空间光谱特征提取的基础单元。如图4所示,BSSM模块的输入是从所提出的局部稀疏空间投影(LSSP)或广义空间相关性模型(GSRM)获取的特征序列。BSSM通过来自不同方向的双向分支建立全面的全球空间光谱因果关系。

3.4 全球频谱相关Mamba模块

在Mamba网络中,当前输入的输出完全依赖于数据序列中的前一个输入。然而,在超分辨率过程中恢复细微细节很大程度上依赖于全局相似像素。为了解决这一限制,作者提出了一种全局谱相关Mamba(GSRM)并设计了全局谱相关Mamba网络。

如图2所示,GSSB由层归一化、设计的GSCM模块、CA(因果注意力)和线性映射层组成。GSCM通过提出的全局频谱相关扫描机制增强了全局时空因果关系建模。此外,该模块还集成了通道注意力机制,以向网络引入归纳偏差。最后,采用线性层来增强本文的表达能力。

假设输入到第

个全局频谱相关Mamba模块的上下文空间-频谱Mamba组件的输入为

,上述过程可以表示为:

在本文中,

表示层归一化函数,

代表全局频谱相关Mamba模块,

表示通道注意力机制,而

代表线性层函数。

是第

个全局频谱相关Mamba模块的中间输出,

是模块的最终输出。

表1:在不同尺度因子下,Chikusei数据集和Houston数据集上的量化性能。加粗表示最佳结果,加下划线表示次佳结果。

picture.image

全球光谱相关Mamba模块由GSRM(全局光谱重排机制)和BSSM(盲源分离模块)组成。如图3所示,全局光谱重排机制首先计算光谱特征之间的相关系数矩阵。然后,它计算每个光谱的相关系数平均值作为全局相关值。最后,该模块根据光谱特征的全局相关值重新排列这些特征,确保具有高光谱相关性的像素在空间-光谱维度上更靠近。这一过程显著提升了Mamba模块在提取长程空间-光谱特征方面的性能。

3.5 损失函数

该网络通过三种损失函数进行优化:

损失、光谱角度映射(SAM)损失和空间与光谱域的梯度损失。

损失计算重建图像与原始高光谱图像之间的像素级绝对差异,相较于

损失,鼓励产生更锐利和更详细的图像。SAM 损失通过考虑数据的光谱特性确保光谱一致性。梯度损失通过关注相邻像素之间的差异来增强图像的锐度。总损失函数的表达式为:

在本文中,

表示批量大小,

分别代表第

个高分辨率(HR)和超分辨率(SR)高光谱图像,而

表示在水平、垂直和光谱方向上的梯度。详细的函数表达式如下:

是平衡损失的超参数,其中实验上采用了

第4章 实验

4.1 实验设置

数据集

作者对三个高光谱图像数据集进行了实验:Chikusei数据集[ Yokoya和Iwasaki,2016],Hous

数据集,以及Pavia Center数据集[Huang和Zhang,2009]。Pavia Center数据集的实验内容见补充材料。Chikusei数据集由Headwall Hyperspec-VNIR-C传感器捕捉,覆盖了日本农业和城市区域的128个光谱波段,空间分辨率为

像素。Houston2018数据集是2018年IEEE GRSS数据融合竞赛的一部分,由ITRESCASI1500成像仪获取,覆盖了休斯顿大学及其周边城市区域,包含48个光谱波段,分辨率为

像素。

图5:使用光谱波段70-100-36作为RGB在缩放因子

下的Chikusei数据集的视觉结果

picture.image

图6:使用光谱波段26-20-10作为RGB在缩放因子

下的Houston数据集的视觉结果

picture.image

比较方法和指标

作者对比了所提出的方法与8种深度学习方法,包括基于Transformer的自然图像处理方法SwinIR [Liang等人,2021年],基于Mamba的自然图像处理方法MambaIR [Guo等人,2024年],以及基于高光谱图像组的方法,如GDRRN [Li等人,2018年],SSPSR [Jiang等人,2020年],RFSR [Wang等人,2022b],和GELIN [Wang等人,2022a]。此外,作者还纳入了基于Transformer的SHSR方法,如AS3ITransUNet和MSDformer [Chen等人,2023b]。这些方法的性能通过在空间和光谱维度上使用六种常用的指标进行评估,包括峰值信噪比(PSNR)、结构相似度(SSIM)、光谱角映射(SAM)、互相关(CC)、均方根误差(RMSE)以及全局归一化合成误差(ERGAS)。

实施细节

卷积核的大小设置为

。作者将通道数

设为64,CSMG数量设为4,CSSM数量设为2。初始学习率为

,每100个epoch减半,直至达到400个epoch。参照[Zhang et al., 2018],将通道注意力(CA)的缩减比例设为16。在训练过程中,使用带有Xavier初始化的Adam优化器,并以8个批次的尺寸进行优化。对于图像重建,作者采用通过PixelShuffe[Shi et al., Jun 2016]的渐进式上采样策略来减少参数。该模型在NVIDIA RTX 4090 GPU上使用Pytorch进行实现和训练。

4.2 比较结果

关于Chikusei数据集的实验

对于Chikusei数据集,从顶部区域裁剪出4张不重叠的图像,尺寸为

。剩余区域裁剪成重叠的高分辨率(HR)图像用于训练(随机选取

用于验证)。训练时低分辨率(LR)图像的空间尺寸为

,相应的高分辨率尺寸在缩放因子

时分别为

。所有LR图像块均通过不同尺度的双三次降采样生成。

表1展示了作者方法及对比方法在不同尺度因子下在Chikusei数据集上的定量结果。最佳结果以粗体显示,次佳结果以下划线标注。在

尺度因子下,作者的方法在PSNR上比SSPSR高出0.29 dB,在SAM上高出0.32。由于基于组的如SSPSR的方法未能有效利用全局空间和光谱信息,因此表现不佳。对于自然图像的方法,如SwinIR和MambaIR,未能充分利用高光谱图像中的丰富光谱信息和空间-光谱相关性,导致光谱性能较差。基于Transformer的SHSR方法,如MSDformer和

ITransUNet,通过建模长程依赖性,在SR性能上优于上述方法。值得注意的是,HSRMamba在

尺度因子下的所有指标上都优于其他方法,这证明了作者方法的优越性和有效性。

如图5所示,基于组的方法如GDRRN,由于空间-光谱建模有限,往往引入模糊细节。基于Transformer的方法,如MSDformer,同时考虑全局空间和光谱信息,与针对自然图像设计的方法(如MambaIR)相比,具有更清晰的边界和更少的伪影。HSRMamba重建高分辨率光谱图像,具有更清晰、更锐利的细节,这表明作者的HSRMamba能够有效地建模长距离空间-光谱依赖性。此外,图5中所有光谱的平均误差图显示了单个像素的重建精度,蓝色区域表示更高的精度。图7中的

处的平均光谱差异曲线从光谱角度评估了超分辨率结果。从上述视觉结果来看,作者的方法在空间和光谱维度上均比其他方法更接近真实值。

picture.image

图7:不同方法在Chikusei数据集上不同尺度因子下的平均光谱差异曲线。与Chikusei数据集类似,从Houston2018数据集中选取了8张大小为

的图像,并从顶部区域裁剪出来进行测试。LR和HR训练块的空间分辨率与Chikusei数据集保持一致。

所有方法在休斯顿数据集上的量化结果展示在表1中。HSRMamba在所有指标上均优于比较方法,不同尺度因子下均表现良好。所有算法的视觉结果和平均误差图展示在图6中。作者还可以观察到,与其它方法相比,HSRMamba提供了更准确的结果。

4.3 消融研究

在这篇论文中,作者对Chikusei数据集进行了因子规模为

的消融实验。附加的消融研究详见补充材料。

LSSP有效地解决了局部遗忘问题,而GSRM减轻了Mamba网络对输入顺序的敏感性。如表2所示,当移除LSSP时,网络的PSNR下降0.09 dB,这证明了LSSP的有效性。与原始方法相比,不带GSRM的模型的PSNR下降了0.12 dB,这证明了GSRM的有效性。最后,当LSSP和GSRM都被移除时,性能显著下降,进一步证实了作者方法的有效性。

picture.image

表2:在Chikusei数据集上,以比例因子

评估的不同组件的定量性能

表3:在Chikusei测试数据集上,以比例因子

进行的Mamba组数定量比较

picture.image

群体数量对效果的影响

HSRMamba由多个连续的Mamba组构成,表3展示了Mamba组数

对性能的影响。当

时,性能最弱。随着

增加到4,量化指标得到提升。然而,将

设置为6会导致性能下降。这主要是由于网络深度的增加,导致模型过拟合。因此,考虑到实验结果和模型参数,作者在论文中将

设置为4。

参数与复杂度分析

为了评估所提出的HSRMamba的计算效率,作者比较了不同方法的模型参数、FLOPs(浮点运算次数)和PSNR(峰值信噪比)结果。如图1所示,与其他方法相比,作者的方法在计算复杂度和参数数量更低的情况下实现了更好的超分辨率结果,这展示了作者方法的有效性和效率。这表明作者的方法在模型复杂性和性能之间取得了极佳的平衡。

unset

unset

5 结论

unset

unset

本研究通过深入分析人工智能在各个领域的应用,探讨了其发展趋势和潜在影响。研究发现,人工智能技术正日益成为推动社会进步和经济发展的重要力量。然而,随着人工智能技术的快速发展,也带来了一系列伦理、法律和安全等问题。

因此,在推进人工智能技术发展的同时,作者必须关注并解决这些问题,以确保人工智能技术能够为人类社会带来更多福祉。

本文提出了一种名为HSRMamba的上下文空间光谱关系建模算法,旨在提高HSISR的效率。为解决高光谱图像中局部像素遗忘的问题,作者提出了LSSP算法,以建立分块长距离空间光谱相关性。此外,为了克服高度相似像素之间因果建模不足的挑战,作者利用了GSRM算法,该算法根据全局光谱相关性重新排列光谱维度。

通过这些算法,作者构建了CSSM,以高效捕捉高光谱图像中的长距离空间光谱依赖关系。

CSSM模块由LSSM和GSCM组成,通过考虑局部和全局视角来增强因果建模。最后,在多个数据集上的广泛比较实验和消融研究验证了作者提出方法的优势和有效性。

unset

unset

参考

unset

unset

[1]. HSRMamba: Contextual Spatial-Spectral State Space Model for Single Hyperspectral Super-Resolution .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论