中科大&南洋理工提出Pan-Mamba | 通道交换/跨模态Mamba显著增强信息表达能力

技术

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

全景锐化涉及将来自低分辨率多光谱和高分辨率全色图像的信息整合起来,以生成高分辨率的多光谱对应图像。尽管近年来状态空间模型,特别是Mamba实现的有效的长距离依赖建模,已经革新了计算机视觉领域,但其在全景锐化中的未开发潜力激发了作者探索的动机。

作者的贡献,即Pan-Mamba,代表了一种新颖的全景锐化网络,它利用Mamba模型在全局信息建模中的高效性。在Pan-Mamba中,作者定制了两个核心组件:通道交换Mamba和跨模态Mamba,它们被战略性地设计用于有效的跨模态信息交换与融合。前者通过部分全色和多光谱通道的交换启动轻量级的跨模态交互,而后者通过利用固有的跨模态关系来增强信息表达能力。

通过在多种数据集上进行的大量实验,作者提出的方法超越了现有技术水平,展示了在全景锐化方面的卓越融合效果。据作者所知,这项工作是首次探索Mamba模型的潜力,并在全景锐化技术中开辟了新的前沿。

源代码:https://github.com/alexhe101/Pan-Mamba

1 Introduction

在农业监测和环境防护等各个领域,对于高分辨率多光谱(HRMS)遥感图像存在着巨大的需求。然而,由于物理法则的限制以及相关硬件成本的制约,直接通过遥感卫星获取高分辨率多光谱图像面临相当大的挑战。通常,卫星配备有两种不同类型的传感器:全色和多光谱传感器,分别设计用于捕捉低分辨率多光谱(LRMS)图像和高分辨率富含纹理的全色(PAN)图像。这两组具有互补信息的图像随后通过一种称为全色锐化的技术进行融合,从而实现高分辨率多光谱图像的获取。

全景锐化技术在近年来受到了相当大的关注。最初的尝试依赖于图像融合的数学模型;然而,由于表示不充分,手动设计的模型面临挑战,导致结果不够理想。先驱PNN,受到SRCNN的启发,后者使用了三个简单的卷积层,它标志着将深度学习方法集成到这个领域的重要时刻,并且相较于传统技术展示了巨大的进步。随后,大量越来越复杂的模型被引入,包括多尺度方法,利用频域信息的方法,基于Transformer模型的架构,结合专家混合的模型,以及那些由领域先验知识驱动的模型。

然而,当前方法存在一些限制,阻碍了性能的进一步提高。首先,捕捉全局信息仍面临挑战。INNformer 和 Panformer 分别尝试通过整合Vit块和Swin Transformer块来建模全局信息。然而,前者引入了计算复杂性,使得其应用具有挑战性,而后者的窗口分割限制了模型的感受野,并破坏了特征的空间局部性。SFINet 和 MSDDN 采用了一种不同的方法,通过引入傅里叶变换来建模全局信息。然而,频域与空域之间的交互引入了信息差距,固定的卷积参数阻碍了模型对变化输入的自适应能力。

相反,一些旨在降低自注意力复杂性的技术,如窗口分割和转置自注意力,在一定程度上牺牲了自注意力的固有能力,包括全局信息建模和输入适应性。Mamba的诞生为上述挑战提供了一个新颖的解决方案。它具有类似于自注意力的输入自适应和全局信息建模能力,同时保持了线性复杂性,降低了计算开销,并提升了推理速度。值得注意的是,在自然语言处理领域,Mamba模型已经展现出比Transformer架构更优越的结果。

鉴于上述考虑,作者的方法着重于通过两个关键视角增强模型:特征提取和特征融合。作者引入了Pan-Mamba,一个利用Mamba作为核心模块的泛锐化网络。Mamba用于全局信息建模,从PAN和LRMS图像中提取全局信息。作者的设计包括通道交换Mamba和跨模态Mamba,以实现高效的特征融合。通道交换Mamba通过交换部分全景通道和多光谱通道,启动初步的跨模态交互,便于轻量级和高效的信息融合。同时,跨模态Mamba利用两者固有的跨模态关系,实现融合,过滤冗余模态特征,并获得精致的融合结果。由于其在特征提取和融合方面的效率,作者的模型已经超越了现有技术水平,实现了更优的融合效果。

作者的贡献可以总结如下:

  1. 作者是首先将Mamba模型引入到全色锐化领域的,提出了Pan-Mamba模型。这种方法促进了高效的长距离信息建模和跨模态信息交互。
  2. 作者设计了通道交换mamba块和跨模态mamba块,以便于高效的跨模态信息交换与融合。
  3. 通过在多个数据集上的综合实验,作者提出的方法在定性和定量评估中都展示了最先进的结果。

2 Related Work

Pan-sharpening

全景锐化方法主要分为两部分:传统方法和基于深度学习的方法。传统方法主要依赖于人工设计的先验知识,包括组件替换算法,多分辨率分析算法,以及变分优化算法。组件替换算法利用PAN图像的空间细节来替换LRMS图像的空间信息。多分辨率方法进行多分辨率分析,随后融合两张图像,而基于变分优化的算法将融合过程建模为一个能量函数,并迭代求解。这些方法由于特征表示不足,在性能上存在限制。

深度学习在全景锐化领域的兴起是由PNN模型引发的,该模型受SRCNN的启发,设计了一个简单三层神经网络,取得了令人鼓舞的结果。后续的进步引入了这一领域更复杂的设计,例如PanNet利用ResNet块捕捉高频信息,MSDCNN引入多尺度卷积处理远程感测图像的多尺度结构,以及SRPPNN采用逐步上采样的策略。

Transformers的出现影响了全景锐化,INNformers和Pan-formers引入了自注意力机制。SFINet和MSDDN使用傅里叶变换捕捉全局特征并促进学习高频信息。Fame-Net结合MOE结构处理动态远程感测图像。此外,先前信息驱动的方法也被整合到这个领域,例如MutNet和GPPNN,它们利用模态间的先前知识以促进图像融合。

State Space Model

状态空间模型的概念最初是在S4模型中提出的,它展示了一种独特的架构,能够与传统CNN或Transformer架构相比,有效地建模全局信息。在S4的基础上,S5模型出现了,它策略地将复杂性降低到线性水平。随后的H3模型进一步改进并扩展了这个基础,使得该模型在语言建模任务中能够与Transformers竞争。而Mamba则引入了输入自适应机制来增强状态空间模型,与同等规模的Transformers相比,使得推理速度、吞吐量和整体指标都有所提高。

状态空间模型的应用扩展到视觉任务,随着Vision Mamba和Vmaba的引入而得到发展。这些适应性改进在分类和分割任务中取得了令人称赞的结果,成功地渗透到了如医学图像分割等领域。值得注意的是,该模型在多模态图像融合方面的潜力尚未得到充分探索。

3 Methods

在本节中,作者首先介绍状态空间模型的基本知识。随后,作者深入探讨作者的模型,包括其架构框架、模块设计以及作者的损失函数。

Preliminaries

状态空间序列模型和Mamba从线性系统中汲取灵感,旨在将一个一维函数或序列(表示为 )通过隐藏空间 映射到 。在这种情境下, 作为演化参数,而 和 作为投影参数。该系统可以用以下公式进行数学表达。

S4和Mamba模型作为连续系统的离散对应物,引入了一个时间尺度参数 以将连续参数 和 转换为它们的离散对应物 和 。

用于这种转换的普遍方法是零阶保持(ZOH)方法,其可以形式上定义如下:

这段线性系统的离散表示可以制定如下:

其中,离散表示的公式部分未进行翻译,保持原始输出。

最终,输出是通过全局卷积得到的:

在这里, 表示 x 的序列长度,而 代表一个结构化的卷积核。

Network Architecture

作者的模型架构如图1所示,包含三个核心组件:Mamba模块、通道交换Mamba模块和跨模态Mamba模块。Mamba模块对于在PAN和LRMS特征内建模长距离依赖关系至关重要,而通道交换Mamba模块和跨模态Mamba模块则被用于探索两种模态之间的关系。鉴于输入的LRMS和PAN图像分别表示为和,网络流程可以表述如下:

picture.image

首先,作者使用卷积层将两幅图像投影到特征空间,并将它们沿着空间维度展平成 tokens:

随后, 和 分别独立输入到一系列Mamba块中进行全局特征提取:

在这里, 和 分别表示用于提取LRMS和PAN特征的第i个Mamba块。

在获得全局特征 和 之后,作者利用通道交换Mamba来增强特征交互并得到 和 。

随后,作者使用跨模态Mamba块进行深层特征融合。在此之后,作者将多光谱(MS)标记 Reshape 到空间维度。最终的输出是通过卷积层和残差连接获得的:

在这里, 表示 Cross Mamba 模块,而 指的是用于通道调整的卷积层。

Key Components

3.3.1 Mamba Block

受到Mamba的启发,作者采用Mamba模块来提取特征并建模长距离依赖关系。算法2提供了操作的综合概述。具体来说,输入的标记序列 首先通过层归一化进行初始归一化。随后,归一化的序列通过多层感知机(MLP)投射到 和 。

接着,应用带有SiLU激活函数的1-D卷积层来处理 并产生 。进一步将 投影到 ,,和 上,并使用时间尺度参数 将它们转换为离散版本 和 。参数生成过程在算法1中描述,并对应公式4。之后,通过SSM计算输出 。然后, 通过 进行门控并加到输入 上,得到输出序列 。SSM过程在公式8中描述。Mamba模块的计算复杂度与序列长度M成线性关系。具体来说,计算复杂度表达为 。

3.2.2 Channel Swapping Mamba Block

为了鼓励PAN和LRMS模式之间的特征交互并在它们之间建立联系,作者引入了一个基于通道交换的Mamba融合块。该模块高效地在LRMS和PAN特征之间交换通道,促进轻量级的特征交互。交换后的特征随后通过Mamba块进行处理。通道交换操作通过结合来自不同通道的信息增强了跨模式的关联,从而丰富了通道特征的多样性,这有助于模型整体性能的提升。

给定LRMS特征 和PAN特征 作为输入,作者沿着通道维度将每个特征分成两个相等的部分。 的前半部分通道与 的后半部分通道连接起来,并通过Mamba块进行特征提取。得到的特征加到 上,生成了新的特征 。

同时, 的前半部分与 的后半部分连接起来并通过Mamba块处理。得到的结果特征加到 上,生成了 。这些特征封装了来自两种模式的信息,增强了整体特征的多样性。

3.3.3 Cross modality Mamba Block

受到跨注意力概念的启发,作者引入了一种新颖的跨模态Mamba块,旨在促进跨模态特征交互与融合。在这种方法中,作者将两种模态的特征投射到共享空间中,并采用门控机制以促进互补特征学习,同时抑制冗余特征。

picture.image

同时,为了增强局部特征,作者在模块内结合了深度卷积,从而在融合过程中放大局部特征的编码能力。该模块的详细信息在算法3中阐明。 和 的生成遵循Mamba块中概述的过程。随后,作者通过投射 得到门控参数 ,并使用 调节 和 。这两个特征融合涉及相加,然后重新塑形以获得2-D特征 。为了增强局部性,作者应用深度卷积,然后将特征展平为1-D序列,生成输出序列 。

Loss Function

与该领域普遍做法保持一致,作者选择L1损失作为作者的损失函数。具体来说,将输出表示为,相应的真实值为,损失函数表达为:

4 Experiment

Datasets and Benchmark

在作者的实验中,作者选择了包含WorldView-II和WorldView-III的 数据集,这些数据集具有不同的分辨率和广泛的场景类型。具体来说,WorldView-II包括工业区域和自然景观,而WorldView-III主要特点是城市道路和城市景象。鉴于缺乏 GT 数据,数据集生成过程遵循Wald协议。

为了进行对比分析,作者选择了一系列具有代表性的传统方法,包括GFPCA,GS,Brovey,IHS和SFIM,以及先进的深度学习方法,如PanNet,msdcnn,srpnnn,INNformer,SFINet,MSDDN和FAMENet。选定的评价指标包括PSNR,SSIM,SAM(光谱角度映射器),以及ERGAS(合成中相对全局误差)。

Implement Details

使用PyTorch框架,作者的代码实现和训练过程在Nvidia V100 GPU上执行。模型的特征配置为N=32通道。

作者初始化学习率为5e-4,并采用余弦衰减策略进行调度。经过500个周期后,学习率降至5e-8。优化过程使用Adam优化器,并将梯度裁剪设置为4,以保证训练的稳定性。考虑到数据量大小的差异,作者将WorldView-II数据集的训练周期设置为200,而WorldView-III数据集的训练周期设置为500。

Comparison with State of Arts Methods

4.3.1 Quantitative Comparison

在作者的比较分析中,如表1所示,作者将作者提出的方法与该领域最先进的技术进行了基准测试。结果显示,作者提出的网络结构取得了显著的改进,在多个评价指标上超过了其他方法。

picture.image

特别是,在WorldView-II和WorldView-III数据集上,作者的方法在PSNR指标上分别显示出0.21和0.16的提升,这表明作者的结果与真实情况更为接近。在SSIM指标上也观察到了类似的趋势,而SAM指标则表示光谱相似性。在WV2上,作者的光谱相似性超过了最先进的方法,在WV3数据集上也得到了可比较的结果。ERGAS指标验证了作者的方法在每个光谱带上都具备的总体优越性能,证实了其有效性。

4.1.2 Qualitative Comparison

模型的定量结果在图2和图3中展示。为了可视化,选择了代表性的样本,每张图像的最后一行展示了与 GT 值相比的融合结果均方误差图。较亮的区域表示误差较大。

picture.image

作者的方法一致地产生最小的误差,强调了其与 GT 值的接近性。此外,在融合结果上,作者的方法在提取高频信息和保持光谱细节方面表现出卓越的性能,从而产生更清晰的纹理。

picture.image

Ablation Study

为了全面评估每个模块的贡献,作者进行了消融实验。为确保比较的公平性,作者仅在WorldView-II数据集上进行了训练并报告了实验结果,且在所有消融实验中保持了实验配置的一致性。作者论文中提出的三个核心模块在各自的消融实验集中被系统地检验。每个实验集都涉及移除或替换一个特定的模块,这使作者能够验证每个组件对网络整体性能的影响。

4.3.1 Effectiveness of the Mamba Block

作者的第一组消融实验旨在验证Mamba块在特征提取中的有效性。

在作者的模型中,Mamba模块在建模特征中的长距离依赖关系方面发挥着关键作用。在这组实验中,作者用标准的卷积操作替换了Mamba模块,并在特征提取后在模型中重新定位了展平操作。表2第二行的结果显示,当移除Mamba模块时,模型性能有所下降,这提供了该模块有效性的证据。

picture.image

4.2.3 Effectiveness of the Channel Swapping Mamba Block

作者的第二组消融实验旨在验证通道交换曼巴(Channel Swapping Mamba)的有效性。在作者的架构中,通道交换曼巴特别为阴影特征融合而设计,以增强通道特征的多样性。在这个实验中,作者移除了通道交换操作及其相关的曼巴块。正如表2的第三行所示,尽管这个模块的计算成本较低,但移除它导致了性能明显下降,突显了该模块的有效性。

4.2.4 Effectiveness of the Cross Modal Mamba Block

第三组消融实验旨在证实作者关键融合模块——跨模态Mamba块的有效性。该模块旨在对LRMS和全景特征进行深度融合,通过门控机制减少冗余特征。在这个实验中,作者直接移除了跨模态Mamba块,仅使用通道交换Mamba进行特征融合。表2中的结果显示,在移除跨模态Mamba块之后,模型的性能出现了显著下降。

5 Conclusion

在这项研究中,受到状态空间模型的启发,作者引入了一种新型的全色锐化网络,名为Pan Mamba。这种创新网络融合了Mamba模块、通道交换Mamba模块和跨模态Mamba模块。所提出的网络能够高效地进行全局特征提取,并以线性复杂性促进跨模态信息交换。

值得注意的是,在公开可用的遥感数据集上,它以轻量级模型超越了现有先进方法,显示出强大的光谱准确性和对纹理信息的高超保留能力。

参考

[1].Pan-Mamba: Effective pan-sharpening with State Space Model.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
亿万用户下高可用融合直播的应用实践
直播融合 CDN 调度系统承担了公司内所有直播流量的接入工作,对高并发高带宽场景支持友好,有完善的体系进行容灾降级、质量优化、成本优化。本次演讲将带大家了解直播融合 CDN 调度系统的整体架构及在抖音上的应用。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论