备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
红外图像超分辨率(IRsR)面临着红外数据低对比度和Sparse纹理的挑战,需要鲁棒的长程建模以保持全局一致性。虽然状态空间模型如Mamba在该任务中展现出对长程依赖建模的专业能力,但其固有的1D因果扫描机制会破坏2D图像的全局上下文,阻碍精细细节的恢复。
为解决这一问题,作者提出了全局相位与频谱 Prompt 引导的Mamba(GPSMamba)框架,该框架协同了结构引导与非因果监督。
首先,作者的自适应语义-频率状态空间模块(ASF-SSM)将融合的语义-频率 Prompt 直接注入Mamba模块,整合非局部上下文以指导重建。
然后,一种新型的热频谱注意力和相位一致性损失提供了明确的非因果监督,以强制执行全局结构和频谱保真度。通过结合这两项创新,作者的工作提出了一种系统性的策略来缓解因果建模的局限性。
大量实验表明,GPSMamba实现了最先进的性能,验证了yinqing-GPSMamba_2507作为红外图像恢复领域强大新范式的有效性。
unsetunset引言unsetunset
红外成像在安防监控、遥感和自动驾驶等应用中不可或缺,尤其是在可见光成像因光照不足或恶劣天气条件而受损的环境中(Fang等人,2024年)。然而,原始红外图像常因传感器硬件限制和大气干扰而存在空间分辨率低、噪声污染和对比度差等问题(Huang等人,2023年)。红外超分辨率(IRSR)的目标是从其低分辨率(LR)对应图像ILR E Rhxwxc'中重建高分辨率(HR)图像IHR E RHWxC,其中H、W、C分别表示高度、宽度和通道数,s为缩放因子(h = H / s , w = W / s)。该过程可表述为学习一个映射函数F,使得I_SR = F(I_LR),其中I_SR是旨在逼近I_HR的重建图像。与自然图像超分辨率不同,IRSR由于热辐射的固有特性而面临独特挑战(Huang等人,2025年)。红外图像通常具有对比度低、背景均匀和高频细节Sparse等特点,这使得传统模型难以恢复精细纹理。此外,感兴趣目标可能空间上相距较远,要求重建模型具备卓越的长程上下文感知能力,以确保全局结构一致性(Li等人,2025年)。随着深度学习的兴起,数据驱动方法已成为超分辨率的主流范式(Liu等人,2022a)。
其主要优势在于能够直接从数据中学习从LR到HR特征空间的复杂非线性映射,无需精心设计的手工特征先验(Wang等人,2020年)。这确立了深度学习作为图像恢复任务的主流方法。最近,状态空间模型(SSMs),特别是Mamba(Gu和Dao,2023年),已成为序列建模的强大架构。
他们以线性计算复杂度捕捉长距离依赖的能力,为高复杂度的Transformer和GAN提供了一种引人注目的替代方案,后者可能容易受到训练不稳定性问题的影响。SSM的潜力已在图像修复领域得到成功验证。例如,MambaIR(Guo等人,2024)首先在该领域验证了Mamba的有效性。MambaIRv2(Guo等人,2025)进一步通过使用相似度图来引导模型注意力集中于语义相关的区域,增强了全局上下文建模能力。最近,IRSRMamba(Huang等人,2025)通过整合频域的全局先验信息,在多个IRSR基准测试中取得了当前最佳(SOTA)性能。
尽管取得了这些进展,作者观察到,对于SSMs(结构化Sparse矩阵)的内在因果建模仍然对IRS(图像Sparse重建)构成了基本挑战。Mamba的固定、一维因果扫描机制本质上会扁平化二维图像,将其全局结构信息分割成离散且不相邻的块(Guo等人,2025;Xiao等人,2025;Shao等人,2025)。为了忠实地恢复精细细节并保持IR(红外)图像的全局一致性,开发一种基于SSM的方法至关重要,该方法能够更好地从整个图像中语义相关的区域聚合信息(见图1)。在这项工作中,作者提出了GPSMamba来解决这个问题。如图1所示,yinqing-GPSMamba_2507引入了两个核心创新:
1)通过全局频域 Prompt 增强的Mamba架构,以非局部上下文指导重建;
2)设计了一种新的非因果损失函数,旨在明确强制执行全局结构和频谱保真度。更多细节将在方法部分展示。
作者的贡献如下:
一种自适应语义频率状态空间模块,通过注入全局频域 Prompt 来指导Mamba模块,打破其因果建模限制,以增强非局部上下文融合。:作者还引入了一种新的热谱注意力机制和相位一致性损失
,它提供了明确的非因果监督。该损失通过强制在图像中保持全局结构和频谱保真度,直接补偿由因果扫描引起的信息碎片化。
GPSMamba在基准IRsR数据集上实现了新的SOTA性能,为基于Mamba的红外图像修复建立了一种更有效的范式。
unsetunset相关工作unsetunset
IRSR是一项具有内在挑战性的任务,这主要源于红外数据独特的特性,如对比度低、噪声水平高以及大面积同质区域且纹理细节Sparse。深度学习方法主要遵循两种核心架构范式来应对这一挑战。基于卷积神经网络(CNN)的方法在提取局部特征方面效率较高,但它们有限的感受野阻碍了对长距离依赖关系的建模,而长距离依赖关系对于保持红外图像的结构一致性至关重要(Shi等人,2024;Qin等人,2024b;Wu等人,2023)。
为了克服这一局限性,基于Transformer的架构被引入,利用自注意力机制有效捕捉全局上下文并实现最先进性能。然而,自注意力机制的二次计算复杂度使得这些模型在HR应用和资源受限场景中不切实际(Qin等人,2024b)。这确立了全局建模能力与计算效率之间的关键权衡。因此,迫切需要一种能够高效建模长距离依赖关系的新架构,以实现高保真度IRSR,这促使作者探索了SSMs。
unsetunset状态空间模型在图像修复中的应用unsetunset
状态空间模型(SSMs),特别是最近提出的Mamba,已成为一种引人注目的替代方案,它们在提供线性复杂度的同时,仍能保持建模长距离依赖关系的能力。Mamba基于一种结构化的SSM,通过潜在状态
将一维输入序列
映射到输出
,该潜在状态受状态方程的支配:
其核心创新,选择性扫描机制(S6),使得状态矩阵
成为输入依赖的(Zhang et al. 2024a; Wang et al. 2024)。这使得模型能够动态地聚焦于序列中的相关信息。Mamba的效率和强大能力促使其在计算机视觉领域迅速得到应用。在图像修复方面,MambaIR(Guo et al. 2024)、MambaIRv2(Guo et al. 2025)和IRSRMamba(Huang et al. 2025)等模型成功应用了SSMs,取得了SOTA结果。这些方法通常通过将图像块展平为1D序列并使用双向扫描来处理2D数据,从而将Mamba适配于2D数据。然而,这种强制展平和扫描机制的固有因果性可能会破坏2D图像结构的空间连续性。
这种全局上下文的碎片化是一个显著缺点,特别是在图像Sparse纹理修复(IRSR)中,恢复Sparse纹理高度依赖于对整个场景的整体理解。尽管现有工作尝试通过多尺度特征融合或语义引导来缓解这一问题,但这些通常属于事后校正。
作者的工作GPsMamba通过直接将全局 Prompt 集成到SSM的扫描过程中,解决了这一根本问题,使得非局部信息从一开始就能指导特征提取。
全局先验和修复指导
将先验信息融入图像修复是一种成熟的正则化策略,用以解决图像修复问题的不适定性。例如,频域信息可作为强大的全局先验。傅里叶频谱将图像的全局结构(幅度)与其精细细节(相位)解耦,这一特性已被多种方法用于提升重建保真度(Xiao等人,2024;Xiong等人,2024)。其他形式的引导方法也得到探索。例如,部分研究设计了不确定性驱动的损失函数,使训练过程更关注挑战性区域(Peng、Xie和Bian,2024)。
近期,通过适配大型预训练网络且开销极小,发展了如全流程修复模型等技术。作者的工作通过将全局先验构建为动态 Prompt ,引入了一种新颖的引导形式。不同于将频域信息作为正则化损失或独立处理分支的方法,作者将频域 Prompt 直接注入所提出的ASF-SSM模型核心。该 Prompt 主动调制Mamba模块内的状态转换,使特征提取过程在每一步都感知全局图像上下文。这种基于 Prompt 的引导与SSM架构的紧密集成,是区别于先前工作的关键特征。
unsetunset方法unsetunset
作者提出的GPSMamba方法是一种针对IRsR设计的层次化网络,其整体架构如图2所示。该网络首先使用浅层卷积层从
输入中提取Low-Level特征。模型的核心是一个由多个堆叠的ASF-SSB组成的深度特征提取模块。作者的核心创新在于ASF-SSM,它通过结合语义和频谱信息生成的动态、内容感知 Prompt 来增强标准状态空间机制。最后,重建模块将学习到的深度特征上采样以生成
。为了指导网络的训练,作者引入了一种新的目标函数——热谱注意力与相位一致性损失(TSAPC Loss
)。以下小节将详细阐述作者提出的ASF-SSM以及TSAPC Loss的公式表述。
自适应语义频率状态空间模块
自适应语义-频率状态空间模块(ASF-SSM)是作者架构的核心,旨在克服标准状态空间模型(SSM)的一个关键限制。虽然像Mamba这样的模型通过将展平的图像块处理为一维序列来实现线性复杂度,但这种序列化会破坏对图像理解至关重要的二维空间关系和全局频率模式。作者的ASF-SSM通过为选择性扫描机制添加一个动态的多域 Prompt 来解决这个问题,该 Prompt 根据局部语义和全局上下文指导状态转换。ASF-SSM在算法1中详细描述,包含两个协同阶段:(a)融合 Prompt 生成,(b) Prompt 引导状态空间模型。
融合 Prompt 生成。作者通过融合局部和全局上下文生成一个全面的 Prompt 张量
。该过程始于输入特征序列
,其中
和
分别是批次维度、序列长度维度和通道维度。为获得局部分量,即内容感知空间 Prompt
,作者首先使用一个多层感知机(MLP)从
中预测路由逻辑值。这些逻辑值通过GumbelSoftmax函数转换为离散的one-hot路由矩阵
,其中
是可学习 Prompt 池
的大小。空间 Prompt 随后计算为
。同时,为整合全局上下文,输入
首先被 Reshape ,然后通过快速傅里叶变换(FFT)转换为频域,得到频率特征
。受频域捕捉整体图像特性的启发,作者通过注意力机制处理这些特征。具体而言,
线性投影到 Query (
)、键(
)和值(
)张量,以计算上下文 Prompt
。这两个并行计算的 Prompt 通过逐元素相加融合,生成最终的全面 Prompt 张量:
Prompt 引导状态空间模型。作者的核心创新在于通过动态调节其输出投影矩阵
来引导状态空间模型的选择性扫描。作者首先通过融合空间和全局上下文 Prompt ,计算一个全面的 Prompt 张量
,即
。为了打破僵化的因果链,作者引入了语义引导扫描。在此扫描过程中,根据由路由矩阵
的argmax排序确定的语义顺序,从张量
中选择特定时间的向量
。然后将该 Prompt 注入输出投影中:
其他动态SSM参数
是通过输入序列
Linear
的线性投影,随后进行拆分操作得到的。状态更新和输出生成则遵循标准的离散化SSM公式,输入序列
沿着相同的语义路径进行语义处理:
由此产生的输出序列
随后通过最终的LayerNorm和线性投影,然后重新排序回其原始的空间排列,以生成模块的输出
TSAPC Loss:
在IRSR中,传统的像素级损失(例如L1或L2)往往无法捕捉全局结构一致性,且难以重建微弱但关键的 thermal 签名。这一局限性对于Mamba等受益于全局监督信号的序列模型尤为明显。为此,作者引入了 Thermal-Spectral Attention and Phase Consistency (TSAPC) 损失,这是一种复合目标函数,旨在提升重建图像
的结构保真度,并增强显著 thermal 特征的表征。作者提出的损失函数,记作
,是两个频域分量的加权和:
和
是两个损失分量,而
和
是它们各自的标量权重。作者现在详细说明每个分量。
第一个组件,相位一致性损失
,在傅里叶域中工作,以强制执行
和
之间的High-Level结构对应关系。它被定义为它们相位角之间的L1距离:
其中
表示二维快速傅里叶变换,角度
提取相位分量。由于图像相位已知包含有关结构布局的关键信息,因此该损失项对于在重建输出中保留锐利边缘、物体边界和整体结构完整性至关重要。
第二个组件,热谱注意力损失
,被设计为使模型的学习集中于精确重建热学显著区域内的谱幅度。这是通过首先从
生成热注意力 Mask
来实现的。具体而言,将
通过预训练的VGG19网络
的特征提取层,并将得到的特征输入到具有最终sigmoid激活
的轻量级卷积门控网络
,以生成 Mask :
热
σ
栅
该 Mask 突出显示高热活动区域。在插值以匹配图像的空间维度后,
与
和
进行逐元素相乘。然后,根据这些 Mask 图像的FFT幅值的L1距离计算
。
其中
表示逐元素乘法,
计算幅度。这种基于语义的频谱匹配迫使yinqing-GPSMamba_2507优先考虑源自被识别为热显著区域的频率分量的保真度。
与
之间的协同作用为作者的 GPSMamba 架构提供了全局结构约束和特征特定的频谱指导。这种双分量监督特别有利于作者的基于 Mamba 的架构;虽然固有的序列处理擅长局部依赖,但所提出的损失引入了关键的局部、全局监督信号。这有助于模型超越其因果感受野的限制,鼓励其学习与红外场景全局上下文一致的表示。因此,TSAPC-Loss 促进了具有更优细节恢复、热活动区域对比度增强以及更忠实复杂热现象渲染的图像生成。
unsetunset实验unsetunset
在本节中,作者全面评估了所提出的GPSMamba。首先,作者详细介绍了实验设置,包括数据集、评估指标和实现细节。随后,作者提供了与当前最优方法(SOTA)的广泛定量比较,接着进行定性视觉分析和深入消融研究,以验证作者的设计选择。
图1:在数据集result-A、result-C和CVC10上使用缩放因子4和2时(PSNR MSE SSIM)的平均结果最佳和次佳性能分别以粗体和下划线标出。
数据集。为确保与当前最优方法(SOTA)进行严谨且公平的比较,作者采用了近期如IRsRMamba等研究建立的实验协议。yinqing-GPSMamba_2507在广泛使用的M3FD数据集(Liu等人,2022b)上进行训练。在评估方面,作者将GPSMamba基准测试在三个标准红外测试集上:result-A(Liu,2018;Huang等人,2021)、result-C(Zhang等人,2017;Huang等人,2021)以及CVC10(Campo等人,2012)。遵循标准做法,LR输入通过将HR图像进行双三次下采样生成,对应尺度因子为
和
。
评估指标。作者使用标准的全参考指标评估性能:峰值信噪比(PSNR/dB)和结构相似性指数(SSIM),这些指标在YCbCr空间的Y通道上计算。为了更全面地评估感知质量——这是像素级度量无法完全捕捉的——作者补充了四种不同的无参考(NR-IQA)指标进行分析:基于学习的DBCNN(Zhang等人,2020年)、基于统计的NIQE(Mittal、Soundararajan和Bovik,2012年)以及BRISQUE(Mittal、Moorthy和Bovik,2012年),以及基于视觉-语言的CLIP-IQA(Wang、Chan和Loy,2023年)。其他设置。所有模型均使用PyTorch实现,并在NVIDIA A6000 GPU上进行训练。作者使用Adam优化器以学习率
和批量大小32对网络进行优化。
实验结果与分析
定量比较
作者针对一系列sOTA方法进行了全面的定量比较,包括最近的顶级会议模型如CATANet、MambaOut以及当前领先的架构IRSRMamba。在三个基准数据集上的
和
超分辨率完整结果如表1所示。作者提出的模型GPSMamba表现出色。对于标准的
超分辨率任务中,该方法在所有数据集和指标上均取得了最佳或次佳结果,确立了其竞争力。例如,在result-C数据集上,yinqing-GPSMamba_2507在PSNR上超越了IRSRMamba,并在SSIM得分上与其持平。在更具挑战性的
超分辨率任务中,恢复高频细节难度显著增加,yinqing-GPSMamba_2507的优势更为突出。如表1所示,作者的GPSMamba在所有三个数据集上的所有指标上均持续设定了新的SOTA,超越了所有竞争方法。在result-C数据集上,作者实现了35.4007 dB的PSNR,比之前的最佳方法(IRSRMamba)高出近0.1 dB的显著差距。这一显著改进突显了yinqing-GPSMamba_2507在从高度退化输入中重建忠实且结构连贯图像方面的增强能力。为了更深入地分析性能,作者在图3中分析了像素级误差分布。
任务的可视化揭示了yinqing-GPSMamba_2507优势:它重建了63%的像素,误差极小([0, 5)),超越了所有竞争对手(result-A (Scale
)。因此,它在高误差类别([10,
))中产生的像素最少。为了补充基于保真度的分析,作者使用四种非参考指标评估感知质量。如图4所示,yinqing-GPSMamba_2507在最具挑战性的CLIP-IQA指标上表现最为突出,实现了0.3043的领先得分,超越了当前的SOTA,IRSRMamba(0.2887)。这一优势表明了更语义连贯和逼真的重建,并在DBCNN、BRISQUE和NIQE上展现了极具竞争力的性能。雷达图直观地综合了这些发现,展示了yinqing-GPSMamba_2507性能边界(蓝色)实现了最理想的整体平衡。
定性结果。如图5所示,对
超分辨率在结果A/结果C上的定性比较。yinqing-GPSMamba_2507GPSMamba在恢复清晰纹理和物体轮廓方面表现出色,而其他方法则难以做到。在融合2场景(顶部),它渲染出清晰可辨的标志文字,这一细节在竞争性结果中完全因模糊而丢失。类似地,在结果12(底部),它保留了行人的清晰轮廓。这种更高的保真度通过残差图(右侧)得到进一步证实,其中yinqing-GPSMamba_2507在这些关键的频域区域表现出极小的重建误差(较深的蓝色),确认了更精确的重建。
消融实验。如表2(a)所示,作者首先以Mamba(纯) Baseline 开始。集成作者提出的ASF-SSM模块后,在result-A/result-C上PSNR从39.03提升至39.14,SSIM从0.9528提升至0.9716,这证明了该模块在捕捉关键图像特征方面的有效性。通过进一步引入包含频谱约束的完整损失函数
,性能提升至峰值(39.31/40.24 PSNR),证实每个组件对最终结果都产生了协同贡献。作者还分析了关键超参数的影响。如表2(b)详细所示,作者测试了16、32、64的批处理大小。模型在批处理大小为32时达到最佳性能,作者将其应用于所有实验。表2(c)展示了核心模块数量变化的影响。随着模型从4个模块加深至8个模块,性能持续提升,其中8个模块取得了最佳结果。最后,作者在表2(d)研究了频率
和相位
损失项之间的平衡。结果表明,更侧重频率分量是有益的,最佳配置为
和
。
ASF-SSM和TSAPC损失的影响。作者通过消融研究来可视化验证作者的核心组件。如图6所示,作者的ASF-SSM将模型的有效感受野(Ding et al. 2022; Li et al. 2023)从紧凑的局部区域(无ASF-SSM)转变为扩展的各向异性区域(有ASF-SSM),证实了其捕捉长距离依赖关系的能力。同时,图7中的频率分析表明,作者的TSAPC损失对于结构保真度至关重要。没有它(
)A重建的相位谱表现出严重的伪影。通过强制频谱一致性,yinqing-GPSMamba_2507(有
)产生与真实值忠实对齐的相位谱,从而得到感知上更优越的重建结果。
unsetunset参考unsetunset
[1]. GPSMamba: A Global Phase and Spectral Prompt-guided Mamba for Infrared Image Super-Resolution