FusionMamba是Fusion-Mamba吗？我分不清了！FusionMamba好像进一步提升了全局能力！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

多模态图像融合旨在从不同的模态中整合信息，以创建具有全面信息和详细纹理的单张图像。然而，基于卷积神经网络融合模型在捕捉全局图像特征方面存在局限性，这是由于它们侧重于局部卷积操作。

尽管基于Transformer的模型在全球特征建模方面表现出色，但它们却面临着由二次复杂度引起的计算挑战。

近期，选择性的结构化状态空间模型显示出在具有线性复杂度的情况下建模长距离依赖关系的显著潜力，这为解决前述困境提供了一条有希望的道路。

在本文中，作者提出了FusionMamba，这是一种新颖的动态特征增强多模态图像融合方法，使用了Mamba。具体来说，作者设计了一个改进的高效Mamba模型用于图像融合，该模型集成了高效的视觉状态空间模型与动态卷积和通道注意力。

这个精炼的模型不仅保持了Mamba的性能和全局建模能力，同时减少了通道冗余并增强了局部增强能力。此外，作者还设计了一个动态特征融合模块（DFFM），它包含两个动态特征增强模块（DFEM）和一个跨模态融合Mamba模块（CMFM）。

前者用于动态纹理增强和动态差异感知，而后者则增强模态间的相关性特征并抑制多余的跨模态信息。

FusionMamba在各种多模态医学图像融合任务（CT-MRI、PET-MRI、SPECT-MRI）、红外与可见图像融合任务（IR-VIS）以及多模态生物医学图像融合数据集（GFP-PC）上均取得了最先进（SOTA）的性能，这证明了作者模型的泛化能力。

关注公众号，私信「获取代码」获取链接地址。

Introduction

不同的传感器捕捉独特的数据视角。红外传感器擅长于热辐射捕捉，可见光传感器在详细纹理数据方面表现优异。医学成像中的MRI和CT提供结构洞察，而PET提供功能数据。由于硬件限制，单一传感器无法捕捉到图像的全部复杂性。图像融合整合源图像以生成信息丰富的图像。红外-可见光以及医学图像融合是至关重要的子类别，有助于诊断并增强图像。融合技术解决了敏感性和噪声问题，支持实际应用。

近年来，深度学习在多模态图像融合领域的应用显著增加，主要使用卷积神经网络（CNNs）和 Transformer 结构进行特征提取和重建。然而，这些模型都存在局限性。具体来说，这些融合方法中对静态卷积层的运用导致了对整个图像的统一遍历，由于受限于感受野[12]，这限制了它们捕捉全局上下文信息的能力。此外，静态卷积层对每个像素的盲目处理忽略了不同位置之间微妙的的空间差异。鉴于图像融合任务迫切需要处理多样化的输入数据，当前的基于卷积的技术很难有效地从不同模态中提取特征，导致融合性能下降。基于 Transformer 的模型在全球建模方面表现卓越，但由于其自注意力机制[11]，在图像尺寸方面存在二次复杂度问题，从而带来了相当大的计算负担。此外，与 CNNs 相比，Transformers 在捕捉局部特征方面的精度较低。尽管某些融合模型[3, 24]采取了混合方法，通过结合卷积层和 Transformer 层来利用各自的优势并减轻不足，但计算负担依然是一个重大问题。

图像融合是一种关键的图像增强技术[12]。方法通常采用三种主要的特征融合策略。首先，一些方法使用逐元素操作，如加法、乘法或拼接[5, 26]，来合并来自不同模态的特征。然而，这些方法忽视了模态间的相互关系，导致融合性能受到影响。其次，有方法专注于更深入的特征提取[3, 24]，但它们仍然缺乏有效的模态间交互和对纹理细节的强调。最后，特定的技术利用跨模态融合[12]，包括基于卷积和基于Transformer的方法，这些方法部分解决了特征交互的问题，但仍有其局限性。总体而言，现代融合方法在最优利用模态特征和突出关键信息方面存在困难，这表明需要改进模态连接并对关键图像细节加以重视。

Mamba[11]技术的进步为在全球感受野和计算效率之间实现平衡提供了一条有希望的途径。通过将Mamba的离散状态空间方程形式化为递归形式，并融入特别设计的结构重参化[19]，其能够模拟非常长的依赖关系。此外，并行扫描算法[15]的实施使得Mamba能够以并行方式处理每个标记，从而便于在现代硬件（如GPU[4]）上进行高效训练。这些鼓舞人心的特性激励作者进一步探索Mamba在图像融合网络中对高效长距离建模的潜力。

针对上述问题，作者的研究设计了一个新的动态特征增强模型——带有Mamba的多模态图像融合，旨在更好地探索模内和模间特征，同时动态地增强源图像的细节纹理信息以及每种模态的特异性信息。具体来说，对于网络的特征提取和重建部分，作者设计了一个适合融合任务的Mamba模型，该模型通过集成视觉状态空间模型以及动态卷积和通道注意力，不仅保持了Mamba的性能和全局建模能力，而且减少了通道冗余，增强了局部特征提取能力。

在特征融合部分，作者设计了一个动态特征融合模块，包括动态特征增强模块和跨模态融合Mamba模块。与之前的特征融合方法不同，该融合模块动态地增强源图像中的细节纹理信息和差异信息，并促进模态间更好的信息交互。动态特征增强模块（DFEM），由动态微分卷积和动态差异感知注意力组成，用于自适应特征增强。DFEM模块通过在不同模态的输入特征间建立联系，动态地增强关键信息。作者设计了一个跨模态融合Mamba模块，以有效地挖掘模态间的相关性信息。作者的网络架构采用Unet [34]多层结构，实现了一个高效且通用的图像融合框架。实验结果表明，作者提出的方法在多个多模态基准数据集上的多种评估指标上，包括红外-可见光融合、CT-MRI融合、PET-MRI融合、SPECT-MRI融合以及GFP-PC融合，均优于现有的（SOTA）图像融合方法。

总之，作者的贡献包括：

作者设计了一种新颖的动态特征增强的Mamba图像融合模型，这是第一种改进的状态空间模型用于图像融合，为基于CNN和Transformers的方法提供了一种简单而有效的替代方案。
作者提出了动态视觉状态空间（Dynamic Visual State Space, DVSS）模块，它通过动态增强局部特征并减少通道冗余，提升了标准Mamba模型的效率。这种增强加强了其建模和特征提取能力。
特征融合模块从源图像中提取关键信息，并探索不同模态之间的关系。它包含一个动态特征增强模块，用于增强细微的纹理特征并感知差异特征，以及一个跨模态Mamba融合模块，用于有效地探索跨模态之间的相关性。
作者开发了一个高效且多功能的图像融合框架，在包括红外与可见光融合、多模态医学图像融合以及生物医学图像融合在内的各种图像融合任务中取得了领先性能。
Related Work

Deep Multimodal Image Fusion

图像融合作为一种关键的图像增强技术，近年来受到了广泛关注。在深度学习时代，主要的图像融合方法可以分为四类：卷积神经网络（CNN）模型，生成对抗网络（GAN）模型，基于自编码器（AE）的模型，以及基于Transformer架构的模型。这些方法通常采用简单的融合规则，如元素相加、平均或相乘。尽管这些卷积方法可以实现令人满意的融合结果，但由于固有的卷积限制，它们在提取全局特征方面的能力有限。Ma等人引入了一种端到端的GAN模型，名为FusionGAN，其中源图像输入到生成网络，融合结果由判别网络生成。

随后，他们提出了一个双判别器条件生成对抗网络（DDCGAN）[20]，该网络使用两个判别器来辨别融合图像与两个源图像之间的结构差异。尽管GANs表现出强大的性能，但它们的训练过程可能不稳定，由于需要使用双判别器平衡多源图像，可能导致潜在的纹理失真，难以实现稳定的融合结果。基于自编码器（AE）的模型需要一个融合规则来整合从编码器提取的特征，并通过解码器生成融合结果。例如，RFN-Nest[30]引入了两阶段学习策略和自定义融合方法。此外，研究者们还探索了基于Transformer的方法，IFT[11]和CDDFuse[22]有效地将CNN与Transformer架构相结合。SwinFusion[13]利用SwinTransformer独特的滑动窗口注意力机制来解决卷积融合方法中的限制。

Mamba

状态空间模型（SSMs）[7]已经成为深度学习中的具有竞争力的基础架构，起源于经典的控制理论，并能提供与序列长度成线性扩展的能力，以建模长距离依赖关系。结构化状态空间序列模型（S4）和Mamba [22] 都依赖于一个经典的连续系统，这个系统将一个一维的输入函数或序列，表示为，通过中间的隐式状态映射到一个输出。SSMs 可以表示为以下线性常微分方程（ODE）：

在这里，代表状态矩阵，而，，以及表示投影参数。之后，通常将离散化过程应用于实际的深度学习算法中。具体来说，用表示时间尺度参数，将连续参数，转换为离散参数，。常用的离散化方法[19]是零阶保持（ZOH）规则，定义如下：

在离散化之后，具有步长的方程式（1）的离散版本可以重写为以下RNN形式：

此外，方程（3）也可以在数学上等价地转换成以下卷积神经网络（CNN）形式：

在公式中，表示卷积操作，是一个结构化的卷积核，而表示输入序列的长度。

Mamba在自然语言任务上取得了显著进展，超越了传统的Transformers，这得益于其数据依赖机制、高效的硬件和卓越的语言处理能力。除了扩展语言任务之外，Mamba也成功地被应用于视觉任务，如图像分类、视频理解和生物医学图像分割。这一成功激发了研究浪潮，专注于将基于Mamba的模型适应于专门的视觉应用，包括通过类似Vm-unet（Zhu等人，2017年）的适应进行医学图像分割。此外，Mamba还整合到了图表示任务中，通过模型增强图的嵌入和处理能力。Mamba的通用性和效率使它成为从语言处理到计算机视觉表示任务等多种应用的吸引选择（Mamba，2018）。

Methodology

Motivation

本文的动机在于解决多模态图像融合领域中的常见问题和挑战。近年来，随着深度学习方法在图像特征提取方面强大能力的认可，许多融合算法应运而生。然而，当前主流的卷积神经网络（CNNs）在图像融合方面存在固有的局限性，这促使作者深入探讨并设计一个新的动态特征增强模型来应对这些挑战和问题。

一方面，当前的融合方法主要使用静态卷积层进行特征提取和重建，这在捕捉细致的空间差异和全局上下文信息方面存在限制。另一方面，Transformer模型在全球建模方面表现优异，但其由于自注意力机制导致的图像尺寸的二次复杂度限制了其计算效率。此外，与CNN相比，它们在捕捉局部特征方面的精确度也较低。而且，现有的融合方法在特征融合方面也有所不足，无法有效地从不同模态中提取特征，导致融合性能下降。

因此，作者的动机是设计一个新的动态特征增强模型，该模型结合了Mamba模型在全球感受野和计算效率方面的优势，以及动态特征增强和跨模态融合策略。目标是更好地探索多模态图像融合中的内部特征和跨模态关系，提高融合性能，并克服当前方法的局限性。

图2：框架概览。FusionMamba网络接收两种不同模式的两幅图像作为输入。这些图像通过融合模块进行多层特征提取和动态特征增强融合，产生包含差异和纹理增强的融合特征。最后，该模块重构融合结果。

Overview

作者的FusionMamba在通用融合过程中包含三个关键组件：特征提取、特征融合和特征重建。网络架构基于Unet框架，以有效提取更深层次的特征。如图2(a)所示，特征提取和重建阶段均使用了设计的动态视觉状态空间（DVSS）模块。特征融合阶段采用动态特征融合模块（DFFM，见图3）。动态增强融合模块的每一层包含两个动态特征增强模块（DFEM）和一个跨模态融合Mamba模块（CMFM）。因此，在本节中，作者将重点介绍设计的动态视觉状态空间模块、动态特征增强模块和跨模态融合Mamba模块。

picture.image

Dynamic Vision State Space Module

作者提出了动态视觉状态空间（Dynamic Vision State Space, DVSS）模块，作为对图像融合处理中SSM块的改进。在图2(b)中，从输入的深度特征开始，作者首先应用层归一化（LayerNorm, LN），然后使用高效状态空间模块（Efficient State Space Module, ESSM）(()) 来捕捉空间上的长期依赖关系。

由于SSMs将扁平化的特征图作为1D Token 序列处理，所选择的扁平化策略显著影响了序列中相邻像素的数量。例如，在使用四方向展开策略时， Anchor 点像素只能访问到四个最近的邻居。特别是，高效的2D扫描（ES2D，如图2(e)所示）有效地使用跳过采样缩减了2D-选择性扫描（SS2D），并结合处理后的 Patch 进行全局特征提取。因此，在2D特征图上空间上接近的像素在1D Token 序列中可能变得彼此距离较远，这可能导致局部像素遗忘。为了解决这个问题，作者在ES2D之后引入了一个额外的动态局部卷积（()）来恢复邻居相似性。可学习的描述性卷积（LDC，如图2(f)所示）有效地学习复杂的纹理特征，使其在这里非常适用。作者使用LayerNorm进行规范化，然后利用可学习的描述性卷积（LDC）(()）来补偿局部特征。

此外，SSMs通常引入更多隐藏状态来记忆非常长的依赖关系，这在可视化不同通道的激活结果时导致了显著的通道冗余（()）。为了增强不同通道的表达能力，作者将高效通道注意力（ECA，如图2(g)所示）（()）整合到DVSS中。这使得SSMs能够专注于学习多样化的通道表示，随后的通道注意力选择关键通道以防止冗余。DVSS的表达式为：

其中代表第 n 层的特征图，而是下一级输入的特征。ESSM ()、LDC () 和 ECA () 分别如 Fig. 2(c)、Fig. 2(f) 和 Fig. (g) 中所示，表示 ESSM、LDC 和 ECA 操作。

Dynamic Feature Enhancement Module

动态特征增强模块（例如DFEM，如图4所示），旨在通过动态特征增强机制自适应地改进纹理细节特征，并动态地感知不同模式之间的差异。具体来说，DFEM接收两种不同模式特征（，）作为输入，在模块中执行粗粒度融合特征（）。通过从不同模态特征中相减来获得差异特征，增强这些差异特征的映射。随后，将这些差异特征与原始特征合并，用额外的模态补充信息丰富差异特征。这个过程有效地提取并放大图像中固有的互补特征和纹理细节，从而提高整体融合性能。

picture.image

在模块内，可学习描述卷积（LDC）模块通过使用可学习的 Mask 参数和卷积操作，增强输入特征图上的纹理处理。通过调整卷积核的权重，它强调了纹理信息，从而提升了模型对纹理特征的感受。相反，动态差异感知注意力计算输入特征图之间的差异权重，并将它们应用于融合特征和原始特征，放大特征间的差异。这种方法帮助模型有效捕捉输入特征间的细微差异，从而在不同特征间提升了解析度和感知，有助于增强模型的融合性能。最后，DFEM将纹理增强特征、差异增强特征和低频特征（）与背景信息结合，输出。

Cross Modality Fusion Mamba Module

动态特征增强模块（DFEM，如图4所示）输出的特征进一步被送入跨模态融合Mamba（CMFM，如图5所示）模块，用于进行细粒度的融合和探索信息之间的相关性。

picture.image

图3. 动态特征融合模块（DFFM）。

不同模态的增强特征（, ）首先被混合，以生成混合特征：

在这里，表示深度可分卷积操作。和分别指元素乘法和加法操作。

这些混合增强特征随后被输入到高效空间扫描2D (ES2D)（Chen等人，2017）层中，以捕捉空间长期依赖性。

输出特征通过一个通道注意力模块（ECA）以减少通道冗余，最终得到融合后的特征图（）：

Loss Function

为了确保在训练过程中提取有意义的信息，作者引入了三种类型的损失函数：强度损失，纹理损失，以及结构损失。总损失可以表示如下：

其中 , 和是用于控制 , 和之间权衡的权重。

整合更多的纹理细节对于提升视觉效果至关重要。作者使用梯度损失来确保更多细粒度细节的保留，其定义如下：

通常，源图像中包含大量的强度信息和对比度信息。作者采用强度损失来确保保留适当的强度信息。它可以定义为：

SSIM可以测量两幅图像之间的失真程度和相似度（Beng等人，2017年）。作者使用SSIM损失来确保融合图像与源图像之间的结构相似性。它可以定义为：

Experiment

Setup

4.1.1. Datasets

作者选择了KAIST数据集（Krizhevsky, 2012）来训练作者的FusionMamba。在这个数据集中，作者选择了70,000对红外和可见光图像用于训练。这些图像也被转换成灰度图，并调整大小为256×256。作者分别使用哈佛医学数据集1作为训练和测试数据集。其中包含了166对CT-MRI图像，329对PET-MRI图像以及539对SPECT-MRI图像。图像的大小为256×256。作者通过图像旋转将图像对增强到30,000，这可以提高模型性能，并帮助克服潜在的过拟合问题。随机选择了21对测试图像来评估模型。作者还使用了约翰·英尼斯中心（Sanchez et al., 2017）发布的GFP数据库1进行实验。该数据库包含了148对预注册的拟南芥细胞GFP和PC图像，尺寸相同，均为358×358像素。作者同样通过图像旋转将图像对增强到30,000。随机选择了20对测试图像来评估模型。

4.1.2. 实现细节和评价指标

批量大小为4，使用学习率为0.0001的Adam优化器。, , 和设置为1, 1, 10。实验是在使用Pytorch的Nvidia GeForce RTX 3090 GPU和3.60 GHz Intel Core i9-9900K CPU上进行的。

融合性能通过六个关键指标进行评估（Krizhevsky, 2012; Krizhevsky, 2012）：结构保真度（SF）、结构内容差异（SCD）、多尺度结构相似性指数测量（MS-SSIM）、基于梯度的度量（）、特征互信息（FMI）以及视觉信息保真度（VIF）（Sanchez等人，2017年）。这些指标从多个角度评估融合性能，包括融合图像中的结构保持、内容差异、特征信息以及视觉保真度。

图4. 动态特征增强模块（DFEM）。

图5. 跨模态融合Mamba模块（CMFM）。

图像与源图像进行比较。SF衡量结构忠实度，SCD量化内容差异，MS-SSIM评估跨尺度的结构相似性，评估边缘信息保持程度，FMI测量特征信息保存情况，而VIF综合计算视觉忠实度。这些指标共同为不同标准下的融合性能提供了全面的评估。

4.1.3. Comparison Approaches

作者与最先进的方法进行了广泛的对比实验，以证明FusionMamba的有效性。这些对比方法包括CSMCA（Wang等，2019）、U2Fusion（Chen等，2019）、FusionGAN（Chen等，2019）、SDNet（Chen等，2019）、MATR（Chen等，2019）、IFT（Chen等，2019）和SwinFusion（Chen等，2019）。CSMCA（Wang等，2019）是传统的融合方法。SDNet（Chen等，2019）、FusionGAN和U2Fusion（Chen等，2019）是基于CNN的融合方法。MATR（Chen等，2019）、IFT和SwinFusion（Chen等，2019）是基于Transformer的结构。作者使用了相应的参数设置的公开代码。

Multimodal Medical Image Fusion

作者提出了三种典型的医学图像融合任务：CT-MRI图像融合、PET-MRI图像融合以及SPECT-MRI图像融合任务。定性结果和定量结果分别展示在图6和表1中。

picture.image

对于定性分析，图6的第一行展示了CT-MRI融合任务，包括CT图像、MRI图像以及CSMCA和提出的FusionMamba的融合结果。作者对红色框内的区域进行了放大，展示了作者的融合图像能够同时保留CT的密集信息与MRI的纹理细节。在图6中，FusionGAN和U2Fusion（Chen等，2019）在亮度和清晰度上表现出不理想，部分灰质模糊了纹理细节。特别是，FusionGAN显示了人工痕迹和冗余信息。MATR（Chen等，2019）保留了结构细节但削弱了密集结构。SDNet（Chen等，2019）和CSMCA（Wang等，2019）保留了密集结构但丢失了一些边缘细节。SwinFusion（Chen等，2019）实现了满意的融合效果，但边缘过于锐利。相比之下，作者的FusionMamba在保持适当密集结构的同时保留了更多的纹理细节。从视觉上看，它们看起来更加自然，对比度也得到了增强。

图6的第二行展示了PET-MRI融合任务。FusionGAN的融合图像对比度较低，且缺少纹理细节，而CSMCA（王等人，2019）和IFT（陈等人，2019）则很好地保留了纹理信息。然而，较深的颜色表明对功能信息的保留不足。此外，IFT（陈等人，2019），U2Fusion（陈等人，2019）和SDNet（陈等人，2019）保留了功能特征，但在显著区域的纹理细节不够清晰。SwinFusion（陈等人，2019）由于过度锐化导致颜色失真。相比之下，作者的FusionMamba保留了清晰的边缘和纹理细节，其颜色分布更接近PET图像，增强了视觉感知。

移步到第三行，关注SPECT-MRI融合任务，与PET-MRI融合类似，作者的FusionMamba在捕捉更多细节并保持SPECT图像中适当的颜色信息方面表现出色。

表1展示了在CT-MRI融合任务中六个指标的定量对比结果。FusionMamba在这些指标（VIF，SCD，，SF，MS-SSIM和FMI）上取得了最优的结果（平均值），表明它具有更高的结构相似性，增强的对比度以及更好的视觉效果。在PET-MRI融合任务的表2和SPECT-MRI融合任务的表3中，也观察到了类似的趋势，FusionMamba在各项指标上持续优于其他方法，展现了在保留功能和解剖信息方面的卓越融合性能。

picture.image

总体而言，FusionMamba在所有评估任务中实现了更好的融合性能，包括更丰富的信息保留和提升的视觉效果。

Infrared and Visible Image Fusion

图7和表4说明，由于全局信息交互不足和强度控制不当，RFN-Nest（王等人，2019年）、DATFuse、SDNet（陈等人，2019年）和U2Fusion（陈等人，2019年）难以准确表示可见图像中的场景信息。另一方面，虽然IFT（陈等人，2019年）和SwinFusion（陈等人，2019年）设法保留了可见图像中的一些纹理细节，但它们在场景信息的表现上仍有不足。

picture.image

表3. SPECT-MRI任务中的比较结果。最佳结果以粗体标记。

表2. PET-MRI任务中的比较结果。最佳结果以粗体标记。

仍然容易受到热辐射的污染，导致红外图像目标清晰度在不同程度上降低。

值得注意的是，作者的FusionMamba方法在保留可见图像的场景信息及显著物体方面表现出色，这是通过有效的全局上下文感知和动态特征增强实现的。具体来说，作者的模型在动态关注红外图像中的重要区域的同时，保持了可见图像中的纹理细节。

Multimodal Biomedical Image Fusion

为了展示FusionMamba的泛化能力，作者进行了绿色荧光蛋白（GFP）与相差对比（PC）图像的融合。GFP图像提供了与蛋白质分布相关的功能信息，而PC图像包含了丰富的细胞结构细节，包括细胞核和线粒体。GFP和PC融合图像能够促进生物研究，如基因表达和蛋白质功能分析。在图8和表5中可以看到，FusionGAN、U2Fusion（Chen等人，2019）和IFT（Chen等人，2019）能够很好地保留颜色信息，但纹理细节有一定损失。U2Fusion（Chen等人，2019）和MATR（Chen等人，2019）能够很好地保持纹理细节，但有轻微的颜色失真。值得注意的是，SwinFusion（Shi等人，2019）和FusionMamba都能够有效地保留纹理和颜色信息，这证明了图像融合中跨融合策略的有效性。

picture.image

Computational Cost Analysis

表6中的复杂性评估通过测量每秒浮点运算数（FLOPs）和运行时间，来评估各种方法的操作效率。具体来说，数据集中的第一幅图像在一个红外与可见光融合场景中进行测试，以计算每种方法的FLOPs。作者将基于CNN的U2Fusion（Chen等人，2019）和IFCNN（Chen等人，2019）方法与基于Transformer的IFT（Chen等人，2019）和SwinFusion（Shi等人，2019）方法进行了比较。结果显示，基于Mamba的方法在运行时间上具有显著优势，相较于CNN和Transformer方法，展现出更低的FLOPs和平均运行时间。重要的是，与主流图像融合算法相比，作者的方法显示出更优越的融合性能。

picture.image

Ablation Experiments

Structure Ablation

为了更好地分析网络架构，作者进行了5组消融实验，如表7所示。为了验证DVSS的有效性，作者执行了两项额外的实验：EVSS以及用Transformer替换DVSS（案例1和案例2）。EVSS产生了满意的结果，但由于DVSS具有更强的特征提取能力，它在设计上不如DVSS有效。

picture.image

表6. 计算成本分析。

表4. IR-VIS任务中的比较结果。最佳结果以粗体标出。

图6. 多模态医学图像融合的定性结果。

表5. GFP-PC任务中的比较结果。最佳结果以粗体标记。

网络导致指标下降。所提出的DFFM显著增强了融合效果，正如在案例3中看到的那样，缺少它会导致SF和的降低。移除DFEM模块（案例4）的结果与没有DFFM相似。用于跨模态融合的Mamba模块对有效信息整合至关重要，因为未整合Mamba模块的网络（案例5）在VIF任务的视觉性能上有所下降。CMFM的缺失导致融合图像的MS-SSIM下降，这表明在融合任务中对于感知关键目标和结构来说，跨领域整合的重要性。

Loss Ablation

作者对每个损失函数进行了消融实验，以评估其影响，具体如图表8所示。最初，作者引入了结构相似性损失（）来约束融合网络，保留源图像中的结构信息。此外，结构相似性损失在一定程度上有助于控制融合结果的亮度。缺乏结构约束的网络在保持最佳结构和强度信息方面存在困难，导致MS-SSIM分数下降。纹理损失（）对保留融合结果中的边缘信息起到了显著作用，从而提高了清晰度。如果没有纹理损失，作者观察到和SF指标明显下降。从联合损失函数中排除强度损失（）会减弱融合图像的视觉影响。作者的模型在所有指标上始终优于其他版本，突显了作者提出的损失函数的最优性能。

picture.image

Conclusion

总之，作者的研究通过提出FusionMamba这一新型动态特征增强方法，该方法与Mamba框架相结合，来解决多模态图像融合的挑战。作者的方法将改进的高效Mamba模型（EMamba）与动态卷积和通道注意力相结合，提升了全局建模能力和局部特征提取。作者还引入了一个动态特征融合模块（DFFM），其中包括两个动态特征增强模块（DFEM）和一个跨模态融合Mamba模块（CMFM），有效增强了纹理、差异感知和模态之间的相关性，同时抑制了冗余信息。作者的FusionMamba方法在各种多模态图像融合任务中展示了最先进（SOTA）的性能。这些结果验证了作者提出方法的泛化能力。在未来的工作中，作者旨在研究将FusionMamba应用于实时场景的可行性。

在资源受限的设备上部署它将对实际应用带来好处。此外，将作者的评估扩展到更多样化的数据集，并与新兴的融合方法进行比较，将能提供一个对FusionMamba能力的全面理解。

参考

[1].FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba.

点击上方卡片，关注「AI视界引擎」公众号