如果AI会说话一定觉得Mamba多管闲事！Fusion-Mamba让多模态目标检测来到了！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

跨模态融合不同模态的互补信息可以有效提高目标检测性能，使其在更广泛的应用中更有用、更健壮。现有的融合策略通过复杂的神经网络模块组合不同类型的图像或合并不同的基础特征。

然而，这些方法忽视了模态差异会影响跨模态融合性能，因为具有不同焦距、位置和角度的不同模态很难融合。

在本文中，作者通过基于带有门控机制的改进Mamba在隐藏状态空间关联跨模态特征来研究跨模态融合。

作者设计了一个融合-Mamba块（FMB）来将跨模态特征映射到一个隐藏状态空间进行交互，从而减少跨模态特征之间的差异并增强融合特征的表现一致性。

FMB包含两个模块：状态空间通道交换（SSCS）模块促进浅层特征融合，而双状态空间融合（DSSF）则实现隐藏状态空间中的深层融合。

在公共数据集上的大量实验表明，作者提出的方法在上优于现有技术水平，在数据集上提高了5.9%，在FLIR-Aligned数据集上提高了4.9%，展示了卓越的目标检测性能。据作者所知，这是首次探索Mamba在跨模态融合中的潜力，并为跨模态目标检测建立了一个新的基准。

1 Introduction

随着多模态传感器技术的快速发展，多模态图像已被应用于许多不同领域。其中，配对的红外（IR）和可见光图像被广泛使用，因为这两种模态的图像提供了互补的信息。例如，红外图像能够清晰展示物体的热结构，且不受亮度影响，但它们缺少目标的纹理细节。相比之下，可见光图像捕捉到丰富的物体纹理和场景信息，但光照条件严重影响图像质量。因此，许多研究专注于红外和可见光特征的融合，以提高下游高级图像和场景理解任务的感知性和鲁棒性，例如，目标检测和图像分割。

图1：热力图可视化。（a）和（b）展示了初始的RGB和IR输入图像。（c）和（d）展示了使用YOLOv8从单一模态生成的热力图。（e）展示了带有基于CNN的融合模块的YOLO-MS的热力图。（f）和（g）展示了带有基于 Transformer 融合模块的ICAFusion和CFT的热力图。（h）展示了作者FMB的热力图，它实现了更好的定位。

picture.image

现有的多光谱融合方法通常采用深度卷积神经网络（CNN）或Transformers 来融合跨模态特征。引入了一种中间融合方法，以集成来自RGB和红外图像的双分支中间级特征，用于多光谱行人检测。GFD-SSD 使用门控融合单元构建双流中间融合检测器，其性能优于单一模态。在这种背景下，引入了基于两个CNN融合模块的YOLO-MS，用于从YOLOv5 Backbone 网络中融合相邻分支，实现实时目标检测[35]。尽管基于局部感受野的CNN在跨模态融合上取得了巨大成功，但基于Transformers[5, 32]的方法已被提出，以有效地学习跨模态特征融合的长距离依赖。CFT[6]是首次研究利用Transformer进行中间级特征融合，可以提高YOLOv5的性能。ICAFusion[26]采用双重交叉注意力Transformer，能够成功建模全局特征并在各模态间捕捉互补信息。然而，这些跨模态融合方法未能考虑模态差异，这会对跨模态特征融合产生不利影响。

如图1(e)(f)(g)所示，YOLO-Ms、ICAFusion和CFT融合特征的heatmap显示，它们不能有效融合来自不同模态的特征，并建模跨模态目标之间的相关性，因为它们具有明显不同的模态表示。这促使作者重新思考：作者能否拥有一个有效的跨模态交互空间，以减少模态差异，从而获得一致的表示，并从跨模态关系中受益以增强特征？此外，基于Transformer的跨模态融合在计算上具有二次时间-空间复杂度。

图2：所提出的融合-曼巴（Fusion-Mamba）方法的架构。检测网络包括一个双流特征提取网络和三个融合-曼巴块（FMB）， Neck 和 Head 与YOLOv8相同。顶部是作者的检测框架，和分别是RGB和IR分支的卷积模块，用于生成和的特征。和是通过作者的FMB增强后的特征图。和是增强特征图的求和输出，作为 Neck 在最后三个阶段的特征金字塔输入。底部展示了作者FMB的设计细节。

picture.image

在本文中，作者提出了一种融合-曼巴方法，旨在隐藏状态空间中融合特征，这可能为跨模态特征融合开辟了一种新范式。作者受Mamba启发，以线性复杂性构建隐藏状态空间，并通过门控机制进一步改进，以实现更深层次和更复杂的融合。作者的融合-曼巴方法在于创新的融合-曼巴块（FMB），如图2所示。在FMB中，作者设计了一个状态空间通道交换（SSCS）模块，用于浅层特征融合，以提高跨模态特征的交互能力，以及一个双状态空间融合（DSSF）模块，构建用于跨模态特征关联和互补性的隐藏状态空间。这两个模块帮助在融合过程中减少模态之间的差异，如图1(h)所示。 Heatmap 显示作者的方法更有效地融合了特征，并使检测器更专注于目标。这项工作做出了以下贡献：

所提出的Fusion-Mamba方法探讨了Mamba在跨模态融合中的潜力，这增强了融合特征的表现一致性。作者基于改进的Mamba通过门控机制构建了一个隐藏状态空间，以减少跨模态特征之间的差异。
作者设计了一个融合-Mamba模块，该模块包含两个模块：状态空间通道交换（SSCS）模块促进了浅层特征融合，而双重状态空间融合（DSSF）模块则在一个隐藏的状态空间内实现了深层融合。
在三个公开的RGB-IR目标检测数据集上的大量实验表明，作者的方法取得了最先进性能，为跨模态目标检测方法提供了一个新的基准。

2 Related Works

多模态目标检测。随着如YOLO系列模型[23]等单一模态检测器的快速发展，Transformer等多模态目标检测器也应运而生，以充分利用来自不同模态的图像。迄今为止，多模态目标检测的研究主要集中在两个主要方向：像素级融合和特征级融合。像素级融合将多模态输入图像合并，并将融合后的图像输入检测器中。这些方法专注于利用多模态输入图像信息重建融合图像。特征级融合则是在检测器的某个阶段将输出结合，例如通过 Backbone 网络提取的早期和后期特征（早期和中期融合）以及检测输出（晚期融合）。特征级融合能将融合操作整合到检测网络中，作为一个统一的端到端CNN和或Transformer框架。这些融合方法可以有效提升单一模态的目标检测性能。然而，它们在模拟模态差异和融合复杂性方面仍有限制。

Mamba. 自从Mamba [8] 被提出用于自然语言处理（NLP）领域的线性时间序列建模以来，它已被迅速扩展应用于各种计算机视觉任务中。Vmamba [21] 根据图像特征引入了一种四向扫描算法，并构建了一个基于Mamba的视觉基础网络，它在目标检测、目标分割和目标跟踪方面的性能优于Swin Transformer。VM-UNet [25] 在基于UNet框架和Mamba模块的医疗分割领域表现出色。此后，许多基于Mamba的深度网络被提出，用于在医疗图像中进行精确的分割。Video Mamba [3] 将原始的2D扫描扩展到不同的双向3D扫描，并设计了一个Mamba框架，以便在视频理解领域中应用Mamba。

与先前方法不同，作者的工作是首次利用Mamba进行多模态特征融合。作者引入了一种精心设计的基于Mamba的结构，以在隐藏状态空间中整合跨模态特征。

3 Method

Preliminaries

状态空间模型。状态空间模型（SSMs）常用于表示线性时不变系统，这些系统通过将一维输入序列传递到中间隐含状态来产生输出。在数学上，SSMs 通常被表述为线性常微分方程（ODEs）：

在系统中，行为由一组参数定义，包括状态转移矩阵，投影参数，以及跳跃连接。为了说明，可以通过设置来轻易移除。

离散化。方程1中SSMs的连续时间特性在深度学习场景中的应用提出了重大挑战。为了解决这个问题，有必要通过离散化过程对常微分方程（ODEs）进行离散化，这一过程的主要目的是将ODEs转换成离散函数。这对于确保模型与输入数据中潜在信号的采样率一致至关重要，从而促进有效的计算操作[15]。考虑到输入，这是按照[40]在信号流程中长度为的一个采样向量，引入时间尺度参数使得可以从连续参数和转变为它们的离散对应参数和，遵循零阶保持（ZOH）原则。因此，方程1可以离散化为如下形式：

在哪里，而是一个单位矩阵。离散化之后，通过使用结构化的卷积核进行全局卷积来计算SSMs：

基于方程式2和方程式3，Mamba [8] 设计了一个简单的选择机制，根据输入来参数化、、和的SSM参数，该机制在1D语言序列建模中沿序列长度维度选择性地传播或遗忘信息。

2D选择扫描机制。 2D视觉数据与1D语言序列之间的不兼容性使得直接将Mamba应用于视觉任务变得不合适。例如，尽管2D空间信息在视觉相关任务中起着关键作用，但在1D序列建模中它只居于次要地位。这种差异导致了有限的接受域，无法捕捉到与未探索的图像块之间的潜在相关性。在[21]中引入的2D选择扫描（SS2D）机制旨在解决上述挑战。图3展示了SS2D的概览。SS2D首先将图像块向四个不同的方向扩展，生成四个独立的序列。这种四向扫描方法确保了特征图内的每个元素都包含了来自各个方向上其他位置的信息。因此，它建立了一个全面的全球接受域，而无需增加计算复杂度的线性增长。随后，每个特征序列都通过选择性扫描空间状态序列模型（S6）[8]进行处理。最后，将特征序列汇总以重建2D特征图。SS2D作为视觉状态空间（VSS）块的核心元素，如图2所示，并将用于构建跨模态特征融合的隐藏状态空间。

picture.image

Fusion-Mamba

3.2.1 Architecture

图4：根据Yolov8显示的 Neck 和 Head 示意图。

picture.image

图3：在RGB图像上2D选择性扫描（SS2D）的说明。最初，图像经历扫描扩展，产生四个独特的特征序列。随后，这些序列中的每一个都独立通过S6模块进行处理。最后，通过扫描合并将S6模块的输出结合在一起，生成最终的2D特征图。

作者的模型架构如图2所示。其检测 Backbone 网由双流特征提取网络和三个融合-玛玛块（Fusion-Mamba blocks, FMB）组成，而检测网络包含用于跨模态目标检测的 Neck 和 Head 。特征提取网络便于从RGB和IR图像中提取局部特征，分别表示为和。之后，作者将这两个特征通过在隐藏状态空间关联跨模态特征输入到FMB中，这减少了跨模态特征之间的差异并增强了融合特征的表示一致性。具体来说，这两个局部特征首先通过状态空间通道交换（State Space Channel Swapping, ）模块进行浅层特征融合以获得交互特征和。然后，作者将这些交互特征送入双重状态空间融合（Dual State Space Fusion, ）模块在隐藏状态空间进行深层特征融合，这生成了相应的互补特征和。通过将原始特征和加入互补特征和，分别增强局部特征生成和。随后，增强的特征和直接相加以生成融合特征。在本文中，FMB仅被添加到最后三个阶段以生成融合特征和（除非特别指定），这些是Yolov8的 Neck 和 Head 生成最终检测结果（如图4所示）的输入。#### 3.2.2 关键组件

给定输入的RGB图像和红外图像，作者将它们输入一系列卷积块以提取它们的局部特征：

其中，和分别代表在第个阶段RGB和IR分支的卷积块。

为了实现跨模态特征融合，现有方法[6, 9, 26]主要强调空间特征的整合，但它们没有充分考虑模态间的特征差异。因此，融合模型未能有效地对不同模态的目标相关性进行建模，这降低了模型的表示能力。受到具有在状态空间上强大序列建模能力的Mamba[8]启发，作者设计了一个Fusion-Mamba块（FMB）来构建一个用于跨模态特征交互和关联的隐藏状态空间。FMB的有效性在于两个关键模块：状态空间通道交换（SSCS）模块和双状态空间融合（DSSF）模块，它们可以减少跨模态特征之间的差异，以增强融合特征的表示一致性。算法1提供了SSCS和DSSF模块的计算过程。

picture.image

SSCS模块。该模块旨在通过通道交换操作和VSS块增强浅层特征融合的跨模态特征交互。通过整合来自不同通道的信息构建跨模态特征相关性，这丰富了通道特征的多样性，以提高融合性能。首先，作者采用通道交换操作生成RGB 和IR 的新局部特征，其可以表述为：

其中是通道交换操作，通过通道分割和拼接很容易实现。首先，局部特征和沿着通道维度被划分为四个相等的部分。随后，作者通过按部分顺序拼接，从中选择第一和第三部分，从中选择第二和第四部分，生成新的局部RGB特征。相应地，作者生成新的局部IR特征。之后，一个VSS块应用于和，这增强了从浅层特征中的跨模态交互：

其中表示图2中的VSS模块[21]。和分别是来自RGB和红外模态的浅层融合特征的输出。

DSSF模块。为了进一步减少模态之间的差异，作者构建了一个隐藏状态空间来进行跨模态特征关联和互补。DSSF被提出用来建模跨模态目标相关性，以促进特征融合。具体来说，作者采用了VSS块，通过将来自两种模态的特征投射到一个隐藏状态空间中，并利用一个门控机制来双重构建跨模态深层特征融合的隐藏状态转换。

正式地，在获得浅层融合特征和之后，作者首先通过一个没有门控的VSS块将它们投影到隐藏状态空间，如下所示：

在这里，表示将特征投射到隐藏状态空间的操作。具体的实现细节在算法1的13-17行中描述。和表示隐藏状态特征。作者还对和进行投射以获得门控参数和 :

在双流中，和分别代表带有参数和的门控操作。之后，作者使用等式8中和的门控输出调制和，并实现隐藏状态特征融合，具体方法如下：

在公式中，和分别代表RGB和IR在特征交互后的隐藏状态特征。表示逐元素的乘积。实际上，方程式9和10基于门控机制在隐藏状态空间中构建了跨模态融合，并且双向注意力被完全用于跨分支信息互补。

随后，作者将和投影回原始空间，并通过残差连接来获得互补特征和 :

其中表示带有线性变换的投影操作。

在实际操作中，作者将几个DSSF模块（即方程7到方程11）堆叠起来以获得更深层次的特征融合，这样做能取得更好的效果。然而，DSSF模块的数量会在一个确定的值处达到饱和，这一点在作者的实验中进一步进行了评估。最后，作者通过加法操作将互补特征合并到局部特征中，以增强特征表示：

3.2.3 Loss Function

在FMB之后，来自RGB和IR增强的特征（即方程12中的和）进一步被添加以生成融合特征，作为 Neck 网络的输入以提高检测性能。按照[12, 13]的方式，总损失函数可以构建为：

其中是一个超参数，用于调整定位损失的权重，是置信度损失，而是分类损失。关于和各个损失项的更多细节在 jocher2022lurlarlytics 中有描述。

Compared to Transformer-based fusion

现有的基于Transformer的跨模态融合方法[6, 26]通过卷积展平并连接特征以生成中间融合特征，然后通过多头跨注意力进一步融合以生成最终的融合特征。它们仅靠空间相互作用不能有效地减少模态之间的差异，这是由于难以从跨模态特征中建模目标相关性所导致的。作者的FMB模块能够沿四个方向扫描特征以获得四组 Patch ，并有效地保留特征的局部信息。此外，这些 Patch 被映射到一个隐藏空间进行特征融合。这种基于映射的深层特征融合方法通过双向门控注意力有效减少空间差异，进一步抑制冗余特征并在模态间捕捉互补信息。因此，所提出的FMB减少了跨模态特征之间的差异，并增强了融合特征的表示一致性。

此外，Transformer的全局注意力的时间复杂度是，而Mamba的时间复杂度仅为，其中是序列长度。从实验的角度来看，使用相同的检测模型架构，将基于Transformer的融合模块替换为Fusion-Mamba块，在处理一对图像时可以节省毫秒的推理时间。更多细节在作者的实验中进行了讨论。

4 Experiments

Experimental Setups

数据集。作者的Fusion-Mamba方法在三个广泛使用的可见光-红外基准数据集上进行评估，分别是LLVIP [11]，[20]和FLIR [7]。

LLVIP是一个在低光环境下收集的对齐的可见光与红外（IR）数据集，用于行人检测，包含15,488对RGB-IR图像对。按照官方标准，作者使用12,025对进行训练，3,463对进行测试。

包含了在多种环境下收集的4,200对RGB和红外对齐图像，这些环境包括不同的光照、季节和天气情况。它涵盖了通常在自动驾驶和道路监控中出现的六个类别。由于没有官方的数据集划分方法，作者使用了[18]提供的训练/测试划分。

FLIR在白天和夜晚的场景中收集了五个类别：_人_、_汽车_、_自行车_、_狗_和_其他汽车_。按照[38]的方法，作者使用了FLIR-Aligned数据集，其中包含对进行训练，对进行测试。

评估指标。作者使用了最常见的评价指标AP和AP。AP指标代表了在IoU为下的平均AP，而AP指标则代表了在IoU从到，间隔为的范围内的平均AP[43]。这两个指标中数值越大意味着模型性能越好。作者还报告了在单个A800 GPU上对输入尺寸为的方法进行了5次运行的推理时间的平均值。

实现细节。所有实验都是在双流框架[6]下，使用单个GPU A800进行的。作者Fusion-Mamba的 Backbone 、 Neck 和 Head 结构默认与YOLOv5-1或YOLOv8-l中的相同。在训练过程中，作者将批量大小设为，SGD优化器的动量设置为，权重衰减设置为。所有三个数据集的输入图像大小为，训练周期设为，初始学习率设为。FMB中的SSCS和DSSF模块数量默认分别设为和。设为。其他训练超参数与YOLOv8相同。

Comparison with SOTA Methods

为了验证作者的Fusion-Mamba方法的有效性，作者采用了基于YOLOv5和YOLOv8的两个 Backbone 网络，以便与现有最佳（SOTA）方法进行公平的比较。

LLVIP数据集。不同方法在LLVIP上的结果总结在表1中。作者对比了所提出的Fusion-Mamba方法使用两种不同的 Backbone 网络与6种SOTA多光谱目标检测方法和5种单模态检测方法。对于单模态检测，仅使用红外图像的检测性能优于仅使用RGB图像的性能，这是由于低光照条件的影响。在RGB和IR特征融合后，基于ResNet Backbone 网络的AP性能得到了提升，超过了仅使用IR模态的检测性能。例如，使用ResNet50 Backbone 网络的RSDet比仅使用IR模态的Cascade R-CNN高出4.5%mAP。需要注意的是，在YOLOv5 Backbone 网络上未能实现有效的融合，例如，仅使用IR模态输入的简单YOLOv5检测框架达到了61.9%mAP，显著比融合方法DIVFusion高出9.9%mAP。使用相同的YOLOv5 Backbone 网络，作者的Fusion-Mamba方法相对于仅使用IR的YOLOv5检测框架获得了0.9%mAP的提升，并且还比最佳的先前融合方法RSDet高出1.5%mAP。解释来说，作者的SSCS和DSSF有效减少了模态差异，从而提高了融合特征的表现一致性。作者的方法对YOLOv8 Backbone 网络同样有效，它达到了97.0%mAP和64.3%mAP的最新性能。

picture.image

数据集。作者的方法与基于YOLOv5的个现有最优（SOTA）检测器以及基于YOLOv7的个SOTA检测器进行了比较。如表格2所示，在与基于相同YOLOv5 Backbone 网的SOTA方法以及作者基于YOLOv8 Backbone 网的方法进行比较时，作者的Fusion-Mamba在所有类别上的AP和AP指标上表现最佳，并且在_People_, _Bus Motorcycle_和_Truck_类别上实现了新的SOTA结果，同时AP和AP指标进一步提升了和。此外，尽管YOLOv5的特征表示能力低于YOLOv7，但使用YOLOv5 Backbone 网的方法在AP和AP上仍比基于YOLOv7的SuperFusion高出。这是由于作者的FMB的有效性，它提高了跨模态特征的内在互补性。

表1：与LLVIP数据集上的SOTA方法的比较结果。最佳和次佳结果分别以红色和绿色突出显示。

FLIR对齐数据集。如表3所示，Fusion-Mamba在Aligned-FLIR数据集上同样表现最佳。与基于双流YOLOv5 Backbone 网络的CrossFormer相比，作者基于YOLOv8和YOLOv5的方法在AP上分别超越它们和，在AP上分别超越和。作者还在AP上超过RS Det ，在AP上超过。在速度方面，作者基于YOLOv5的方法实现了最快的速度，相比于基于 Transformer 的CFT和CrossFormer方法，对一对图像的检测节省了毫秒和毫秒。在参数方面，基于YOLOv5的方法与CrossFormer方法相比，大约节省了M参数。尽管基于YOLOv8的方法比基于YOLOv5的方法增加了大约M参数，但AP显著提高了。这一结果表明，基于隐藏空间建模的方法能更好地在不同模态间整合特征，抑制模态差异，以最佳的性价比提升融合特征的表示能力。

picture.image

** Heatmap 可视化。** 为了直观展示作者模型的优越性能，作者从三个实验数据集中各随机选择一对图像来可视化 Heatmap ，并将作者的方法与其他融合方法进行比较。如图5所示，与其他方法相比，作者的模型更多地关注目标，而不是分散关注或不相关的部分。更多的示例在补充材料中呈现。作者还可视化了目标检测结果，以在补充材料中评估作者方法的有效性。

picture.image

Ablation Study

作者使用FLIR-Aligned数据集进行消融研究，以单独验证SSCS和DSSF模块的有效性，并进一步探讨DSSF模块的数量和位置的影响。特别是，作者还评估了DSSF模块的双注意力效果。所有这些实验都是基于YOLOv8主干网络进行的。

表2：与数据集上的八种最新技术方法（SOTA）的比较结果。最佳结果以粗体突出显示。

picture.image

图5：在LLVIP、FD和FLIR-Aligned数据集上，各种跨模态目标检测方法的 Heatmap 可视化。

表3：与现有技术水平（SOTA）方法在FLIR-Aligned数据集上的比较结果。最佳结果以粗体突出显示。

SSCS和DSSF模块的影响在FMB中移除SSCS和DSSF的结果总结在表4中。移除SSCS模块（表4的第二行）后，检测器在AP和AP上的性能分别下降了和。解释来说，没有初始的双模态特征交换和浅层映射融合，特征差异在随后的深度融合过程中不能很好地减少。同时，没有DSSF（表4的第三行），仅靠浅层融合交互不能有效地在特征融合过程中抑制冗余特征和激活有效特征，导致检测器性能在AP和AP上分别下降和。当同时移除SSCS和DSSF，并通过将两个局部模态特征相加直接获得融合特征时（表4的第四行），其性能在AP和AP上显著降低了和。这些结果证明了这两个FMB组件对于跨模态目标检测是有效的。

picture.image

FMB位置的影响。遵循[6, 14]的工作，作者也为特征融合设置了三个FMB。在这里，作者将进一步探讨FMB位置的影响，即哪些阶段应该添加FMB。作者选择了三组多级特征：、和进行消融研究，其中是在第阶段使用FMB融合的特征。如表格5所示，位置在性能与计算复杂度之间实现了最佳的平衡。因此，作者默认选择这个位置进行实验。

DSSF模块数量对效果的影响。作者在表4中验证了DSSF的有效性。在这里，作者进一步评估了DSSF模块数量的影响，具体总结在表6中。作者选择了四种不同的DSSF数量（即，，，），并保持其他模型设置与上述实验一致。作者可以看到，当模块数量设置为时，取得了最佳性能。当DSSF模块数量达到个时将趋于饱和，增加这一数量会导致互补特征的偏移，从而使得融合性能下降。

picture.image

DSSF模块双向注意力的效果影响。为了进一步探索作者的门控机制是否使用DSSF模块的双向注意力时的有效性，作者分别移除了RGB分支中的IR注意力（即方程9中的），IR分支中的RGB注意力（即方程10中的），以及两者的双向注意力。结果展示在表7中。移除IR注意力或RGB注意力后，由于减少了两个特征之间的注意力交互，AP分别降低了或。当移除双向注意力时，DSSF模块变成了VSS块的堆叠，AP降低了。需要注意的是，IR和RGB注意力分支与其他分支共享权重，这相当于在移除双向注意力的情况下，仅增加了激活函数和特征加法操作。因此，双向注意力的使用对模型参数和运行时间没有显著影响，同时显著提高了检测性能。

picture.image

5 Conclusion

在本文中，作者提出了一种新颖的融合-玛巴（Fusion-Mamba）方法，该方法具有精心设计的SSCS模块和DSSF模块，用于多模态特征融合。特别是，SSCS模块交换红外和可见通道的浅层特征融合。随后，基于玛巴（Mamba）的DSSF模块进一步设计用于在隐藏状态空间中进行更深层次的多模态特征交互，并使用门控注意力来抑制冗余特征，以提高特征融合的有效性。在三个公开的RGB-IR数据集上进行的广泛实验表明，作者的方法取得了新的最先进性能，并且推理效率高于Transformers。作者的研究证实了玛巴（Mamba）在跨模态融合中的潜力，并且作者相信作者的工作可以启发更多关于将玛巴（Mamba）应用于跨模态任务的研究。

6 More Heatmap Visualization Results

作者从LLVIP、和FLIR-Aligned数据集中随机选择图像，并可视化不同融合方法下的热力图。如图6、图7、图8所示，可视化示例表明，与基于CNN和Transformer的融合方法相比，作者的Fusion-Mamba方法在隐状态空间上进行跨模态特征融合更能聚焦于目标。这也表明作者的方法能有效建模不同模态目标之间的相关性。

picture.image

7 Visualization of Object Detection

作者还从LLVIP、和 FLIR-Aligned 数据集中随机选取图像，并使用不同的融合方法输出边界框检测结果。如图9、图10、图11所示，与几种当前最佳（SOTA）方法相比，作者的方法显著减少了漏检结果，从而提高了平均精度（mAP）。

picture.image

例如，在图9中，在光照不足和严重遮挡的情况下，与其他方法相比，作者的方法可以检测到更多的目标目标，因为基于隐藏空间的交互有效地整合了来自红外（IR）模式的信息。如图10所示，在恶劣天气以及目标目标小且远的情况下，作者的模型可以检测到比其他方法更多种类的目标目标，因为作者的门控注意力可以有效结合两种模式的信息来抑制冗余特征，从而实现更好的跨模态目标检测。在图11中，在目标密集区域，作者的模型可以更好地区分和检测这些目标，因为从浅到深的模态交互方法可以更好地保留详细信息，而其他最先进（SOTA）方法往往在检测密集目标时会失败。

参考

[1].Fusion-Mamba for Cross-modality Object Detection.

点击上方卡片，关注「AI视界引擎」公众号