Sigma 开源 | Mamba再下一城，多模态融合的语义分割也可以用上Mamba了，而且还开源了！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

多模态语义分割显著提高了AI代理在不利条件下的感知和场景理解能力，尤其是在低光或过度曝光的环境中。利用热成像和深度等额外模态（X模态）与传统RGB数据相结合，提供了互补信息，使得分割更加健壮和可靠。

在这项工作中，作者介绍了Sigma，一个用于多模态语义分割的暹罗眼镜蛇网络，它采用了选择性结构化状态空间模型Mamba。与依赖于局部感受野有限的CNN或以二次复杂度为代价提供全局感受野的视觉 Transformer （ViTs）的常规方法不同，作者的模型以线性复杂度实现了全局感受野的覆盖。通过采用暹罗编码器并创新Mamba融合机制，作者有效地从不同模态中选择关键信息。然后开发了解码器以增强模型的通道建模能力。作者的方法Sigma在RGB-热成像和RGB-深度分割任务上进行了严格评估，展示了其优越性，并标志着状态空间模型（SSMs）在多模态感知任务中的首次成功应用。

关注公众号，即可获取代码链接。

1 Introduction

语义分割旨在为图像中的每个像素分配一个语义标签，这对于人工智能代理准确感知其环境越来越重要。然而，当前的视觉模型在低光或具有遮挡元素（如阳光反射和火焰）的挑战性条件下仍然存在困难。为了在这样具有挑战性的条件下增强分割效果，额外的模态如热成像和深度信息对于增强视觉系统的鲁棒性是有益的。借助这些补充信息，视觉处理 Pipeline 的鲁棒性和能力可以得到提升[30, 37, 73]。然而，利用多个模态带来了额外的挑战，即对通过这些额外通道提供的信息进行对齐和融合[12]。

在多模态语义分割的先前方法中，依赖于卷积神经网络（CNN）或视觉 Transformer （ViT）。尽管基于CNN的方法[13, 29]以其可扩展性和线性复杂性而闻名，但它们受到由核大小限制的小感受野的影响，导致局部还原性偏差。此外，CNN在整个输入的不同部分使用权重共享核，限制了其在适应未见或低质量图像时的灵活性。相比之下，基于ViT的方法[1, 30, 52]通过利用全局感受野和动态权重增强了视觉建模。然而，它们的自注意力机制在输入大小方面具有二次复杂性[16]，引发了效率问题。尝试通过减少处理窗口的维度或步长来提高效率，这牺牲了感受野的范围[66]。

为了解决这些限制，选择性结构化状态空间模型——Mamba[16]——因其具有全局感受野覆盖和线性复杂性的动态权重而越来越受欢迎。Mamba在涉及长序列建模的任务中显示出卓越的有效性，特别是在自然语言处理中[16]。此外，更多的研究探索了其在视觉相关应用中的潜力，如图像分类[33]、医学图像分割和3D场景理解[28]。受到这些好处的启发，作者介绍了Sigma，一个用于多模态传感器融合的双胞胎Mamba网络，利用了Mamba的最新进展，并将其应用于具有挑战性的语义分割领域。

如图2所示，作者的Sigma集成了一个双胞胎编码器进行特征提取，融合模块以聚集来自不同模态的信息，以及一个解码器，该解码器适用于空间和通道特定的信息。编码器主干使用级联的_Visual State Space（VSS）块_与下采样来从各种模态提取多尺度全局信息。随后，提取的特征被引导到每个 Level 的融合模块，在那里多模态特征通过_Cross Mamba Block（CroMB）_进行初步交互，以增强跨模态信息。在这之后，增强的特征被_Processed by a Concat Mamba Block（ConMB）_，该块采用一种注意力机制来选择每个模态的相关信息。

picture.image

作者的融合机制利用了Mamba的线性缩放属性，显著降低了计算需求，如图1（a）所示。最后，融合后的特征被发送到多级的_Channel-Aware Visual State Space（CVSS）块_，以有效地捕捉多尺度长距离信息。

作者在RGB-热成像和RGB-深度数据集[46, 48]上进行了全面实验，证明Sigma在准确性和效率上都优于现有技术水平，如图1（b）所示。详细的消融研究进一步验证了Sigma中每个组件对整体模型有效性的贡献。

作者的贡献可以总结如下：

据作者所知，这是状态空间模型，特别是Mamba，在多模态语义分割中的首次成功应用。
作者引入了一种基于注意力的Mamba融合机制以及一个通道感知的Mamba解码器，以高效地从不同模态提取信息并将它们无缝集成。
在RGB-热成像和RGB-深度领域的全面评估展示了作者方法在准确性和效率方面的优势，为未来研究Mamba在多模态学习中的潜力奠定了新的基准。

2 Related Work

二维图像分割在计算机视觉领域有着悠久的历史，针对各种应用提出了众多算法。经典方法包括阈值化[1]，边缘检测[2]和区域生长[3]。随着深度学习的发展，卷积神经网络（CNN）已成为图像分割的主流方法。FCN[4]首次提出了用于语义分割的全卷积网络，并在PASCAL VOC数据集上取得了具有竞争力的结果。随后，基于CNN的一系列方法被提出，如U-Net[5]，SegNet[6]和DeepLab[7]，这些方法进一步提高了语义分割的性能。

Multi-Modal Semantic Segmentation

多模态语义理解通常包括用于广泛应用的RGB模态，以及其他如热成像、深度、激光雷达等补充模态[12, 75]。这些辅助传感器为视觉系统在各种场景中提供了关键信息。例如，热传感器检测红外辐射，通过温度差异使得在黑暗和雾天条件下能够识别目标。这种能力对于监控、野火救援行动和野生动物监测等应用至关重要[14]。同时，深度传感器确定传感器与环境中物体之间的距离，提供了场景的三维表示。这项技术在自动驾驶车辆的障碍物检测和场景理解中得到了广泛利用[11]。为了优化这些附加模态的使用，开发有效的特征提取器和融合机制至关重要。

在RGB-热成像语义分割中，早期的尝试通常设计带有短路连接的编码器-解码器架构，密集连接，扩张卷积[62, 76]，知识蒸馏[13]等。为了减轻CNN全局上下文理解能力的不足，许多方法在特征融合阶段应用了注意力机制。随着Transformers的日益普及，更多方法开始利用它们从RGB和热成像图像中提取长距离依赖关系。CMX[30]利用SegFormer[59]进行特征提取，并引入一个校正模块以及一个跨注意力模块进行特征融合。基于CMX[30]，CMNeXt[73]提出一个自我 Query 中心，以从各种辅助模态中选择信息性特征。最近，SegMiF[32]采用级联结构与分层交互注意力机制相结合，确保两种模态之间关键信息的精确映射。

在RGB-深度语义分割领域，已在RGB-热成像分割中证明有效的方法也展示了令人印象深刻的性能，如CMX[30]，CMNeXt[73]。同时，自监督预训练的最新发展为其在RGB-深度感知中的探索铺平了道路。例如，MultiMAE[1]采用带伪标签的Masked Autoencoder[23]方法，摄取来自各种模态的标记并重建被 Mask 的标记。DFormer[51]在预训练架构中整合了RGB和深度模态，以学习可迁移的多模态表示。

尽管上述基于Transformers的方法在RGB-X语义分割中由于其全局上下文建模能力而显示出有希望的结果，但Transformers中自注意力机制的二次方缩放特性限制了输入序列的长度。因此，大多数方法必须在融合之前将多模态标记（，）整合为单一标记（）（图1a），这本质上导致了有价值信息的丢失，因为压缩了总序列长度。相比之下，作者提出的Sigma方法处理连接的序列，保留了所有有价值的信息，同时计算量显著减少。

State Space Models

状态空间模型（SSM），受到线性时不变（LTI）系统的启发，被认为是高效的序列到序列模型。最近，结构化状态空间序列模型（S4）[17]作为深度状态空间建模的开创性工作，特别是在捕捉长距离依赖方面。此外，通过将选择机制引入S4，Mamba[16]超越了Transformers和其他先进架构。由于SSM的卓越性能，研究行人将其扩展到计算机视觉领域。模型如ViS4mer[25]，S4ND[39]，TranS4mer[26]和选择性S4模型[53]展示了使用S4对图像序列的有效建模。最近，Vision Mamba[80]将SSM与双向扫描相结合，使得每个图像块与其他块相关联。

同时，V Mamba[33]将扫描扩展到四个方向，以充分捕捉图像块之间的相互关系。此外，状态空间模型已扩展到医学图像分割[38, 41, 56, 60]，图像恢复[19]和点云分析[28]，所有这些都在较低复杂度下展示了竞争性结果。然而，最近的工作直接将SSM作为一个即插即用的模块，没有针对特定任务的深入设计。此外，在多模态任务中SSM的探索也相对缺乏。因此，作者提出了基于注意力的Mamba融合机制和通道感知的Mamba解码器，旨在有效地增强来自各种模态的关键信息，并将它们无缝集成。通过利用针对多模态任务的专业SSM设计，作者的方法在保持低复杂度的同时获得了增强的准确性。

3 Sigma: Siamese Mamba Network

在本节中，作者详细介绍了作者提出的暹罗曼巴网络（Sigma）用于多模态语义分割。首先，作者提供了状态空间模型的基本信息。随后，作者概述了作者的Sigma架构，接着深入讨论了编码器、融合模块和解码器。

Preliminaries

初步研究部分的开头。

3.1.1 State Space Models.

状态空间模型（SSM）代表了一类序列到序列建模系统，其特点是在时间上具有恒定的动态特性，这种性质也称为线性时不变（LTI）。具有线性复杂度，SSM可以通过隐式映射到潜在状态有效地捕获系统的固有动态，可以定义为：

这里，, 和分别表示输入、隐藏状态和输出。是状态大小，指的是的时间导数。此外，, , , 和是系统矩阵。为了处理像图像和文本这样的离散序列，SSMs 采用零阶保持（ZOH）离散化[17]将输入序列映射到输出序列。

具体来说，假设是将连续参数、映射到离散空间的预定义时间尺度参数，离散化过程可以表述为：

这里，所有矩阵在操作迭代时保持相同的维度。值得注意的是，作为残差连接，在方程中通常被丢弃：

此外，按照 Mamba [16]，矩阵可以通过一阶泰勒级数进行近似：

选择性扫描机制。虽然SSM对于建模离散序列是有效的，但由于其LTI属性，它们遇到了限制，因为无论输入的差异如何，参数都是不变的。为了解决这个限制，引入了选择性状态空间模型（S6，又名Mamba）[16]，使状态空间模型成为输入依赖的。在Mamba中，矩阵 , , 和来自输入数据，使模型能够对输入上下文有感知。借助这种选择机制，Mamba能够有效地建模长序列中存在的复杂交互。

Overall Architecture

picture.image

如图2所示，作者提出的方法包括一个暹罗特征提取器（第3.3节）、一个特征融合模块（第3.4节）以及一个上采样解码器（第3.5节），形成一个完全由状态空间模型组成的架构。在编码阶段，四个具有下采样操作的视觉状态空间（VSS）块依次级联以提取多级图像特征。两个编码分支共享权重以减少计算复杂性。随后，来自每个 Level 的、两个不同分支的特征通过融合模块进行处理。在解码阶段，每个 Level 的融合特征通过一个具有上采样操作的空间感知视觉状态空间（CVSS）块进一步增强。最终，最后的特征被送入分类器以生成结果。

Siamese Mamba Encoder

给定一对多模态输入，将X模态输入预处理到与RGB图像相同的维度，可以表示为，其中和代表输入模态的高度和宽度。编码器以类似于ViT [10]的stem模块开始，将输入分割成块，生成特征图，其中指的是RGB或X模态。然后作者应用视觉状态空间（VSS）块处理特征。

此操作保持特征维度不变。特征经过三组下采样和VSS块的连续处理，产生多尺度深层特征。以下介绍VSS块的具体细节。

VSS块。遵循V Mamba [33]和MambaIR [19]，作者使用选择性扫描2D（SS2D）模块实现VSS块。如图3的左部分所示，输入特征经过一系列线性投影（Linear）、深度卷积（DWConv）作为原始Mamba [16]，然后使用SS2D模块来模拟特征中的长距离空间信息，并通过残差连接。

picture.image

SS2D模块。在SS2D模块内，形状为的输入特征首先按照[33]中的 Proposal ，从四个方向（从左上到右下，从右下到左上，从右上到左下，从左下到右上）展平为四个序列。然后使用四个独特的选择性扫描模块[16]提取多方向信息，其中每一个都使用方程3中的操作捕捉序列的长距离依赖性。最后，四个序列反转到同一方向并求和。

Fusion Module

特征融合模块的详细架构如图4所示，其中来自连体 Backbone 网的多模态特征通过交叉Mamba块（CroMB）增强，然后是拼接Mamba块（ConMB）。

picture.image

具体来说，CroMB采用交叉乘法机制来相互增强特征，而ConMB将选择性扫描机制应用于拼接特征以获得融合结果。假设来自第个连体编码器块的特征表示为，则整个融合过程可以表示为：

这里，，以及的维度保持为原始的。CroMB和ConMB的细节如下所示。

3.2.1 CroMB.

如图4上部所示，CroMB接收两个特征作为输入并生成两个输出，保持了特征的原有形状。两个输入特征首先分别通过线性层和深度卷积处理，然后发送到交叉选择性扫描（Cross SS）模块。根据第3.1节提到的玛巴的选择机制，系统矩阵和由输入生成，以实现模型上下文感知能力。这里，使用线性投影层来生成这些矩阵。根据方程4，矩阵用于从隐藏状态解码信息以获得输出。

受到广泛用于多模态任务的交叉注意力机制[3]的启发，作者旨在促进多个选择性扫描模块之间的信息交换。为了实现这一点，作者提出在选择性扫描操作中使用由互补模态生成的矩阵，这使得SSM能够根据另一个模态指导从隐藏状态重构输出。特别是，该过程可以表示为：

这里，表示时间步的输入，表示选择性扫描输出。和是用于在每个时间步从隐藏状态恢复输出的跨模态矩阵。

3.2.2 ConMB.

在CroMB中，两种模态的特征通过交叉选择扫描操作相互交互，并获得跨模态增强的特征。为了进一步获得一个融合了两种模态重要信息的特征，作者提出了ConMB来整合CroMB的输出。由于二次缩放特性，先前的基于Transformer的方法通常将输入分割成小 Patch [10]，这阻碍了每个标记内信息的捕获。相比之下，利用Mamba的长序列建模能力，作者的ConMB直接处理拼接的特征作为输入，从而尽可能多地保留两种模态的信息。

具体来说，来自CroMB的输出首先通过线性层和卷积层进行处理，然后发送到拼接选择扫描（Concat SS）模块。在Concat SS模块中，这两个特征首先被展平到，然后在序列长度维度上进行拼接。这提供了一个形状为的序列。此外，为了全面捕获两种模态的信息，作者反向扫描拼接序列以获得额外的序列。之后，每个序列通过在[16]中提出的1D选择扫描模块来处理，以捕获两种模态的长距离依赖关系，得到和。然后，反转的序列输出翻转回来并加到处理后的拼接序列上。这个相加的序列被分开以恢复两个输出。这个过程可以表示为：

在获得扫描特征之后，它们与从导出的两个缩放参数相乘，并在通道维度上连接，形成一个形状为的特征。最后，使用线性投影层将特征形状减少到。

Channel-Aware Mamba Decoder

状态空间模型擅长提取全局空间上下文，但在学习通道间信息方面存在不足。为了缓解这个问题，作者提出了一个通道感知的Mamba解码器。

如图3的右侧部分所示，CVSS块首先包含了一个在编码器中使用的VSS块。在提取空间长距离依赖关系之后，引入了一个包含平均池化和最大池化的通道注意力操作。通过这种方式，作者形成了一个空间-通道感知方案，该方案在[57]中已被证明是有效的。

4 Experiments

Experimental Settings

数据集。为了验证Sigma的有效性，作者在两个公开可用的RGB-热成像（RGB-T）语义分割数据集上进行了大量实验，分别是MFNet [21]和PST900 [45]。此外，为了更好地了解Sigma对其他多模态场景理解任务的泛化能力，作者在两个RGB-深度（RGB-D）数据集上进行了实验，包括NYU Depth V2 [46]和SUN RGB-D [48]。这些数据集的详细信息如下。

MFNet数据集包含820张白天和749张夜晚的RGB-T图像，分辨率为。该数据集包括驾驶场景中八种常见物体类别。作者遵循[30]的训练/测试划分。
PST900数据集提供了597张和288张校准的RGB-T图像，分辨率分别为，用于训练和验证。该数据集来自DARPA地下挑战赛，并标注了四个类别。
NYU Depth V2数据集包含1449张RGB深度图像，标注了40个语义类别，形状为。作者按照先前的工作[24, 15]将其分为795/654用于训练/测试。
SUN RGB-D数据集汇集了10335张RGB-D图像和37个类别。作者遵循[24]的常见设置将5285/5050用于训练/测试，并将图像 Reshape 为。

评估。作者遵循先前的工作[24, 73]，报告了跨语义类别的平均交并比（mIoU）用于评估。

训练设置。作者按照[30]使用AdamW优化器[36]，初始学习率为，权重衰减为。该模型以8的批量大小训练500个周期。作者利用VAMaba [33]提供的ImageNet-1K [42]预训练模型作为连体图像编码器，产生了三种不同大小的模型（Sigma-Tiny, Sigma-Small, 和 Sigma-Base）。对于微小和小型模型，作者使用四个NVIDIA RTX 3090 GPU进行训练。对于基础模型，作者使用四个NVIDIA RTX A6000 GPU进行训练。所有模型都使用单个NVIDIA RTX 3090 GPU进行评估。关于实验设置的更多细节在附录中描述。

Quantitative and Qualitative Results

RGB-T语义分割。表1(a)展示了在MFNet数据集上，针对每个类别的语义分割结果，以及模型大小和计算复杂性的比较。观察到作者的小型模型在模型参数和FLOPs较少的情况下超过了其他比较方法，而作者的基础模型相较于小型变体实现了1.1%的性能提升。此外，如表1(b)所示，在PST900 [45]数据集上，作者的方法比其他方法性能高出2%以上，证明了作者提出方法的优势。

picture.image

图5中的定性分析表明，作者的Sigma模型通过生成更精确的分割和准确的分类，优于基准模型，尤其是在识别像盲道和人行道护栏这样的复杂特征时。增强的结果源于Sigma从RGB和热成像模态中提取有价值信息的能力。具体来说，RGB增强了颜色区分，而热成像在纹理区分方面表现优异。将这些模态整合在一起，提高了分割的准确性。

RGB-D语义分割。在表2中，作者将Sigma与各种RGB-D方法进行比较，以验证Sigma在不同多模态分割任务中的泛化能力。值得注意的是，作者的Sigma-S模型在仅使用69.8M参数的情况下，超过了CMNeXt [73]的性能，这比CMNeXt少了49.8M参数。这证明了作者提出方法在准确性和效率之间达到了优越的平衡。

picture.image

图6展示了Sigma通过有效利用深度信息生成更连贯分割的能力。例如，在沙发旁边的圆形椅子，阴影导致基准模型将椅子分割成多个部分。Sigma成功将其识别为单一实体，突显了其在利用深度数据进行分割方面的卓越能力。

picture.image

Ablation Studies

如表3详细所示，作者在MFNet [21]数据集上通过对Sigma-Tiny进行消融研究，省略了作者引入的各个组件。与完整的Sigma模型相比，单独去除Cross Mamba Block（CroMB）和Concat Mamba Block（ConMB）分别导致性能下降0.6%和0.8%，同时移除这两个块会导致性能下降2.1%，这突显了作者提出的融合模块的有效性。

picture.image

此外，作者将作者提出的解码器与简单的多层感知机（MLP）解码器和Swin-Transform解码器进行了评估，发现作者的解码器分别超过了它们1.1%和0.9%。在作者最后的分析中，为了评估Mamba与其他基于Transformer的架构（如Swin Transformer）相比的效力，作者用预训练的Swin Transformer [34] Tiny主干替换了作者的编码器，并在解码器中应用了Swin Transformer块。这个结果表明，采用SSM的作者的设计可以比简单集成Transformers更有效。

参考

[1].Sigma : Siamese Mamba Network for Multi-Modal Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号

Sigma 开源 | Mamba再下一城，多模态融合的语义分割也可以用上Mamba了，而且还开源了 ！

1 Introduction

2 Related Work

Multi-Modal Semantic Segmentation

State Space Models

3 Sigma: Siamese Mamba Network

Preliminaries

3.1.1 State Space Models.

Overall Architecture

Siamese Mamba Encoder

Fusion Module

3.2.1 CroMB.

3.2.2 ConMB.

Channel-Aware Mamba Decoder

4 Experiments

Experimental Settings

Quantitative and Qualitative Results

Ablation Studies

参考

Sigma 开源 | Mamba再下一城，多模态融合的语义分割也可以用上Mamba了，而且还开源了！