使用混合 LORA 专家定制多模态语义分割的 SAM 模型！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近期的Segment Anything Model (SAM) 在扩展分割模型方面取得了显著突破，在RGB模态的各种下游应用中表现出了强大的性能。然而，直接将SAM应用于新兴的视觉模态，如深度和事件数据，在多模态分割任务中会导致性能不佳。

在本文中，作者首次尝试通过提出一种针对不同输入视觉模态的Mixture of Low-Rank Adaptation Experts (MoE-LoRA) 来适应SAM进行多模态语义分割。通过仅训练MoE-LoRA层而固定SAM的权重，可以保留SAM在其下游任务中的强大泛化能力和分割能力。

具体来说，为了应对跨模态的一致性问题，作者提出了一个新的MoE路由策略，该策略能够自适应地生成跨模态加权特征，从而增强多模态特征的整合。

此外，作者通过适配SAM的分割头并引入辅助分割头来实现多尺度特征的提取与融合，以提高分割性能。作者在三个多模态基准数据集DELIVER、MUSES和MCubeS上进行了广泛的实验。

结果表明，所提出的方法在多种场景下显著优于现有方法。特别是在模态缺失这一特别具有挑战性的条件下，作者的方法表现出显著的性能提升，相比现有方法提升了

。

INTRODUCTION

准确分割多样的物体对于各种场景理解应用至关重要，包括机器人感知、自动驾驶和AR/VR等[1]、[2]。段切 Anything 模型(SAM) [3] 在实例分割领域取得了突破性进展，尤其是在RGB图像方面。SAM在包含1100万张高分辨率图像及超过10亿个标注分割 Mask 的大规模数据集上进行训练，实现了卓越的零样本分割性能，使其能够在医疗成像、遥感等多个领域得到广泛应用。

尽管SAM在单模态分割任务中取得了革命性的进步，特别是在RGB图像方面，但将其应用于多模态分割则面临独特的挑战。新兴领域往往需要整合多样化的模态数据，如深度和事件数据，这些数据能够捕捉到互补的场景信息。

这些数据富含信息，但在特征表现上与RGB数据有所不同。此外，最近提出的SAM2模型[8]引入了时间维度以解决视频分割中的复杂问题，如运动、变形、遮挡和光照变化。这些进步使得SAM能够在动态和多模态环境中得到应用，但如何在保留SAM泛化能力的同时整合跨模态信息仍是一个未充分探索的领域。

尽管单模态分割中取得了成功，将SAM扩展到多模态语义分割仍面临重大挑战。每种模态，例如激光雷达、雷达和事件相机，各自表现出不同的空间、时间以及噪声特性，这使得它们难以无缝地集成到SAM的架构中[9]。由于SAM的预训练特征主要针对RGB图像优化，直接应用于异构多模态数据时往往表现不佳。现实场景进一步加剧了这种集成的复杂性，因为缺失或不可靠的模态会导致性能下降，而SAM缺乏机制来适应性地处理不完整输入[10]-[12]。此外，有效的多模态融合需要先进的技术来对齐、加权和整合输入，同时保留每个模态的独特优势。实现稳健的融合需要解决多个挑战，包括减轻模态特定噪声的影响、协调空间和时间分辨率上的差异，以及平衡每个输入模态的贡献[13]。

在本文中，作者提出了一种新颖的框架，将SAM2的功能扩展以支持多模态语义分割。如图1(a)所示，作者的方法通过为每种模态设计的低秩适配（LoRA）模块，实现了高效的模态特定微调，同时保留了SAM2预训练图像编码器的一般化能力。为了应对多模态融合固有的挑战，作者开发了一种混合LoRA专家（MLE）路由机制，该机制能够自适应地生成加权特征表示，确保不同模态之间的有效集成，并减轻由噪声或缺失输入引起的不一致性。同时，作者通过引入多尺度特征提取和融合机制，增强SAM2的分割Pipeline。具体来说，作者在原始分割 Head 基础上增加了辅助 Head ，该辅助 Head 旨在利用多个尺度上互补的信息，从而提高分割准确性。

picture.image

在基准数据集DELIVER [13]、MUSES [10] 和 MCubeS [14] 上进行的大量实验表明，作者的框架在多模态语义分割任务中表现出卓越性能。如图1(b)和(c)所示，在DELIVER数据集中使用四种模态时，作者的方法比最先进的方法取得了显著改进，提高了

；在MUSES数据集中使用三种模态时，改进幅度达到了

。详细的消融研究确认了每个模块对整体性能的独立贡献。此外，在嘈杂或缺失模态等具有挑战性的条件下进行的额外实验进一步突显了所提出模型的鲁棒性和适应性，强调了其在实际场景中的实用价值。值得注意的是，如图1(d)和(e)所示，在这些恶劣设置下，作者的模型在DELIVER数据集上的性能提高了

，在MUSES数据集上的性能提高了

，进一步证实了其有效性和可靠性。

作者的贡献如下：

(1) 作者通过将MoE机制与LoRA模块相结合，改进了SAM2框架，应用于多模态语义分割任务。此设计通过为每种模态训练独立的LoRA模块并利用动态路由机制有效整合跨模态特征，实现了高效的模态特定适应。

(2) 作者重新设计了SAM2分割Pipeline，通过引入适合多模态输入的修改后分割头，并增加一个辅助分割头，来配置多尺度特征的有效融合，显著提升了分割精度。

(3) 作者的方案在三个广泛使用的多模态基准上取得了最先进的性能，涵盖从合成数据到实际场景的不同情况，在分割精度和跨多种模态的一般化方面超越现有方法。

(4) 广泛的实验评估表明，在挑战性条件下（包括缺失模态和高噪声水平），所提出的框架具有鲁棒性和适应性，其可靠性能适用于实际应用场景。

H. RELATED WORK

A.Multi-modalSemanticSegmentation

多模态语义分割旨在利用来自多种感知模态（如RGB、深度和热数据）的互补信息，为每个像素分配语义标签，从而提高场景理解的准确性和鲁棒性[15]。该任务主要使用编码解码架构来解决，在这种架构中，编码器提取层次特征，而解码器重建像素级预测[16]-[18]。

编码器的发展受到了全卷积网络（FCN）的重大影响，这些网络使得像素级预测能够实现端到端的学习[19], [20]。FCN的重要进展包括引入空洞卷积以扩大感受野[21], [22]和使用金字塔池化模块以整合多尺度上下文信息[23]。DeepLab在此基础上进一步优化了这些方法，通过将空洞卷积与完全连接条件随机场相结合来提升分割边界和准确性[24]。然而，FCN在捕捉长程依赖性方面存在挑战，而理解复杂场景需要这种能力。基于Transformer的编码器通过使用Self-Attention机制有效地建模全局上下文来解决这一问题[25]-[31]。此外，基于Transformer的解码器结合了强大的多层次上下文挖掘，并处理由编码器提取出的各种多尺度特征，这使得在复杂或高分辨率图像中的精确且高效的分割成为可能[32]-[35]。

在多模态分割中，整合不同模态的信息可以增强场景理解，尤其是在单一模态可能不足以应对的挑战性环境中。早期融合策略在输入级将所有模态的数据结合起来，使得编码器能够学习联合表示，但可能会引入冗余或噪声 [36]-[38]。相比之下，晚期融合方法在解码前独立处理每个模态，在此过程中才合并特征，这保留了模态特有的特性，但可能限制跨模态交互 [39]-[41]。适应性融合策略在网络的不同阶段动态集成多模态数据，已成为一种灵活的解决方案。这些方法在不同的抽象 Level 对跨模态特征进行细化，并常结合使用跨模态注意力机制或专门模块以增强特征交互 [42]-[45]。

B.SAMforSemanticSegmentation

SAM [3] 和 DINO v2 [46] 是图像分割领域的突出基础模型，它们利用Vision Transformer作为 Backbone 网络。SAM 包含一个 Mask 解码器和一个灵活的 Prompt 编码器，支持多种形式的输入，如点、边界框和文本，从而实现零样本实例分割。尽管其具有广泛的适用性，但在语义分割方面，SAM 由于训练集中在关注目标边界而非语义标签的大规模数据集上，因而面临着挑战 [47]。为了使 SAM 适应语义分割，ClassWise-SAMAdapter (CWSAM) 引入了轻量级 Adapter 、按类别划分的 Mask 解码器以及高效的特定任务输入预处理方法，以在复杂的SAR影像中高效地分配语义标签 [48]。SAM-to-CAM (S2C) 架构通过基于原型的对比学习改进特征激活图 (CAM)，并在CAM基础上进行 Prompt ，从而提高类别的特异性分割 Mask [49]。此外，当将 SAM 应用于非RGB数据时，如深度或事件驱动的数据时，其当前在分割任务中的鲁棒性会显著下降，这突显了需要专门适应的需求 [50]。

C.Parameter-EfficientFine-TuningwithLoRA and MoE

对像SAM这样的大型预训练模型进行特定任务的微调往往会产生较高的计算成本。参数高效的微调（PEFT）技术，如软 Prompt 、 Adapter 和LoRA提供了高效的替代方案[51]。LoRA在预训练模型中引入低秩矩阵，允许通过微调少量附加参数来高效地进行适应，同时将大部分模型权重冻结[52]。扩展技术如DyLoRA[53]和SoRA[54]在训练过程中动态调整秩，从而在多种任务上提高适应性。

LoRA的模块化特性使其能够与MoE架构集成，根据任务需求动态激活特定的LoRA模块。路由机制，如静态top-k选择[55]、[56]或动态阈值选择[57]、[58]，可以高效地选择LoRA模块。结构集成方法，例如LoRAMoE[59]，将LoRA模块嵌入到前馈层中，而MoELoRA[60]则将LoRA模块整合到自注意力和前馈层中，进一步增强了灵活性。MixLoRA[56]将自注意力层中的LoRA模块进行组合，并与共享的前馈层合并，以优化计算效率和表示学习。

尽管SAM展现了强大的泛化能力，但在处理涉及非RGB模态的语义分割任务时仍面临适应性限制。作者的框架代表了首次尝试通过利用针对特定模态（包括深度、LiDAR和事件相机数据）定制的MLE来适配SAM进行多模态语义分割的方法。作者提出了一种新颖的路由策略，以确保在MoE框架内的跨模态一致性，从而解决多模态集成固有的挑战。

IHI. METHODOLOGY

A.Preliminary

Segment Anything 模型。SAM2 架构是一种基于 Transformer 的框架，用于实例分割任务，并集成了三个关键组件：层次化的 Backbone 网络、基于特征金字塔网络 (FPN) 的 Neck 以及一个 Mask 解码器。层次化的 Backbone 网络采用 Hiera 架构作为多尺度特征提取器，通过 Patch 层嵌入机制将输入图像映射到高维特征空间中。该 Backbone 网络逐级处理特征，每一阶段都会使特征维度翻倍，同时降低空间分辨率。这些变换利用了窗口基于的多头自注意力机制和池化操作相结合的方式，使模型能够捕获不同尺度下的空间和语义关系。基于 FPN 的 Neck 通过对不同阶段特征维度的调整和统一，产生了一个统一的多尺度表示。通过其侧向连接和自顶向下路径，特征金字塔网将浅层的细粒度细节与深层的高层语义信息融合在一起。使用基于正弦函数的位置编码来编码空间关系，增强融合后的特征以获得精确的 Mask 生成。 Mask 解码器采用基于 Transformer 的交叉注意机制，其中可学习的 Mask Token 能够迭代地与其他融合特征和位置编码进行交互。这些 Token 在多层交叉注意力和前馈操作中不断精炼。上采样模块确保最终的分割 Mask 具有高质量且细粒度。此外，解码器能够输出多个 Mask 的能力使其能够消除重叠区域并有效处理复杂场景。

B.FrameworkOverview

基于SAM2框架，作者提出了一种定制化的SAM2架构，即MLE-SAM框架，专门设计用于多模态语义分割任务，如图2所示。这一定制首先通过冻结预训练的图像编码器，并使用LoRA层对其进行微调，从而高效地使模型适应新的视觉模态，同时保留其密集的预训练知识。图像编码器处理输入的视觉模态

以生成语义特征图(SFM)

，这些SFM随后由 Mask 解码器的卷积模块进一步转换为两个额外的特征金字塔：精细特征金字塔(FFP)

和中间分辨率特征金字塔(IFP)

。这些特征金字塔和SFM增强了模型的空间和语义表示能力。

picture.image

为了实现综合特征表示，作者提出了一种框架，该框架结合了基于结构的多模态（SFM）、基于特征金字塔（FFP）和基于实例金字塔（IFP）的方法，通过跨模态平均这些表示来推导出综合特征

，其中

。为进一步细化这一集成，采用了选择性顶部

机制，生成加权特征图

，以优先考虑每个索引

下的显著信息。经过细化后的特征

和

随后被融合成统一的特征表示

，作为下游语义分割的输入。

统一特征

通过双路径 Mask 预测策略进行处理，以提升分割精度。在第一个路径中，融合特征被送入SAM2 Mask 解码器，该解码器使用冻结的Transformer块从SFM中提取 Mask Token。这些Token与细粒度和中间分辨率金字塔交互，构建高分辨率特征表示。该表示进一步通过超网络 refinement，生成精确的分割 Mask ，记作

。在第二个路径中，融合特征由一个辅助分割头进行处理，该头包含三个多层感知机（MLP）和一系列上采样层。此路径的输出被级联，经过dropout层以防止过拟合，并通过线性融合来预测另一组高分辨率 Mask ，记作

。最终的分割输出是通过结合两个路径的预测结果得出的，利用它们互补的优势。这种双路径设计有效应对了多模态数据分布和不同特征尺度带来的挑战，确保多种模态下分割的稳健性和准确性。

C.HierarchicalMulti-ModalFeatureExtractionwithLoRA

给定输入集

种模态

，其中

、

和

分别表示每个模态的高度、宽度和通道数。索引

表示特定的模态，例如RGB、深度、LiDAR或事件相机。每种模态独立通过Hiera的层次 Backbone 网络提取多尺度特征。

最初，通过一个patches嵌入操作，每个输入

被转换为一个嵌入特征图

，如式(1)所示。其中，

是一个权重矩阵，

是一个偏置向量，

是特征嵌入的维度，而

和

分别表示应用下采样因子

后的特征图的高度和宽度。

SAM2 的 Backbone 网络在其

个阶段中逐渐降低空间分辨率并增加特征维度，生成多尺度特征图，如式 (2) 所定义，其中

，

，且

定义了第

阶段的下采样因子。第

阶段的通道数用

表示。

每一阶段采用基于窗口的多头自注意力机制来提取特征，如式(3)所示，其中

、

和

分别为 Query 、 Key和Value 矩阵，

表示键矩阵的维度，softmax操作应用于最后一维。

为了提高效率和模态特定的适应性，作者引入了一种LoRA层来更新 Query 和值投影，如公式(4)所示，其中

和

是秩为

的低秩矩阵，

作为秩参数。这些更新生成了增强的投影，定义在公式(5)中。LoRA参数具有模态特异性，并且在冻结主干参数的同时独立训练，以确保高效的跨模态适应。

层次特征通过FPN（特征金字塔网络）进行细化，该网络整合了横向和自上而下的路径，以增强多样化的多尺度特征。在每个阶段

中，输入特征图

经历精确的横向卷积操作，生成一个细化的特定模态特征图

。这一操作将通道维度减少到

，同时保留了关键的空间维度

和

，确保空间分辨率的一致性，并为FPN中的后续融合操作提供兼容性。

令 ( L ) 表示应用了自上而下融合的层集合。对于每一层 ( i = \Delta )，自上而下的融合过程将更深层次的特征表示与当前阶段的特征表示结合起来，生成融合特征图 ( Y_i^m )。该融合过程用公式 (6) 数学定义。

在这里，

表示第

阶段融合特征图，它将特定模态的特征

与后续层的上采样特征整合在一起。上采样操作调整了

的空间分辨率，使其与

匹配，从而确保准确的整合。FPN 的多尺度特征表示中的分层细化机制对于这一融合过程至关重要。

D.DynamicMulti-ModalFeatureFusionwithMoEandRoutingMechanisms

FPN用于生成每种模态下的三个不同特征图，旨在捕捉多种不同分辨率下的语义和空间信息：精细特征图（SFM，

）、基础特征图（FFP，

）以及中间特征图（IFP，

）。为了提升较高分辨率特征图（

和

）的整体表示能力，在不损失空间分辨率的前提下，采用1x1卷积层减少其通道维度。在这些操作之后，特征图的维度被转换为

和

，确保其紧凑且高效的表示形式，以便后续融合和有效的分析。

为了在不同模态间聚合特征，对于

，通过在所有模态上平均特征来计算集成特征图

，如公式(7)所示。

其中，

表示在金字塔层次

上模态

的特征图。此操作确保了均匀聚合，捕获了多模态特征的整体表示。然而，在

中假设所有模态具有等权重可能是不理想的，因为某些模态可能比其他模态更具信息量。为了应对这一局限性，引入了一种门控机制（MoE），根据特征的相关性为其分配动态权重，从而使模型能够优先处理重要特征，而减弱无关信息。

对于跨模态路由过程，计算每个模态和特征层次的空间平均表示

，作为空间信息的紧凑表示。这些表示由 Eq. (8) 定义，通过在高度

和宽度

上对空间特征进行平均得到。其中，

表示第

层级上位置

处模态

的特征图。

每个模态对于特征融合的重要性权重

是通过线性变换随后应用激活函数

计算得出的，如式(9)所示，其中

是权重矩阵，

是偏差项，

表示一个软最大化函数，以确保路由权重的适当归一化。

路由机制根据各模态的路由权重动态选择最相关的特征。对于每一级特征

，识别出具有最高路由权重

的前

个模态。这确保了只有最重要的模态对最终特征表示做出贡献。随后，融合后的特征图

通过式(10)计算得出，其中Top

选择与前

个模态相对应的权重，

表示逐元素乘法，而

代表第

级模态

的特征图。

这种融合策略使模型能够有效调整每种模态的贡献，将全局信息和模态特有的细微差别整合到一个统一的特征表示中。通过优先考虑每个特征层中最相关的模态，该方法增强了模型处理多模态数据并捕捉不同模态互补信息的能力。

通过将

和

整合到统一特征图

中，所提出的方法有效地平衡了全面特征表示的均匀聚合和选择性特征精炼的动力加权，从而形成了一个稳健的多模态融合策略。

E.AdaptedMaskDecoderwithAuxiliarySegmentationHead

接下来，作者在统一特征图

上采用双路径 Mask 预测策略生成高分辨率分割 Mask 。

在图3所示的第一条路径中，作者将SAM2的 Mask 解码器扩展以生成高分辨率多 Mask 。这涉及到通过结构化的多尺度融合过程生成高分辨率分割logits，表示为

。其中，

表示分割类别的数量。包含全局语义上下文的主干特征

通过基于 Transformer 的解码器

处理，产生低分辨率logits。这些logits通过逐步融合中间分辨率特征图

和精细特征图

中的空间细节信息而逐步精炼。这一分层精炼过程可以用公式（11）数学描述，其中

表示应用于

的基于 Transformer 的解码操作。Upsample执行双线性插值上采样以匹配空间分辨率，Conv是一个

卷积用于通道对齐。

picture.image

训练过程通过最小化一个损失函数来实现，该损失函数整合了基于在线难例挖掘的交叉熵损失（OhemCrossEntropy）[63]，专注于难以预测的像素以提高模型的稳健性和效率。 GT 分割标签

定义为

，其中255表示忽略标签。单个预测图

的OhemCrossEntropy损失由式（13）给出。

其中，

是逐像素交叉熵损失，

表示基于预测难度选择的最困难像素集合。归一化因子

确保了足够数量的复杂示例被包含在内，其中

，而

是图像中有效像素的总数。

整体损失函数包含了应用于

和

的OhemCrossEntropy损失，如式(14)所示。

如图4所示，第二条路径利用了特征融合机制，将多尺度特征整合到一个统一的高分辨率嵌入中。具体来说，首先通过MLP对主干特征进行变换，并使用双线性插值上采样至共同的目标分辨率

。这产生了一系列上采样的特征图

，

以及

。这些上采样的特征沿通道维度连接，并通过一个线性融合层

，随后经过预测层

，从而生成高分辨率的分割logits

，如公式(12)所示。融合层

有效地整合了来自不同尺度的特征，而预测层

则生成了分割logits。这种双路径方法可以同时捕捉全局和局部上下文信息，从而提高分割的准确性和鲁棒性。

picture.image

其中，

是标量权重，用于控制每个损失项的相对重要性。

IV.EXPERIMENTS

A. ExperimentalSetup

数据集。为了全面评估所提出的MLE-SAM模型在多模态语义分割中的性能，选择了三个不同的数据集，这些数据集分别针对自主驾驶和材料分割任务中的特定挑战。这些数据集提供了互补的标准，以应对实际场景中诸如恶劣天气条件、传感器故障和多模态融合等复杂性问题。

DELIVER数据集[13]是一个大型多模态基准，专门设计用于自主驾驶场景中的语义分割。该数据集使用CARLA模拟器开发，并包含四种模态的数据：RGB (R)、深度 (D)、LiDAR (L) 和事件 (E)，从而支持先进的多模态融合研究。该数据集包含7,885张前视图像，每张图像分辨率为1,042 × 1,042像素，其中3,983张用于训练，2,005张用于验证，1,897张用于测试。语义分割支持25个不同的类别，每个数据样本提供了六种全景视图，覆盖视角为

。为了模拟现实世界的挑战，DELIVER引入了四种恶劣天气条件和五种传感器故障情况，包括运动模糊、过曝和LiDAR抖动。MUSES数据集[10]是一个多模态基准，旨在在雨、雪、雾和夜间等具有挑战性的环境条件下进行密集语义感知研究。该数据集提供了涵盖19个语义类别的高质量2D全景标注，共包含2,500个样本。数据集分为1,500个训练样本、250个验证样本和750个测试样本，每个样本的分辨率为1,920 × 1,080像素。MUSES整合了来自三种模态的同步数据：帧相机(F)、事件相机(E)和LiDAR (L)，为包括语义分割、全景分割和不确定性感知全景分割在内的任务提供了多样化的输入。

MCubeS 数据集[14]是一个多模态基准数据集，专门用于材料语义分割，重点关注在具有挑战性的户外场景中进行密集的每像素材料类别识别。该数据集包含500个标注图像集合，捕捉了42个场景，采用了四种不同的成像模态：RGB、近红外(NIR)以及由线性偏振角(AoLP)和线性偏振度(DoLP)表示的偏振特性。数据集分为训练集302张图像、验证集96张图像和测试集102张图像，每张图像分辨率为高质量的1920×1080像素。它标注了20个材料类别，包括沥青、混凝土、金属、织物、水和草类等。

多模态语义分割评估。作者对所提出的MLE-SAM方法进行了多模态语义分割的评估，与三个当前最先进的方法CMNeXt [13]、CWSAM [48] 和 SAM-LoRA进行比较。评估在三个基准数据集上进行。为了公平比较，采用了以下标准的 Backbone 架构：对于CMNeXt使用了MiT-BO作为 Backbone ，CWSAM和SAM-LoRA均使用ViT-B作为 Backbone ，而MLE-SAM则使用Hiera

作为其 Backbone 。详细的实现细节见附录A。评估包括多种输入模态组合，以评估每个方法整合和利用多模态信息的能力。此外，还在DELIVER数据集上进行了定量分析，比较了在复杂环境条件（如阴天、雾天、运动模糊、过曝、欠曝、LiDAR抖动和事件低分辨率）下的可训练参数量和性能。这种系统性的评估提供了对各种场景下每种方法鲁棒性和效率的全面理解。

缺失模态和噪声条件下的语义分割评估。作者评估了使用所有可用模态训练但分别在不同组合的单个或部分模态下测试的语义分割模型的稳健性，使用DELIVER和MUSES数据集进行验证。分析了MLESAM在应用于不同模态的高斯噪声和随机噪声条件下的稳健性，并以平均交并比（mIoU）为主要评价指标。作者实现了一个噪声增强模块，用于模拟将高斯或随机噪声注入特定模态的不良条件。高斯噪声通过标准正态分布缩放50.0生成，而随机噪声在范围[-100, 100]内均匀采样。噪声直接添加到目标模态的图像数据中，并剪裁像素值至范围[0, 255]，以确保有效性和防止像素强度出现溢出或下溢。

B.Multi-modalSegmentationComparison

表1中的性能比较展示了所提出的MLE-SAM模型在DELIVER数据集上语义分割任务中的有效性，这是一种基于SAM的方法。在所有测试的模态组合中，MLE-SAM始终获得最高的mIoU分数，并显著优于其他竞争方法。对于单一模态RGB配置，MLE-SAM的mIoU为55.23%，分别超出CMNeXt和SAM-LoRA 3.94%和3.39%。利用RGB和Depth模态时，mIoU提高到63.57%，分别超出CMNeXt和SAM-LoRA 3.96%和3.32%。结合Event数据与RGB和Depth模态，mIoU上升至62.69%，分别超出CMNeXt和SAM-LoRA 2.85%和2.61%。加入所有四种模态后，MLE-SAM的表现最佳，mIoU达到64.08%，分别超越SAMLoRA和CMNeXt 4.54%和4.90%。这些结果突显了MLE-SAM有效整合多模态信息的能力，随着更多模态的加入，性能提升更为明显。值得注意的是，包括所有模态后，mIoU比仅使用RGB提升了8.85%，进一步强调了多模态融合在语义分割中的显著优势。

picture.image

表2中的结果进一步验证了MLE-SAM在MUSES数据集上的优越性。该模型在所有模态组合中始终获得最高的mIoU分数，显著优于其他方法。对于单一模态的帧相机输入，MLE-SAM达到73.95%的mIoU，分别超越CMNeXt和SAMLoRA 30.58%和8.04%。采用帧相机和事件模态组合时，mIoU提高到74.73%，分别超过CMNeXt和SAM-LoRA 31.3470%和6.77%。添加LiDAR到帧相机进一步提升mIoU至75.42%，与CMNeXt相比改进了28.39%，与SAM-LoRA相比提高了5.08%。整合帧相机、事件和LiDAR模态实现74.8%的mIoU，保持MLE-SAM的优异性能，并分别相对于CMNeXt和SAM-LoRA提升了28.14%和4.72%。这些发现突显了MLE-SAM灵活利用真实世界多模态数据的能力，从而实现显著的分割性能提升。

picture.image

两个数据集上的实验结果揭示了数据集特性与模型性能之间的重要关系。尽管 MLE-SAM 在两个数据集上都展示了强大的分割能力，但其在 MUSES 上的更高性能可归因于 SAM 预训练语料库与 MUSES 的现实世界性质之间的契合。由于基于 SAM 的模型是在多样化的现实世界图像上进行预训练的，因此它们本质上更适合像 MUSES 这样的数据集，该数据集捕捉到了复杂且真实的环境条件。相比之下，DELIVER 数据集的模拟性质限制了 SAM 预训练知识的充分利用。

表3展示了MLE-SAM在MCubeS数据集上的表现，进一步证实了其在多模态语义分割方面的能力。使用RGB-AOLP模态组合时，MLE-SAM实现了

，分别优于SAM-LoRA

、CWSAM

和CMNeXt显著的

。将DoLP与RGB和AOLP结合后，

提升至

，分别超过SAM-LoRA

、CWSAM

和CMNeXt

。将NIR加入RGB-AOLP-DoLP配置中，实现最高的

，相对于SAM-LoRA提升

、相对于CWSAM提升

，相对于CMNeXt提高显著的

。这些结果突显了MLE-SAM在整合多模态信息以进行密集像素材料分割方面的能力，特别是在具有挑战性的户外场景中。

picture.image

综上所述，DELIVER、MUSES和MCubeS数据集上的实验结果一致证明了MLE-SAM在利用多模态数据进行语义分割方面的优越性能。该模型通过利用多种模态间的互补信息，在与最先进竞争对手相比时实现了显著提升。此外，观察到的性能趋势突显了数据集特性的重要性，真实世界数据集提供了更多的机会让基于SAM的方法充分利用其预训练优势。不同配置下的一致改进进一步证实了MLE-SAM的稳健性和扩展性，确立了其作为推进多模态分割任务的强大框架的地位。

C.AblationStudiesandQualitativeAnalysis

DELIVER中不同模态组合的定量评估揭示了在各种条件下的可训练参数与性能之间的关系。如表4所示，在正常条件下（阴天、雾天和晴天），RGB-D的表现最佳，mIoU值分别为66.21%、63.89%和65.58%。结合RGB和Depth可以增强特征丰富性和鲁棒性。在不良条件下（夜间和雨天），RGB-D-E和RGB-DE-L表现更优，夜间条件下的mIoU值分别为60.82%和62.68%，雨天条件下的mIoU值分别为62.01%和62.71%。包括事件和LiDAR等稀疏模态能够在低光照和高反射环境中通过捕获高动态范围数据来弥补密集传感器的局限性。

picture.image

RGB-D 在传感器故障场景中处理运动模糊方面效果最佳，通过利用空间和深度信息的优势，实现了

。对于过曝、LiDAR 偏移以及事件分辨率较低等更具挑战性的条件，RGB-D-E-L 提供了最高的鲁棒性，分别达到了

、

和

。这种改进来自于将密集模态（RGB 和 Depth）与稀疏模态（Event 和 LiDAR）相结合，其中稀疏数据在限制了密集传感器性能的条件下提高了表现。

从计算角度来看，可训练参数量从单一模态（如RGB或Depth）的520万增加到RGB-D-E-L组合的2079万。密集传感器擅长捕捉详细信息，但在极端条件下对噪声敏感。相比之下，事件和LiDAR产生的稀疏数据通过突出降级场景中的关键特征来增强鲁棒性。这一分析强调了多模态融合的重要性，以增强鲁棒性和适应性，并平衡密集和稀疏数据以确保在各种环境中的一致性能。

表5评估了综合特征

和加权特征

对使用R-D-L-E模态的多模态语义分割的影响，以及辅助分割头的作用。综合特征

的结合显著提升了分割性能，达到mIoU为61.87%，参数量为20.62百万。添加一个带有综合特征的辅助分割头可以将mIoU提高到62.03%，参数量略有增加（20.64百万）。相比之下，单独使用加权特征

会导致较差的结果，当不包含辅助头时，mIoU分别为58.35%和57.99%，且需要更多的参数（分别为20.77和20.79百万）。综合使用

和

，并结合辅助分割头，实现了最高的性能，mIoU为64.08%，参数量为20.79百万。这些结果突显了结合这两种特征的重要性，因为它们的集成增强了特征表示和分割准确性。

picture.image

图5展示了在各种模态下，在不良传感器条件下提取到的特征图。每种模态的表现受到其固有特性的影响，尤其是在具有挑战性的环境中更为明显。例如，RGB特征对光照变化敏感，在过曝或欠曝的情况下会遭受显著降解。深度和LiDAR特征则容易受到环境干扰的影响，如LiDAR抖动，这会在深度估计和空间测量中引入噪声。相比之下，结合多种模态可以增强系统的鲁棒性，通过发挥各自优势并减轻单一特征的局限性来提升整体表现。

picture.image

例如，在过度曝光或欠曝光条件下，深度特征有助于捕获详细的物体信息（如树木和汽车），弥补了RGB在这些条件下的不足。类似地，在存在LiDAR抖动的情况下，结合RGB和事件特征可以改进纹理表示，保留诸如建筑结构等细节。这些结果表明，在恶劣条件下多模态融合在创建更具鲁棒性的特征表示方面的有效性。

图6展示了在传感器故障场景下选定语义类别的像素级特征的t-SNE可视化图像，突出了不同模态和故障条件下特征可分性的显著差异。图中的每个点对应一个像素，并通过其语义类别着色，以此来展示高维空间中特征的基础分布。在单一模态的场景中，传感器故障导致类别间出现了显著重叠，反映了特征表示的辨别能力减弱。相反，在多模态训练的情况下，特征可分性得到了显著改善，证明了多模态融合在构建稳健特征表示方面的有效性。值得注意的是，密集模态如RGB和深度图像表现出优于稀疏模态如事件和LiDAR的类别可分性，这强调了数据密度在恶劣条件下保持语义完整性的关键作用。这些结果强调了多模态方法在增强语义分割性能方面具有潜力，特别是在传感器退化环境中。

picture.image

图7展示了DELIVER数据集上的语义分割结果，比较了各种方法和模态组合的性能差异。结果显示，将R-D-E-L模态组合集成显著提高了分割精度和完整性，相较于单模态方法效果更佳。例如，仅使用RGB模态的MLE-SAM在光照过曝和LiDAR抖动等挑战性条件下难以检测行人。相比之下，R-D-E-L组合能够准确分割小目标如行人。然而，CWSAM和SAM-LoRA与R-D-E-L组合的表现不佳，特别是在光照过曝条件下分割建筑物时效果较差。所有三种方法在运动模糊场景中识别小物体时都遇到困难。此外，CMNeXt在LiDAR抖动条件下无法捕捉到关键细节，如公交站和路灯。这些结果突显了MLE-SAM在利用综合多模态数据方面的优势，能够在传感器故障情况下实现一致且优越的分割精度。

picture.image

D.GeneralizationEvaluationwithPartial ModalityTesting

表6对四种语义分割模型——CMNeXt、CWSAM、SAMLoRA和MLE-SAM——在三种模态组合下进行了全面评估：R-D-E、D-E-L和R-D-E-L。这些模型使用DELIVER数据集在不同的模态场景下进行了测试。CMNeXt的一个主要局限性在于其在训练过程中依赖RGB模态，这限制了其灵活性，相比之下，CWSAM、SAM-LoRA和MLE-SAM支持不依赖RGB进行训练。在所有评估的模型中，MLE-SAM在各种训练配置下表现最为出色。具体而言，在R-D-E训练设置下，MLE-SAM的平均mIoU为38.45%，分别优于SAM-LoRA和CWSAM 1.58%和10.2%。对于D-E-L配置，MLE-SAM达到34.02%，分别超出SAM-LoRA和CWSAM 2.91%和9.31%。同样，在R-D-E-L配置下，MLE-SAM获得最高的平均mIoU为34.90%，分别超出SAM-LoRA和CWSAM 0.77%和9.46%。这些结果突显了MLE-SAM在不同训练设置下的有效性与适应性。

picture.image

测试过程中缺失模态的影响揭示了稠密模态和稀疏模态之间交互的关键见解。当在R-D-E上训练并在单一模态下进行测试时，MLE-SAM的表现显著变化，RGB-only测试得分为20.77%，Depth得分为48.59%，Event得分为4.68%。这突显了稠密数据，如RGB和Depth，在与稀疏Event模态相比时的稳定作用。在类似的D-E-L训练设置下，Depth测试得分达到56.02%，显著优于Event和LiDAR的4.07%和2.13%。对于R-D-E-L配置，MLE-SAM在稠密测试场景中表现出稳健的表现，例如Depth得分为50.28%，RGB-Depth得分为63.47%。然而，在仅使用稀疏模态的情况下，如Event和LiDAR，其得分显著降低，分别为0.74%和2.07%。这些发现突显了稠密模态在增强语义分割性能方面的鲁棒性。相比之下，尽管稀疏模态可以提供补充信息，但它们在独立使用时表现出有限的有效性。

这些性能模式可以归因于稠密和稀疏模态内在特性及其在训练过程中的整合。稠密模态如RGB和深度图提供了丰富的空间和结构信息，使模型能够学习到稳定且泛化的特征。相比之下，稀疏模态如事件和LiDAR捕捉到的是不规则且有限的数据，在特定上下文中适用，但作为单独输入时可靠性较低。在R-D-E-L设置下进行训练能够充分利用冗余和稠密数据的丰富性，在测试时对稠密子集表现出稳健的性能。相反，依赖稀疏数据进行测试会引入噪声，降低预测准确性。值得注意的是，在训练过程中排除稀疏模态可以缓解这些影响，这在RGBDepth测试表现优越的情况下得到了验证，其在R-D-E-L训练设置下的测试性能达到了63.47%，这表明虽然稀疏模态提供有用的补充特性，但在训练中过分依赖它们可能会妨碍模型的泛化能力。MLE-SAM的自适应融合机制有效地整合了稠密和稀疏模态，确保在多模态设置中具有优越的性能。

表8比较了四种在MUSES数据集中不同模态组合下训练和测试的模型性能。MLE-SAM始终优于其他模型，展示了其在不同模态组合下的鲁棒性。例如，在Frame-camera和LiDAR的数据下训练时，MLE-SAM达到53.09%，分别超过SAM-LoRA 7.82%，CWSAM 34.84%，以及CMNeXt 35.47%。这一趋势在F-E和F-L-E场景中也得以保持，分别提高了4.92%和4.99%，相对于SAM-LoRA。

picture.image

然而，在测试过程中缺失模态会显著影响性能。例如，当模型在F-L-E数据上训练但在事件相机或激光雷达等稀疏模态上进行测试时，MLE-SAM的得分分别下降到1.5%和5.55%。相比之下，当在密集帧相机数据上进行测试时，MLE-SAM可以达到69.67%的性能。这些结果突显了密集数据在保持分割质量方面的重要作用，因为如帧相机等密集模态提供了必要的空间连续性和细节，而事件相机和激光雷达等稀疏模态缺乏这种丰富性。这些发现进一步证实了MLE-SAM自适应融合机制的优势。该机制有效地整合多模态输入，以缓解稀疏数据的限制，使其特别适合于实时场景中模态间断可用的情况。

ustnessEvaluationUnderNoisyTestingCond

表8评估了三种适应的SAM模型（即CWSAM、SAM-LoRA和MLE-SAM）在对四种模态施加高斯噪声和随机噪声时的表现。结果突显了噪声对密集模态和稀疏模态的不同影响，并展示了相比其他两种模型，MLE-SAM的稳健性。

分析结果显示，高斯噪声对密集模态（RGB、Depth）的影响大于稀疏模态（Event、LiDAR）。例如，在高斯噪声下，CWSAM的RGB mIoU下降至29.60%，而Depth为53.87%。稀疏模态受影响较小，Event和LiDAR分别保持了54.89%和54.79%的mIoU值。在随机噪声条件下，CWSAM的RGB进一步降至23.93%，Depth降至53.18%，而Event和LiDAR依旧表现出色，各自的mIoU值分别为54.76%和54.62%。这突显了由于其局部数据特性，稀疏模态对像素扰动具有较强的抗干扰能力。

MLE-SAM 在所有模态下都显示出了更出色的鲁棒性，优于CWSAM 和 SAM-LoRA。在高斯噪声条件下，MLE-SAM 的RGB mIoU 为57.00%，显著高于CWSAM 的29.60% 和SAM-LoRA 的53.83%。稀疏模态也从中受益，事件和激光雷达分别达到了63.90% 和63.87%，反映了相对于CWSAM 提高了9.01% 和9.08%，以及相对SAM-LoRA 提高了4.35% 和4.33%。在随机噪声条件下，MLE-SAM 的RGB mIoU 轻微下降到56.35%，仍然优于CWSAM 和SAM-LoRA。事件和激光雷达在两种噪声类型下的mIoU 值分别为63.89%，分别超过了CWSAM 和SAM-LoRA 9.13% 和9.27%。对比高斯噪声与随机噪声，随机噪声对密集模态引入了更高的变异度，使CWSAM 的RGB mIoU 从29.60% 下降到23.93%。稀疏模态的影响较小，在各种模型和噪声类型下都保持了稳定的mIoU值，突显了它们对全局干扰的鲁棒性。

总体而言，这些结果强调了需要针对不同模态的噪声鲁棒性策略。密集模态需要采用去噪技术，而稀疏模态则天然具有鲁棒性。在各种模型中，MLE-SAM 一贯优于 CWSAM 和 SAM-LoRA，验证了其在噪声环境下的多模态语义分割的有效性。

V.CONCLUSIONANDFUTUREWORK

本文介绍了MLE-SAM，这是一种针对多模态语义分割特制的新颖SAM2架构改编版本。MLE-SAM融合了基于LoRA的适应性机制、选择性的特征加权机制以及双路径 Mask 预测策略。通过有效地融合密集和稀疏模态，MLE-SAM利用它们互补的优势实现精确的分割，并在多种条件和数据集上保持鲁棒性。

广泛的实验表明，MLE-SAM在各类数据集和模态组合中均能稳定地在平均交并比(mIoU)方面超过现有先进模型。特别值得一提的是，该模型在复杂场景下表现出色，包括噪声输入和缺失模态的情况下，突显了其多模态融合方法的优势。

密集模态提供了对于高分辨率分割至关重要的详细空间信息，而稀疏模态则增强了在不利或资源受限环境中的鲁棒性。

未来的研究可以优先通过高级预训练技术、抗噪模块设计以及自适应注意力机制来精炼多模态集成。开发动态融合策略以无缝平衡密集和稀疏模态，可以提高MLE-SAM在实际应用中的适应性和有效性。

参考

[0]. Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts .

使用混合 LORA 专家定制多模态语义分割的 SAM 模型 ！

参考