FusionSAM 多模融合与分割的潜在空间驱动的任意分割模型 !

图像处理机器学习数据库

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

多模态图像融合和分割在自动驾驶中理解场景信息,然而,当前模型在处理这样场景中密集堆叠的元素时效率低下,由于缺乏全面融合特征无法引导过程中间的微调,并使注意力集中在相关区域。因此,Segment Anything Model (SAM) 作为变革性的分割方法 emerges。

它通过其灵活的提示编码器提供更有力的提示,与缺乏细调控制的 Transformer 不同。然而,SAM 尚未在自然图像的多模态融合领域进行广泛研究。

在本文1中,作者将首次在多模态图像分割中引入 SAM,并建议一种新颖的框架,结合 Latent Space Token Generation (LSTG) 和 Fusion Mask Prompting (FMP) 模块,以增强 SAM 的多模态融合和分割能力。具体来说,作者首先通过向量化获得两模态的潜在空间特征,并将它们嵌入到基于交叉注意力(cross-attention)的跨域融合模块中,以建立模态之间的长程依赖关系。

然后,作者使用这些全面的融合特征作为提示,引导精确的像素级分割。

在几个公共数据集上的广泛实验结果表明,与 SAM 和 SAM2 相比,所提出的这种方法在多模态自动驾驶场景中有显著的提高,实现至少 3.9% 的更高分割 MIoU。

unset

unset引言unset

unset

近几十年来,深度学习在语义分割方面的进展显著推动了多模态场景的理解。捕捉高效的多模态融合表示是提高分割性能的关键。一种常见的做法是以卷积神经网络(CNNs)为基础,通过特征 Level 的融合提取丰富的语义表示,但CNNs的局部约束使得有效融合不同模态信息具有挑战性。作为替代方案,具有注意力机制和远程依赖建模能力的Transformer架构,能够促进更好的全局融合和互补信息利用。然而,纯Transformer架构在场景理解方面的灵活性不足,尤其是在自动驾驶场景中,其中元素密集[15],分割类别的边缘纹理因不同的照明条件和夜间环境而模糊。如果没有中间细调引导,关键区域可能会出现分割扭曲,从而阻碍更好的场景解析。

任何东西分割模型(SAM)因其灵活的提示架构而成为单模自然场景分割的革命性方法。值得注意的是,SAM的提示架构增强了模型专注于详细特征的能力。通过提示的指导机制,SAM可以比没有细调控制的Transformer有效地指导分割过程。这对自动驾驶场景中所需的密集元素分割尤其重要。然而,SAM在多模态融合领域尚未得到广泛研究。

为了解决这些挑战,作者创新性地提出了一种名为FusionSAM的潜在空间驱动的S egment A nything M odel for Multi-Modal Fusion and Segmentation,赋予SAM高效的多模态图像融合和分割能力。具体而言,作者首先通过矢量量化首先捕捉到两种模态的潜在空间特征嵌入,以获得有效降采样表示。然后,作者使用基于交叉注意力机制的跨域融合模块建立模态之间的长期依赖关系,捕获全面的融合特征以指导精确的像素 Level 分割。据作者所知,这是首次将SAM应用于自然图像中的多模态视觉分割任务,并显示出优于目前最先进方法的性能[图1]。作者的主要贡献如下:

picture.image

作者首次将SAM扩展到自然图像中的多模态图像分割。通过SAM的灵活提示编码器,作者实现了多模态图像的有效融合和分割,满足了具有密集元素和 varying 照明条件的全自动驾驶场景的需求。

作者提出了一种名为 FusionSAM 的创新框架,包括潜在空间标记生成(LSTG)和融合提示生成(FMP)模块。通过矢量量化捕获潜在空间表示,并跨域融合这些特征,作者生成精确的分割提示。

在公共数据集和基准测试上的广泛实验表明,FusionSAM 在多模态自动驾驶场景中显著优于当前最先进的方法,包括 SAM 和 SAM2,实现了分割 IoU 的 3.9% 改进,验证了其有效性和鲁棒性。

unset

unsetRelated Workunset

unset

unset

unsetSegment Anything Model (SAM)unset

unset

SAM实现了高效的物体分割,通过简单的提示嵌入,例如点或边界框,指导模型专注于特定区域。单模态分割的深度方法包括Chen等人[14]的Chen-et-al. RobustSAM,该方法改进了SAM在低质量图像上的性能,以及Cai等人[13]的Crowd-SAM,该方法利用高效提示采样器和部分与整体判别器网络增强了人群场景下的分割。SAM已应用于医学影像和遥感等领域中的跨模态任务。例如,Pandey等人[16]使用YOLOv8和SAM进行跨模态分割,Yan等人[15]引入了RingMo-SAM用于分割光学和SAR数据。然而,这些方法只线性地适应SAM用于多模态任务,错过了多模态特征的全部潜力。他们还忽视了SAM的强大提示架构,它可以在训练期间更好地激活多模态融合特征来指导分割。相反,作者提出的FusionSAM通过向量量化捕获潜在空间表示来实现跨域综合融合,并使用这些特征作为精确的分割提示。

unset

unsetMulti-Modality Image Fusionunset

unset

在自动驾驶中,集成各种传感器对于准确的场景理解至关重要,因为单模态数据是不够的。Wang等人提出了AsymFusion,采用双分支不对称融合块结构增强多模态特征间的交互 。Zhang等人开发了MRFS,将基于CNN的交互式卷积门控混合注意力和基于transformer的逐步循环注意力相结合,以克服红外可见融合中的瓶颈 [13]。Feng等人引入了MAF-Net,通过融合RGB和深度数据有效分割道路上的坑洞 。Ma等人提出了SwinFusion,利用跨域的长程学习和Swin Transformer实现全局信息整合和互补特征提取 。大多数现有方法依赖于卷积网络或transformer,在密集场景中实现全局信息提取和灵活分割面临困难。为了克服这些局限性,作者在SAM内应用多模态融合,利用其灵活的提示来增强在复杂自动驾驶场景中的分割。

unset

unsetProposed Methodunset

unset

unset

unsetProblem Formulationunset

unset

在多模态图像融合任务中,作者首先假设可见图像 和红外图像 ,其中来自不同域的两张源图像对齐。令 , , 和 分别表示输入图像的高度、宽度和通道数。为了实现像素级分割,作者设计了一个交互式神经网络进行融合和分割,并优化模型以找到一组最优参数。

和 分别表示融合网络 和分割网络 上的可学习参数 和 所产生的融合映射和分割结果。函数 和 分别对应融合和分割的目标函数,衡量预测值与各自目标之间的差异。如图2所示优化目标是最小化这些函数,避免陷入单任务局部最优解,并确保有效融合与准确分割以达到全局最优。

picture.image

unset

unsetFusion Segment Anything Modelunset

unset

作者提出FusionSAM,该方法在保留SAM架构的分割能力的同时促进了图像融合。作者采用适配策略,使原始SAM架构具有隐藏空间表示嵌入和跨模态一致性融合的能力,从而使其分割性能有了显著提高。

unset

unsetModel Overview.unset

unset

如图2所示,本文提出了FusionSAM的全景图。FusionSAM的关键贡献是其潜在空间标记生成(LSTG)和融合 Mask 提示(FMP)模块。与微调SAM和SAM2等方法相比,FusionSAM的优势在于其对高效多模态融合与分割的严谨且精心的方法。

unset

unsetTraining.unset

unset

为了训练FusionSAM,作者首先生成高效的全融合模态表示,然后将这些表示输入到模型中。初始时,一个向量解码器为两种模态创建潜在空间表示,然后通过交叉注意力引导融合实现全面的表示。与作者原始的SAM不同的是,作者修改了输入标记以成为全功能的输出标记(FOT)。这些FOT,与提示标记一起,经过SAM解码层处理以生成分割 Mask 。

STLG块处理两种模态的原始图像并将其转换为高效的潜在空间特征。同时,FMP模块在获得的潜在空间特征上执行多模态融合。它使用交叉注意力机制从不同的模态域中学习特征,产生精炼和全面的特征。这些精炼的融合特征然后被送入 Mask 编码器以增强分割质量。

总之,完成的FusionSAM框架强大的分割能力主要来自LSTG和FMP模块的训练。此外,原始SAM的解码器和分割头也参与了学习过程。这种集成确保模型充分理解来自两种模态的融合特征,从而提高分割性能。

推理。在FusionSAM框架中,由ViT驱动的图像编码器不参与训练,仅用于推理以生成 Mask 解码器所需的输入。

潜在空间标记生成。在作者多模态图像融合和分割方法中,LSTG模块有效地将来自可见和红外模态的复杂输入数据转换为结构化潜在空间表示。这种转换对于有效整合多种信息来源是必要的。受到 Vector Quantized Generative Adversarial Networks的启发,作者增强了模型捕捉和融合两种模态互补特征的能力,从而提高多模态任务的表现。这些潜在向量保存了后续融合和分割所需的关键多模态特征,使作者能够有效地整合和解释来自可见和红外域的互补信息。

量化过程使用学习到的代码书\mathcal{C}将解码器输出转换为离散表示,对齐和结构化来自两种模态的多样特征以实现有效融合:

I_{i}^{q}=\mathrm{Quant}(z_{i})=\left(\operatorname{argmin}_{c_{k}\in\mathcal{ C}}\left|z_{ij}-c_{k}\right|\right)\in\mathbb{R}^{h\times w\times d_{c}}. \tag{3}

通过将每个潜在向量 映射到代码表中最接近的项, 使潜在表示离散化,并将来自两个模态的相似特征对齐。

在对抗学习框架中,

网络用于区分真实数据和生成数据。这些改进确保模型捕获了低级细节和高层次语义信息,这对有效的多模态分割至关重要。整体优化目标将以上元素结合在一起:

其中

,

, 和

是平衡每个损失组成部分的权重因子,提高模型在多模态任务上的表现能力。

LSTG 模块创建一个强大且结构化的表示来自复杂的多元输入,这是将来自每个模态域的信息集成一个统一的融合遮挡的关键。通过利用融合表示中的丰富和全面的特征作为提示,FMP 模块为分割过程提供灵活的微调指导,从而提高了分割性能。例如,如果多模态融合特征图包含完整的信息,使用局部区域特征作为点提示在训练期间可以进一步增强模型的分割准确度。

具体地说,FMP 模块开始于一个跨域融合单元,它采用跨注意力机制在不同的模态域之间建立长期依赖关系。这使得域间的交流可以在各个域之间进行融合特征 之间的 Queries (Q), Keys (K) 和 Values (V)。通过在融合表示中充分利用丰富的和全面的特性作为提示,FMP 模块为分割过程提供灵活的微调指导,从而提高了分割性能。例如,如果多模态融合特征图包含完整的信息,使用局部区域特征作为点提示在训练期间可以进一步增强模型的分割准确度。

在上述方法中,作者提出了两个独立的模块:自注意力模块和编码器模块。自注意力机制用于在模型中对多模态特征进行注意力权重分配,从而使模型能够对多模态的信息进行加权求和。

作者提出了一个基于注意力机制的感知自注意力(Perceptual Self-Attention)模块,用于在模型中对多模态特征进行注意力权重分配。该模块通过对输入的多模态特征图的每个元素进行加权求和,从而为模型提供了一种可学习的多模态融合方法。同时,作者引入了一个位置编码单元,以提高模型对输入多模态特征图中位置信息的利用。通过将位置编码单元和自注意力模块相结合,作者实现了一个更强的多模态感觉自注意力(Perceptual Self-Attention)模块。

此外,为了在模型中充分融合不同模态的信息,作者还设计了一个统一的融合模块,该模块可以将不同模态的特征图进行融合,并将其作为输入传递给下一模态模块。这一模块通过使用卷积操作以及归一化操作,有效地融合了不同模态的信息。

综上所述,作者提出了一种基于多模态深度学习的融合方法,它由多个模块组成,这些模块通过多方式进行融合。作者的方法能够有效地融合多模态数据,提高模型的性能和实现复杂的任务。

层归一化(LN())是一种常在馈送网络之后执行的操作。输出 和 表示全局融合特征,这些特征随后通过卷积层进行处理,生成一个包含两种模态关键信息的融合表示 。该融合表示作为初始融合 Mask ,通过突出交叉融合过程中识别出的感兴趣区域进行分割引导。

为了进一步增强融合 Mask 的性能,FMP(Feature Fusion Masking)模块集成了一套互补特征融合单元,该单元强调每个模态的独特特性,同时确保全局特征的完整集成。这个单元引入了一种互补特征融合机制,其中两个模态首先通过交叉注意力机制进行融合,产生 ,该表示包含每个单一模态的显著特性。然后将该结果与初始融合 Mask 相结合,通过利用融合模型从两个方法中获得完整的信息,从而加强分割提示:

表1:在MFNet数据集的测试集上进行的定量分割结果。

picture.image

融合的最后表示 经过卷积层处理,生成融合 Mask ,这作为像素级分割的精确提示。

通过利用这些跨域和互补特征融合单元,FMP 可以有效捕获对精确分割至关重要的全面融合特征。全球上下文和长程依赖的集成确保模型可以在密集的自主驾驶场景中区分 foreground 和 background 元素。这种全面的处理方法允许SAM获得强大而高保真度的分割结果,有效地应对多模态图像融合的挑战。最后从FMP衍生出的融合表示 被输入到原始SAM框架的图像编码器。该编码器处理多模态融合结果,将其转换为包含可见和红外模态丰富信息的 high-dimensional 特征。接着,这些编码特征被输入到 Mask 解码器,该解码器利用一种修改的Transformer架构通过一系列attention操作生成 Mask 特征。最后,解码器的输出,代表精细分割,由多层感知机(MLP)分类头进一步处理,以确保模型准确识别和区分输入数据中的不同区域。

unset

unsetImplementation Detailsunset

unset

开始 Implementation Details 部分。

unset

unsetDatasetsunset

unset

两个代表性的数据集,包括MFNet [10]和FMB [11],分别包含1569和1500对可见光和红外图像,分辨率分别为480640和600800,用于训练和评估作者的方法。这些数据集标记为与自动驾驶和语义理解相关的9和14个类别,提供各种照明条件和丰富的场景,从而增强了融合和分割模型的泛化能力。

unset

unsetTraining Detailunset

unset

在100个epoch的训练中,多模态图像经过LSTG模块降采样4倍特征,FMP模块进一步捕获高效的融合表示,结合10点mask提示和1盒mask提示,以促进SAM的有效分割。作者的初始学习率设置为1e-4,使用带有权重衰减的Adam优化器,权重衰减为1e-3,批量大小设置为4,使用的encoder是vit/h。所有实验都在NVIDIA A100 Tensor Core GPU上进行。作者使用mean intersection over union (mIoU)来定量评估语义分割的性能。mIoU是每个类别预测真实值与预测真实值之间的交集比值的平均值。

unset

unsetExperimental Resultsunset

unset

实验结果部分的开始。

unset

unsetAblation Studyunset

unset

为了详细探索作者方法各个部分的贡献,作者设计了三组场景:

(A) 与作者的FusionSAM相比,删除LSTG模块;

(B) 从融合过程中移除FMP模块,并用直接拼接替换;

(C) 完整的FusionSAM。图4显示了消融实验的结果。

作者可以看到,FusionSAM在两个数据集上都取得了最佳的分割结果。如表格4所示,在(A)中,删除LSTG模块后,结果分别下降了27.4%和20.4%,导致分割结果较差,这说明通过向量化生成的潜在空间标记的有效性。作者的融合方法已在(B)中得到证明。在未引入融合 Mask 提示的情况下,模型难以区分目标和背景,忽视了每种模态的独特和互补特性,导致mIoU分别下降了15.7%和4.2%。因此,作者提出的LSTG模块和FMP模块能有效地提高多模态图像的分割性能,并产生出色的视觉效果。

picture.image

unset

unsetComparisons with Previous Methodsunset

unset

在与先前的方法进行比较的章节的开头。

unset

unsetComparison with SAM.unset

unset

表2:融合SAM的去偏置研究结果。

picture.image

SAM [16]在分割领域具有竞争力的性能,原因在于其强大的分割能力和不同领域的适应性。与SAM相比,SAM2 [19]在适用领域、分割精确度以及运行速度等方面有显著提升。为了证明作者的融合SAM的有效设计和强大性能,并保持公平的比较,作者使用SAM和SAM2直接推理出SAM在融合SAM中生成的融合特征图,结果展示在表4中。SAM系列无法处理多模态图像分割,而作者的方法将SAM引入多模态领域,确保其出色的分割性能并扩大其应用场景的复杂性。

picture.image

与最先进方法(SOTA)的比较。作者与包括EGFNet [20]、SegMiF [19]、EAEFNet [10]、LASNet [10]、SFAF-MA [10]、ECFNet [21]和MRFS [22]在内的七个最先进语义分割方法进行比较实验和评估。作者提供定量结果见表1和3。融合SAM在两个数据集上均实现了最高的mIoU。与排名第二的方法相比,融合SAM在MFNet和FMB上的mIoU分别提高了3.9%和0.6%。具体而言,作者的方法由于有效的视觉质量保留和增强,在热敏感类别(如汽车停止、建筑、曲线和凸起)等方面取得了显著的优势。总的来说,这些结果确认作者的方法在语义分割方面实现了最先进水平。

unset

unsetResult Visualizationunset

unset

图3和图5展示了在MFNet和FMB数据集上的可视化结果,与最先进的竞争方法进行了比较。由于其丰富的类别、复杂的成像条件和多样化的场景细节,这些数据集呈现出了分割挑战。现有的融合方法在海量类别中很难凸显微弱的红外目标(例如,图3的第二行),也难以识别远处的人行者(例如,图5的第三行)。基于双流网络的方法在特征融合不完整时通常引入了冲突,导致误分类,例如被遮挡的车(图3的第一行)和人体形状(图5的第一行)。此外,密集的目标预测中边框模糊较为常见(图3的第三行)。通过在潜在空间中嵌入表示并实现跨模态一致性,作者的方法在降低冗余度的同时保留了关键信息,显著提高了SAM的分割性能,并使不同场景下的物体分类变得准确。

picture.image

picture.image

unset

unsetConclusionunset

unset

picture.image

多模态语义分割对于自动驾驶的关键挑战之一是开发一个框架,在训练过程中有效地将多模态数据作为提示进行融合和利用,引导模型在密集分布场景中实现高性能分割——这是以前的多模态分割方法没有完全解决的问题。

作者创新性地提出了FusionSAM,这是一个由潜在空间驱动的SAM框架,用于多模态语义分割。FusionSAM为SAM架构赋予了在多模态融合、理解和分割方面的强大能力。

作者的方法从两个模态的潜在空间表示中进行全面的跨域融合,并将融合的信息用作分割的提示进行引导。这是首次在自然场景的多模态语义分割中利用SAM,并利用融合作为引导提示。

大量实验表明,FusionSAM在多模态自动驾驶场景中明显优于现有最先进的现有方法,为未来的多模态语义分割任务提供了一种新方法。

unset

unset参考unset

unset

[1].FusionSAM: Latent Space driven Segment Anything Model.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论