SAM 与 Mamba 的结合：LFSamba 模型在显著目标检测中的突破！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

光线场相机可以通过捕获包含丰富空间几何信息的单聚焦图像来重构3D场景，从而在立体摄影、虚拟现实和机器人视觉等领域增强应用。

在本工作中，作者引入了最新的多聚焦光线场图像显著目标检测模型LFSamba，以强调四个主要见解：

（a）高效特征提取，其中SAM用于提取模态感知的判别特征；

（b）切片关系建模，利用Mamba捕捉多个焦平面之间的长程依赖，从而提取隐式深度线索；

（c）跨模态关系建模，利用Mamba将所有聚焦和多聚焦图像集成，实现互相增强；

（d）弱监督学习能力，从现有的像素级 Mask 数据集中开发了一个涂鸦标注数据集，建立了光线场显著目标检测的第一个涂鸦监督 Baseline 。

https://github.com/liuzywen/LFScribble，

I Introduction

光场（LF）相机[1]在立体摄影、虚拟现实和机器人视觉应用中起着重要作用，因为它们可以通过多视图和多焦距图像重建3D场景。多视图图像[2, 3]反映了物体的全景视图，有效解决了遮挡问题，而多焦图像[4]感知物体的空间上下文，有利于前景目标的分割和背景。图1呈现了多焦图像的示例，通常包括一些不同深度 Level 的焦点切片和一个通过照片拼贴技术从所有焦点切片合成的全焦点图像。每个焦点切片以异步方式关注不同的深度位置并模糊其他切片，而全焦点图像同时描绘了场景的全貌并忽略了物体的景深。

picture.image

显著目标检测（SOD）在多焦点图像中可以从所有焦片和所有焦点图像中提取吸引人的物体。与目前占主导地位的方法不同，该方法通过在所有焦点图像上仅使用 Adapter [6]微调Segment Anything Model（SAM）[5]，作者的方法通过感知多焦点图像中嵌入的深度信息来定位正确的显著物体，如图1所示。本文将阐述在多焦点长时图像（LF）中SOD任务的三种关键视角。

特征提取能力：检测吸引观察者的显著物体需要一个高度有效的特征提取器。近年来， Transformer 编码器在卷积编码器之上取得了优越性能[7]。基于 Transformer 框架的长程依赖性和大量训练样本，SAM已广泛用于编码特征，显示出区分优势。然而，在LF SOD任务中，需要编码多个焦平面切片以及全焦图像。为了降低计算成本并增强特征区分，使用了一组微调 Adapter 的冻结SAM编码器来编码焦平面切片特征和全焦特征。

融合能力： 光场融合包括不同焦片的融合以及焦点切片与全焦点图像的融合。前者是相同模态下的图像序列融合，后者是多模态融合。因为Mamba可以模拟长序列数据中的长期依赖关系[8]，所以被用于处理焦点切片的序列，从中提取场景的隐式空间结构信息。此外，还设计了一种跨模态的Mamba，以实现多模态融合，突出共性并抑制冗余。

弱监督学习能力：标注对于深度学习模型从输入到输出的潜在映射学习至关重要。现有方法通过密集标注在高劳动成本下训练LF SOD模型。为了消除 Token 负担，构建并利用了涂鸦标注数据集和弱监督学习方法。图1的最后一行给出了使用稀疏涂鸦指示前景的标注示例[9]。

II Method

Model pipeline

提出的LFSamba是一个基于SAM的两流编码器-解码器框架。在编码器部分，使用共享并冻结的SAM编码器，并使用微调的 Adapter 分别提取焦点切片特征和全焦点特征。提出了一个切片间Mamba，用于在不同深度 Level 集成所有焦点切片特征。此外，还提出了一种跨模态Mamba，用于将不同模态的焦点切片特征和全焦点特征进行融合。最后，将融合特征输入到SAM解码器以输出显著图。全监督模型使用像素级 GT 的监督进行训练，而弱监督模型使用作者构建的涂鸦标注进行监督。整个架构如图2所示。

picture.image

Feature extraction by large model SAM

近年来，大型模型SAM被提出以实现无类别分割任务。然而，SAM的零样本学习能力在LF SOD任务上并不足够强大以适应。因此，使用 Adapter 微调SAM是从光场图像中提取特征的另一种方法。

设计。给定全聚焦图像和其对应的焦平面堆叠 , 采用具有 +1 组微调 Adapter 的 SAM 编码器生成全聚焦特征和焦平面特征。

是一个冻结的SAM编码器，其中包含第组的 Adapter ，下标是全聚焦指示器，而是聚焦切片指示器。每组 Adapter 包括一个位置 Adapter 和一些特征 Adapter 。位置 Adapter 是一个最大池化操作后 followed a 卷积操作，其核大小为3x3，作用于位置嵌入。它负责使模型适应具有较小尺寸（256x256）的输入，而不是SAM（1024x1024）中使用的原始尺寸，旨在降低计算成本。特征 Adapter 是一个 Bottleneck 结构，它包括一个下投影层，一个ReLU层，一个上投影层，与SAM编码器中的纯 Transformer 块中的多层感知机（MLP）层并行。它负责提取模态感知的全聚焦特征和焦点切片特征。

Feature integration within slices via inter-slice mamba

动机：多焦点图像包括一组焦点切片，这些切片显示了相似的外观和不同的聚焦区域。为了整合所有焦点切片，许多技术已被应用。MEANet [10] 在输入层进行了 ConCat 操作，忽略了切片之间的相关性。SA-Net [11]，DLGLRG [12]，和LFTransNet [13] 分别使用了3D卷积、图网络和 transformer。然而，这些方法消耗了大量的计算开销。LFNet [14]，MoLF [15]，ERNet [16]，和 NoiseLF [17] 采用了卷积LSTM [18] 逐层学习空间结构，但局部卷积性质使其在捕捉焦点切片之间的长程依赖性方面效果较差。

最近，Mamba [8] 源于状态空间模型（SSMs）[19]，得益于其能够模拟长序列的能力，从而实现了全局感受野与线性复杂度的结合。视觉Mamba [20] 将SSM与双向扫描相结合，使得每个patch都与另一个相关。同时，VMamba [21] 在提出的二维选择性扫描（SS2D）中，扩展了四个方向的扫描。为了在焦点切片层挖掘潜在信息，采用了SS2D将所有焦点切片集成起来。

如图3(a)所示，将焦点切片特征分别输入线性投影（Linear）、深度卷积（DWConv）和SiLU激活层。

picture.image

然后，Focal SS2D (FSS2D) 旨在模拟所有聚焦切片之间的长期依赖关系。

接下来，在每个切片特征中依次遵循层归一化（LN）、乘性分支和残差连接，其中。

最后，所有感兴趣的切片特征通过连接和平均池化操作进行集成。

具体而言，在图3（b）中的FSS2D中，所有焦点切片特征{P_k} _ {k=1}^{K}被分割成长度为L的子块，然后在第二维度上连接起来，以获得一个集成特征，其大小为K×L。然后，该集成特征沿四个方向（从左上角到右下角，从右上角到左下角，按行和列的顺序）依次展开。每个子块序列被输入到单独的S6块[8]中，以在不同方向上提取多焦点信息。最后，这四个序列被反向到原始特征大小。通过FSS2D，切片内的和切片间的信息都进行正向和反向扫描，从而每个像素都通过集成切片内和不同位置切片相同位置的其他像素的信息进行增强。特征的感受野得到有效扩大，以强调重要信息并抑制焦点切片中的冗余信息。

Feature fusion between focal slices and all-focus via Inter-Modal Mamba

动机. 全聚焦图像强调场景的整体外观，而焦平面切片则关注不同深度区域的细节，同时模糊其他区域。双模态特征已被证明是互补的[13]。Mamba通过引入数据相关的参数(, , )构建了图像内的全局感受野。在双模态特征方面，交换某些参数有助于相互指导，因此提出了Slices-To-All SS2D和反转的全聚焦切片SS2D。

设计。如图4（a）中流的中部所示，全聚焦特征和聚焦切片特征最初是 ConCat 并卷积，以获得基本融合特征。

picture.image

然后，基本的融合特征依次输入到线性层、DWConv、SiLU和SS2D层，接着是一个LN和一个线性层。

接下来，针对所有聚焦和焦片特征（如图4（a）上部和下部的流），应用切片到所有（S2A）和反向所有到切片（A2S）的SS2D，以实现互指导互补。

最后，通过连接操作后附加的残差连接，三个特征被融合。

具体来说，在S2A和A2S SS2D中，如图3（b）所示，进行了两步SS2D。第一步，将输出矩阵和交换，以引入输出矩阵中其他模态的指导。第二步，将第一步的输出和视为输入。为了全面交互两个模态之间的信息，和进行交换，实质上切换了两个模态之间的输入指标、输出指标和状态转换矩阵，从而鼓励更深层次的集成。

Decoding and supervision

上面的融合特征最后被输入到SAM解码器中，以生成显著图。

在全监督方法中，采用了[22]中的加权二元交叉熵损失和加权IoU损失。在弱监督方法中，使用了部分交叉熵损失、局部显著性相干损失和[23]中的平滑性损失。

III Experiments

Datasets

LF SOD 数据集包括 LFSD[24], HFUT-Lytro[25], 和 DUTLF-FS[26]。训练样本包括 DUTLF-FS 的 1,000 个样本和 HFUT-Lytro 的 100 个样本，其余部分用于测试。涂鸦标注是通过使用 MATLAB 提供的 Image Labeler 工具手动绘制前景和背景涂鸦来创建的。

Comparison with State-of-the-art Methods

在NVIDIA RTX 4090 GPU上进行了两种不同监督设置的比较实验。实验设置遵循LFTransNet [13]。表1的顶部显示了与15个全监督方法的定量比较。LFSamba在所有全监督竞争者中取得了显著的优势。这归功于采用SAM并经过微调的 Adapter 的好特征提取器，应用了Inter-Slice Mamba的有效对切片特征集成方法，以及使用了Inter-Modal Mamba的最优多模态融合方法。此外，图5中的PR曲线进一步证实了LFSamba的优势，其曲线接近右上角。

picture.image

表1的底部展示了与6种弱监督方法进行的定量比较。作者的方法使用稀疏涂鸦标注。与其他弱监督方法相比，作者的方法保持了出色的水平。三个数据集上的平均MAE值减少了31%。

Ablation studies

表2展示了所有组件的贡献。具有 Adapter 的SAM在改进性能方面发挥了重要作用。第一行评估指标已经超越了大多数现有方法。同时，Inter-Slice Mamba和Inter-Modal Mamba共同工作，有效地提升了指标，实现了最先进的性能。此外，为了验证Mambas的作用，使用Concatenation、ConvLSTM和Transformer的结果如图6所示。三个数据集上的MAE平均降幅达到14%，证实了Mamba的效果。表3比较了计算成本。ConvLSTM是一种高成本的方法，而Concatenation是最便宜的。与Transformer相比，Mamba具有较低的时间复杂度。图6给出了特征图可视化。与、和与相比，Inter-Slice Mamba在融合关注切片方面的优势明显，从物体轮廓可以看出。互补的全焦特征和关注切片特征通过Inter-Modal Mamba结合，创建了最优融合特征。

picture.image

IV Conclusions

提出了一个轻场显著目标检测模型LFSamba。它引入SAM来提取区分性特征，使用Mamba来建模焦平面之间的长距离依赖关系，并交互全焦和多焦特征，最后提供了一个涂鸦监督的基线。

LFSamba在性能上取得了显著的提升。

该模型需要大量的计算成本，凸显了未来需要轻量级版本的需求。

参考文献

[0]. LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection.

点击上方卡片，关注「AI视界引擎」公众号

SAM 与 Mamba 的结合：LFSamba 模型在显著目标检测中的突破 ！

I Introduction

II Method

III Experiments

IV Conclusions