SAMamba框架:借FS-Adapter、CSI与DPCF模块突破红外小目标检测核心挑战 !

向量数据库大模型数据库

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

红外小目标检测(ISTD)对于远程监控系统至关重要,尤其在国防、海上监控和预警应用中。尽管其具有战略重要性,但ISTD仍然面临两大基本限制:目标通常仅占图像面积的不到0.15%,且难以从复杂背景中区分。虽然深度学习的最新进展显示出潜力,但现有方法在降采样过程中存在信息损失,且全局上下文建模效率低下。本文提出SAMamba,这是一个新颖的框架,通过协同集成SAM2的层次特征学习和Mamba的选择性序列建模来应对这些挑战。

作者的关键创新包括:

(1)特征选择 Adapter (FS-Adapter),通过采用双阶段选择机制实现从自然图像到红外图像的高效域适应,包括通过可学习任务嵌入进行token级选择,以及通过自适应变换进行通道级优化;

(2)跨通道状态空间交互(CSI)模块,通过选择性状态空间建模以线性复杂度实现高效全局上下文建模;

(3)细节保留上下文融合(DPCF)模块,通过可学习的融合策略自适应地融合多尺度特征,并利用门控机制平衡高分辨率和低分辨率特征的贡献。

SAMamba通过弥合域差距、保持细粒度目标细节以及高效建模长距离依赖关系,有效解决了ISTD的核心挑战。在NUAA-SIRST、IRSTD-1k和NUDT-SIRST数据集上的大量实验表明,SAMamba显著优于现有最优方法,特别是在具有异质背景和目标尺度变化的挑战性场景中。

代码可在https://github.com/zhengshuchen/SAMamba获取。

unsetunset1. 引言unsetunset

红外小目标检测(ISTD)在远程监控系统中发挥着关键作用,特别是在国防、海上监控和航空航天应用领域。以检测远距离无人机(UAV)、监控小型船舶的海上交通或识别复杂环境中的潜在空中威胁为例。这些应用依赖于准确检测红外传感器视场中仅占极小比例的目标的能力,通常在低能见度和复杂背景等挑战性条件下进行。此类传感功能正日益集成到网络化系统中,其中深度学习等领域的进步也被应用于优化无线传感器网络框架中的运行方面,如能效(Alqaraghuli and Karan, 2024)。然而,ISTD面临着源于红外成像固有特性的两大基本挑战:(1)极端尺度差异,即目标通常仅占图像面积的不到0.15%,且可区分特征极少(图1(a));(2)目标与复杂背景之间存在同质化热特征,导致信杂比异常低(图1(b))。

picture.image

ISTD方法的发展经历了几个阶段。

传统方法包括基于滤波器的方法(Zeng等人,2006),通过多种滤波操作增强局部对比度;受人类视觉系统启发的方(Chen等人,2013;Liu等人,2018),模拟生物感知机制;以及基于低秩算法的方法(Gao等人,2013;Zhang和Peng,2019;Dai和Wu,2017;Dai等人,2016;Zhang等人,2018),将图像分解为目标和背景分量。尽管这些方法奠定了重要的理论基础,但其有效性在很大程度上局限于背景相对简单的受控环境,主要原因是它们依赖于手工设计的特征以及对背景均匀性的限制性假设。

深度学习通过引入端到端可训练的架构,彻底革新了图像显著性目标检测(ISTD)。早期方法主要集中于架构创新,例如用于平衡漏检和误报的对抗性框架(Wang等人,2019)以及用于增强特征提取的非对称上下文调制(Dai等人,2021a)。更先进的方法则强调多尺度表征和上下文建模,包括将局部对比先验与深度特征融合(Dai等人,2021b)、结合双向注意力的边缘感知设计(Zhang等人,2022b)以及细节引导的特征补偿(Zhang等人,2022a)。近期方法探索了双U-Net架构(Wu等人,2023)、分层上下文融合(Xu等人,2024)以及对比形状表征学习(Lin等人,2024)。然而,这些基于卷积神经网络(CNN)的方法存在固有局限性:分层架构中常见的多次下采样步骤可能导致丢失对检测微小目标至关重要的空间信息,而卷积的局部感受野受限则限制了它们有效建模区分小目标所需的复杂空间背景中的长距离依赖关系的能力。

Segment Anything Model v2 (SAM2) (Ravi等人,2024) 和 Vision Mamba (Vim) (Zhu等人,2024) 的出现为智能目标-背景判别 (ISTD) 带来了新的机遇。SAM2通过其分层架构提供稳健的多尺度表示,这对于处理极端尺度变化至关重要。同时,Mamba实现了选择性状态空间建模,具有线性计算复杂度,能够高效建模长程依赖关系,这对于目标-背景判别至关重要。然而,直接应用这些进展存在两个关键挑战:(1) 自然图像与红外图像之间存在显著领域差异,需要谨慎的适配策略;(2) 红外小目标的独特特征——Sparse空间分布和低特征区分度——需要专门的架构设计考量。

为解决这些局限性并利用近期基础模型的潜力,作者提出了SAMamba,这是一个协同集成SAM2和Mamba用于ISTD的新型框架。yinqing-SAMamba_2505与现有解决方案存在显著差异:不同于以往基于CNN的方法在信息丢失和上下文受限方面遇到的困难,也不同于对基础模型进行简单应用而忽略特定领域需求和效率的做法,SAMamba采用了定制化的协同设计。yinqing-SAMamba_2505基于一个洞察:有效的微小目标检测需要三种互补的能力:

(1)鲁棒的领域适应和任务特定特征选择,

(2)高效的全局上下文建模以实现目标-背景区分,

(3)跨尺度的自适应信息保留。

作者通过三项关键创新实现这一目标:首先,作者引入了特征选择 Adapter (FS-Adapter),专门设计用于高效桥接自然光-红外领域差距,同时选择微小目标的显著特征,直接解决适应挑战。其次,作者设计了跨通道状态空间交互(CSI)模块,利用Mamba的选择性状态空间实现线性复杂度的全局上下文建模,解决CNN的长程依赖限制和Transformer的效率问题。第三,作者提出了细节保留上下文融合(DPCF)模块,通过可学习的融合策略自适应地融合多尺度特征,明确缓解特征聚合过程中的信息丢失。尽管SAMamba展现出显著改进,但潜在局限性包括对大型基础模型 Backbone 所需的计算资源要求,以及可能对训练数据的多样性和代表性敏感,特别是对于未见过的复杂背景类型。

作者的主要贡献可以总结如下:

  1. 作者提出了一种名为SAMamba的新型框架,用于在ISTD(小目标检测)的背景下集成层次化视觉和选择性序列建模,通过协同结合SAM2的层次化特征学习和Mamba的自适应处理,以应对小目标检测中的基本挑战。
  2. 作者提出了FS-Adapter模块,该模块通过双阶段选择机制实现高效域适应,同时保留目标特定特征,从而弥合自然图像与红外图像之间的差距。
  3. 作者设计了CSI模块,该模块利用Mamba的选择性状态空间,以实现高效且专注的全局上下文建模,特别适用于红外目标Sparse和低对比度的特性。
  4. 作者提出了DPCF模块,该模块通过可学习的融合策略自适应地结合多尺度特征,显著提高了目标相关信息的保留和整合。
  5. 通过在NUAA-SIRST、IRSTD-1k和NUDT SIRST数据集上进行的大量实验,作者证明了SAMamba在当前最先进方法上取得了显著的改进。

unsetunset2. 相关工作unsetunset

2.1. 红外小目标检测 (ISTD)

ISTD方法的发展可以通过两个主要范式进行追溯:传统的基于模型的方法和深度学习方法。

传统方法主要依赖手工特征和先验假设。基于滤波器的方法(Zeng等人,2006)通过局部对比度调整增强目标显著性,但在复杂背景下表现不佳。受人类视觉系统启发的算法(Chen等人,2013;Liu等人,2018)通过引入方向敏感性和加权局部对比度来模拟生物感知机制,在具有可区分目标场景中展现出更强的鲁棒性。基于低秩的方法(Gao等人,2013;Zhang和Peng,2019;Dai和Wu,2017;Dai等人,2016;Zhang等人,2018)通过矩阵/张量分解将图像分解为目标和背景分量,在变化背景中取得更优性能。然而,这些方法通常对背景均匀性和目标特征做出强假设,限制了它们在实际场景中的适用性。

深度学习方法通过学习特征表示显著提升了ISTD性能。早期方法侧重于通过架构创新改进特征提取,例如通过对抗学习平衡漏检和误报(Wang等人,2019年),以及采用非对称上下文调制(Dai等人,2021a)增强特征区分度。近期研究探索了传统先验与深度特征的融合,如局部对比融合(Dai等人,2021b)和边缘感知特征提取(Zhang等人,2022b)。多尺度特征学习已成为关键方向,包括细节引导特征补偿(Zhang等人,2022a)、分辨率保持监督(Wu等人,2023年)和分层上下文融合(Xu等人,2024年)等方法应对尺度变化挑战。尽管取得这些进展,基于CNN的方法在保留小目标信息和捕捉长距离依赖性方面仍存在根本性局限。

2.2. 视觉基础模型用于密集预测

近年来,视觉基础模型在密集预测任务中展现出显著潜力,SAM和Mamba代表了架构设计上的两大重要进展。

SAM及其变体:Segment Anything模型(SAM)(Kirillov等人,2023)引入了一种强大的基于ViT的编码器,该编码器已被广泛应用于视觉任务。关键进展包括基于 Adapter 的微调以进行高频特征提取(Chen等人,2023;Gao等人,2024)、时序-空间一致性学习(Hui等人,2024)以及特定领域的适配(Luo等人,2024;Cheng等人,2024)。最近的SAM2(Ravi等人,2024),采用Hiera(Ryali等人,2023)分层编码器,提供了增强的多分辨率特征提取能力。显著的应用案例展示了其在医学成像(Chen等人,2024)和多任务场景(Xiong等人,2024)中的有效性。这些进展表明分层特征学习的潜力对于小目标检测,尽管领域适配仍然具有挑战性。

基于Mamba的架构:Mamba架构(Gu和Dao,2023)通过选择性状态空间模型(SSMs)在序列建模方面实现了范式转变。其线性计算复杂度和卓越的长程依赖建模能力激发了众多视觉计算创新。视觉Mamba(ViM)(Zhu等人,2024)通过双向建模和位置嵌入将SSMs应用于高分辨率图像处理。后续研究探索了多种架构集成,包括用于医学成像的U-Net组合(Ma等人,2024;Liu等人,2024)、用于水下增强的多方向扫描(An等人,2024),以及用于目标检测的跨模态融合(Wang等人,2024)。特别与ISTD相关的是通道级处理对模型效率的影响(Wu等人,2024)以及高分辨率图像中全局上下文建模的潜力(Zhao等人,2024)。

unsetunset3. 方法unsetunset

3.1. 预备知识

Segment Anything Model v2:SAM2通过其层次化架构推进视觉基础模型,主要借助其Hiera Backbone 网络实现系统化的多尺度特征提取。给定输入图像

,Hiera生成一系列层次化特征:

其中,小变体的通道维度遵循C、E 96、192、384、768。与保持均匀分辨率的传统视觉Transformer不同,这种分层设计通过系统地降低空间维度并增加特征通道,实现了高效的多尺度表示,这对小目标检测特别有利。

视觉Mamba:视觉Mamba(ViM)通过双向扫描机制将选择性状态空间建模范式扩展到视觉任务中。给定一个输入特征图

,ViM通过状态空间变换对其进行处理:

其中,

,以及

是学习参数。

模型通过结构化核计算选择性全局卷积:

这种表述方式能够在保持捕捉长距离依赖能力的同时,实现高效的序列建模,其计算复杂度为线性。输出通过卷积计算得出:

其中,

是输入序列

的长度,

是一个结构化卷积核。该架构通过实现高效的全局上下文建模,证明了其在ISTD(小目标从复杂背景中区分)方面的特别有效性,同时避免了传统注意力机制所具有的二次复杂度,这对于区分小目标至关重要。

3.2. 概述

本节概述了所提出的SAMamba网络的整体工作流程,展示了其组件如何在U-Net架构框架内协同处理红外图像以进行小目标检测(图2)。该流程始于输入图像进入编码器,该编码器利用分层SAM2 Hiera Backbone 网络。关键地,在每个Hiera块之前,特征由作者的轻量级特征选择 Adapter (FS-Adapter)模块进行处理,实现参数高效的领域适应,并将强大的分层特征提取集中于与ISTD相关的特征。随着编码器逐步下采样特征图并生成多尺度表示,每个尺度的特征同时通过 Shortcut 。在这些连接中,

picture.image

采用跨通道状态空间交互(CSI)模块。CSI利用Vision Mamba的选择性状态空间建模,高效捕获长距离空间依赖关系,并在编码器特征传递至解码器之前增强其全局上下文感知能力。解码器随后逐步对最深层特征图进行上采样。在每个上采样阶段,特征与CSI处理后的对应上下文增强 Shortcut 特征进行融合。该融合过程由细节保留上下文融合(DPCF)模块介导,该模块自适应平衡细粒度细节(来自 Shortcut )和语义上下文(来自上采样特征)的贡献,以减少信息损失,尤其针对小目标。最终,最后一个解码器阶段的输出特征图通过分割头(通常为卷积层后接激活函数)生成最终像素级预测 Mask ,以识别红外小目标。该集成流程有效结合了分层特征学习(由编码器中的FS-Adapter适配)、高效全局上下文建模(通过 Shortcut 中的CSI实现)和细节保留融合(由解码器中的DPCF实现),以应对ISTD的核心挑战。

3.3. 特征选择 Adapter (FS-Adapter)

SAM2提供了强大的层次化表示,但将其预训练特征直接应用于ISTD时存在两个挑战:(1)自然图像与红外图像之间的领域差异,以及(2)对小型目标进行任务特定特征强调的需求。为解决这些挑战同时保持计算效率,作者提出了特征选择 Adapter (FS-Adapter),这是一个轻量级模块,插入编码器中每个层次化块(Hiera block)之前。它通过动态 Token 和通道选择实现预训练特征的定向适配,使模型专注于与ISTD相关的信息。鉴于典型ISTD数据集的相对有限规模,作者利用预训练版本SAM2 Hiera-S,并采用参数高效的微调策略。具体而言,作者冻结预训练的Hiera参数,并在每个块之前集成FS-Adapter模块。编码器在四个不同尺度上生成特征图:

i=14RH/2(i+1)×W/2(i+1)×Cii=1 4 ∈ ℝ H/2^(i+1) × W/2^(i+1) × Cᵢ

对于Hiera-S,通道维度定义为:

。FS-Adapter通过两个关键机制执行自适应特征细化:token级选择和通道级细化。对于token选择,给定输入特征

Reshape 为

,作者计算:

其中,

表示所选 Token

的第

个 Token ,

表示

的第

个 Token ,而

是一个可学习的任务嵌入,用于编码特定于ISTD的特征重要性。相似度函数

被实现为归一化的余弦相似度,以确保训练的稳定性:

s_i_m( \mathbf{a} , \mathbf{b} ) = \operatorname*{max}( 0 , \frac{ \mathbf{a} ^ { T } \mathbf{b} } { | \mathbf{a} | | \mathbf{b} | } )

这一步基于

中编码的与ISTD任务的相关性,有效重新加权每个通道的空间图

。得到的加权通道图

被重新组装成

。加权后的tokens

进行通道级细化。这涉及使用可学习矩阵

进行线性变换,从而实现通道间信息的交互与混合。结果被重新塑形回空间维度,并通过残差连接添加到原始输入特征中:

其中Conv表示1x1卷积,Reshape操作处理序列格式和空间格式之间的转换。残差连接

对于保留预训练阶段学习到的知识至关重要,同时允许 Adapter 进行特定任务的调整。这种双阶段选择机制有效地使SAM2特征适应ISTD,且训练参数极少。

3.4. 跨通道状态空间交互 (CSI)

受状态空间模型近期成功(Gu和Dao,2023)的启发,作者在CSI模块中采用了Vision Mamba(ViM)(Zhu等人,2024)架构,并将其置于 Shortcut 中,以在保持线性计算复杂度的同时有效捕获长距离依赖关系。如图3所示,CSI模块执行以下步骤:

picture.image

来自编码器 Shortcut 的输入特征图,为了与相应的解码器阶段在通道维度上对齐,会进行

卷积。然后,它会被空间展平为一个序列

。鉴于输入通道数对Mamba参数增长的影响(Wu等人,2024),作者采用通道并行处理策略。序列

沿通道维度被分为四个部分:(m')-1 E RHW。

每个段

都由一个专用的视觉Mamba(VIM)模块独立处理。该模块由用于序列建模的核心Mamba层、层归一化(LN)和一个多层感知器(MLP)组成。通过一个由可学习缩放因子

控制的缩放残差连接,以促进信息流和稳定训练。每个VIM模块的输出是

,重新塑形回空间维度

。这种并行处理缓解了参数爆炸问题,并提高了计算效率。

其中

表示 Layer Normalization,

是一个可学习的标量缩放因子。

为增强特征互补性并允许并行流之间的交互,作者引入了一种跨通道分割与重组方案(图3)。每个输出特征图

在通道维度上进一步分割为单通道图

。来自不同Mamba头

且对应相同通道索引

的通道被连接在一起,形成

个特征组

这些重组后的组沿着通道维度重新连接:

。对完全重组的特征图应用逐点

卷积,记为

(表示其可学习权重)。这一轻量级步骤有效融合了重组通道中的信息,随后进行批量归一化

和SiLU激活

。这促进了整体表示并细化特征,专注于相关信息。

\mathbf{F}\_o = \delta(B(W\_{outer}([h\_1, h\_2, ..., h\_{C/4}})))

中应用

卷积。

最后,作者利用序列通道和空间注意力机制(在原则上与CBAM(Woo等人,2018年)相似,但可能具有更简单的实现方式)来自适应调整特征重要性。输出

首先通过逐元素乘法与通道注意力图

相乘(该图由

的全局池化计算得到),然后结果再与空间注意力图

相乘(该图通过在池化后的通道信息上进行卷积计算得到)。这能够突出与目标相关的通道和空间位置,同时抑制背景噪声。

是CSI模块的最终输出,传递给解码器。

3.5. 保持细节的上下文融合(DPCF)

在ISTD中,一个关键挑战是高分辨率特征图中微小目标信息在解码器上采样过程中与低分辨率、富含上下文特征图融合时可能被稀释或丢失。为解决这一问题,作者提出了细节保留上下文融合(DPCF)模块,如图4所示,该模块用于解码器的每个阶段,用于将 Shortcut 特征与上采样的深层特征进行融合。DPCF通过一种可学习的空间自适应门控机制,动态地整合不同尺度的特征。DPCF内部的流程如下:

picture.image

来自更深解码器层的低分辨率特征图

首先使用双线性插值进行上采样,以匹配高分辨率特征图

的空间维度

(通常通过 Shortcut 来自CSI模块)。通道也对齐,如果需要,通常通过

卷积进行对齐,最终使得两张特征图都具有维度

。然后,将对齐后的特征图沿通道维度划分为四个相等的部分:

,分别表示高分辨率和低分辨率特征的段。

引入一个可学习的单个参数

。该参数在空间和通道维度上进行扩展,以匹配特征片段的形状,从而得到

。扩展后的参数通过Sigmoid函数生成每个空间位置和通道片段的门控权重

这些权重

控制低分辨率特征的贡献,而

控制每个对应片段

的高分辨率特征的贡献。自适应融合通过每个片段的加权求和进行:

其中

表示逐元素乘法,

是第

个片段的选择性聚合特征图。这使得网络能够学习,对于每个空间位置和通道组,是优先从

中获取细节信息(当

接近

时),还是从

中获取上下文信息(当

接近

时)。

自适应融合的片段

沿着通道维度重新连接,形成

。最后,一个卷积块,通常由一个

卷积

,随后接批量归一化

和ReLU或SiLU激活函数

组成,对融合特征图进行细化,为该解码器阶段生成最终输出

该机制使网络能够选择性地强调高低维特征中对小目标最具判别性的通道和空间区域,从而在最小的计算开销下实现细致、细节感知的融合。

3.6. 损失函数

作者将反卷积和卷积应用于最终DPCF模块的输出,以生成预测 Mask ,该 Mask 与真实值进行比较以计算损失。损失函数由SoftIoU损失(Rahman and Wang, 2016)、Dice损失(Milletari et al., 2016)和Focal损失(Ross and Dollar, 2017)组成:

其中,

表示真实标签,

是预测的 Mask ,

是最终的损失函数。

unsetunset4. 实验unsetunset

4.1. 实验设置

作者进行了广泛的实验,以验证SAMamba在三个具有挑战性的ISTD基准上的有效性:NUAA-SIRST(Dai等人,2021a)、IRSTD-1k(Zhang等人,2022c)和NUDT-SIRST(Li等人,2022)。

NUAA-SIRST数据集包含427张真实红外图像,其中目标通常占据不到0.1%的图像区域,背景复杂且存在大量杂波。

IRSTD-1k数据集包含来自不同操作场景的1,001张真实图像,包括海上、城市和自然环境,通过不同的背景纹理和噪声模式呈现额外的挑战。

NUDT-SIRST数据集包含1327张高质量合成图像,涵盖五种典型背景类型和多种目标类型。其中大部分(96%)为小目标(面积占比0.15%),27%为极小目标(面积占比0.01%),且许多图像呈现低亮度,模拟真实世界中的低信噪比挑战。

SAMamba是在PyTorch中实现的,并在NVIDIA RTX 3090 GPU上进行训练。所有输入图像通过动态缩放和裁剪操作以1024×1024分辨率进行处理。网络使用Adam(Kingma和Ba,2014)进行优化,初始学习率为1e-4,每100个epoch减少0.1倍。训练过程持续300个epoch,批处理大小为2。对于Hiera backbone,作者使用预训练的SAM2-S权重进行初始化,并采用作者提出的FS-Adapter进行特定领域的微调。

4.2. 评估指标

作者将ISTD视为一个语义分割任务,并使用三种互补指标评估性能:IoU(IoU)、归一化IoU(nIoU)和F1分数。

IoU(IoU)度量在语义分割中广泛应用,用于衡量预测目标区域(

)与真实目标区域(

)在像素 Level 上的重叠程度,该度量在数据集上进行聚合计算:

其中

是测试样本的数量,

是样本

的真实阳性像素数量,

是样本

的真实目标像素数量,

是样本

的预测目标像素数量。

nIoU指标(Dai等人,2021a)通过分别计算每个样本的IoU得分并取平均值来扩展IoU,这能更好地反映在目标尺寸和每张图像中目标数量不同的数据集上的性能。

此处术语按照上述方式按样本定义。

F1分数是精确率(P)和召回率(R)的调和平均值,提供了一个平衡的度量标准,特别适用于ISTD中常见的类别不平衡情况。

此处,

。 精确率和召回率通常按每张图像计算,然后进行平均。

4.3. 主要结果

如表1所示,传统方法依赖手工特征和先验假设,在所有数据集上均表现出有限性能。它们的IoU分数通常保持在41%以下,nIoU低于51%,F1分数低于74%,特别是在IRSTD-1k和NUDT-SIRST中存在的复杂背景和目标变化情况下表现不佳。这凸显了这些方法在适应多样化和具有挑战性的真实世界及合成场景中的困难。深度学习方法在各个方面均表现出显著改进,展现了学习表征的强大能力。近期架构如ISNet、UIUNet和HCFNet取得了具有竞争力的结果,在NUAA-SIRST上通常超过75%的IoU/nIoU和80%的F1分数,并在其他数据集上表现出强劲性能。例如,ISNet利用边缘感知,HCFNet采用层次化上下文融合,UIUNet使用双U-Net结构,均推动了该领域的进步。关键的是,作者提出的SAMamba在所有三个数据集和所有三个评估指标上始终达到最先进性能。在NUAA-SIRST上,SAMamba达到81.08%的IoU,79.17%的nIoU和89.55%的F1分数。在更多样化的IRSTD-1k上,它达到73.53%的IoU,68.99%的nIoU和84.75%的F1分数,与先前方法相比具有显著优势。值得注意的是,在具有极小且昏暗目标的挑战性合成数据集NUDT-SIRST上,SAMamba展现出卓越的鲁棒性,达到93.13%的IoU,93.15%的nIoU和令人印象深刻的96.44% F1分数。在不同特征(真实与合成、复杂度不同)的数据集和多样化指标上的持续优越性,突出了SAMamba设计的有效性和泛化能力,该设计协同结合了层次化特征提取(SAM2)、高效长程依赖建模(通过CSI的Mamba)、域适应(FS-Adapter)和细节保留融合(DPCF)。

picture.image

图5中的视觉比较进一步验证了这些定量结果。与先前方法相比,SAMamba展现出三个关键优势:(1)在Sparse场景中提高了目标完整性并减少了误报(图5 (a) 和 (b)),(2)对复杂背景杂乱具有较强的鲁棒性区分能力(图5 (c) 和 (d)),以及(3)增强了细粒度目标特征的保留(图5 (e) 和 (f))。这些能力直接应对了ISTD的核心挑战,即尺度变化和目标-背景对比度低。

picture.image

4.4. 消融研究

为验证作者的架构选择并理解每个组件的贡献和敏感性,作者在NUAA-SIRST数据集上进行了系统的消融研究和超参数分析。

组件贡献。表2展示了通过逐步向 Baseline U-Net架构添加每个关键组件所实现的渐进式性能提升。从 Baseline (71.20% IoU)开始,加入SAM2 Hiera-S编码器提供了显著的+4.23% IoU增益(达到75.43% IoU),证实了其层次化特征的优势。添加FS-Adapter以实现参数高效的域适应进一步提升了性能,增益+0.89% IoU(达到76.32% IoU)。在 Shortcut 中引入CSI模块产生了另一项显著增益+2.47% IoU(达到78.79% IoU),突出了其增强全局上下文建模的重要性。最后,在解码器中集成DPCF模块以实现自适应特征融合,最终提升了+2.28% IoU,达到模型性能的81.08% IoU,并强调了在融合过程中保留细节的有效性。

picture.image

架构参数研究。参数研究(图6)揭示了关于整体架构选择的关键设计见解。分辨率分析(图6(a))显示性能随着分辨率提升至1024×1024而改善,之后收益趋于平稳而计算成本显著增加。对CSI模块通道维度的分析(图6(b))表明128通道实现了特征容量和效率之间的最佳平衡。比较不同Hiera Backbone 变体(图6(c))表明Hiera-S提供最佳性能;Hiera-T稍显不足,而Hiera-L导致性能下降,这可能是由于在相对较小的ISTD数据集上过拟合,尽管使用了PEFT。

picture.image

超参数敏感性分析。为了进一步评估CSI模块和DPCF模块中设计选择的鲁棒性,作者分析了模型对关键内部超参数的敏感性。结果如表3所示。首先,作者研究了CSI模块中使用的并行Mamba头的数量对性能的影响,同时保持总通道维度固定为128。如表3(a)所示,使用4个头(作者的默认配置)获得了最佳性能(81.08% IoU)。使用较少的头(1或2)会导致性能略微下降,这可能是由于并行处理多样化通道信息的容量减少所致;而使用更多的头(8个)也会导致性能略微下降,这可能是由于碎片化或优化难度增加所致。其次,作者考察了DPCF模块中用于自适应融合的通道段数量的敏感性,如表3(b)所示。结果表明,对于2、4和8段,性能相对稳定,其中4段提供了边际最佳结果。仅使用1段(相当于在所有通道上应用相同的融合权重)会导致性能明显下降(79.35% IoU),这证实了通道分段自适应融合的优势。第三,作者将作者的自适应DPCF融合策略与更简单的固定融合方法进行了比较:高分辨率和上采样低分辨率特征的逐元素相加,以及连接后进行

卷积。自适应DPCF在两种固定策略上均表现出显著优势,证明了学习上下文感知融合权重的价值,能够动态平衡细节保留和上下文整合,如表3(c)所示。总体而言,这些分析表明,虽然性能对这些内部超参数 somewhat敏感,但作者选择的配置(CSI使用4个头,DPCF使用4段,自适应融合)得到了经验结果的充分支持,并提供了鲁棒的设计。

picture.image

4.5. 计算分析

为全面了解SAMamba的资源需求,作者分析了其计算复杂度、模型尺寸和运行时性能。作者报告了可训练参数数量、对单个1024x1024输入图像计算的FLOPs,以及在NVIDIA RTX 3090 GPU上批处理大小为1时测得的推理速度(以帧每秒FPS为单位)。表4将SAMamba与作者在消融研究中使用的 Baseline U-Net以及其他代表性深度学习方法进行了比较。

picture.image

如表4所示,SAMamba变体尽管架构复杂,但展现出高效的计算特性。Hiera-T系列变体的参数数量(28.65-29.49M)与 Baseline U-Net(31.04M)相当,而Hiera-S系列则呈现适度增加(36.34-37.18M)。值得注意的是,所有SAMamba变体的计算负载显著降低(129.73-493.82 GFLOPs),相较于 Baseline U-Net(875.80 GFLOPs)。这种效率源于参数高效的FS-Adapters的集成以及CSI模块中Mamba块的线性复杂度。

SAMamba变体:

SAMamba变体的推理速度(在RTX 3090上达到6.39-7.32 FPS)使其在红外小目标分割模型中具有竞争力,例如ISNet(7.14 FPS)和HCFNet(7.46 FPS)。尽管ACM(44.49 FPS)和FC3-Net(35.6 FPS)等轻量级架构以牺牲性能为代价提供了更快的处理速度,但SAMamba在保持合理的计算需求的同时实现了最先进的精度,有效平衡了性能提升与资源效率。Hiera Backbone 网络与选择性Mamba集成的策略组合,被证明既强大又具有计算可行性,适用于实际应用。

unsetunset5. 局限性unsetunset

尽管SAMamba表现优异,但它仍面临某些挑战性ISTD场景所固有的局限性。定性分析揭示了两个主要方面的困难:

高度复杂的背景。嵌入在复杂纹理中的目标(例如,密集的云边缘、复杂的地面杂波)可能表现出特征可辨识度降低,即使进行领域适应和全局上下文建模,也可能导致漏检(图7 (1) 和 (2))。目标与杂波之间的残差领域差距效应或根本相似的局部统计特性仍然具有挑战性。

picture.image

极低的信杂比(SCR)。信杂比异常低的目标或与均匀背景显著融合的目标接近基本检测阈值(图7 (3))。固有的信号模糊性可能导致漏检,尤其是在严格的误报约束下。

unsetunset6. 结论unsetunset

作者提出了SAMamba,一个用于红外小目标检测的新颖框架,该框架将SAM2的层次化视觉建模与Mamba的选择性状态空间序列处理相结合。通过集成FS-Adapter CSI和DPCF模块,SAMamba巧妙地解决了极端尺度差异和低信杂比的双重挑战,同时保持了计算效率。

作者在NUAA-SIRST、IRSTD-1k和NUDT-SIRST基准数据集上的广泛评估表明,SAMamba在现有方法上实现了显著的性能提升,证明了其在高要求感知任务中的有效性。未来的工作将集中于提升SAMamba的能力。

主要方向包括:利用视频数据中的时序信息通过运动分析提高鲁棒性;通过压缩技术优化模型架构,以在资源受限的硬件上高效部署;以及探索多模态传感器融合,以在更广泛的环境条件下实现更优的检测性能。

unsetunset参考unsetunset

[1]. SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论