红外弱小目标检测新标杆:TDCNet在15k+真实图像数据集上刷新SOTA!

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Image

移动红外小目标检测(Moving Infrared Small Target Detection, IRSTD)在实际应用中具有关键作用,例如无人机(Unmanned Aerial Vehicles, UAVs)监视以及基于无人机的搜索系统。然而,由于目标特征微弱且背景干扰复杂,移动IRSTD仍然面临巨大挑战。准确的时空特征建模对于移动目标检测至关重要,通常通过时间差分(temporal difference)或时空卷积(3D convolution)实现。时间差分能够显式利用运动线索,但在提取空间特征方面能力有限;

而3D卷积虽能有效表征时空特征,却缺乏对时间维度上运动动态的显式感知。本文提出一种新型移动IRSTD网络(TDCNet),能够有效提取并增强时空特征,从而实现高精度目标检测。

具体而言,作者引入了一种新颖的时间差分卷积(Temporal Difference Convolution, TDC)重参化模块 ,该模块包含三个并行的TDC块,旨在捕捉不同时间范围内的上下文依赖关系。每个TDC块将时间差分与3D卷积融合为统一的时空卷积表示。

该重参化模块能够有效捕获多尺度运动上下文特征,同时抑制复杂背景中的伪运动杂波,显著提升检测性能。

此外,作者提出一种TDC引导的时空注意力机制 ,该机制在基于TDC的主干网络提取的时空特征与并行的3D主干网络提取的特征之间执行跨注意力操作。该机制建模两者之间的全局语义依赖关系,以优化当前帧的特征表示,从而引导模型更精准地聚焦于关键目标区域。

为促进全面评估,作者构建了一个新的具有挑战性的基准数据集——IRSTD-UAV ,包含15,106张真实红外图像,涵盖多样化的低信杂比(low signal-to-clutter ratio)场景和复杂背景。

在IRSTD-UAV及公开红外数据集上的大量实验表明,所提出的TDCNet在移动目标检测任务中达到了当前最优(state-of-the-art)性能。

https://github.com/IVPLaboratory/TDCNet

1 引言

运动红外小目标检测(Moving Infrared Small Target Detection, IRSTD)旨在红外图像中定位微小且暗弱的目标,通常在复杂背景和低信杂比(Signal-to-Clutter Ratio, SCR)条件下进行。该任务在众多应用场景中具有关键作用,包括无人机(Unmanned Aerial Vehicles, UAVs)的监视(Fang et al. 2022, 2023a,b, 2025;Zhang et al. 2025)以及空间监视(Du et al. 2022)。在这些场景中,目标在空间域通常尺寸极小且对比度低,极易被复杂的动态背景杂波所淹没。这些挑战常常导致漏检和误报。

为应对上述挑战,研究者提出了多种红外小目标检测方法,大致可分为两类:单帧方法(Fang et al. 2023a,b, 2025;Liu et al. 2024)和多帧方法(Chen et al. 2024;Tong et al. 2024;Zhang et al. 2025;Peng et al. 2025)。前者侧重于构建复杂的网络架构以提取空间特征,但缺乏对复杂背景中时间运动模式的建模能力,常导致漏检或误报(Fang et al. 2022;Yang et al. 2025;Zhang et al. 2024;Liu et al. 2024)。准确的时空特征建模对于运动红外小目标检测(IRSTD)至关重要。因此,后者引入多帧输入,利用时间差分建模(Wang et al. 2021;Yan et al. 2023;Xiao et al. 2023)或时空(3D)卷积(Peng et al. 2025;Li et al. 2025b)来提取时空目标特征。时间差分操作能够显式捕捉时间上下文信息,但其空间特征提取能力有限。相比之下,3D卷积能够有效表征3D特征,却缺乏对时间维度上运动动态的显式感知。这一局限性限制了其捕捉像素级帧间细微变化的能力,而这在低信噪比(low-SCR)场景下检测微弱小目标时尤为关键(Huang et al. 2024;Zhang et al. 2025;Peng et al. 2025;Li et al. 2025b)。

为克服上述局限性,本文提出一种新型的运动红外小目标检测网络(TDCNet),能够有效提取并增强时空特征,实现精准的目标检测。通常情况下,红外小目标在空间域中特征微弱,易受复杂背景干扰。然而,运动的红外小目标在时间维度上通常表现出显著的运动上下文依赖性。这一观察促使作者利用此类上下文依赖关系来抑制复杂背景干扰,并更有效地建模时空特征。在本工作中,作者引入了时间差分卷积重参化(TDCR)模块,该模块由三个并行的时间差分卷积(TDC)分支构成,分别用于建模短时、中时和长时的运动上下文依赖关系。每个TDC模块将时间差分与3D卷积融合为统一的时空卷积表示,旨在有效捕捉指定时间范围内运动上下文依赖关系。该设计使得TDC模块在增强红外小目标时空特征判别能力的同时,能够抑制背景杂波。TDCR模块在训练阶段采用多分支结构,而在推理阶段等效转换为单分支结构,从而实现高效推理。该设计使TDCR模块能够在不增加推理阶段计算开销的前提下,有效捕捉多尺度的运动上下文依赖关系,并抑制复杂背景中的伪运动杂波,显著提升检测性能。

此外,作者提出了一种TDC引导的时空注意力机制,该机制在基于TDC的主干网络提取的时空特征与并行的3D卷积主干网络提取的特征之间执行跨注意力操作。基于TDC的主干网络能够突出显著目标区域,同时抑制复杂背景的干扰。利用这一特性,所提出的机制能够有效捕捉两条特征流之间的全局语义依赖关系,并优化当前帧的时空特征表示,引导模型更准确地关注关键目标区域,从而提升检测性能。此外,作者构建了一个新的红外小目标检测基准数据集,称为IRSTD-UAV,该数据集包含15,106帧,覆盖多种无人机类型和复杂背景。在IRSTD-UAV和公开基准数据集IRDST(Sun et al. 2023)上的大量实验表明,TDCNet在低信噪比(SCR)和复杂背景条件下均取得了当前最优(SOTA)的检测性能,显著优于现有的单帧和多帧方法。

本文的贡献可总结如下:

  1. 作者提出了一种新颖的运动红外小目标检测网络(TDCNet),能够有效捕捉时空特征,同时抑制复杂背景,实现精准检测。作者首次提出TDC(Temporal Difference Convolution),将时间差分与时空卷积融合为统一的3D卷积表示,从而在指定的时间范围内有效捕捉运动上下文依赖关系。
  2. 作者提出了一种新型的TDC引导时空注意力(TDCSTA)机制,该机制建模了TDC增强特征与并行3D卷积特征之间的语义关系。该机制被用于优化当前帧中关键目标区域的表示,从而提升在复杂背景下的检测性能。

2 相关工作

2.1 运动红外小目标检测

现有的动态红外小目标检测(moving IRSTD)方法主要在如何处理空间与时间信息方面存在差异。一种广泛采用的策略是独立地在时间序列中的每一帧上应用2D卷积网络(Yan et al. 2023; Chen et al. 2024)。然而,由于缺乏帧间交互,这类方法在建模时空连续性方面能力受限。相反,时间差分(temporal difference)方法仅关注帧间强度变化以捕捉运动线索(Du et al. 2022; Yan et al. 2023),但难以提取对鲁棒检测至关重要的空间语义表征。为了有效利用空间与时间信息,近期方法要么采用分阶段的处理流程,先通过2D卷积提取空间特征,再进行时间建模(Zhang et al. 2025; Zhu et al. 2025),要么使用3D卷积联合捕获时空特征(Li et al. 2025a,b)。然而,这些方法通常在复杂背景中存在运动感知能力有限或时空上下文建模不足的问题。相比之下,作者提出TDC(Temporal Difference and Convolution)模块,将时间差分与时空卷积融合为统一的3D卷积表示,有效捕捉运动-上下文依赖关系,从而在复杂背景下实现鲁棒的动态红外小目标检测。

2.2 空间-时间上下文建模

时间差分(Temporal difference)、3D卷积(3D convolution)和基于Transformer的模型是视频分析中时空建模的基础技术,广泛应用于动作识别和视频理解等任务(Zhao, Xiong, and Lin 2018;Wang et al. 2021;Bertasius, Wang, and Torresani 2021)。时间差分通过捕捉帧间变化来突出运动线索(

and Davis 2018;Xie et al. 2023),而3D卷积则联合学习空间与时间特征(Zhou et al. 2018;Li et al. 2020)。基于Transformer的模型进一步引入时间自注意力机制(temporal self-attention),以实现长距离依赖建模(Arnab et al. 2021;Selva et al. 2023)。然而,每种方法均侧重于有限的方面:时间差分缺乏语义上下文,而3D卷积与基于Transformer的模型通常未能显式建模运动线索。在本工作中,作者提出一种统一的时空网络,通过TDCR实现多尺度运动-上下文建模,并通过TDCSTA实现时空特征增强,以实现鲁棒的运动红外目标检测。

3 所yinqin-09352_2511

3.1 整体架构

picture.image

Image

在本研究中,作者提出了一种新颖的动态红外与可见光图像目标检测网络 TDCNet,如图2所示。该网络首先引入了一个时间差分卷积(Temporal Difference Convolution, TDC)主干网络。随后,设计了一个由TDC引导的时空注意力模块,通过在三个不同的特征流上应用自注意力机制,并以TDC特征作为 Query 进行跨注意力操作,从而选择性地增强时空特征表示。最后,作者构建了一个具有挑战性的基准数据集 IRSTD-UAV,用以验证所提方法的有效性。

3.2 时间差分卷积主干网络

受STMENet(Peng et al. 2025)3D Backbone设计的启发,本文引入了TDC Backbone以提取时空上下文特征。在将帧序列输入TDC Backbone之前,先进行背景对齐(background alignment)处理,以抑制相机运动(Shen et al. 2024)。通过逐步堆叠TDCR层,早期阶段的时空上下文特征在多尺度时间范围内得到进一步优化,从而使模型能够学习到复杂红外场景中微小运动目标更具区分性的表示。

3.3 时间差分卷积重参化模块

picture.image

Image

如图3所示,作者提出了一种新颖的TDCR模块,以增强在多个时间尺度上的时空上下文特征建模能力。在训练过程中,

Wt:可学习的2D卷积核

F5 - Ft:差异特征图(1 ≤ t ≤ 4)

TDCR由三个并行分支组成:短期TDC(S-TDC)模块、中期TDC(M-TDC)模块和长期TDC(L-TDC)模块。每个分支均针对不同时间尺度的时序依赖关系进行专门设计。这些模块的输出分别通过批量归一化(batch normalization)层进行独立归一化,随后通过求和方式进行聚合。在推理阶段,作者将这三个分支重新参数化为一个统一的3D卷积(3D convolution),以简化推理流程,同时保持多尺度时序建模能力。

picture.image

Image

时间差卷积(Temporal Difference Convolution, TDC)。精确的时空特征建模对于红外序列中稳健的运动目标检测(moving IRSTD)至关重要。传统方法通常依赖于时间差运算或3D卷积。时间差通过计算帧间差异直接建模运动信息,能够提供对运动动态的强感知能力,但其空间特征表示能力较弱(Du et al. 2022)。相比之下,3D卷积能有效提取时空特征,但在复杂背景中缺乏显式的运动感知能力(Peng et al. 2025)。为融合两种方法的优势,作者提出TDC模块,将时间差与3D卷积融合为统一的时空卷积表示。具体而言,为显式捕捉帧间的运动上下文依赖关系,作者将传统的3D卷积权重

重新构造,其中

分别表示输入和输出通道数,

分别表示卷积核在时间、高度和宽度方向上的尺寸。如图4所示,以L-TDC模块为例。输入特征图

由一序列帧

构成,其中每个

。此处,

表示当前帧,而

为前序帧。L-TDC模块旨在通过计算当前帧与所有前序帧之间的差异,捕捉长期的运动上下文依赖关系。为此,将

沿时间维度分解为一组2D卷积核

,其中每个

用于建模在时间步

的帧间差异。其输出定义为:

其中,

表示卷积操作。

在数学上等价于

与时间差特征图

之间卷积的求和。然而,如图4 所示,需要特别强调的是,作者的 TDC 并未显式执行差分操作。相反,它隐式地将时间差与 3D 卷积融合为统一的时空卷积表示。该公式显式编码了当前帧与所有先前帧之间的长期时间差以及丰富的时空特征,从而捕捉长期运动上下文依赖关系。

S-TDC 和 M-TDC 的推导方式与 L-TDC 类似,各自针对不同时间尺度上的运动建模。S-TDC 块通过计算连续帧之间的差异来聚焦短期运动:

这种短期运动建模设计增强了网络对细粒度及快速变化运动模式的敏感性,能够有效捕捉连续帧之间的细微变化。同时,M-TDC模块通过计算间隔两帧的帧间差异来捕获中间阶段的运动上下文,其独特的时序范围与短时和长时建模形成互补:

该设计使网络能够捕捉中期运动上下文依赖关系,同时减轻冗余运动或噪声的影响。三个TDC模块共同作用,可在不同时间尺度上捕捉互补的时空特征,从而增强整体运动上下文建模能力。

因此,TDCR模块通过三个并行的TDC分支捕捉多尺度运动上下文依赖关系:

其中

分别为其对应的批量归一化(batch normalization)层。随后,将三个输出进行聚合,得到TDCR模块的最终输出:

多尺度TDC分支的重参化。作者首先通过参数变换将每个TDC分支内的卷积与BN操作进行融合(Kobayashi and Ye 2024):

其中

分别表示卷积核权重和偏置,

为批量归一化(Batch Normalization)的参数。利用卷积的线性特性,作者将三个TDC分支合并为一个单一的3D卷积:

由此得到的重参化TDCR模块可表示为:

该重参化方法在保持多尺度运动上下文建模优势的同时,显著降低了计算开销。此处“计算开销降低”指的是重参化后模型内部效率的提升,而非不同方法之间的横向比较。

3.4 基于TDC的时空注意力模块

如图2底部中心所示,作者提出了一种TDC引导的时空注意力(TDCSTA)模块,用于在杂乱的红外场景中优化小运动目标的特征表示。与直接融合多帧特征的传统方法不同,TDCSTA引入了三分支架构,以解耦并专门处理不同的时空线索,从而实现更结构化且高效的特征交互。具体而言,TDCSTA在从各自主干网络最后三个阶段提取的三条特征流上运行:来自TDC主干的时序差分卷积特征(TDCF

)、来自3D主干的时空特征(STF

)以及来自2D主干的 spatial 特征(SF

)。通过捕捉全局语义依赖关系并实现选择性特征交互,TDCSTA有助于模型更准确地聚焦于小目标,从而提升整体检测性能。

用于语义表达能力增强的自注意力机制。为了增强每个特征流的语义表征能力,并有效抑制无关的背景杂波,作者在每个阶段

独立地对三个特征流:

应用自注意力机制(self-attention mechanism)。作者将每个特征流

划分为不重叠的3D局部窗口,窗口大小为

,并同时采用常规窗口划分和移位窗口划分方式计算自注意力(Liu et al. 2022)。形式上,自注意力定义为:

其中

是窗口内输入 token 的线性投影,

为嵌入维度,

为相对位置偏置。作者将该机制应用于每个特征流,具体如下:

用于TDC引导的语义依赖建模的交叉注意力机制。为了显式地建模由运动感知特征引导的语义依赖关系,作者采用交叉注意力机制,其中

作为 Query (Query),

分别作为键(Key)和值(Value)。交叉注意力机制的输出为时空增强特征(Spatiotemporal Enhanced Features, STEF),定义如下:

其中,

得到,

得到,

得到。通过利用

中编码的判别性运动上下文线索,该机制能够突出显著的目标区域,同时抑制复杂的背景干扰,从而帮助模型在时空维度上聚焦于语义相关区域,有效增强语义依赖建模,并细化当前帧的时空表征。

4 实验结果与分析

4.1 数据集与评估指标

数据集。作者在两个真实的红外基准数据集上评估了yinqin-09352_2511:自构建的 IRSTD-UAV 数据集和公开的 IRDST 数据集(Sun et al. 2023)。IRSTD-UAV 数据集包含 17 个真实的红外视频序列,共 15,106 帧,具有小目标以及复杂背景(如建筑物、树木和云层)的特点。该数据集旨在解决现有数据集主要关注静态或低运动场景的局限性,为基于无人机的红外小目标检测(IRSTD)提供更真实的基准。该数据集将公开发布,以促进未来的研究。作者的数据集的更多细节见补充材料。

评估指标。在评估过程中,作者采用标准指标,包括精确率(Precision, P)、召回率(Recall, R)、

-分数(

)以及IoU(Intersection over Union, IoU)阈值为0.5时的平均精度(Average Precision at IoU=0.5,

)。实时性能以每秒帧数(Frames Per Second, FPS)衡量,而计算复杂度则通过参数量(Parameters, Params)和浮点运算次数(Floating Point Operations, FLOPs)进行评估。

4.2 实现细节

所有实验均在单张 NVIDIA RTX 3090 GPU 上进行,配备 CUDA 12.4 和 PyTorch 2.7。训练使用 Adam 优化器,学习率为 0.001,权重衰减为

。作者首先在静态图像上对 2D Backbone 进行预训练,在多帧输入上对 3D Backbone 进行预训练。随后,两者均被冻结,仅训练 TDC Backbone 与 TDCSTA 模块在视频序列上的表现。输入帧被调整为

分辨率,训练与推理时均使用连续的五帧作为输入。作者采用 IoU 损失(IoU loss)进行回归,以及二元交叉熵损失(binary cross-entropy loss)用于目标存在性(objectness)与分类任务:

对于单帧方法,作者选取 YOLO11-L(Jocher, Qiu, and Chaurasia 2024)、YOLOv12-L(Tian, Ye, and Doermann 2025)和 HyperYOLO-M(Feng et al. 2025)作为通用卷积神经网络(CNN)-based 检测器,同时包含专为红外小目标检测(IRSTD)设计的 MSHNet(Liu et al. 2024)和 PConv(YOLOv8)(Yang et al. 2025)。

对于多帧方法,作者选取了若干红外专用的 CNN-based 方法,包括 TMP(Zhu et al. 2024)、SSTNet(Chen et al. 2024)、MOCID(Zhang et al. 2025)、STMENet(Peng et al. 2025)、RFR(Ying et al. 2025)和 DTUM(Li et al. 2025b)。此外,作者还引入 SCTransNet(Yuan et al. 2024)作为基于 Transformer 的 Baseline 方法。

4.3 定量结果

picture.image

Image

如表1所示,所提出的TDCNet在IRSTD-UAV数据集上实现了P、R、

的SOTA性能,在IRDST数据集上实现了R、

的SOTA性能。TDCNet优于所有单帧方法(如MSHNet和HyperYOLO-M),后者由于缺乏时序建模,在杂乱的红外场景中表现出有限的鲁棒性。在多帧方法中,TDCNet在R、

上均取得最高值。其他方法如MOCID和SCTransNet在复杂场景中表现较差,主要由于运动建模不足以及时空表征不够优化。TDCNet实现了64.3G FLOPs的较低计算开销和15.3 FPS的合理推理速度。

4.4 定性结果

picture.image

Image

如图5所示,作者的TDCNet在IRSTD-UAV和IRDST数据集中的两个具有挑战性的红外场景下均表现出优越的检测性能。即使在存在强背景杂波(如城市结构和类似光源的干扰物)的情况下,TDCNet仍能有效突出真实的无人机目标,同时抑制误报。这是由于TDCR模块能够有效捕捉多尺度运动-上下文依赖关系,而TDCSTA则能选择性地增强与目标相关的特征,同时抑制无关的背景杂波。YOLO11-L、Hyper-YOLO-M和PConv(YOLOv8)在复杂红外场景下均表现不佳,由于缺乏时序建模和运动感知特征表示,频繁遗漏真实目标并产生误报。SCTransNet因缺乏显式的运动上下文引导,导致误报较多。尽管MOCID引入了运动上下文信息,但其无法捕捉多尺度时序依赖关系,限制了其在复杂背景中抑制杂波的能力。更多可视化结果见补充材料。

4.5 消融实验

在本节中,作者报告了消融实验。更多实验结果见附录材料。

picture.image

Image

所提出方法TDCR与TDCSTA的影响。如表2所示,TDCR与TDCSTA均能独立地在 Baseline 基础上提升性能。

picture.image

Image

具体而言,TDCR 将 P 提升至 97.61,

提升至 92.50;而 TDCSTA 将 R 提升至 95.96,

提升至 96.74。二者结合后取得更优性能,凸显了其互补优势。为更深入理解其作用机制,作者在图6 中可视化了热力图。相较于 Baseline 模型,TDCR 在目标区域产生更加集中且可区分的激活响应。在应用 TDCSTA 后,无关背景区域的激活显著抑制,进一步增强了复杂红外场景中目标的显著性。

picture.image

Image

TDC的影响。如表3所示,仅使用时序差分(Temporal Difference, TD)时,其召回率(R)和

表现受限,这是因为它仅依赖帧间强度变化,而忽略了大部分空间上下文信息。相比之下,3D卷积由于难以显式建模时序依赖关系,导致其

较低。简单地将TD与3D卷积结合虽能带来一定的性能提升,但其性能受限于单一尺度的时空上下文建模。相比之下,yinqin-09352_2511实现了更显著的性能提升,将

从89.81提升至92.50,且未引入额外的计算开销。这是由于作者提出的TDC(Temporal Difference Convolution)将时序差分与3D卷积融合为一个统一且可学习的表示,能够捕捉不同时间范围内多层次的时空上下文依赖关系。

picture.image

Image

不同时空上下文特征的影响。表4显示,在不同时间尺度上引入时空上下文特征能够带来显著的性能提升。S-TDC模块将

提升至

96.19,且

提升至 94.91,这是通过捕捉细粒度的短期时空上下文特征实现的。M-TDC 将召回率(R)提升至 95.79,

提升至 95.65。L-TDC 能够捕捉长距离依赖关系,实现

为 97.49,

为 92.35。当所有分支联合使用时,模型在所有指标上均达到最优性能,验证了多尺度时间建模能够提供互补的运动线索,这对于鲁棒的小目标检测至关重要。

picture.image

Image

TDCR中的重参化影响。根据表5,重参化将参数量从25.1M减少至

,浮点运算量(FLOPs)从67.5G降低至62.3G,同时保持了稳定的检测性能,表明在不牺牲准确率的前提下显著提升了模型效率。

picture.image

Image

TDCSTA的影响。从表6可以看出,将时序差分卷积特征(TDCF)作为Query,时空特征(STF)和空间特征(SF)作为Key和Value时,性能最佳,F₁达到96.74,AP₅₀达到92.35。若将Query替换为STF或SF,所有指标均出现明显下降,证实TDCF在TDCSTA中提供了更具区分性的引导作用,这对于复杂场景下的精确目标定位至关重要。

5 结论

本文提出了一种用于移动红外小目标检测(Moving IRSTD)的新模型TDCNet。TDCNet引入了两个关键设计:TDCR模块和TDCSTA机制。TDCR模块在不增加推理阶段计算开销的前提下,能够捕捉多尺度的时间上下文特征,同时抑制复杂背景。TDCSTA机制通过建模两个3D特征流之间的语义关系,以优化当前帧中关键目标区域的特征表示。这些组件有效增强了时空特征表达能力,使TDCNet在IRSTD-UAV和公开的IRDST数据集上均优于现有方法。

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
评论
未登录
暂无评论