超分辨率+多尺度黑科技!YOLO-MST让红外小目标无处遁形 !

向量数据库大模型机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

随着航空航天技术的进步和军事应用需求的增加,低虚警率和高精度红外小目标检测算法的开发已成为全球研究的关键焦点。

然而,在处理噪声、目标大小和对比度等特征时,传统的基于模型的驱动方法稳健性不足。现有的深度学习方法在提取和融合关键特征方面能力有限,难以在复杂背景和目标特征不明显的情况下实现高精度检测。

为了解决这些问题,本文提出了一种结合图像超分辨率技术与多尺度观测的深度学习红外小目标检测方法。首先,对输入的红外图像进行预处理,使用超分辨率技术并进行多项数据增强。

其次,基于YOLOv5模型,作者提出了一种新的深度学习网络,命名为YOLO-MST。该网络包括将 Backbone 网络中的SPPF模块替换为自设计的MSFA模块,优化 Neck 结构,并在预测 Head 添加一个多尺度动态检测 Head 。

通过动态融合不同尺度的特征,检测 Head 能够更好地适应复杂场景。

该方法在两个公开数据集SIRST和IRIS上的

检测率分别达到了

,更有效地解决了漏检、误报和低精度检测的问题。

  1. 引言

红外遥感技术取得了显著进步,广泛应用于军事、民用和公共安全领域。在军事领域,它支持夜间船舶检查[1]和早期预警系统[2]等任务。民用应用包括灾害预警[3]、作物监测[4]和设备故障检测[5]。在公共安全方面,它通过高效定位被困行人并减少伤亡,增强了灾害救援工作[6]。此外,基于深度学习的目标检测技术在多个领域得到广泛应用,包括水下图像分析[7]、[8]、雷达检测、抗干扰系统和极化成像。与可见光不同,红外辐射因其高穿透力和温度敏感性,在低光和恶劣天气条件下表现出色[9],这使得它在各种场景下的小型目标检测变得不可或缺。

红外小目标,因其低对比度、弱信号和小尺寸[10]等特点,在与复杂背景(如云层、波浪、建筑物)的交互作用中,面临着显著的检测挑战。弱信号常常被背景噪声所掩盖,从而降低了检测的灵敏度。提高算法区分目标与背景的能力、增强噪声鲁棒性以及提高检测准确度,始终是红外小目标检测研究中的关键焦点。

为了解决这些问题,本文提出了一种基于YOLOv5的红外小目标检测(ISOD)方法,命名为YOLO-MST。具体来说,在将红外图像输入检测网络之前,采用了一种名为ESRGAN [11]的超分辨率模型对图像进行预处理,从而提高了网络的检测精度。此外,为了解决由于小目标过采样引起的特征损失 [12],作者设计了一个多尺度特征聚合(MSFA)模块,用以替换 Backbone 网络中的空间金字塔池化(SPPF)模块,通过多尺度观察实现更丰富的特征提取,从而减少误报。此外,作者在 Neck 添加了卷积操作,并删除了大型目标输出部分,使得模型能更加专注于小目标检测,降低干扰。然后,在预测 Head ,作者引入了DyHead检测 Head [13],它通过动态特征融合解决了红外图像中小目标检测的挑战。这种方法特别适用于涉及复杂背景或严重干扰的场景,显著提高了模型的准确性和稳定性。最后,作者通过与其他SOTA方法的比较,验证了所提出的YOLO-MST方法的有效性。

本文的主要贡献包括:

  1. 在将红外图像输入到所提出的检测网络YOLO-MST之前,采用ESRGAN [11](超分辨率重建)对输入图像进行预处理,有效提升了红外图像中目标特征的分辨率和细节,从而显著提高了模型的检测精度。
  2. 在主干网络中,作者设计了一个多尺度特征分析(MSFA)模块来替代原有的空间金字塔池化(SPPF)模块,通过三个具有不同扩张率的空洞卷积来捕捉红外图像的多尺度特征信息,最终进行加权融合以理解图像的多尺度特征。
  3. 在 Neck 结构中,作者移除了大目标检测的输出部分,并在两个输出之间增加了一层卷积层(Conv),以优化模型 Neck 的结构,从而使模型能够更加专注于小目标检测。
  4. 在预测 Head ,作者加入了DyHead [13] 检测 Head 。它包含三个模块:尺度注意力、空间注意力和任务注意力。根据语义重要性融合不同尺度的特征,然后利用可变形卷积专注于物体的形状并增强特征提取。最后,通过动态切换特征通道以适应不同任务的需求。

实验结果表明,在两个公开数据集SIRST和IRIS上,YOLO-MST的mAP(平均精度)检测率分别达到96.4%和99.5%。与现有的最先进目标检测方法相比,YOLO-MST表现良好。

传统的目标检测方法包括滤波、人眼视觉系统(HVS)和低秩表示。其中,基于滤波的方法包括顶帽滤波[14]、最大中值和最大均值滤波[15]、空间域高通滤波方法[16]、双边滤波方法[17]、二维最小均方滤波方法[18]、小波变换方法[19]等。然而,这些方法受平滑且缓慢变化的背景限制。它们对目标尺寸变化不够鲁棒,只能抑制均匀的背景杂波,却无法消除复杂的背景噪声。

B. 基于深度学习的方法

根据不同的处理范式,这些方法可以分为基于检测的方法和基于分割的方法。基于检测的方法主要分为两阶段算法和单阶段算法。两阶段算法包括R-CNN[20]、FAST R-CNN[21]和Faster R-CNN[22]。单阶段算法包括单次多帧检测器[23]、RetinaNet[24]和YOLO系列。刘等人[25]首次引入了卷积神经网络(CNN),并利用CNN生成具有可控信噪比的红外目标样本,但他们检测的目标并非自然环境中的真实目标。在YOLO出现之前,主流的目标检测方法是通过不同尺寸的滑动窗口逐个遍历原始图像的各个部分,以确定分类器检测到的区域是否包含目标。尽管这种方法逻辑清晰,但由于它需要在图像的每个位置进行计算,因此速度极慢。

为了高效解决这些问题,Redmond等人[26]于2016年提出了一种名为YOLO(You Only Look Once)的端到端目标检测网络。这种方法通过将传统的滑动窗口方法替换为单一的回归过程,一次性分析整个图像,从而彻底改变了目标检测技术。YOLO可以显著减少目标检测所需的时间,并在准确性方面表现良好。随着YOLOv1的推出,单阶段目标检测方法逐渐受到关注。YOLO网络随后发布了多个更新版本,从1.0到10.0[27]-[32]。这些版本的持续发展结合了检测精度、检测速度和网络规模等因素,丰富了YOLO系列模型的应用。YOLOv5被认为是过去两年中最先进的红外小目标深度学习网络,尤其是在传统数据集上。Mou等人[33]设计了YOLO-FR网络,该网络专注于红外小目标检测。Ronghao Li等人[34]提出了一种基于超分辨率和深度学习的视频目标检测方法,命名为YOLOSR-IST,并引入了Swin Transformer Block来替换网络C3模块中的 Bottleneck 层。2024年,Hao等人[35]提出了YOLO-SR模型,该模型引入了BTB和C3-Neck模块。与当前先进的IsOD方法相比,这种方法更有效地解决了漏检和误报的问题。同时,这些研究成果丰富了YOLO系列模型的应用场景,为弱红外小目标检测任务提供了更多选择。

基于分割的方法

语义分割是将图像中的每个像素分配到特定的类别。其目标是进行像素 Level 的分类,即属于同一类别的像素被赋予相同的标签。输入特征通过编码和解码操作进行处理,这些操作压缩和扩展信息。这个过程使得模型能够输出目标的位置和尺度信息。鉴于目标和其周围环境之间存在巨大差异,王等人[36]提出了MDvsFA,一个新的红外小目标分割框架,该框架采用生成对抗网络(GAN)范式将目标分割问题分解为漏检和误报之间的平衡。类似地,吴X等人[37]提出了一种简单有效的“U-Net在U-Net”框架,称为UIU-Net,通过将较小的U-Net嵌入到较大的U-Net主干网络中,实现了目标的多级和多尺度表示学习。

此外,戴等人[38]提出了一种典型的数据集SITEMAP,并设计了一种不对称上下文调制模块(ACM),专门用于红外小目标检测,以补充自下而上的调制通道。任D等人[39]提出了一种密集嵌套注意力网络(DNANet),通过一种新的连接路径拓扑结构直接从模糊图像恢复清晰图像。2024年,徐等人[40]提出了一种单分支实时分割网络SCTransNet,该网络利用Transformer对CNN的语义信息进行对齐。这种方法保留了轻量级网络的快速推理能力,同时受益于Transformer网络的高精度。此外,SCTransNet引入了SIAM模块,该模块有效地对齐特征,从而提高了性能。这些方法扩展了弱红外小目标检测领域中语义分割的方法。

图1:所提方法的工作原理概述。

picture.image

基于注意力的方法

视觉 Transformer (ViT)通过将图像分割成固定大小的块,并将这些块作为序列输入到 Transformer 模型中,有效地执行全局图像建模。Zhu X 等人 [41] 提出了一种相对较新的目标检测框架,称为检测 Transformer (DETR),这是第一个专门用于目标检测的 Transformer 。

DETR 的核心概念是将目标检测任务视为一个集合预测问题,并通过编码器-解码器架构的 Transformer 模型来实施。这种方法有效地避免了传统目标检测方法所依赖的后处理步骤,如非最大抑制(NMS)和 Anchor 框,从而简化了检测过程,提高了模型的整体效率和准确性。2021年,Liu z 等人 [42] 提出了Swin Transformer ,这是一种基于检测 Transformer 和分层 Transformer 的变体。其表示是通过位移窗口机制计算的,该机制赋予 Transformer 层次结构,使其能够捕获类似于卷积神经网络(CNNs)的多尺度特征。

这种层次化框架允许在不同尺度上灵活建模,同时保持与图像大小的线性计算复杂度。张等人 [43] 提出了一种基于多尺度特征融合的全局注意力网络(GANet),该网络使用 Transformer 注意力模块和自适应非对称融合模块来检测红外小目标。实验表明,该方法在红外小目标数据集上具有高检测准确率和低误报率。

第三章:方法学

为了在检测任务中平衡速度和准确性,采用了单阶段YOLOv5网络作为基础框架。图1展示了所提出方法的概述,其中3.2节详细描述了YOLO-MST检测网络。该网络包括三个子模块,分别对应3.2.2-3.2.4节。

在数据预处理阶段,作者对输入图像应用数据增强技术以扩展数据集。此外,使用Real-ESRGAN模型[11]显著提升图像的分辨率和清晰度。为了减少检测结果中的漏检和误报,作者将 Backbone 网络中的SPPF模块替换为MSFA模块,从而在复杂背景下提升了特征提取能力和模型运行效率。在特征融合过程中,作者优化了网络模型,使模型能更加专注于小型红外目标的检测,并在预测头中引入DyHead模块,以提升模型目标检测Head的表达能力。

红外传感器的设计和制造限制导致其空间分辨率低于可见光传感器,从而使得红外图像分辨率降低,难以获得高质量、高分辨率图像。

此外,卷积神经网络中的多次下采样操作进一步加剧了这一问题,因为它们会进一步降低图像分辨率,并增加丢失关键特征信息的风险,尤其是在检测小目标时。为了解决这个问题,利用超分辨率技术扩大小目标的像素分辨率在提高特征提取方面发挥着关键作用。2021年,王X等[11]提出了Real-ESRGAN,该技术能够恢复具有相对较高信噪比的图像。Real-ESRGAN不仅有效地增强了图像分辨率,而且在超分辨率过程中还保留了小目标的高频细节。本研究中使用的Real-ESRGAN版本基于具有光谱归一化的U-Net判别器,缩放因子设置为4。训练后的模型可以将图像分辨率提高4倍,显著提高了图像的清晰度和细节保真度。

B. YOLO-MST检测网络

考虑到红外小目标检测任务对速度和准确性的要求,作者采用了一阶段深度学习算法YOLOv5网络作为基本框架,主要包括 Backbone 网络、 Neck 网络和预测 Head 。

针对红外小目标的特点,作者对网络的三个部分进行了改进,并提出了一个检测网络YOLO-MST,如图2所示。在 Backbone 网络部分,作者采用了MSFA模块替代了SPPF模块,在 Neck 网络部分优化了网络结构,并在预测 Head 加入了DyHead检测 Head [13]。

picture.image

图2:YOLO-MST检测网络。

使用MSFA替换SPPF作为 Backbone 网络:MSFA模块的主要架构借鉴了CAM模块[44]和SPP模块[45]的思路,并基于红外数据集的特性进行设计。MSFA网络结合了上下文信息增强与特征细化技术,采用多尺度扩张卷积实现特征融合,并自上而下逐层将其注入到特征金字塔网络中。这种方法不仅有效提升了微小目标的特征提取能力,而且弥合了各层之间的语义差异,从而提供了更丰富的上下文信息。

该设计特别适用于红外小目标检测任务。此外,多尺度信息融合策略有助于增强模型对不同尺寸和形状目标的适应性,并提高不同尺度微小目标的识别能力。MSFA模块的计算公式如下:公式(1),MSFA模块的算法框架如图3所示。

picture.image

是由三个卷积层组成的组合,具体表示为:

式(1)中,

代表卷积操作,而

分别表示对输入特征图

进行的前三个卷积操作。

代表使用

Kernel 的卷积操作。

分别代表扩张率为1、3和5的扩张卷积。

分别是MSFA模块的输入和输出特征。

优化 Neck 结构:将用于大目标检测的输出组件从 Neck 移除,并在两个输出之间插入一个额外的卷积层。这种修改优化了模型的 Neck 结构,使其能更好地专注于小目标检测。

YOLOv5模型中的 Neck 组件针对小、中、大目标分别产生三个输出。然而,大目标输出可能会干扰小目标输出[12]。为了解决这个问题,作者对 Neck 组件的网络结构进行了优化。 Neck 组件的原始结构如图4右侧所示。具体的优化措施包括移除原始的21层卷积层、22层拼接层和23层C3模块,以及网络第17层和第20层输出的后续部分,并增加一个卷积层以进行更深入的特征提取和处理。优化后的 Neck 组件网络结构如图4左侧所示,这确保了更有效的融合和输出图3:带有MSFA模块的特征融合过程。

picture.image

图4:优化前后 Neck 网络结构的对比:左侧表示原始结构,右侧展示改进后的版本。

在目标检测网络结束时,预测头通过先验框进行回归并预测目标。然而,这种方法通常忽略了小目标与其周围环境之间的特征关系,限制了网络对图像的整体理解。此外,缺乏多尺度特征阻碍了网络捕捉重要细节的能力,尤其是在处理不同大小的目标时,导致检测性能下降。这一限制影响了YOLOv5在复杂红外环境中的鲁棒性。为了解决这些挑战并提高网络的环境感知能力——特别是在捕捉多尺度信息方面——作者引入了DyHead,这是一种具有注意力机制的多尺度预测头。DyHead的示意图如图5所示。

picture.image

图5:DyHead结构图。

给定一个特征张量

,注意力函数被转换为三个连续的注意力,每个注意力只关注一个视角:

在本文中,

分别表示应用于维度

的三个不同的注意力函数。其中,

是尺度感知注意力函数,

是空间感知注意力函数,

是任务感知注意力函数。函数表达式如下(公式2-4)。

在此,函数

由一个

卷积层进行线性近似,

为hardsigmoid函数。

K表示系数采样点的数量,

是通过自我学习到的空间偏移量

移动的位置,以聚焦于判别区域,而

是在位置

处自我学习到的权重标量。这两个参数均从F的中值层输入特征中学习得到。

通道的特征切片为

的情况下,

是一个学习控制激活阈值的超函数。

的实现:首先在

维度上进行全局平均池化操作以降低维度,然后使用两个全连接层和一个归一化层,最后应用平移的Sigmoid函数将输出归一化到[-1, 1]区间。最后,由于上述三个注意力机制是顺序应用的,作者可以多次嵌套方程(2),以有效地堆叠多个

块。

第四部分:实验结果
数据集准备

为了评估该方法在不同尺度上检测红外小目标的有效性,本研究选择了两个公开可用的红外小目标数据集。这两个数据集分别是用于飞机小目标检测与跟踪的红外图像序列数据集(IRIS)[46]和单帧红外小目标数据集(SIRST)[38]。

IRIS数据集涵盖了多种跟踪挑战,包括尺度变化、形变、快速运动、运动模糊、背景杂乱和低分辨率。每张图像的分辨率为256×256像素。然而,原始数据集使用电气标注方法进行标注,不适合用于深度学习训练。为了解决这个问题,使用LABELIMG软件手动标注了1,697张图像,并添加了高质量的y标签,使其能够用于深度学习模型。该数据集按照6:2:2的比例分为训练集、验证集和测试集,总共包含1,738个目标,每个目标占据图像面积的约0.12%。

在SIRST数据集中,90%的图像只有一个目标,10%的图像有多个目标;目标区域的55%所占比例不到0.02%(即在300 300的图像中,目标像素为3 3)。SIRST采用了边界框标注方法,包括总计427张红外图像和480个目标。该数据集被随机分为训练:验证:测试 = 3:1:1。

B.1 实验细节

所有实验均在英特尔Xeon Gold 5218 CPU、Linux操作系统以及24.0 GB的RAM上进行。所使用的所有深度学习模型均基于Torch框架。用于加速训练的GPU显卡为NVIDIA GeForce GTX 3090 Ti,CUDA版本为12.1。

不同超分辨率预处理方法的示例:a) 原始图像,b) IERN [47],c) SRResNet [48],d) ESRGAN [将ESRGAN网络应用于所有红外图像数据以实现超分辨率。使用红外图像重新训练ESRGAN,生成新的超分辨率图像,用于后续模型训练和测试。三种超分辨率方法的实验结果如图6所示。采用平滑常数为0.9的Adam优化器来优化均方误差(MSE)损失函数。训练的学习率为

,学习率的迭代更新大小为

,批大小为48。参考原始图像的XML标注,作者使用LABELIMG对进行手动标注。

picture.image

测试实验在IRIS和SIRST的测试集上进行了。输入图像尺寸为

,批次大小设置为48,NMS的IoU阈值设为0.45,预测框的置信度阈值设为0.15,其他参数均设置为YOLOv5的默认值。

C.与其他先进方法的比较

该方法在两个公开数据集上进行了测试。YOLO-MST在IRIS数据集上实现了

,在SIRST数据集上实现了

。表1和表2展示了两个数据集上的测试结果对比,表3列出了各种目标检测方法在参数、模型大小、计算工作量(FLOPs)、检测精度(

)等方面的比较。这些方法包括基于深度学习的通用目标检测算法,如YOLO系列和基于CNN的方法,以及它们各自融合了注意力机制的变化版本。此外,还包括近年来为红外小目标检测开发的特殊方法,如SRResNet

YOLOSRIST-s。

picture.image

picture.image

picture.image

实验结果表明,在两个实验数据集中,YOLO-MST在基于检测范式的方法和基于分割范式的方法中均表现出良好的红外目标检测性能。具体而言,在IRIS数据集上,YOLO-MST实现了99.5%的平均精度(mAP),在各项性能指标中,其在综合检测能力方面取得了最高分,超过了其他方法,同时保持了可接受的帧率(FPS)范围。对于SIRST数据集,YOLO-MST在精确度和召回率方面均优于其他方法。这一发现表明,YOLO-MST有效降低了误报,并显著减少了漏检真实目标的情况,这是与其他比较方法常见的难题。此外,YOLO-MST在两个数据集中对不同尺度的小目标均展现了出色的检测性能,突显了其鲁棒性和适应性。

D.消融实验

表4展示了YOLO-MS表ation实验的结果(该实验基于SIRST数据集)。

picture.image

表4的结果显示,ESRGAN + YOLO-MST使原始YOLOv5-s的mAP(

)提升了27.2%,

提升了17.8%。其中,超分辨率ESRGAN是YOLOSR-IST的关键要素,它将模型的

提升了16.9%,

提升了11.9%。相比之下,仅使用超分辨率进行检测的YOLOv5-s模型的表现并不理想。首先,这一局限性源于训练数据集的规模不足。其次,YOLOv5的多尺度特征融合未能充分捕捉目标的临界空间特征,在处理过程中未能有效利用不同局部特征之间的上下文关系。此外,还缺乏有效的策略来更好地聚焦于感兴趣区域,并解决小目标过采样引起的特征损失问题。为解决这些问题,作者的解决方案包括在 Backbone 部分使用创新的MSFA模块来捕捉图像更丰富的多尺度特征信息。优化网络结构的 Neck 部分。将DyHead添加到预测 Head ,使模型更专注于物体的形状,并增强特征提取。

消融实验的结果表明,基于ESRGAN的超分辨率预处理、数据增强、 Neck 优化、MSFA模块和DyHead模块协同作用,有效提升了检测性能。每个额外改进模块都对模型mAP的渐进式提升做出了贡献,突显了这些组件在优化检测精度方面的有效性。这些发现进一步验证了本研究提出的检测方法具有稳健性和科学基础。

视觉化测试结果

图7展示了在IRIS和SIRST数据集测试集中检测到的代表性图像可视化结果。这些图像涵盖了如陆地、城市、天空、海洋以及海、陆、空过渡区域等复杂的成像背景。实验结果表明,该方法能够在复杂背景下准确识别小红外目标,且预测框的置信度较高。

picture.image

图8和图9展示了测试数据集的几个代表性图像,以可视化检测结果。实验结果表明,YOLO系列算法在漏检和误报方面存在不同程度的差异,其中一些模型的表现优于其他模型。具体来说,虽然YOLOv5、YOLOv6和其他变体达到了合理的准确率,但它们在复杂场景中仍然面临误报和漏检的挑战。相比之下,YOLO-MST成功避免了漏检和误报,在准确率、召回率和mAP

方面展现出具有竞争力的检测效果。图10展示了两个数据集的训练结果,包括验证集上两个评估指标曲线。对于IRIS数据集,YOLOSR-IST在前30个epoch内可以迅速达到收敛状态,曲线拟合效果也非常好。对于SIRsT数据集,YOLOSR-IST在预热过程后mAP曲线出现了一段时间的剧烈波动,但通过使用余弦退火算法进行持续参数优化,使得算法在300个epoch内收敛到一个稳定状态。这种收敛不仅提升了性能,还增强了模型在不同场景下的鲁棒性。

picture.image

picture.image

picture.image

摘要与结论

本文提出了一种深度学习红外小目标检测方法,该方法集成了图像超分辨率技术和多尺度观测。首先,输入的红外图像经过超分辨率预处理和多种数据增强技术。随后,作者基于YOLO模型设计了深度学习网络YOLO-MST。作者开发的MSFA模块替代了 Backbone 网络中的SPPF模块,增强了特征提取能力,并提高了模型在复杂背景下的效率。在 Neck ,作者消除了大目标检测输出,并引入了一个额外的卷积层来优化结构,使模型能够优先进行小目标检测。

此外,作者在 Head 部分加入了DyHead模块,这提高了模型的目标检测能力,同时保持了计算效率。

实验结果表明,通过提升遥感图像的质量并设计专门针对深度学习的模型,该方法在IRIS数据集上的

匹配率达到了99.5%,在SIRST数据集上的精确率和召回率分别为95.8%和91.8%。跨两个公开数据集的比较结果显示,所提出的方法在所有评估指标上都优于现有方法。

此外,该方法有效解决了当前许多检测方法中普遍存在的漏检和误报问题。在未来工作中,作者将重点关注优化整体网络架构,提高超分辨率图像处理的效率,以进一步提升性能。

参考

[1]. YOLO-MST: Multiscale deep learning method for infrared small target detection based on super-resolution and YOLO .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论