SMPISD-MTPNet 在复杂场景中能够精确检测到小型和暗淡的目标 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

近年来，由于红外图像对恶劣天气的鲁棒性，红外船舶检测（IRSD）受到了越来越多的关注。然而，在复杂场景中可能会产生大量误报。

为了解决这些挑战，作者提出了一个基于场景语义先验的多任务感知网络（SMPISD-MTPNet），该网络包括三个阶段：场景语义提取、深度特征提取和预测。

在场景语义提取阶段，作者采用场景语义提取器（SSE）通过基于专家知识的特征引导网络。在深度特征提取阶段，作者使用一个 Backbone 网络来提取深层特征。

随后，融合网络整合这些特征，增强了对不同大小目标的检测能力。在预测阶段，作者利用多任务感知模块，包括基于梯度的模块和场景分割模块，使得在复杂场景中能够精确检测到小型和暗淡的目标。

在训练过程中，作者引入了软微调训练策略，以抑制数据增强引起的失真。

此外，由于缺乏公开可用的带场景标签的数据集，作者推出了带场景分割的红外船舶数据集（IRSDSS）。

最后，作者评估了该网络，并与现有最先进（SOTA）的方法进行了比较，表明SMPISD-MTPNet优于现有方法。

本研究的源代码和数据集可在https://github.com/greekinRoma/KMNDNet获取。

I Introduction

船舶检测对于许多民用和军事任务至关重要，如海洋资源管理、海上搜救和海岸监测。然而，场景的复杂性和多样性导致了红外船舶检测（IRSD）的准确度低和鲁棒性差。例如，云层遮挡了船舶的部分区域，使得目标无法被检测到。因此，IRSD是一个有价值且具有挑战性的研究课题。

船舶检测主要依赖于三种技术：合成孔径雷达（SAR）[1]，可见光遥感（VRS）和红外成像。与其他两种技术相比，红外成像具有良好的隐蔽性，且对光照变化不太敏感。此外，随着红外技术的发展，红外图像的质量也得到了提高。因此，基于红外图像进行船舶检测研究具有很高的价值。

IRSD面临多个挑战：

在卫星遥感中，长距离红外成像通常产生船舶的低分辨率图像，导致船舶的明显特征缺失，无法展现船舶的详细特征。
存在多种复杂场景。近岸的堤坝和类似船舶的建筑会导致误报。此外，船舶密集分布可能导致漏检。在海上，礁石、云层和长长的船尾可能会阻碍IRSD。
船舶类型繁多及其间的巨大差异对建模提出了重大挑战。
缺乏用于场景感知的红外船舶数据集，这凸显了需要为此研究创建特定的数据集。

当前检测技术主要可以分为两类：模型驱动方法和数据驱动方法。模型驱动方法依赖于专业知识。研究者们对此做出了许多贡献。例如，许多研究者依靠目标稀疏特征，应用低秩稀疏分解技术来检测小目标。朱等人[7]使用纹理和形状特征来检测舰船。然而，这些方法无法应对复杂背景[8]。与模型驱动方法不同，数据驱动方法，尤其是神经网络，在处理复杂背景方面具有更好的能力。目前许多研究采用深度网络来检测合成孔径雷达（SAR）图像中的舰船[9, 10]。大多数用于检测的神经网络基于卷积网络[11]或Transformer[12]。随着深度学习的发展，许多优秀的检测网络被提出，例如：快速区域卷积神经网络（Faster RCNN）[13]，YOLO ，单次多框检测器（SSD）[15]和Swin-Transformer[16]。这些网络主要依靠高级语义来区分目标和假警报[17]。然而，如上所述，红外舰船缺乏明显的特征。因此，现成的检测网络不适用于红外舰船检测（IRSD）。对此，一些研究者正在探索可解释的网络。

基于以上分析，作者引入了一种端到端的检测网络——场景语义先验辅助多任务感知网络（SMPISD-MTPNet）。作者的网络包含三个阶段：场景语义提取、深度特征提取和预测。在场景语义提取阶段，作者引入了场景语义提取器（SSE），它通过局部差异来识别场景，利用局部对比度来识别候选区域。在深度特征提取阶段，作者使用CSPDarkNet53[24]作为 Backbone 网络，并采用简化的特征金字塔网络（FPN）[25]来融合来自不同层的特征。在预测阶段，作者开发了多任务感知模块，包括基于梯度的模块，该模块利用梯度值来加强小目标特征，以及场景分割模块，它预测目标和场景。为了解决缺乏带场景标签的公开数据集的问题，作者开发了一个新的数据集，名为带场景分割的红外舰船数据集（IRSDSS）。此外，作者还实施了一种名为软微调的新策略，以减少数据增强引起的数据失真。本研究的主要贡献如下：

为了解决特征不明显的问题，作者引入了SSE来丰富每个像素的语义，并设计了基于梯度的模块，旨在利用背景与目标之间的差异。为了减少复杂场景中的干扰，作者在多任务感知中融入了场景分割 Head ，这使得可以精确识别各种背景，并在目标场景中有效抑制误报警。为了克服模拟多样化目标特征的挑战，作者在输入阶段采用数据增强以提升网络的泛化能力，并引入软微调这一新型训练策略，以减轻数据增强带来的失真。此外，在作者的框架中整合简化版的FPN，确保输出特征层能够有效捕捉各种目标大小的重要信息。由于带有场景标签的数据集稀缺，作者创建了一个名为IRSDSS的新数据集。据作者所知，这个数据集的独特之处在于它包含了场景标签。

本文的其余部分组织如下：第二节回顾了近年来的相关工作；第三节详细介绍了作者新创建的IRSDSS数据集；第四节概述了SMPISD-MTPNet的结构设计；第五节通过消融实验和对比实验分析了所提出网络结构的性能；最后一节，第六节总结了研究成果。

II Related Work

Model-driven Methods

基于模型的船舶检测方法主要包括三个步骤：陆地与海洋分割、候选区域识别和目标确认。

陆地与海洋分割，即将海洋区域从陆地背景图像中分离出来，可以减少复杂陆地环境对船舶检测的影响，从而提高近岸船舶检测的准确性和影响力。这一步骤主要依赖于海洋与陆地成像特征的差异进行图像分割。Wang等人[26]利用海洋与陆地之间的纹理差异[27]进行海陆分割。Zha等人[28]通过结合颜色和纹理特征，提高了简单线性迭代聚类[29]的性能，取得了改进的结果。除了陆地与海洋分割之外，Corbane等人[30]还进行了云海分割，以减少由云层引起的误报。

在目标检测中的候选区域识别涉及识别所有可能包含目标的区域，这包括实际目标和误报。Zhu等人[7]对船舶边缘特征进行建模并提取相应的区域。近年来，一些基于人类视觉系统（HVS）的方法被提出并用于船舶检测。Hou等人[36]使用邻域平均偏差（NAD）来检测感兴趣区域（ROIs）。Wang等人[37]使用局部对比度测量（LCM）进行目标提取。

目标确认依赖于ROI的特征，并消除误报。这一步骤通常包括两个阶段：特征提取和分类器。在特征提取阶段，作者使用特征提取算法获取候选区域的特征，以进行进一步分类。例如，Zhu等人[7]提取纹理和形状特征。在分类器阶段，作者通常使用上一阶段获得特征来定义哪些区域是目标。例如，Xia等人[38]使用支持向量机（SVM）来确认船舶目标。

基于模型的方法依赖于专家知识，易于解释。然而，它们无法应对复杂的背景环境。

Data-driven Methods

随着计算机的发展，越来越多的关注被投入到数据驱动方法上。这些方法主要分为两大类：基于卷积神经网络（CNN）和基于 Transformer （transformer）的网络。

基于CNN的网络主要包括两个类别：单阶段和双阶段检测网络。许多知名的单阶段网络，如Faster R-CNN [13]。此外，像SSD [15]和YOLO [14]这样的单阶段网络也表现出色。基于通用检测网络，许多研究者对这些网络进行修改，以适应各种目标的特点。例如，Chen等人[39]通过整合轻量级的膨胀卷积模块改进了YOLOV3 [40]，提高了其计算效率。

Transformer [12]最初是为自然语言处理（NLP）开发的，它依赖于自注意力机制来处理数据。在Vision Transformer (ViT) [41]被引入到检测任务后，人们逐渐开始使用ViT的结构来检测目标，例如DElection TRansformer (DETR) [42]。然而，基于 Transformer 的网络更注重全局语义，有时会忽视对于准确船舶检测至关重要的局部特征。

此外，一些研究者开发了结合CNN和 Transformer 优势的架构。

他们利用CNN捕捉局部细节的能力和 Transformer 处理全局上下文的优越性，从而提高了船舶检测的准确性[43]。

Dual-driven Methods

双驱动方法通过将专家知识与神经网络相结合来提升神经网络的性能。陈等人[31]将局部对比度引入神经网络中。韩等人[18]通过使用卷积网络预测候选区域的手动特征，提高了他们方法的准确性，有效利用这些特征来减少误报。王等人[44]开发了一个级联决策框架，该框架将基于傅里叶变换的全局光谱特征学习与来自轻量级分类网络的局部特征学习相结合，增强了网络的解析能力。基于奇异值分解的SVDNet[45]通过在模型矩阵上实施奇异值分解来优化网络效率。吴等人[21]通过卷积对小目标检测模拟鲁棒主成分分析（RPCA）[46]。在研究中，作者通过引入模型驱动的修改来优化数据驱动神经网络的性能。

III Infrared Ship Dataset with Scene Segmentation

Motation

在网络中，作者需要场景标签来帮助网络学习场景语义。然而，提供场景标签的公开数据集较为罕见。因此，作者提出了一个新的数据集（IRSDSS），它不仅包含目标的标签，还包含了陆地和云层的 Mask 。

Dataset Construction

图4：每个图像中近岸和远洋船舶的统计数据。

picture.image

图3：景色和天气多样性：（a）带尾迹的船舶；（b）内河和海洋场景；（c）多种云层；以及（d）海浪。

picture.image

图2：IRSDSS中实例的统计数据：（a）实例区域，（b）高度，以及（c）长宽比。

picture.image

作者的数据集基于Landsat8的图像，由 Operational Land Imager (OLI) 和 Thermal Infrared Sensor (TIRS) 生成。数据集中的图像大小为。作者的数据集包括1491张图像和4062个来自不同背景的目标。图像按照6:1:3的比例分为训练、验证和测试集。

picture.image

IRSDSS的特性

所提出的IRSDSS具有以下特点：

场景分割： 与传统数据标注不同，IRSDSS提供船舶标签以及陆地和云层 Mask ，如图1所示。
目标大小和长宽比： 对数据集中的红外船舶目标进行分析，长度从3.32米到85.88米（平均：15.53米），区域从16.28平方米到4780.24平方米（平均：273.36平方米），长宽比从0.25到4.20（平均：1.07），详细数据见图2。
多样化的场景： IRSDSS包括多样化和复杂的场景。例如，可以观察到船舶尾迹外观的变化，这受到入射阳光角度和海面粗糙度等因素的影响，如图3(a)所示。此外，海陆关系也呈现多样性，如图3(b)所示。近岸和远洋船舶的分布如图4所示。
多变的天气： 一些天气条件在检测船舶时会产生有害影响。有些云层的形状类似船舶，导致误报；而覆盖船舶的薄云会影响船舶的对比度，导致漏检，如图3(c)所示。此外，由风引起的海浪，如图3(d)所示，也可能被误认为是船舶，增加了误报率。作者使用不同的窗口来提取特征。下面作者将以第个窗口为例来说明特征提取过程。作者将窗口分为九个区块（），所有这些区块又被细分为目标区域（）和背景区域（），如图8所示。

picture.image

然后作者计算每个区域的平均像素值和像素值变化。公式如下：

picture.image

其中，表示中心块的平均像素值，其大小为，表示每个周围块的平均像素值，其大小为（），表示周围块与中心块之间的差值，定义为块中中心块与周围八个块之间差值的绝对平均值，可以是每个像素对应的块。以下是各公式：

公式(1)：中心块的平均像素值
公式(2)：每个周围块的平均像素值
公式(3)：中心块与周围块之间的差值
公式(4)：块中中心块与周围八个块之间差值的绝对平均值

其中，表示两个对应方向上平均差值的乘积，表示大小为的窗口对应的相似度值。为了减少每个像素结果的差异，作者采用了一种算法 ""，旨在从四个方向获得的结果中找到第二大的值。作者计算，它表示背景的变化。

随后，作者将背景变化与局部对比度结合。最终结果定义如下：

作者将不同窗口的结果合并。这里，表示基于不同窗口的结果中的最大值。

作者将对结果进行编码，以下是编码过程的定义，以使网络能够更高效地利用结果：

其中，和是编码的超参数，“mod”指的是对每个像素应用模运算，而“Concat”表示将输出和输入组合在一起。

以下是上述文本的翻译：

作者将对结果进行编码，以下是编码过程的定义，以便网络能够更有效地利用这些结果：

在这里，和作为编码的超参数，“mod”表示对每个像素执行模运算，而“Concat”指的是将输入和输出进行合并。

Backbone and Neck

图7：SSE的处理过程。基于专家知识，从原始图像中提取场景语义，进行编码，并与原始图像进行拼接。

picture.image

作者采用CSPDarknet-53作为作者的基础网络结构，该结构广泛应用于YOLOv4 [49]和YOLOv5中。此外，作者特别使用的特征图进行目标检测。作者采用简化的FPN（如图9所示）作为 Neck 结构，以增强对不同大小目标检测的能力。

picture.image

Multi-Task Perception Module

对于红外目标检测，云层和陆地常常导致误报，而小目标则经常造成漏检。为了解决高误报率问题，作者引入了场景分割方法。为了提高对小目标的检测能力并减少漏检，作者提出了基于梯度的模块。为了防止旨在抑制误报和提高召回率的模块之间的干扰，作者引入了基于解耦 Head 的多任务感知模块，该模块在检测网络中得到了广泛应用[50, 51, 52]，如图10所示。

picture.image

Iv-C1 Scene Segmentation Module

一些误报与场景有关。例如，在陆地上检测到的候选目标一定是误报。因此，场景感知对于船舶检测至关重要，因为船舶对此有很高的依赖性。除了用于分类、检测和回归的常规 Head 之外，作者还增加了一个新的 Head ，负责场景语义感知。在训练目标检测 Head 时，作者必须为预测 Head 分配正负样本。作者使用最优传输分配（OTA）[53]算法定义训练样本。训练场景语义感知 Head 同样需要正负样本。尽管IRSDSS将云层和陆地标注为负样本的独立类别，但作者将这些场景视为统一的背景类别。对于正样本，作者从SCRDet [54]和知识驱动的上下文感知网络（KCPNet）[18]中汲取灵感，生成来自数据集中标注的真实边框的 Mask 作为正样本。通过实验比较，作者观察到在将原始真实边框转换为 Mask 之前，将其从数据集中放大两倍可以显著提高性能。除了之前讨论的正负样本之外，作者将其他区域分类为未知，并将其从环境感知检测 Head 的训练中排除。在训练中创建未知区域可以提供预测冗余，增强泛化能力，并减少数据标注错误带来的负面影响。标注检测框转换为 Mask 的过程如图11所示。充分的场景感知依赖于广阔的感受野。因此，扩大感受野对于提高视觉分析能力至关重要。因此，作者引入了感受野扩展模块，如图12所示。

picture.image

Iv-C2 Gradient-based Module

一些红外船只因其小而暗淡，作者无法依赖其特征进行检测，从而导致漏检。因此，作者利用目标与背景之间的差异来检测目标。受梯度引导学习网络（GGL-Net）[55]启发，作者设计了一个基于梯度的检测模块，如图13所示。

picture.image

该模块包括两个阶段：提取和编码。作者使用梯度算子获取目标与背景之间的差异。与在梯度提取阶段依赖预定义梯度算子的传统模块不同，作者采用神经网络来学习各种梯度算子的权重。这种方法通过加权八个方向上的梯度算子组合，能够更全面、灵活地表示目标变化，如图14所示。

picture.image

然后，作者提取局部特征与其周围环境之间的差异，并使用组卷积对来自八个方向的结果进行加权与融合。

作者编码这些值并输出结果。受到注意力局部对比网络（ALCNet）[20]和MLCL [22]的启发，作者不仅通过线性编码，还通过平方编码对梯度进行编码。

总之，作者分析了假阳性和假阴性的原因。作者增加了场景分割模块作为一个附加任务来减少假阳性，并利用基于梯度的模块来降低小尺寸目标的假阴性出现频率。

Soft Fine-tuning

为了提高性能，本研究采用了数据增强技术，包括Mosaic [49]、MixUp [56]和对SSE预处理数据的仿射变换。

通常，强烈的数据增强可能会引入失真。因此，在最后的训练阶段，作者需要停止增强，以便使用准确的数据对网络进行微调，以提高适应性，这可能会抑制数据增强带来的改进。因此，作者提出了一种新的数据增强方法——软微调（Soft Fine-tuning）。以下公式定义了各个时期增强图像的比例。

其中，R表示增强图像的比例，m表示训练序列中的时期数，M表示总时期数。调整增强图像比例下降的速度。这种训练策略在保持数据增强带来的泛化能力的同时，使用实际数据输入细化网络。

Loss Function

在先前组件中，作者的网络使用图像分割进行场景感知，并采用了传统的目标预测 Head 。在引入新任务时，损失函数如下所示：

V Experiment

本节首先详细介绍了实验设置，包括实验环境、超参数设置和评估指标。在此基础上，作者对本研究中提出的网络组件进行了消融研究，以评估其功能和影响。最终，作者在IRSDSS上对所提出的SMPISD-MTPNet与其他网络进行了性能比较。

Experiment Settings

本节详尽地概述了实验细节，包括实验环境、设置以及用于评估网络性能的指标。

实验环境：本文所述的所有实验均在统一的服务器配置上进行。该服务器运行Ubuntu 20.04 LTS操作系统，配备Intel i5-13490F CPU和Nvidia RTX 4080 GPU（具有16 GB内存）。此外，SMPISD-MTPNet基于PyTorch框架。
实验设置：本研究采用的实验基础是IRSDSS数据集，包含1491张图像。以float32格式的图像进行训练，分为64批，每批16张图像。研究设计为运行150个周期，总计9600次迭代。初始学习率在前64次迭代中从0逐渐上升至0.2，之后通过CosineAnnealingLR进行调节。采用指数移动平均（EMA）方法进一步确保网络的鲁棒性。
数据增强：在本研究中，作者采用了马赛克、Mixup和仿射变换作为数据增强技术，这些技术的超参数是随机生成的，以模拟变化。确切地说，马赛克和Mixup技术动态调整图像的拉伸范围，从原始大小的0.5倍到1.5倍。同时，仿射变换包括在-64到64像素范围内平移，从-10到10度旋转以及x轴和y轴上-2到2度的斜切。整合这些数据增强丰富了训练数据多样性，提高了模块对新数据的适应性。
评估指标：作者选择了广泛认可的COCO指标，即、、、、、和作为作者的评估指标。本研究中用于计算平均精度（AP）的IoU阈值设定为0.5。

Ablation Studies

在本节中，作者通过大量的消融实验来探讨本研究中提出的各个组件和训练策略的效果。起初，作者在不使用本研究中描述的每个组件的情况下评估了主网络的性能。随后，作者实验了每个模块或训练策略对网络性能的单独影响。在此基础上，作者组合了成对或三组的模块，以观察各模块之间的相互影响。最后，作者评估了应用了本研究中描述的所有模块的网络性能。这些实验得到的结果列于表1中。图15比较了不同场景下的示例结果。

picture.image

V-B1 Effect of Scene Semantic Extraction

如表1所示，在引入场景语义提取（Net1）之后，从基准网络的90.9%提升到了91.9%。同样，Net14与最终网络（Net15）的比较也显示，在引入场景语义提取之后，几乎所有的评估指标值都有所提升。从原始的86.5%增加到了92.2%，提高了5.7%。根据表2，为了评估在网络性能研究中提出SSE的有效性，作者与传统特征提取模块进行了对比实验，如组F1、F2和F5的分析所示。从表2中的实验组F1和F5的分析可以看出，边缘特征的使用对于大目标的表现并不令人满意。将组F2与使用MPCM提取局部对比度的组F5进行比较，结果表明SSE比MPCM更有效。如前所述，SSE需要编码结果以捕捉值的最高位和最低位。在F3、F4和F5之间的比较揭示了一个事实，即单独使用值的最高位或最低位并不能有效地提升网络的性能。

picture.image

V-B2 Effect of Gradient-based Module

如表1所示，基于梯度的模块有效提升了小目标的表现。为了说明本研究提出的梯度模块的优越性，作者将其与另外两种利用梯度增强小目标检测的模块进行了比较。一种是侯等人[23]提出的可变权重卷积核（FENetwVW），它在对人工特征进行深层特征提取的基础上，有效地检测不同大小的小目标。另一种是刘等人[22]提出的多尺度局部对比度学习模块（MLCLNet），该模块在红外小目标检测中同样表现出色。实验组D1使用了梯度模块FENetwVW，D2使用了梯度模块MLCL，而D5使用了本研究提出的梯度处理模块。如表1所示，这些模块的均高于不使用梯度的Net12。

通过比较表5中D1、D2和D5的结果，作者发现D5的比D1和D2分别高出1.3%和1.5%。为了证明一阶和二阶变换的有效性，作者分别进行了D3和D4的实验，结果如表3所示。在D3中，作者使用了梯度，这使得比表1中的Net12提高了1.5%。当将D4与Net12进行比较时，作者发现单独使用二阶变换并不能显著增强网络性能。然而，结合使用一阶和二阶梯度可以提升网络性能，提高了1.1%，显示出显著的改进。

picture.image

V-B3 Effect of Scene Segmentation Module

本研究在网络中添加了一个环境感知 Head ，以执行场景语义感知。引入 Mask 模块（Net4）将提升至91.2%，并且相比于表1中的 Baseline 网络，提高了1.5%。此外，用于训练的正样本通常直接通过边界框标签转换而成。在表4中，M1采用原始边界框大小生成 Mask ，而M2和M4分别将边界框扩大3倍和2倍。保持原始框大小和将目标扩大3倍，在性能提升上并不比将目标扩大2倍更有效。作者还探讨了负样本的生成规则。如表4所示，在训练阶段将陆地和云合并为一个统一背景类别的M4组，相比于将陆地和云视为独立分类标签的M3组，在网络性能上实现了更优的提升。因此，显然将积云和陆地分别视为两个不同的负样本是不有效的。

picture.image

V-B4 Effect of Soft Fine-tuning

作者设计的软微调训练策略，旨在解决由强烈数据增强引起的失真问题。将软微调策略整合到网络训练过程中，作者成功地将从90.9%提升到92.1%，如图表1所示。进一步将本研究提出的模块与软微调训练策略结合，也提升了性能指标。例如，在图表1中，将Net3与Net8进行比较，从40.9%提升到43.3%，从91.6%提升到93.0%，从29.2%提升到34.2%。此外，图表1中采用软微调的各种网络在上也表现出从0.2%到2.6%的增长。总体而言，软微调作为一种创新的训练策略，在结合各种模块时，显示出在提升网络AP指标方面的卓越性能。在图表5中，作者进一步探讨了软微调和数据增强策略对网络检测性能的影响。图表5比较了不同的数据增强对网络检测性能的影响。比较B1、B2、B3和B4，可以看出Mixup、Mosaic和仿射变换可以提高AP值。例如，仿射变换可以将提升高达4.1%。Mixup和Mosaic分别可以将值提高5.2%和4.0%。值得注意的是，在B7和B11测试组中，AP值并未随着翻转而增加，反而减少，这说明翻转不适合船只检测。为了比较不同的训练策略对网络性能的影响，作者尝试了三种不同的增强数据训练方法。图表5中的B9、B10和B11测试组作为比较。B9组使用了训练策略，在整个训练过程中使用增强数据，并在最后几个周期使用原始数据进行微调。B10组遵循了保持增强数据与原始数据1:1比例的训练策略，并确保持续训练。B11组应用了本研究提出的软微调训练策略，在训练中使用增强图像和原始图像，并逐渐减少增强图像的比例。本研究提出的软微调与其他两种训练策略相比具有明显的优势。

Comparison With the State-of-the-Art (SOTA)

为了评估作者提出方法的性能，作者使用IRSDSS数据集将作者的网络与已建立的网络进行了比较，包括SOTAs。P-R曲线如图16所示。

picture.image

作者将作者的网络与经典网络进行了基准测试。结果表明，与传统的单阶段模型RetinaNet和SSD相比，作者的网络在上提高了多达7.6%，在上提高了13%，在上提高了9.3%。作者还与传统的两阶段检测网络，如Faster RCNN，进行了比较。作者的模型不仅显著更紧凑，而且在所有评估类别中一致地提供更高的AP值。

作者将作者的网络与最新且广泛使用的目标检测方法进行了比较。作者与YOLO系列网络进行了比较，该系列网络由于其快速的速度、高精度和紧凑的模型，在目标检测中得到了广泛应用。如表6所示，作者的网络优于领先的YOLOv5和YOLOv8，提高了1.9%，比YOLOv5在上提高了1.8%，与YOLOv8相比，显著提高了3.3%。作者还与基于最新 Transformer 的检测网络RT-DETR进行了比较。作者的方法在RT-DETR [57]上展示了改进的性能，在各种AP上的精度增益从2.2%到4.9%不等，并且存储效率更高，体积小了9.2MB。

picture.image

此外，作者还将作者的方法与当前的最优IRSD方法进行了比较。与KCPNet [18]相比，作者的网络更小且更精确，为红外图像检测与分类提供了更好的性能。

Disscusion

在梯度基础模块中，针对不同目标，每个方向的权重各不相同。然而，对于不同的目标，八个方向的重要性也有所不同。作者应该为不同的目标赋予八个方向不同的权重。因此，梯度基础模型还有进一步的改进空间。

对于场景分割模块，应当将基于 Transformer 的模块引入到网络中，因为 Transformer 能够融合并充分利用船只之间的长距离依赖关系，这对于场景感知是有益的。

在实际应用中，除了红外船舶检测（IRSD），目标分类同样重要。红外船只之间的细微差别要求作者开发出更复杂、更强大的神经网络。

VI Conclusion

为了应对复杂背景下红外船舶检测（IRSD）的挑战，作者提出了一个新的船舶检测网络：SMPISD-MTPNet。

该研究的主要贡献包括：使用SSE提取场景语义先验并指导网络、多任务感知模块以及软微调策略。作者引入了SSE，它利用红外船舶的特征和先验知识来丰富目标语义。

作者提出了多任务感知模块，将场景分割作为辅助任务，并采用基于梯度的模块以及特定梯度来增强对小而暗的红外船舶的检测。

接着，作者介绍了一种新颖的培训方法——软微调，旨在减轻数据增强引入的失真。为了提高作者方案检测能力，作者计划将不同目标和背景的红外辐射特性嵌入到深度学习框架中，从而提升IRSD的准确性。

此外，在将来，作者将把探索任务从红外船舶的检测扩展到识别。

点击上方卡片，关注「AI视界引擎」公众号