双重 Backbone 网络与重新设计 Neck| YOLO-FEDER FusionNet 将通用检测与伪装目标检测相结合！

picture.image

基于图像的无人机检测主要方法通常依赖于使用通用目标检测算法，如YOLOv5。尽管这些算法在针对均匀背景下的无人机识别方面表现出色，但它们在复杂、高度纹理化的环境中往往表现不佳。

在这种情况下，无人机能够无缝地融入背景，产生伪装效果，从而严重影响检测质量。

为了解决这个问题，作者提出了一种名为YOLO-FEDER FusionNet的新型深度学习架构。与常规方法不同，YOLO-FEDER FusionNet将通用目标检测方法与伪装目标检测技术的专有优势相结合，以增强无人机检测能力。

对YOLO-FEDER FusionNet的全面评估显示了所提模型的效率，并在减少漏检和误报方面取得了显著改进。

1 Introduction

稳健的无人机检测系统在增强安全系统、保护隐私和确保法规遵从方面发挥着至关重要的作用[1]。利用先进的计算机视觉技术，基于图像的无人机检测建立了一种主动分析视觉数据的机制，便于早期威胁检测，并有效实施缓解措施。基于图像的检测技术的广泛采用主要是由摄像机传感器的成本效益、它们的广泛可用性以及它们与现有安全系统的无缝集成推动的[2]。

在无人机检测领域，获取的图像数据的处理通常依赖于通用目标检测模型的应用（例如，YOLOv5[3]在不同网络配置中）。这些模型因其在实时处理速度和精确度之间的平衡能力而受到广泛欢迎。此外，通用目标检测模型在检测与均匀背景（例如，清澈的蓝天）相对比的无人机或无人机与其周围环境形成鲜明对比的场景中表现出显著的有效性[4]。然而，在无人机在复杂和高度纹理化的背景下运行的情况下，这些模型的表现通常会显著下降[4, 5]。作者之前的调查特别强调了在树木中或树木附近检测无人机的重大挑战。异质背景组成，结合困难的光照条件和树杈与无人机旋翼臂之间的相似性，使得无人机能够与其周围环境无缝融合。由此产生的伪装效果严重阻碍了通用目标检测系统准确识别和界定无人机边界的能力，从而降低了整体检测质量[5]。伪装效果的现象不仅限于无人机检测。例如，在自然栖息地准确检测动物就构成了相当大的挑战，促进了各种伪装目标检测（COD）技术的发展[6]。

尽管COD技术在动物检测中显示出效率，但将其直接转换到无人机检测尚未被探索。因此，作者的研究旨在评估利用COD方法的见解来增强通用无人机检测器可靠性的可行性，尤其是在它们遇到限制的情况下（见图1）。作者引入了YOLO-FEDER FusionNet，这是一种新颖的深度学习（DL）架构，它结合了通用目标检测与COD的专业能力。此外，作者提供了对YOLO-FEDER FusionNet在多样化的真实世界数据集上的检验。这还包括与已建立的无人机检测技术进行比较分析，为作者的方法实现的有效性和性能提升提供了稳健的评估。此外，作者还介绍了一种在图像序列中减轻假阴性的简单技术。

picture.image

鉴于无人机检测的标注真实数据有限，以及现有数据集的问题特定性质，作者的方法策略性地整合了合成数据——这是一种普遍的实践，用以减轻这种稀缺[7, 8, 9]。然而，合成生成和手动标注的真实世界数据之间仍然存在差异。因此，作者的研究还解决了模拟场景和现实世界条件之间的差距，特别是关注手动标注程序引起的内在偏见。

本文的其余部分结构如下：第2部分回顾了当前最先进的技术，接着详细介绍了所提出的无人机检测框架（第3部分）。第4部分描述了实验设置，包括数据集、评估指标和实施细节。第5部分呈现并讨论了结果。第6部分得出结论。

2 Related Work

在以下内容中，作者讨论了基于图像的无人机检测的最新进展，重点关注它们在挑战性环境中的有效性。此外，作者还讨论了隐蔽目标检测（COD）的基本理念以及流行的COD技术。此外，作者还探索了与生成合成数据相关的重要研究和概念，在无人机检测的背景下，解决了模拟与真实世界场景之间的固有差异。

无人机检测。开发精确可靠的无人机检测系统是一个多维挑战，涵盖了各种解释、子问题和战略方向。在基于图像的无人机检测领域，相当多的重点被放在了小型无人机的检测上[10, 11]，并准确地将它们与其他空中实体，如鸟类[10]区分开来。在复杂或高度纹理背景中特别针对增强无人机检测的方法论存在显著缺陷[5, 10]。最近应对这一挑战的策略通常涉及在现有目标检测框架内，如YOLOv5[10]，改进不同的模块。例如，Lv等人[10]介绍了SAG-YOLOv5s——对YOLOv5s（指YOLOv5系列中的小型变体）的改编版本，特别针对复杂环境进行了优化。他们的方法将SimAM注意力[12]和Ghost模块[13]集成到YOLOv5s的瓶颈结构中，以提高目标提取并细化特征分析时的背景抑制。同时，其他方法试图通过将过程分为两个不同阶段来简化自然环境的复杂性。这通常涉及消除背景元素[4]和提取运动物体[14]，然后进行分类。此外，一些方法将基于摄像机的无人机检测视为跟踪过程的一个初步阶段，或者是多传感器系统的一个组成部分[15]。这种战略考虑旨在抵消纯基于摄像机的系统的潜在不足，特别是在复杂环境中增强其鲁棒性。然而，当前无人机检测策略中尚未解决由自然元素（如树木）引起的伪装效果问题。

隐蔽目标检测。专门针对隐蔽目标检测的方法开发是研究的新兴领域。隐蔽目标检测（COD）是一种类独立的检测任务[6]，尤其在动物检测领域中流行。其目标是精确识别那些与其周围环境固有特征非常相似，从而最小化它们的视觉对比度和独特性的物体。大多数COD技术通过模仿人类视觉系统来解决由内在相似性和边缘破坏带来的挑战[6, 16]。只有少数方法试图通过分解伪装场景并强调微妙的区别特征来补偿感知限制[17]。在第二种算法类别中，一个有前景的模型是由He等人提出的特征分解与边缘重建（FEDER）模型[17]。

模拟-现实差距。利用合成数据是训练深度学习模型在无人机检测[5, 7, 8, 9]和其他应用领域[18]中的流行方法，因为获取真实世界数据的成本很高。像域随机化[8]或基于游戏引擎的模拟[19]等技术促进了大量、特定领域的合成数据集的生成。这些方法通过自动标注过程展示了成本效益，确保了精确的标注，与手动标注技术不同。此外，它们使得可以规避真实世界的限制（例如，隐私法规），促进数据集多样化。然而，将仅在合成数据上训练的检测模型转移到真实世界应用中，常常会导致性能下降，这归因于模拟-现实差距。这种差距的严重性与合成和真实世界数据的质量密切相关，通常通过在不同交并比（IoU）阈值下的mAP等多样化质量度量来评估[7, 8]。缩小这一差距的两个主要策略包括用真实世界数据微调[8]和混合数据训练[14]。

3 Framework

鉴于无人机检测固有的复杂性，所提出的YOLO-FEDER FusionNet策略性地结合了通用目标检测与COD算法的特定优势。该模型依赖于两个用于特征提取的基本组件：久经考验的YOLOv5I Backbone 架构[3]和专门的伪装目标检测器FEDER[17]。YOLOv5I指的是YOLOv5系列中较大的模型配置。由于这两个算法产生了互补的结果，YOLOv5I Backbone 和FEDER算法作为一个集成系统来提取重要特征。这涉及并行处理RGB图像，其中，由两个组件共同处理（见图2）。两个组件的信息在网络 Neck 分进行特征级融合，其架构设计受到YOLOv5I[3]的启发。Neck 分发出的特征图在网络 Head 进行处理，以生成三个不同大小的目标的预测。以下章节将详细介绍所有网络组件。

YOLOv5I Backbone 。所采用的YOLOv5I Backbone [3]基于CSPDarkNet53，它结合了DarkNet-53[20]和先进的CSPNet策略[21]。基础架构特征是多个CBS模块（由卷积、批量归一化和SiLU激活层组成）和C3模块（包含一个带有三个卷积层的CSP瓶颈）的顺序排列。空间金字塔池化融合（SPPF）模块[22]完成了 Backbone 结构（见图2，左下角）。

FEDER Backbone 。由何等人提出的特征分解与边缘重建（FEDER）模型[17]由三个主要部分组成：伪装特征编码器（CFE）、深度类似小波分解（DWD）模块和面向分割的边缘辅助解码器（SED）（见图2，左上角）。CFE利用Res2Net50[23]，结合R-Net[6]，生成一系列特征图，给定输入图像，其中。这些特征图作为高效带孔空间金字塔池化（e-ASPP）模块[24]和DWD的输入。由于COD的主要判别属性存在于高频（HF）和低频（LF）组件中[25]，例如纹理和边缘（HF）以及颜色和光照（LF）——DWD模块中的特征图被划分为独立的高频和低频部分。划分过程涉及使用可学习的高频和低频滤波器，并结合自适应波束蒸馏[26]更新系数。此外，DWD利用高频和低频注意力模块，以及基于引导的特征聚合，以系统提取分解特征的判别信息，并以有意义的方式融合这些信息。来自DWD和e-ASPP的特征通过SED进行解码。在SED中，可逆重新校准分割（RRS）模块和受常微分方程（ODE）启发的边缘重建（OER）模块被用于复杂特征处理和辅助边缘重建。FEDER Backbone 生成的最终输出包括一个二值分割图和一个边缘预测图，其中。在YOLO-FEDER FusionNet中，仅进一步处理分割图。有关FEDER的更多细节，请参阅[17]。

** Neck 结构** YOLO-FEDER FusionNet的 Neck 结构专门设计用于统一来自两个 Backbone 网络在不同层次的信息（见图2）。受YOLOv5l [3]基础架构的启发， Neck 的架构设计特点包括CBS、C3和上采样模块（类似于YOLOv5l）。此外，还加入了修改后的拼接层，以促进来自FEDER Backbone 网的输出整合（见图2，红色连接），有效补充来自先前层次的信息（见图2，灰色连接）。此外，在网络 Neck 多个位置策略性地嵌入了注意力机制（见图2，红色组件），以便优先处理重要特征。注意力机制通常只关注空间或通道相关的特征关系（参见[27]）。一种广泛采用的注意力机制，结合了空间和通道注意力，是由Woo等人引入的卷积块注意力模块（CBAM）[28]。

受到Woo等人[28]的Res50 + CBAM模型的启发，其中CBAM嵌入到残差块中，作者以类似的方式将此模块集成到作者提出的网络架构中。具体来说，它位于C3模块的CSP瓶颈中（见图2，C3 + CBAM）。考虑到来自先前CBS模块的中间特征图（见图3），由CBAM启动的总体注意力过程可以描述如下：

picture.image

这里，表示一维通道注意力图，表示二维空间注意力图，表示元素乘法，表示精细化后的特征图。注意在乘法过程中，沿空间维度复制，而沿通道维度复制[28]。集成CBAM旨在引导模型的注意力朝向相关区域，优化其关注点。此外，作者在跨不同层次信息拼接之后实施了一种通道注意力机制（类似于CBAM中的机制，具体参见[28]）。例如，当将YOLOv5l Backbone 网获得的中间特征图与来自FEDER的二值分割图连接时，实例化的注意力机制可以描述如下：

其中再次沿着空间维度复制。这种机制旨在解释特征图内不同通道之间的相互依赖性和关系。因此，在通过拼接方式整合来自多个源的数据时，它特别有益，有助于从每个源中选择并优先处理最相关的内容。

Head 。所提出网络的 Head 复制了标准YOLOv5l Head 的设计。其主要功能包括预测三种不同尺寸的目标（小、中、大）。

4 Experimental Setup

为了评估所提出的框架，作者采用了以下实验设置，包括不同的数据集和评估指标。

Datasets

考虑到在无人机检测背景下可访问数据的稀缺性，作者利用自我捕获的真实世界数据，这些数据来源于一个潜在的应用现场进行评估。同时，作者利用从物理现实模拟中生成的合成数据，有效训练所提出的检测模型。表1提供了本研究中使用的数据库概览，具体讨论如下。真实数据和合成数据都已包含在作者之前的工作[5]中。

picture.image

真实世界数据。为了获取真实世界数据，作者使用了一个固定安装在地面的Basler acA200-165c相机系统。该系统配备了双镜头（25毫米和8毫米），能够从每个观测点捕获两个不同的视场。所选的录制环境模拟了城市监控环境中无人机检测系统潜在安装地点的结构和环境特征（详见[5]）。原始的RGB图像以2040×1086像素的分辨率记录，从而产生了两个不同的数据集R1和R2（见表1）。尽管数据集R1的背景主要由建筑物结构组成，但高度纹理化的物体——更准确地说，是树木——在数据集R2的图像背景中占据了很大比例。因此，与R1相比，R2表现出更高的复杂性。鉴于模型需要方形图像，作者部署了一种粗略裁剪策略，这取决于图像框架内无人机目标的精确定位。随后，应用了随机裁剪技术，使用不同的尺寸：640×640（YOLOv5l的默认输入大小）和1080×1080。这个过程产生了每个数据集的两个不同版本：一个包含640×640像素分辨率的图像集，另一个包含1080×1080像素大小的图像集（以增强信息内容）。采用这种系统化的方法可以确保在提高数据集多样性同时保留关键信息。除了无人机图像，所有数据集还包括大约7-8%的背景图像。

合成数据。为了生成合成训练数据，作者采用了基于游戏引擎的数据生成 Pipeline ，详细描述见[19]。该 Pipeline 利用了Unreal Engine 4.27[29]和Microsoft AirSim[30]的功能，能够有效地提取自动标记的RGB图像。利用Urban City环境[31]，作者旨在模仿由R1和R2定义的应用场景的基本属性。数据收集是从五个独特的相机视角进行的，使用了三种不同的无人机模型（详细信息见[5]）。与R1和R2的特点一致，合成的RGB图像最初以2040×1080像素的分辨率捕获（产生了数据集S1，见表1）。随后，应用裁剪程序（类似于R1和R2）以达到最终的640×640像素分辨率。数据集S1还包括了少量背景图像（7-8%）。

Evaluation Metrics

确保针对未经授权的无人机入侵的安全性需要精确的早期检测。因此，对于一个可靠的检测系统来说，极低的假阴性率（FNR）至关重要。然而，在涉及连续数据流（例如，在监控设置中常见）的情境中，并非必须在序列的每一帧中检测到无人机。从相邻帧外推可以在一定程度上补充缺失的检测。将无人机检测视为综合性安全框架的一个重要组成部分，减少假阳性也同样关键，这关系到系统的可信度。这类似于降低假发现率（FDR）。在通过FNR和FDR进行评估的基础上，作者还包含了在交并比（IoU）阈值为0.5时的平均平均精度（mAP），因为它是评估目标检测模型性能的关键指标，并被广泛采用。由于在作者的应用背景下对精确边界框定位的要求可以减轻，并且手动生成的标注在质量上存在显著差异，作者还考虑了IoU阈值为0.25时的mAP值。

Implementation Details

YOLO-FEDER FusionNet是在PyTorch中实现的，利用了[3]提供的原始YOLOv5框架的基础。它包括一个在COCO基准数据集[32]上预训练的YOLOv5l主干网，以及一个以COD10K[6]权重初始化的FEDER网络，两者在训练过程中保持冻结状态。模型的颈和 Head 通过随机梯度下降（SGD）进行优化，初始学习率为0.01，动量为0.937，权重衰减为0.005。在训练阶段，作者保持一个32的批量大小。作者假设输入图像为正方形，统一调整大小为640×640进行训练和推理。作者故意避免使用信箱或随机调整大小来处理矩形图像。此外，为了进行对比分析，作者训练了两个标准的YOLOv5l模型[3]，使用了与YOLO-FEDER FusionNet相同的超参数配置。第一个模型在作者之前的工作[5]中以其原始未裁剪版本的数据集S1进行训练。第二个模型（YOLOv5l SQ）在S1的裁剪版本上进行训练（参见4.1节）。在这两种情况下，训练过程中没有冻结任何层。所有实验都在一个NVIDIA Quadro RTX-8000 GPU上完成。

5 Results

在本节中，作者展示了作者提出的框架的评估结果，包括对其在真实世界数据上的性能检验、通过后处理策略减轻标签偏差的情况，以及框架在警报场景中的有效性评估。

Performance on Real-World Data

检查YOLO-FEDER FusionNet在现实世界数据集R1和R2上的性能（.cutout大小不同，参见4.1节）显示出有希望的结果，特别是与在2040×1086图像上训练和评估的原始YOLOv5l模型[5]相比。具体来说，YOLO-FEDER FusionNet在数据集R1上的FDR显著下降了77.2%（从0.5降至0.114）和86.8%（从0.5降至0.066），见表2。此外，对于R2，观察到超过90.0%的优秀FDR降低，值从0.29降至0.029和0.007（见表3）。此外，FNRs也有显著减少。

picture.image

直接比较在未裁剪的S1图像上训练的YOLOv5l和在未裁剪的R1图像上评估的YOLO-FEDER FusionNet，两者的FNR分别为0.091和0.014。当将YOLO-FEDER FusionNet的评估结果与在R1裁剪版本上的YOLOv5l进行比较时（见表2），这种差异更加明显。对于数据集R2，这种差异更加显著，其中高度纹理化的目标构成了图像背景的重要部分（见图1）。当YOLOv5l在原始大小的R2图像上评估时（见表3，2040×1086），FNR为0.745，而YOLO-FEDER FusionNet显著降低了这一比率。具体来说，当在1080×1080图像裁剪的R2上评估时，FNR降至不到原始值的一半。与在裁剪版本S1上类似训练的YOLOv5l SQ相比，这一观察趋势保持一致。然而，由于其始终较高的FNRs和接近零的FDRs（见表2和表3），YOLOv5l SQ在当前无人机检测背景下表现出普遍的低效率。相反，这突显了通过在YOLO-FEDER FusionNet中整合YOLOv5l和FEDER所获得性能优势。

在IoU阈值为0.5时分析mAP值，可以看出不同的趋势。在数据集R1中，mAP有显著提升，从0.559（YOLOv5l，2040×1086，见表2）升至实施YOLO-FEDER FusionNet后的0.636和0.669。相反，在数据集R2中mAP值有轻微下降（见表3）。当在IoU阈值为0.25时更仔细地检查mAP值，YOLO-FEDER FusionNet与YOLOv5l相比显示出更优越的性能。具体来说，YOLO-FEDER FusionNet的mAP值在0.685和0.816之间，而YOLOv5l的值仅低于0.572。

Labeling Bias

尽管YOLO-FEDER FusionNet在无人机精确定位能力方面表现出色（见图4），但将预测边界框与 GT （GT）的深入分析比较显示出它们在空间重叠上的差异。与像素级精确标记的合成训练数据不同，R1和R2的手动标注似乎包含了比准确定位无人机更多不必要的像素。因此，它们往往覆盖稍微大一点的区域，以确保以高确定性全面封装目标。例如，R1（640×640）的预测边界框中有72.71％完全包含在GT内。对于数据集R2（1080×1080），这个比例为63.45％。然而，这种手动标记的偏差显著损害了检测质量，导致在mAP方面模型性能较差（尤其是在涉及合成和现实世界数据的场景中）。

picture.image

为了解决这个问题，作者提出了集成一种后处理策略，旨在补偿由手动标记引起的偏差。这种策略的一个主要优点是它无需修改现有数据集并进行重新训练。这个过程包括通过形式偏差补偿方法细化预测的边界框，该边界框具有宽度w和高度h：和，其中和表示调整后的边界框宽度和高度。缩放因子和可以单独定制。在作者的评估中，作者考虑了固定因子（和）以及与目标大小相关的自适应缩放因子（见表4）。值得注意的是，和随着目标大小的增大而减小，因为较小目标由于在标记过程中涉及的复杂性而表现出更明显的标记偏差。

picture.image

如表5所示，考虑手动标记偏差可以提高mAP，特别是在IoU阈值为0.5时。数据集R2的改进尤为显著，这表明背景复杂度对标记偏差的程度有影响。因此，在具有复杂或高度纹理背景的场景中，如树木，解决这种偏差似乎特别有益。

picture.image

Drone Detection in an Alarm Scenario

无人机检测也可以被视为一个全面安全系统的不可或缺组成部分，特别是针对识别潜在的无人机威胁并随后启动预警机制。因此，在视频序列中推理无人机的存在并不一定需要逐帧检测。相反，可以根据部分帧序列来推理无人机的存在，至少在一个帧中出现即表明其存在。这种策略减少了漏检的情况（见表6），尽管这以增加推理时间为代价。

picture.image

6 Conclusion

在本工作中，作者探索了将通用目标检测算法与COD技术集成用于复杂背景环境下无人机检测的有效性。

作者引入了YOLO-FEDER FusionNet，一种新颖的深度学习架构。

除了集成双重 Backbone 网络外，作者还实现了一个重新设计的 Neck 结构，以实现无缝的信息融合并促进对关键特征的优先级排序。

作者系统地评估了所提出检测模型在各种真实和合成数据集上的表现，这些数据集具有不同的复杂度水平。作者的分析表明，YOLO-FEDER FusionNet在FNRs和FDRs方面显著优于传统无人机检测器。

此外，作者揭示了一种来自真实世界数据中手动生成标注的标签偏差，这种偏差对mAP值产生了不利影响。通过后处理解决此偏差，使得mAP得到了改善。

作者还展示了利用视频流中前几帧的信息可以进一步减少FNRs。

参考

[1].YOLO-FEDER FUSIONNET: A Novel Deep Learning Architecture for Drone Detection.

双重 Backbone 网络与重新设计 Neck| YOLO-FEDER FusionNet 将通用检测与伪装目标检测相结合 ！

1 Introduction

2 Related Work

3 Framework

4 Experimental Setup

Datasets

Evaluation Metrics

Implementation Details

5 Results

Performance on Real-World Data

Labeling Bias

Drone Detection in an Alarm Scenario

6 Conclusion

参考