高效小目标识别，多帧运动检测与YOLO结合提高 UAV 检测精度 ! - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

无人驾驶飞行器（UAV）检测技术在军事和民用应用中发挥着关键作用，可以降低安全风险并保护隐私。然而，传统的检测方法在识别远离目标时具有极小像素的UAV目标方面面临重大挑战。

为了解决这个问题，作者提出了全局-局部YOLO-运动（GL-YOMO）检测算法，该算法结合了YOLO目标检测和多帧运动检测技术，显著提高了小UAV目标检测的准确性和稳定性。

YOLO检测算法通过多尺度特征融合和注意力机制进行优化，而Ghost模块的集成进一步提高了效率。

此外，作者正在开发基于模板匹配的运动检测方法，以增强对微小UAV目标的检测能力。该系统采用全局-局部协同检测策略，以实现高精度和高效。

在自制的固定翼UAV数据集上的实验结果表明，GL-YOMO算法显著提高了检测准确性和稳定性，强调了在UAV检测应用中的潜力。

I Introduction

自从无人机技术出现以来，其在各个领域的广泛应用带来了显著的安全风险和隐私问题[1, 2, 3]。因此，发展长程无人机检测技术变得至关重要，它使得能够及时识别、定位和干预无人机，以保障公共安全和个人隐私。

然而，现有的检测技术在处理长距离的小像素无人机目标时面临着巨大的挑战[4, 5, 6]。无人机通常只占据图像的不到0.1%，导致特征信息不足。结合复杂的背景，这会导致检测准确性的降低[7, 8]。图1突显了检测无人机目标的一些常见挑战。

picture.image

尽管流行的目标检测方法如Fast-RCNN、YOLO和DETR在大目标上效果显著，但在远程、小目标无人机检测方面，它们面临着高假阳性率和假阴性率的问题[9, 10, 11]。近年来，研究行人已针对无人机特性开发了专门的目标检测方法。例如，通过结合外观和运动特征，使用帧差或光学流技术提取移动目标，并应用分类方法区分无人机目标与其他干扰物。然而，由于无人机目标的微小尺寸，可用于分类的有用特征信息有限，降采样通常会导致关键信息的丢失。此外，无人机与复杂背景之间的噪声差异使得构建一个精确标注的数据集，能够可靠地区分目标与其周围环境变得具有挑战性。

在本文中，作者提出了一种名为GL-YOMO的检测算法，该算法有效地集成了外观和运动特征。通过增强YOLO模型，作者旨在提高检测精度的同时降低计算复杂度。该算法采用多帧运动检测进行次要验证，确保在不需要手动构建分类数据集的情况下，对小目标进行精确检测。

本文的主要贡献如下：

GL-YOMO检测算法的开发: 该算法将YOLO目标检测与多帧运动检测相结合，发挥YOLO高效检测能力的同时，融入运动特征捕获，从而显著提高检测准确性和稳定性。
改进YOLO模型：这些改进提高了检测精度，显著降低了计算复杂度和参数数量，从而使模型更加高效和轻量化。
基于模板匹配的运动检测算法的设计：通过分析连续三帧的像素变化和位移变化，该算法有效地检测到微小的目标，从而进一步提高小目标检测的准确性。
固定翼数据集的构建: 这个数据集包括13个视频序列和24,951帧，涵盖了众多UAV目标，平均图像比例为0.01%，为评估UAV检测算法提供了强大的资源。

II Related Work

Small Object Detection Methods

自2016年YOLO算法引入以来，其后续版本[15, 16, 17]不断演进，推动了目标检测领域的重大进步。为了应对小目标检测所面临的挑战，近年来许多不同有用的策略被提出。在这些策略中，多尺度特征融合作为一种关键方法，有效地将语义信息集成到不同 Level ，从而提高小目标检测。例如，Gold-YOLO [20]通过引入聚集和分发机制，增强了特征融合，在COCO val2017数据集上实现了39.9%的AP，比先前的最先进模型YOLOv6提高了2.4%。而ASF-YOLO [21]则通过Scale Sequence Feature Fusion (SSFF)模块和Triple Feature Encoder (TPE)模块，显著提高了小目标检测和分割。

特征增强策略同样至关重要，许多研究引入了注意力机制来放大目标特征，同时抑制背景噪声，从而提高检测精度。值得注意的是，CEAM-YOLOv7 [23] 在Backbone和Head中均引入了全局注意力机制，相较于原始YOLOv7模型，mAP提高了20.26%。Gong等人[24] 提出了一种基于归一化的注意力模块，通过系数惩罚逐步提高检测效果，在DOTA数据集上实现了7.1%的改进。AIE-YOLO [25] 采用了一个结合多尺度感受野和注意力机制的上下文增强模块，以优化特征表示。此外，超分辨率技术也带来了显著的改进 [26, 27]。例如，于聪等人[26] 将浅层高分辨率几何细节与深度超分辨率语义特征相结合，通过通道注意力进行增强，显著提高了检测精度。总之，这些创新在小型目标检测领域取得了重大进展。

UAV Detection Methods

确保在处理无人机检测的同时实时解决小型物体和多尺度变化带来的挑战至关重要。YOLO系列被证明是应对这些挑战的最有效解决方案之一[28, 29, 30]。例如，在[10]中，研究行人将空间金字塔池化模块集成到YOLOv4模型的预测 Head ，并结合空间注意力机制，实现了在14.9 fps的实时无人机检测。同样，在[31]中，作者们利用轻量级的MobileNet作为 Backbone ，并采用逐点卷积技术，在自定义无人机数据集上报告了82 fps的处理速度和93.52% mAP的准确率。尽管这些方法在单帧中提取出了显著的特征，并在简单场景中表现良好，但在更复杂的环境中却遇到了困难。

为了更好地应对如背景干扰和目标遮挡等在复杂环境中带来的挑战，研究行人探索了基于运动的检测方法。例如，一种采用背景减法运动检测器被提出在[32]中，利用后处理识别移动目标，并利用MobileNetV2分类器进行无人机分类，在Drone-vs-Bird数据集[33]上实现了70.1%的准确度指标。然而，这种方法在涉及移动摄像头的场景中存在局限性。为了解决这一局限性，[34]中的工作引入了一种基于光学流的运动信息提取器，该提取器取代了标准特征金字塔网络中的上采样组件，从而显著提高了无人机检测的准确度，实现了在Drone-vs-Bird数据集上的平均精确度（AP）67.8。此外，[35, 36]中的研究利用光学流估计生成与背景运动相对的候选点，使用全局运动模型估计背景动力学，并采用与混合检测器相结合的背景减法进行无人机分类。低秩方法，如[37, 38]中的方法，通过生成小运动区域促进了无人机目标分类。此外，将视觉和运动特征相结合可以增强无人机检测。例如，[4]中的作者通过全局-局部检测方法将YOLO检测器与运动目标分类器结合，在自定义ARD-MAV数据集上实现了92%的准确率和23.6FPS的性能。[39]中的方法使用多通道时间帧和时空语义分割与卷积神经网络相结合，并采用ResNet分类器，在无人机-鸟类数据集的三个测试视频中实现了0.92的平均F1分数。总的来说，这些方法在复杂环境中对无人机目标检测取得了显著的进步。

III Methods

作者提出了一种高精度和鲁棒性检测方法GL-YOMO，如图2所示。该方法采用全局-局部协同检测策略。过程始于对整个1920×1080全局帧的目标检测和定位。一旦连续帧中物体一致被检测到，系统将焦点缩小到300×300的局部区域进行更详细的检测。检测由作者定制的YOMO检测器完成，该检测器将YOLO检测器与多帧运动检测技术相结合，实现高效物体捕捉和跟踪。为确保对小型UAV目标的稳定和连续检测，集成了感兴趣区域（ROI）自适应更新机制，动态调整ROI以持续刷新检测范围。

picture.image

Global-Local Collaborative Detection Strategy

虽然全局检测具有较广的覆盖范围，但它容易受到背景噪声和环境干扰，从而增加假阴性和假阳性的可能性。相比之下，局部检测由于其更窄的焦点，更适合准确捕捉目标位置。为了提高检测的准确性，本研究采用全局-局部协同策略，结合两个关键组件：全局和局部检测模式的动态切换以及ROI的适应性更新。

Ii-A1 Dynamic Switching

动态地在全局和局部检测模式之间切换是基于目标检测帧率分析的。首先，系统执行全局目标局部化。一旦在连续的帧中稳定检测到一个目标，系统将自动切换到局部模式进行更精确的检测。如果在局部模式下的连续帧中没有检测到任何目标，系统将重新切换到全局模式进行重新局部化。通过建立适当的帧阈值 ( 和 )，这种方法可以实现全局和局部检测模式的无缝切换，从而提高系统在复杂环境中的稳定性和可靠性，用于无人机目标检测。

Ii-A2 ROI Adaptive Region Update

投资回报率自适应更新对于确定局部检测范围至关重要，并直接影响目标检测的有效性。当系统从全局检测模式转换为局部检测模式时，系统裁剪一个ROI，将检测范围聚焦在初始的像素区域，以实现更精确的局部检测。

为了适应无人机目标的运动，采用了一种基于目标与ROI边缘的接近程度的动态策略。如果目标保持在ROI半径内，则ROI保持不变；如果目标移动超出这个范围，ROI将自动更新为以目标为中心。这种方法提高了容错率，减少了频繁ROI更新的错误。此外，为了减轻潜在的漏检，系统根据丢失的帧扩展ROI，以确保在保留局部检测优势的同时进行有效检测，同时最大限度地减少全局检测精度的损失，如式（1）所示。

picture.image

其中，ROI的定义为一个面积为的区域，是一个比例系数，用于控制ROI扩张的速率，表示连续帧数丢失的数量。

YOMO Detector

YOMO检测器，用于检测小型无人机目标的核心方法，包括两个关键组件：YOLO检测器和运动检测器。YOLO检测器因其目标检测效率而闻名，而运动检测器则捕获目标的动态特性。这些组件协同工作，显著提高了检测精度。

Ii-B1 YOLO Detector

尽管YOLO算法在各种目标检测任务中具有很高的有效性，但由于降采样过程中的特征损失，在处理非常小的目标时面临挑战。为克服这一局限性，并受到ASF-YOLO [21]的启发，作者提出了一种新的多尺度特征融合方法，其架构如图3所示。

picture.image

在YOLO检测器中，全局检测和局部检测阶段都涉及将输入图像重新缩放到640x640像素，这一调整是为了在检查精度与处理速度之间实现平衡，确保高性能并降低计算负担。通过后向 Backbone 网络中的连续下采样实现多尺度特征提取。 Backbone 网络基于YOLOv5 CSPDarknet53架构，采用堆叠C3模块和Conv-BN-SiLU结构进行特征提取。该 Backbone 网络模块生成了四个关键特征层：P3，P4，P5和P6，每个特征层捕捉不同尺度的特征。这些特征层随后被输入到 Neck 分进行进一步的多尺度特征融合。在 Neck 分，作者集成了一种由ASF-YOLO提出的TFE模块，巧妙地将大、中、小尺度特征图沿通道维度拼接在一起。这种方法保留了对于检测小目标至关重要的细粒度信息。此外，作者采用了SSFF模块，它采用高斯平滑技术，逐步增加标准差来处理特征图。

然后，利用3D卷积技术进行堆叠和处理，使模型能够更好地处理大小、方向和长宽比不同的目标，同时捕捉尺度空间关系。接下来，作者将通道和位置注意力机制（CPAM）与SSFF和TFE模块相结合，CPAM通过其通道注意力机制在降维时捕获跨通道交互，同时其位置注意力机制分别处理特征图的水平和垂直轴。这种方法使模型能够自适应地关注不同尺度的小目标。

多尺度特征融合和注意力机制的引入使得模型能够更准确地检测无人机图像中的极小目标。 Head 是YOLO模块的关键部分，用于目标检测，使用四个检测Head，对应于不同尺度下的特征图P3，P4，P5和P6。 Head 部分的多尺度特征融合允许模型检测各种大小的目标，从而增强在复杂场景和多尺度目标场景中的性能。

在模型效率方面，作者将高效的Ghost模块[40]集成到了YOLO模型后端和 Neck 的各个层。这包括用GhostConv替换传统的卷积操作，用C3Ghost模块替换原来的C3模块。这些修改显著降低了模型的计算负荷和参数数量，而没有牺牲性能。

基于增强的YOLO模型架构，使用该数据集进行训练，以生成所需的YOLO模型。需要强调的是，全球检测阶段和局部检测阶段的YOLO模型训练重点有所不同。在全球检测阶段，模型在完整的图像上进行训练，以创建全局YOLO模型，实现对图像中目标的全覆盖检测。相反，在局部检测阶段，模型在裁剪图像上进行训练，从而得到局部YOLO模型，该模型专门针对ROI内的更精确目标识别进行优化。

Ii-B2 Motion Detector

当YOLO检测器的置信度分数低于预定义阈值时，系统将转向运动检测器进行进一步分析。YOLO检测结果的可靠性由置信阈值τ确定。在全局检测中，如果YOLO置信度分数超过阈值τg，检测结果被视为有效；否则，视为无效，促使系统激活运动检测器进行补充分析。类似地，在局部检测中，如果置信度分数超过阈值τl，检测结果被视为有效；否则，系统将启动运动检测器进行进一步检测。运动检测器综合运用光学流方法、模板匹配技术和卡尔曼滤波算法，全面分析帧间运动信息。实现步骤详见图4，其中表示时间 instant t 时的帧。

picture.image

(a) 运动信息提取。为了准确提取运动信息，必须从动态背景中隔离运动物体，作为后续模板匹配算法的基石。作者采用基于帧间间隔的策略，利用和之间的间隔来捕获运动信息。这种方法比使用连续帧更能明显地揭示运动变化，尤其是在小型UAV目标的情况下。根据图4(a)，提取运动信息的过程如下：

为了在最小化噪声的同时保留小型无人机目标，作者选择从目标位置附近局部区域提取运动信息，而不是整个图像。以时刻的目标坐标为中心，裁剪一个像素区域（例如，）进行光学流提取。这一区域大小通过大量实验确定，能够充分涵盖目标在连续三帧中的运动范围，确保准确有效的运动捕捉，同时避免不必要的噪声并提高处理效率。运动特征提取的部分结果如图5所示。

picture.image

提取方法利用光流追踪运动。首先，使用网格基础方法在提取区域内识别关键点，将区域划分为网格，并在交叉点选择关键点以捕获关键运动特征。然后，采用金字塔Lucas-Kanade方法进行光学流的多尺度分析，实现关键点轨迹的精确跟踪和细微运动变化[41]。为了考虑相机运动或透视失真，对前一帧应用2D透视变换，将一个平面上的点映射到另一个平面，使的几何内容与对齐。这种对齐补偿与场景动力学无关的运动，确保场景中的静态元素紧密匹配。在对齐之后，执行帧差运算以隔离真正的场景变化，过程类似于[4]。

通过计算对齐帧和当前帧之间的像素差异来识别显著差异。为了进一步优化结果，应用光照变化和背景运动的校正，然后进行二值化以强调运动区域。帧差识别出对应移动目标的像素，但输出通常包含噪声且缺乏平滑性。因此，需要进行后处理技术以抑制噪声和优化形状。首先，使用侵蚀和膨胀等形态操作来细化检测目标的轮廓，提高其结构。然后，应用中值滤波和高斯模糊进一步降低噪声并平滑目标边界。在降噪之后，进行阈值操作以创建干净的二值图像。最后，使用连接组件分析来分割单个目标，从而提取相关属性，包括其位置和大小。

(b) 模板匹配 。由于目标在连续帧之间具有很高的连续性，作者采用模板匹配方法来解决目标跟踪问题。前一帧检测到的目标被用作模板，并与当前帧通过光流分析提取的运动区域进行匹配。为了提高匹配精度，作者引入了一个加权匹配机制，该机制结合了来自三个连续帧的相关度指标和位移信息，从而对目标的匹配概率进行全面评估。

具体而言，作者采用归一化相关系数来衡量目标区域与模板之间的视觉相似度。

该值随后被归一化到范围在[0,1]之间，如

在此表示模板图像在坐标（u，v）处的像素值，表示模板图像的平均值，表示原图像在位置处的像素值，表示原图像中以（x，y）为顶点且与模板相同大小的区域平均像素值。

为了考虑目标尺寸的潜在变化，作者对每个候选区域进行了多尺度视觉相似性评估。候选区域根据三个不同的尺度因子进行缩放，在每个尺度上计算目标与前一帧之间的视觉相似性。最终，相似度定义为不同尺度上归一化互相关的最大值。

picture.image

在每个相应的尺度上，表示归一化的相关系数值。

定义为当前目标与前一帧目标之间的位移相似度，由以下公式确定：

picture.image

分别表示归一化的距离差和方向差，这些差值是由

picture.image

当前帧与前帧之间的像素欧几里得距离表示的是边界框中心点之间的像素距离。作者使用当前帧的尺寸和来归一化。同样地，归一化后的方向差异是通过计算连续帧之间的方向变化来得到的。定义为边界框在时间的像素位置，和分别表示和。

picture.image

最终加权匹配成本，用C_w表示，可以由以下方式给出：

其中，常数和是用于平衡最终匹配结果中和影响的加权系数。

(c) 卡尔曼滤波器验证。为了提高检测的准确性和鲁棒性，作者将卡尔曼滤波器引入到状态估计的验证机制中。在目标检测过程中，作者使用8状态卡尔曼滤波器预测下一帧的目标状态。状态向量包括目标位置、大小和变化率。在这里，表示目标边界框的左上角坐标，表示其宽度和高度，表示速度，表示宽度和高度的变化率。作者将YOLO检测的输出作为观测向量，即。有了这个想法，边界框的运动可以用线性动力学来模拟。

其中，F 是状态转移矩阵，H 表示观测矩阵。

卡尔曼滤波器的工作分为两个关键阶段：预测和更新。预测阶段可以用数学公式表示为

其中，表示时间的预测状态，是预测状态的协方差矩阵，是过程噪声协方差矩阵。

在更新阶段，YOLO检测器提供的检测结果被用来纠正预测状态为

其中是残差向量，是残差协方差矩阵，是卡尔曼增益，是测量噪声协方差矩阵，而和分别是更新后的状态和状态协方差矩阵。

在运动检测过程中，作者将卡尔曼滤波器的预测输出与模板匹配结果相结合，通过交并比（IOU）来验证准确性。由于目标UAV在图像中占据的面积最小，如果交并比为正，则模板匹配被确认为准确。相反，零或负交并比表示潜在的不匹配，检测输出根据卡尔曼滤波器预测更新目标位置。

Summary

算法1为提出的GL-YOMO方法的核心逻辑和程序流程提供了详细的描述。检测输出特征为边界框、检测分数和目标ID。

picture.image

IV Experiments

Dataset

在评估作者提出的GL-YOMO算法的性能时，作者选择了两个具有挑战性的视频数据集，以确保进行全面而准确的评估。

Iv-A1 Drone-vs-Bird Dataset

无人机与鸟类数据集包含77个视频，总共涵盖104,760帧。许多视频中都拍摄了从相当距离的小型无人机，经常伴随着鸟类和昆虫，这为监控任务增加了额外的复杂性。这些视频使用静态和动态相机捕捉，有效地模拟了各种户外场景。平均物体大小为34×23像素，占图像的0.1%，如图6所示。为确保可靠的评估结果，作者使用了60个视频进行训练和验证，而剩下的15个则用于测试。

picture.image

Iv-A2 Fixed-Wings Dataset

作者已经开发了一个专门针对固定翼无人机目标的具有挑战性的视频数据集。该数据集包括13个视频序列，总共有24,951帧，所有视频以30 FPS的速度和1920x1080的分辨率录制。数据集中有许多针对复杂背景的小目标，如图7所示。许多目标与背景特征非常相似，视觉上很难区分。为了验证作者的算法，作者使用了一个包含4,673帧的测试集，其中小型目标的大小从1x1到146x95像素不等，如图8所示，测试集的平均大小只占图像面积的0.01%。其余的12个序列以8:2的比例随机分为训练和验证。据作者所知，这是目前可用的最小固定翼无人机目标数据集之一。

picture.image

Evaluation Metrics and Implementation Details

在本研究中，作者采用了一个标准的评估指标系统来量化检测算法的性能，包括精确度、召回率、AP，以及两种平均精确度的变体：mAP50和mAP50-95。实验在一个配备有两块NVIDIA GeForce RTX 3090 GPU的高性能计算系统上进行。在模型的训练阶段，图像大小被调整到640x640。优化器使用SGD，动量0.937，初始学习率0.01，训练200个周期，批量大小64，评估时IOU阈值为0.1。表1概述了本文中的阈值参数，这些参数已验证以确保精度和可靠性。

picture.image

Comparison with Existing Works

作者的研究定量地比较了所提出的GL-YOMO算法与几种最先进的算法在各种数据集上的性能，详细结果见表2和表3。如表2所示，作者的方法在无人机vs鸟类数据集上在多个指标上优于其他方法，与第二好的表现者RT-DETR相比，召回率提高了4.8%。其他指标也优于其他方法。如表3所示，作者的方法在固定翼数据集上的性能更加突出，F1得分提高了23.7%，AP提高了25.1%，相较于RT-DETR。

picture.image

分析表明，其他方法在检测小目标方面存在显著缺陷，导致召回率、F1分数和AP显著下降。这一问题主要源于降采样技术造成的信息损失，这不利于检测精度。相比之下，GL-YOMO算法通过创新性地集成外观和运动特征，显著提升了小目标检测能力。此外，GL-YOMO算法的全局-局部协同策略有效地保留了小目标的关键视觉信息，并显著减少了复杂背景的干扰，从而极大地提高了检测性能。

如图9所示，GL-YOMO方法在检测极端小的目标方面表现出卓越性能，通过局部检测策略有效地识别出大多数目标。此外，它在检测特别具有挑战性的目标方面也非常有效。例如，如图第四列图像所示，其他方法无法检测到目标，而作者的方法成功准确地识别出正确目标。总的来说，两个数据集的实验结果都证实了GL-YOMO算法在小型目标检测任务中的有效性。

picture.image

Ablation Experiment

V-D1 YOLO Improvement Experiment

为了验证改进的YOLO检测器在小型目标检测方面的性能，作者对几种最先进的方法进行了全面比较。表4展示了每个模型在完整图像下的性能指标，其中'P'表示添加检测Head，'g'表示使用Ghost模块进行轻量级设计，'a'表示集成多尺度融合特征和注意力机制。

picture.image

优化后的YOLO检测器在召回率、mAP50和mAP50-95方面显著优于 Baseline 模型YOLOv5s、YOLOv8s和YOLOv10s。将小目标检测Head集成到模型中，有效减少了下采样带来的信息损失，提高了召回率4.4%，mAP提高了2.6%。注意力机制和多尺度特征融合进一步提高了性能，mAP50-95提高了2%。Ghost模块提高了效率，将模型大小压缩到14.3M，同时减少了参数和GFLOPs，使其非常适合资源受限的环境。总的来说，改进后的YOLO检测器在小目标检测方面表现出色，在召回率、mAP和模型大小方面取得了良好的结果。

此外，表5呈现了作者在局部图像数据集上的目标检测性能分析，展示了作者的YOLO检测器取得了显著的改进。值得注意的是，它实现了最高的mAP50为0.880，最佳mAP50-95分数为0.503，与YOLOv8s-pga相比提高了0.6%的Precision。尽管YOLO检测器和YOLOv8s-pga在Recall上存在轻微差异，但作者的检测器在其他指标上始终优于YOLOv8s-pga。与全局图像检测相比，局部图像检测明显具有优势，强调了其在小型目标检测任务上的潜力，并验证了作者在处理降低背景复杂性的图像方面的方法的有效性。

picture.image

Iv-B2 Motion Detection Experiment

表5展示了运动检测器的有效性。G-YO表示全局YOLO检测；G-YOMO表示全局YOLO与运动检测相结合；GL-YO表示全局和局部YOLO检测；GL-YOMO表示全局和局部YOLO结合运动检测。结果表明，运动检测在一定程度上提高了敏感性，但导致了部分假阳性，从而降低了精度。然而，这种权衡在其他指标上得到了显著改善。在全球检测中，添加运动检测器提高了召回率、F1分数和AP，分别提高了5.7%、3.9%和1.2%。在局部检测中，添加运动检测器也带来了显著的收益，分别提高了3.2%的召回率和1.5%的F1分数。这些结果强调了运动检测器在目标检测任务中的重要性和有效性，显著增强了全局和全局-局部协同检测模式下的性能。

Inference Time

为了全面评估作者的方法在边缘计算设备上的部署性能，作者选择了NVIDIA Jetson Xavier NX作为作者的测试平台。通过利用TensorRT进行模型优化和加速，作者在对测试视频进行推理时，使用640x640分辨率模型实现了21.6 FPS的平均帧率，满足了实时应用的要求。图10展示了作者的方法在Fixed-Wings数据集上的部分典型检测结果。

picture.image

参考文献

[0]. Real-Time Detection for Small UAVs: Combining YOLO and Multi-frame Motion Analysis.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」