点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
小目标检测问题 :航空图像中小目标检测面临挑战,尤其是当目标尺寸微小或被背景遮挡时,现有方法难以有效检测。
实时性与准确性平衡问题 :在计算资源受限的飞行设备上,如何同时保证检测精度和实时性能是亟待解决的问题。
特征不平衡问题 :深度网络中浅层的空间位置信息与深层的语义信息不匹配,导致小目标特征提取不足。
本文的核心创新是什么
提出FBRT-YOLO系列检测器 :专为高分辨率航拍图像设计,旨在解决实时检测中的效率与准确性平衡问题。
引入特征互补映射模块(FCM) :通过整合深层语义信息与浅层空间位置信息,缓解了特征提取过程中的信息不平衡问题,增强了小目标的定位能力。
设计多核感知单元(MKP) :利用不同尺寸的卷积核增强多尺度目标感知能力,并通过逐点卷积简化网络结构,提升检测效率。
优化网络设计以减少冗余 :通过组卷积和点卷积解耦通道扩展与空间下采样,显著减少了参数数量和计算负载
结果相较于以前的方法有哪些提升
参数与计算量减少 :
- • FBRT-YOLO-N/S相较于YOLOv8-N/S分别减少了72%和74%的参数数量。
- • FBRT-YOLO-M相较于YOLOv8-M减少了26%的GFLOPs。
- • FBRT-YOLO-X相较于YOLOv8-X减少了66%的参数数量。
检测精度提升 :
- • 在Visdrone数据集上,FBRT-YOLO-M/L相较于RT-DETR-R34/R50实现了更高的AP值(分别提升了1.3%和1.2%)。
- • 在AI-TOD数据集上,AP50提升了2.2%,AP提升了1.1%。
实时性能优越 :
- • FBRT-YOLO在多个模型尺度下均表现出更快的检测速度和更优的性能,在UAVDT数据集上的AP达到了18.4%。
消融实验验证有效性 :
- • 引入FCM模块后,AP_50提升了1.4%。
- • 替换最后一层下采样操作为MKP单元后,AP提升了1.6%。
局限性总结
对复杂背景的鲁棒性仍有提升空间 :尽管FBRT-YOLO在小目标检测方面表现出色,但在复杂背景下的检测效果可能受到背景噪声的影响。
依赖高质量训练数据 :该方法的性能可能受限于训练数据的质量和多样性,尤其是在处理极端天气条件下的航拍图像时。
硬件适配性需进一步探索 :虽然FBRT-YOLO在GPU上表现优异,但其在嵌入式设备上的适配性和性能尚未全面评估。
多任务扩展性有限 :当前方法专注于目标检测任务,对于其他任务(如分割或跟踪)的扩展性尚未明确。
导读
具备视觉功能的嵌入式飞行设备已成为广泛应用的关键。在航空图像检测中,尽管许多现有方法在部分解决了小目标检测问题,但在优化小目标检测和平衡检测精度与效率方面仍存在挑战。这些问题是实时航空图像检测发展进程中的主要障碍。本文提出了一种新的实时检测器系列——FBRT-YOLO,旨在解决检测精度与效率之间的不平衡问题。FBRT-YOLO包含两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP),设计用于增强航空图像中小目标的感知能力。FCM专注于缓解深度网络中小目标信息丢失导致的信息不平衡问题。它旨在将目标的空位位置信息更深入地整合到网络中,更好地与深层语义信息对齐,以提高小目标的定位精度。作者引入了MKP,该模块利用不同尺寸的卷积核来增强不同尺度目标之间的关系,并提升对不同尺度目标的感知能力。在包括Visdrone、UAVDT和AI-TOD在内的三个主要航空图像数据集上的大量实验结果表明,FBRT-YOLO在性能和速度方面均优于各种实时检测器。
代码: https://github.com/galaxy-oss/FCM
1 引言
深度神经网络近期的发展显著提升了低分辨率自然图像中的目标检测能力。然而,这些方法在处理高分辨率航拍图像时面临效率与准确性的挑战,特别是在计算资源受限的飞行设备上。
主要挑战包括:
-
- 检测航拍图像中尺寸微小或被背景遮挡的目标
-
- 在计算资源有限的设备上平衡准确性与实时检测需求
为提升小目标检测性能,提高图像分辨率是一种常见方法,但这会增加计算负担,影响实时性能。一个关键挑战在于深度网络提供的低分辨率语义信息与浅层网络提供的高分辨率空间信息之间的不匹配。特征金字塔通过整合深度和浅层特征来解决这个问题,从而增强小目标定位和多尺度特征表达,同时提高计算效率。然而,如图1(a)所示, Backbone 网络在整合和保留浅层信息方面仍存在困难,导致特征不匹配问题。
为解决空中图像中目标检测的挑战,作者旨在设计一个更有效的网络,以满足实时空中图像分析中准确性和效率的要求。在本文中,作者提出了一种新型网络,该网络包含两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP)。首先,为缓解 Backbone 网络中的信息不平衡,并促进语义和空间位置信息的更好融合,作者引入了特征互补映射模块(FCM)。FCM将目标的空間位置信息隐式编码到高维向量中,指导 Backbone 网络不同阶段的空间信息和通道信息的互补学习。这促进了浅层空间位置信息与深层语义信息的融合,增强了空間和语义表示的一致性。这种方法有助于将浅层空间位置信息传递到网络的深层,提高特征对齐性,并增强小目标的定位能力,如图1(b)所示。
其次,由于空中图像中小目标通常仅由少量像素组成,这些目标在卷积神经网络(CNN)特征提取过程中容易发生特征消失。为了充分利用有限的特征信息并增强网络对不同尺度目标的感知能力,作者研究了网络感受野,并提出了一种多核感知单元(MKP)。MKP由不同尺寸的卷积核组成,并在这些尺寸之间引入空间点卷积,以聚焦不同尺度的细节并突出多尺度特征表示。作者用MKP替换了网络的最终下采样层。这种方法实现了目标的多尺度感知,提高了网络捕获不同尺度特征的能力,同时进一步简化了网络结构。
为满足航空图像实时检测的要求,作者提出了FBRT-YOLO,该模型相较于 Baseline YOLOv8,具有更少的训练参数和更低的计算负载。在广泛使用的航空图像基准数据集如VisDrone、UAVDT和AI-TOD上进行的实验表明,FBRT-YOLO在各种模型尺度下,在计算与精度之间的权衡方面显著优于之前的SOTA YOLO系列模型。结果展示在图2中。
作者的贡献可以总结如下:
- • 介绍了一种新的实时检测器家族,用于不同模型尺度的航空图像检测,命名为FBRT-YOLO,实现了准确性和效率之间的高度平衡。
- • 提出了一种特征互补映射模块(FCM),通过将丰富的语义信息与精确的空间位置信息相结合,增强深度网络中小目标的特征匹配。
- • 引入多核感知单元(MKP)来替代最终的降采样操作,增强多尺度目标感知,并简化网络以提高效率。
2 相关工作
实时目标检测器。实时目标检测器对于资源受限的平台至关重要,强调模型大小、内存和计算效率。目前,YOLO和FCOS是主流的实时目标检测框架。虽然现有的实时检测器在COCO等公共基准测试中针对低分辨率自然图像表现出显著性能提升,但它们在高分辨率航拍图像上的性能仍不令人满意。作者介绍了FBRT-YOLO,这是一种专为高分辨率航拍环境设计的实时目标检测器,与现有模型相比展现出更优越的性能。
小目标检测 。检测小目标一直是一项挑战。近年来的解决方案包括扩充小目标数据集和使用高分辨率图像以保留详细特征。然而,这些方法通常导致更复杂的模型和更慢的检测速度。ClusDet采用基于聚类的目标尺度估计网络来有效检测小目标。DMNet利用基于密度图的裁剪方法来利用目标之间的空间和上下文信息以提升检测性能。
尽管这些方法在小目标检测方面效果显著,但它们存在推理时间长和检测效率低的问题。QueryDet在利用高分辨率特征的同时,结合了一种新颖的 Query 机制来加速基于特征金字塔的目标检测器的推理速度。CEASC引入了上下文增强Sparse卷积来捕获全局信息并增强焦点特征,在检测准确性和效率之间取得了平衡。这些工作提出了轻量级解耦头,在一定程度上加速了网络。然而,实现实时检测仍然具有挑战性。
多尺度信息提取与表征 。小目标在特征图中通常仅由少量像素表示,因此需要多尺度信息来增强这些小目标的特征表征。许多研究也从这个角度进行了探索。FPN将富含语义信息的深层特征与包含空间位置信息的浅层特征进行整合,在一定程度上缓解了特征不平衡问题。PANet在FPN的基础上增加了一个自底向上的路径,促进了底层信息的传播并增强了信息交换。IPG-Net将图像金字塔引入 Backbone 网络以解决信息不平衡问题。整个过程消耗大量计算资源,不利于实时检测。在作者的工作中,作者专注于在 Backbone 网络中整合深层语义信息与浅层空间位置信息。这种整合缓解了特征提取过程中信息提取的不平衡,从而增强了小目标的表征。作者采用多尺度卷积核来强化不同尺度目标的特征表征。
3 特征互补映射模块
空间位置信息和语义信息整合不足会导致目标信息出现错配和不对齐。为解决这一局限性,作者提出了特征互补映射模块。该模块将更多Low-Level空间信息隐式编码到高维向量中,并将其传输到网络的深层。这使得检测器能够捕捉更强的结构信息,从而增强语义信息的表达。FCM的详细结构如图3所示,该模块采用分叉、变换、互补映射和特征聚合策略。以下将对该模块进行详细介绍。
4 方法
作者在图3中展示了FBRT-YOLO的完整结构。这包括两个核心轻量级模块:特征互补映射模块和多核感知单元。FCM旨在将更多空间位置信息集成到丰富的语义特征中,增强小物体的表示。MKP利用多种卷积核来捕获跨多尺度的目标信息。此外,针对航拍图像检测,作者通过移除非关键或冗余计算来简化 Baseline 网络,进一步优化了网络。
通道分割 。作者首先将输入特征
的通道分成两部分,一部分包含
个通道,另一部分包含
个通道,其中
是分割比例。
的值在网络中非常重要。随着网络加深,包含Low-Level空间信息的分支变得更加突出,越来越多的Low-Level空间信息被隐式编码到高维向量中。在适当的时候增强对Low-Level信息的获取可以提升性能。分割阶段可以表示为:
方向变换 。为了分别获取语义信息和位置信息的空间映射,作者将获得的
发送到由标准
卷积组成的分支,在每个通道上提取更丰富的特征信息,如图3所示,表示为
。
被发送到由逐点卷积组成的分支,逐点卷积提取相对较弱的信息,保留大量的浅层空间位置信息,表示为
。该变换过程由公式表示:
其中
表示学习空间信息与语义信息之间的映射关系,XC E RCHw 包含丰富的通道信息,
保留更多的原始空间位置信息。
互补映射 。目前,作者获得的特征
和
虽然有效,但都是离散的。这可能导致目标特征的匹配不精确。因此,作者在这两者之间进行互补映射,以补偿它们各自的缺失特征映射,实现高效的特征匹配。作者将具有更丰富通道信息的
纳入通道交互。它可以对每个通道上的重要信息分配唯一的权重。然后将其映射到具有Low-Level空间位置信息特征的
,以进行互补特征融合。这使得交互后的信息能够获得更高 Level 的特征。
类似地,具有更丰富Low-Level空间位置信息的
,通过空间交互,对每个位置上的重要信息分配唯一的权重,并将其映射到具有丰富通道信息特征的
,以实现互补融合并获得更高 Level 的特征。这个过程实现了强特征对弱特征的引导,从而缓解了信息不平衡的问题。
通道交互 :首先,作者使用深度卷积对每个通道进行卷积操作,切断通道之间的信息,计算公式如下:
其中
表示每个特征层通道的映射,
是第
个卷积核,
是第
个输入通道,
是相应的单个输出通道。深度卷积后的输出结果为
,然后进行全局平均池化以获取每个通道的全局信息,最后通过sigmoid层获得关键信息权重。在通道上生成的唯一权重
E RCx1x1 可以表示为:
₁
其中
表示激活函数。
空间交互 :为了进一步聚合空间信息,作者采用一种简单的设计,如图3所示,该设计由一个
空间卷积层、BN(2015)和sigmoid组成。最后,作者生成一个空间注意力图,这与通道交互类似,并将其映射到经过
标准卷积的分支上,使其更加关注空间信息。生成的空间信息权重
可以计算为:
其中
表示具有空间聚合的卷积映射,
表示特征聚合。在获得通道信息权重
和空间信息权重
后,它们分别映射到包含
和
的特征上。然后将两个分支连接在一起,得到包含空间和语义关系双重映射的特征
。
的计算公式为:
其中
表示逐元素乘法。
总体而言,FCM模块采用了一种信息互补融合方法,计算资源相对较低。它将浅层空间位置信息传播到网络的深层,缓解了 Backbone 网络下采样过程中目标空间位置信息的损失。
4.1 多核感知单元
航空图像中的小目标常被背景噪声遮挡,导致有效信息有限。为充分利用可用特征信息,作者采用多核感知单元检测不同尺度下的目标,并建立跨尺度的空间关系,从而增强上下文信息和小目标信息的特征表示。如图3所示,多核感知单元(MKP)依次 ConCat 不同尺寸的卷积核,并在不同尺度的核之间加入逐点卷积。整个过程可用数学公式表示如下:
其中
表示输入的局部特征,而
表示跨多个尺度的全局映射特征。
表示深度卷积,其卷积核大小为
。在作者的实验中,作者设置
。
表示逐点卷积变换。
4.2 针对冗余驱动的网络设计目标减少
目前,实时检测模型主要针对传统低分辨率图像检测进行设计,但这并不适用于高分辨率航拍图像检测,导致出现显著的结构冗余。在特征提取中的空间下采样过程中,通道扩展先于深度卷积采样。深度卷积之后,通道之间存在干扰,导致空间信息丢失,这对在复杂环境中检测航拍图像是不利的。
然而,作者通过首先应用组卷积进行空间下采样,然后使用点卷积进行通道扩展来解耦这一过程。两种方法的参数计算如下:
₁
₂
₁
₁
₁
₂
其中
表示标准卷积的参数数量,
表示FBRT-YOLO的参数数量。
和
分别表示输入和输出通道数。在网络下采样过程中,通道扩展通常导致
。
表示组数。
5 实验实现细节
作者在三个基于航空图像的目标检测基准数据集上进行了广泛的实验,即Visdrone、UAVDT和AI-TOD。所有实验均在NVIDIA GeForce RTX 4090 GPU上进行,但推理速度测试在单个RTX 3080 GPU上进行。作者的网络使用随机梯度下降(SGD)优化器进行训练,动量为0.937,权重衰减为0.0005,批大小为4,初始学习率为0.01,共训练300个epoch。
5.1 在Visdrone数据集上的结果
SOTA对比 。如表1所示,作者将FBRT-YOLO与现有的实时检测器进行了比较。FBRT-YOLO在各种模型规模上均实现了更优的性能和更快的检测效率。
对于资源受限的空中作业设备,作者展示了不同尺度下FBRT-YOLO模型与其他实时先进目标检测器的结果对比。
- • 对于小型模型,FBRT-YOLO-N/S相较于YOLOv8-N/S分别减少了72%和74%的参数数量,同时在平均精度(AP)上平均提升了0.6%和2.3%。
- • 对于中型模型,FBRT-YOLO-M相较于YOLOv8-M和YOLOv9-M分别减少了26%和23%的GFLOPs,同时在AP上分别提升了1.3%和1.2%。
- • 对于大型模型,相较于YOLOv8-X和YOLOv10-X,FBRT-YOLO-X分别减少了66%和23%的参数数量,并在AP上显著提升了1.2%和1.4%。
此外,相较于RT-DETR-R34/R50,FBRT-YOLO-M/L实现了更少的参数数量、更低的GFLOPs、更高的检测速度和更好的检测性能。这些实验结果表明,FBRT-YOLO作为实时空中图像检测器具有优越性。
如表2所示,展示了FBRT-YOLO与其他最先进方法在VisDrone上的比较结果,这表明FBRT-YOLO能够有效地检测航空图像。
定量结果 。为了更好地展示FBRT-YOLO在检测空中图像方面的优越性能,作者在图4中可视化了 Baseline 模型和FBRT-YOLO的heatmap。从结果中,作者观察到FBRTYOLO增强了对于小而密集目标的关注,展现了该方法在增强网络中的空间和多尺度信息方面的优越性。
5.2 UAVDT数据集上的结果
定量结果 。表3报告了作者在UAvDT数据集上的比较结果。FBRT-YOLO超越了现有方法,例如GLSAN和CEASC。结果表明,作者提出的FBRT-YOLO在空中图像检测方面取得了优异性能,其平均精度(AP)达到18.4%,优于其他最先进方法。这证明了作者检测框架的有效性。
定量结果 。复杂的背景会显著限制关于目标的有效信息。FBRT-YOLO专注于通过网络层有效传播目标的空间信息以增强特征表示。检测结果的可视化,如图5所示,证明FBRT-YOLO在复杂背景下显著提高了检测性能。
5.3 AI-TOD数据集上的结果
AI-TOD数据集包含大量小目标。为了更好地验证FBRT-YOLO在小目标检测方面的优越性,作者还对FBRTYOLO在AI-TOD数据集上进行了评估。如表4所示,与 Baseline 方法相比,FBRT-YOLO将参数数量减少了74%,GFLOPs降低了20%,同时AP50提升了2.2%,AP提升了1.1%。
5.4 消融研究
为验证FBRT-YOLO核心模块设计的有效性,作者在VisDrone数据集上设计了一系列消融实验。所有消融实验均以YOLOv8-S作为 Baseline 模型。
关键组件的影响 。表5中的实验结果表明了本工作中所有贡献的有效性。作者减少了 Baseline 模型中的固有冗余,对其进行优化,实现了参数减少18%和计算负载降低11%,尽管准确率略有下降。将FCM模块引入 Backbone 网络的各个阶段,将空间位置信息整合到更深层的网络中,从而将AP_50提高了1.4%,并进一步减少了网络计算资源。作者将 Backbone 网络最后一层的下采样操作替换为MKP单元,以在多个尺度上检测目标,从而将AP提高了1.6%。值得注意的是,与 Baseline 网络相比,作者的网络在训练过程中收敛速度更快。
映射关系的影响 。表6展示了所提出的通道和空间互补映射的结果。为了获得两种映射关系的最佳配置,作者设计了一系列变体实验。根据实验结果,作者发现使用通道或空间映射的模型优于没有映射关系的模型。结合两者可以取得更好的效果。与没有映射关系的模型相比,这种最佳配置将
提升了
。
分割率的影响 。表7展示了不同参数
对实验结果的影响,其中
表示空间特征信息和通道特征信息的分割率。从实验结果可以看出,随着下采样过程的进行,空间特征部分(进行逐点卷积)的比例增加,实验效果会更好。作者推测这种现象的原因是,当
取值为0.75、0.75、0.25、0.25时,它在深层网络中保留了更多的空间位置信息,这有利于目标特征的定位和匹配。在深层网络中保留更多的空间位置信息也与FCM模块设计的初衷一致。
卷积核大小的影响。表8展示了MKP中不同卷积核大小的实验结果。从实验结果可以看出,较小的卷积核为网络提供了有限的感受野,无法建立强大的上下文关联,而较大的卷积核则引入了显著的背景噪声,这对检测是有害的。通过使用不同大小的卷积核,作者捕获了跨越不同尺寸的目标的多尺度特征。此外,作者在不同卷积核之间引入了逐点卷积,以整合跨尺度的空间信息,从而实现最佳性能。
参考
[1]. FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)