深大提出 SL-YOLO: 更强、更轻的目标检测模型 !

大模型向量数据库机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

检测复杂场景中的小型目标,如无人机捕获的场景,是一项极具挑战性的任务,因为小型目标的复杂特征难以捕捉。

尽管YOLO家族在大目标检测方面取得了巨大成功,但在面对小型目标时,其性能并不令人满意。因此,本文提出了一种革命性的模型SL-YOLO(更强大、更轻的YOLO),旨在突破小型目标检测的 Bottleneck 。

作者提出了一种先驱性的跨尺度特征融合方法,即分层扩展路径聚合网络(HEPAN),它可以在最具有挑战性的环境中确保无与伦比的检测精度。同时,在不牺牲检测能力的前提下,作者设计了一个C2fDCB轻量级模块,并添加了SCDown下采样模块,以大大降低模型的参数和计算复杂度。

作者在VisDrone2019数据集上的实验结果表明,性能有了显著提升,mAP0.5从43.0%跃升至46.9%,mAP0.5:0.95从26.0%增加至28.9%。

同时,模型参数从11.1M减少到9.6M,FPS可达132,使其成为资源受限环境中实时小型目标检测的理想解决方案。

1 Introduction

随着无人机技术的快速发展,航空摄影已成为关键领域如灾害监测、交通管理、搜救和农业监管等的重要工具。与传统地面方法相比,无人机影像具有高空视角、广覆盖范围和降低运营成本的优势。然而,无人机影像中的小目标检测面临着重大挑战,包括复杂背景、低对比物体和动态环境条件,常常导致检测误差和遗漏目标[31, 37]。实现实时、准确的检测对于使无人机在各种应用中发挥有效作用至关重要。例如,在灾害响应中,精确的检测可以识别幸存者或危险,而在农业中,检测到的小异常可以导致更好的作物管理。通过解决这些局限性,无人机可以可靠、高效地运行,最大限度地发挥其在复杂和 demanding 条件下的潜力。

现有的目标检测方法可以广泛分为两类:R-CNN系列的两阶段模型 ,以及单阶段YOLO系列。

YOLOv8在速度和准确性之间取得了良好的平衡,因此在许多应用中非常受欢迎。然而,在复杂场景中的小目标检测仍然是一个挑战。许多最近的研究试图解决这个问题,采用了多尺度特征融合、注意力机制 [32] 和轻量级设计。经典的方法如特征金字塔网络(FPN)[19],路径聚合网络(PAN)[20]和最近的BiFPN [30]优化了多尺度特征处理。然而,即使有了这些进步,无人机图像中的小目标检测仍然具有挑战性。轻量级模型如MobileNets ,ShuffleNets [23, 40]和EfficientNets[28, 29]在降低计算成本的同时保持准确性,但在基于无人机的场景中仍然存在不足。

通过克服现有模型的局限性,作者的研究提出了一种更强大但轻量级的模型SL-YOLO,它建立在YOLOv8s之上,以处理在复杂条件下和资源受限设备上的小型目标检测。这种模型不仅打破了传统无人机目标检测的边界,而且为动态和复杂环境中的智能实时监测开辟了新时代,使其在实际应用中发挥重要作用。

具体而言,作者提出了分层扩展路径聚合网络(HEPAN),它可以在不同 Level 更好地融合特征,从而提高模型捕捉小型目标的能力。此外,作者还设计了一个C2fDCB轻量级模块,通过优化网络的卷积结构,减少模型参数和计算复杂性。

本研究的主要贡献如下:

  1. 针对YOLOv8在无人机图像中小目标检测效果不佳的问题,本文在论文中增加了一个专门用于小目标检测的额外检测层。该层通过将浅层和深度特征信息融合,显著提升了模型捕捉小目标的性能。
  2. 优化网络结构。作者提出了一种分层扩展路径聚合网络(HEPAN),以进一步提高在不同层次上融合特征的能力。在HEPAN中,作者在网络结构的中间层添加了额外的卷积层,并使用残差连接来增强梯度 Stream 。这显著增强了模型捕捉小物体的能力,并减少了检测遗漏和假检测的可能性。
  3. 引入轻量级设计。在本文中,作者通过将深度可分卷积[2]和RepVGG重参化方法[3]合成,设计出C2fDCB轻量级模块,以提高C2f模块的计算效率。同时,引入了SCDown下采样模块,以减少模型参数的数量和计算开销。因此,该模型在资源受限的环境中能够高效运行,同时保持高检测精度。

通过在VisDrone2019数据集[4]上的实验验证,本文提出的SL-YOLO模型在mAP和其他关键评估指标方面取得了显著提升,证明了在资源有限的情况下,该模型能够实现良好的检测性能。在图1中,作者展示了YOLOv8s(图1(a))和作者的SL-YOLO(图1(b))在复杂背景下的小型目标检测性能对比。很明显,SL-YOLO在识别复杂背景中的小型目标方面更加准确,显著降低了检测误差和误检率,从而验证了作者的SL-YOLO模型的有效性。

picture.image

2 Related Work

目标检测的一个难点是检测不同尺度的目标,尤其是小目标。小目标具有较少的特征信息,在深度卷积神经网络中的池化和降采样过程中容易丢失。为此,研究行人提出了多尺度特征融合技术,以确保网络能够有效检测不同尺寸的目标。早期的目标检测模型,如RCNN[10]和Fast RCNN[9],通常使用单尺度特征图,导致检测性能有限。Faster RCNN[26]引入了一个区域 Proposal 网络(RPN),但仍依赖于固定尺度的特征。特征金字塔网络(FPN)[19]通过多分辨率特征图实现多尺度检测,提高了小目标检测效果,并成为多尺度特征融合的经典之作。路径聚合网络(PANet)[20]通过添加底部路径增强低级和高级特征的融合,改进了FPN。自适应空间特征融合(ASFF)[21]通过在每一级自适应选择代表性的空间特征进行特征选择。NAS-FPN[8]使用神经架构搜索自动确定最优融合策略,尽管这种方法显著增加了计算成本。加权双向特征金字塔网络(BiFPN)[30]通过引入可学习的权重机制平衡不同特征 Level 的贡献,实现了更有效的融合过程。

近年来,在轻量级网络设计方面取得了重要进展,为资源受限环境下的深度学习应用提供了有效解决方案。ResNet [12]通过残差连接解决消失梯度问题;DenseNet [15]通过稠密连接促进特征重用,从而降低模型参数并提高性能;ResNeXt [38]引入了“组卷积”和“乘积”概念,强调结构多样性并通过增加基数提高模型性能。MobileNet [14]使用深度可分卷积显著减少计算量,适用于移动设备和其他场景;ShuffleNet [23]结合通道混淆和组卷积实现高效特征学习;EfficientNet [28]通过复合缩放优化网络的宽度、深度和分辨率,成为轻量级设计的基准。CSPNet [34]通过特征图分离和跨阶段连接减少计算量并提高模型表达能力;GhostNet [11]的“Ghost”模块进一步提升了特征表示能力;RepVGG [3]通过推理阶段模块转换显著降低了推理计算开销。这些网络的设计概念相互学习并不断创新,推动了深度学习模型实际应用的发展。

YOLO(仅看一次)作为一种实时目标检测模型,自2016年提出以来,已成为计算机视觉的重要基准之一。YOLOv1 [22, 24] 将目标检测视为回归问题,并通过单个神经网络直接预测边界框和类别标签,显著提高了检测速度,但其小目标检测能力有限。YOLOv2 [25] 引入了多尺度检测和 Anchor 框机制来提高模型准确性;YOLOv3 [6] 使用残差网络结构来增强小目标检测能力,并实现速度与准确性之间的平衡。YOLOv4 [1, 7, 39, 41] 结合CSPDarknet和多种数据增强技术,进一步提高检测性能。后来的改进版本(YOLOv5, YOLOv6 [17], YOLOv7 [35], YOLOv8 [16], YOLOv9 [36], 和YOLOv10 [33])在易用性和模型轻量化方面进行了创新,使该模型在自动驾驶、安全监控和医学图像分析等领域得到广泛应用。未来研究将继续关注提高模型在应对更复杂场景和任务要求时的鲁棒性和准确性。

3 Methodology

在本节中,作者详细介绍了作者SL-YOLO模型的网络设计。作者的目标是提高YOLOv8s模型的检测性能,特别是无人机图像上的小目标检测任务。作者通过专注于优化多尺度特征融合机制和引入轻量级模块,挑战小目标检测的极限。这些创新使得模型在保持复杂和杂乱背景下的优秀准确性的同时,更好地捕捉小目标的关键特征信息。在接下来的子节中,作者将深入探讨这些优化的核心方面,并探索其详细的实现。作者增强网络的整体结构如图2所示,它由三个主要组件组成:Backbone、Neck和Head。Backbone包括标准卷积(Conv)、C2f和作者的轻量级C2fDCB模块,负责特征提取和压缩。Neck使用层次扩展路径聚合网络(HEPAN)融合多尺度特征,以增强小目标检测。Head包含四个不同尺度的检测层,以确保模型可以准确识别多个尺度上的目标。

picture.image

Add a head for the small target detection

在本研究中,作者首先采用了一种常见的改进方法来解决YOLOv8在无人机 aerial 图像中小目标检测效果不佳的问题 - 添加了一个小目标检测层。在具有许多小目标的无人机 aerial 图像中,尽管YOLOv8在常见目标检测场景中表现良好,但其卷积特征提取机制在处理小目标时面临巨大挑战。随着网络深度的增加,小物体的信息逐渐在深度特征中丢失。为此,作者将一个新的小目标检测层引入YOLOv8模型中,通过集成浅层和深度特征来增强小目标的检测能力。具体而言,作者在网络的 Neck 结构中上采样,生成一个更高分辨率(160x160)的特征图,并与backbone网络的输出融合,以提高小目标的特征捕捉能力。这种方法能够提高小目标的检测效果,并增强模型的适应性。

Optimized network structure

YOLOv8的整体结构采用了Path Aggregation Network(PANet),如图3(a)所示。这种结构的主体网络包含多个卷积层,这些层逐渐增加特征图的深度和分辨率,使模型能够有效地捕捉不同层次的特征信息。然而,在实际应用中,YOLOv8在小目标检测方面存在一定的缺陷。主要原因是特征融合效果不理想,低级特征(如小目标的精细信息)和高级特征(如全局上下文信息)的融合不足,导致模型在小目标检测的准确率和召回率有限。这一局限性对模型在复杂场景中的性能产生了显著影响,尤其是在场景中大量存在但小目标比例较小的情况下。

picture.image

为了克服这些限制,李[30]提出了加权双向特征金字塔网络(BiFPN),如图3(b)所示。BiFPN结构的核心在于其设计了两向信息流,使模型能够同时利用不同尺度的特征。具体来说,这种结构通过跨层连接和融合操作增强了低级特征与高级特征之间的交互,并提高了小目标的特征表达能力。此外,BiFPN在特征融合过程中自适应地加权不同 Level 的特征,以确保更重要的特征占主导地位。这种设计不仅提高了小目标的检测能力,还提高了模型在复杂场景中的整体性能。

作者进一步优化特征融合机制,通过引入高效的层次扩展路径聚合网络(HEPAN)实现更详细特征连接和信息流,如图3(c)所示。在HEPAN结构中,作者引入了额外的卷积层到 Neck 分,以进一步增强特征提取和表达能力,并引入了残差连接以提高梯度 Stream 的稳定性。与传统的PAN和BiFPN结构相比,HEPAN可以显著提高小目标检测的准确性,尤其是在复杂背景环境中。

Improved Lightweight module

在小型目标检测任务中,模型的计算复杂度和参数规模对实时性能和效率具有至关重要的影响,尤其是在资源受限的设备上。因此,模型轻量化的设计已成为提高检测速度和降低功耗的关键环节。作者在轻量化方面优化模型设计,旨在在保持优秀检测性能的同时减少冗余计算。通过设计一个新的特征提取模块,模型的参数数量和计算成本显著降低。

3.3.1 Czflocb

YOLOv8中的C2f模块通过通道特征融合技术建立特征图之间的连接,有效地整合不同层的信息。然而,在参数效率和降低计算复杂性方面仍有改进空间。作者通过将深度可分卷积与经典的C2f模块相结合,设计出C2fDCB模块,进一步减少参数和计算复杂性,同时保持丰富的特征。与传统卷积层相比,这种设计使模型在小目标检测任务中轻量,同时仍能捕捉关键特征,适用于资源受限的无人机环境。具体而言,如果不考虑偏置,传统卷积操作的参数和计算复杂性可以通过公式(1)和(2)计算得到。深度可分卷积的参数和复杂性低于传统卷积,可以通过公式(3)和(4)计算得到。

picture.image

其中, 是标准卷积的核大小,而 和 分别表示逐点卷积和逐通道卷积的核大小。 和 分别表示输入和输出通道的数量, 和 分别表示输出特征图的高度和宽度。

深度卷积块(DCB)是C2fDCB模块的核心组成部分,如图4所示。它展示了C2fDCB模块在SL-YOLO中的结构,包括关键组件如逐点卷积和RepVGGDW卷积。DCB模块从3x3标准卷积开始,用于保持模型的特征提取能力。标准卷积使模型通过应用多个卷积核来捕捉输入特征中的局部模式和结构信息,从而为后续特征处理奠定了基础。接下来,模块引入了逐通道卷积,它独立地对每个输入通道应用卷积核,有效地降低了计算复杂度。随后,点卷积用于集成不同通道的特征。通过1x1卷积操作,点卷积可以有效地混合每个通道的信息,从而提高特征表示的丰富性和表达能力。该层的设计确保了通道间的信息 Stream ,使模型可以学习更复杂的特征。最后,模块引入了RepVGGDW卷积。这种卷积结合了逐点卷积的优点,进一步降低计算复杂度,同时保持高性能特征提取能力。

picture.image

3.3.2 SCDown

SCDown模块包括两个主要的卷积层,旨在有效地降低特征图的空间和通道维度。第一个卷积层使用一个1x1卷积核,将输入特征图的通道数从c1压缩到c2。这个过程不仅减少了后续计算的复杂性,还允许模型专注于更关键的特征信息。第二个卷积层进一步处理通道压缩的特征图。该层使用kdk卷积核和步长s,并实现通道分步卷积,以提高计算效率。通过调整空间维度,特征图可以有效地降采样,增强模型在不同尺度上捕捉信息的能力。

4 Experiments

Dataset

在本文中,作者使用由天津大学和其它团队开发的大型无人机视角数据集VisDrone2019[4]。该数据集主要用于目标检测,包含相应的标注图像,分为训练集(6471张图像)、验证集(548张图像)、测试集(1610张图像)和竞赛集(1580张图像)。图像尺寸范围从2000 x 1500到480 x 360。由于无人机视角,该数据集在角度、内容、背景和光线方面与地面数据集如MS COCO[18]和VOC2012[5]有所不同。该数据集覆盖了各种照明条件下的街道、公园和学校等场景,并标注了10种目标类型,包括行人、汽车和自行车。

Experimental environment

在本次实验中,作者选择Ubuntu 24.04.1作为操作系统,使用Python 3.10.14,PyTorch 2.3.1和CUDA 11.8作为计算环境。在硬件方面,作者使用了NVIDIA RTX 6000 Ada显卡。神经网络的实现基于Ultralytics提供的YOLOv8官方代码,并相应地进行修改。为了确保实验的可重复性,训练、测试和验证过程中的超参数保持一致。具体设置是训练600个周期,将输入图像大小调整到640x640。所有网络都使用预训练权重yolov8s.pt进行训练,测试时使用一个图像(bs=1)进行速度测量。

Comparison with the other Models

表格1展示了各种YOLO版本在VisDrone2019-val数据集上的实验结果,包括, , 参数数量(M),计算量(GFLOPs)以及单张图像推理速度(FPS)。从表格中的结果可以看出,SL-YOLO在多个指标上都表现良好,尤其是在mAP和推理速度上。具体来说,SL-YOLO在和上分别取得了46.9%和28.9%的分数,与其他模型相比具有更高的检测精度。与标准YOLOv8s(43.0%,26.0%)相比,SL-YOLO的mAP提高了近4个百分点,显示出其明显的精度优势。此外,SL-YOLO在推理速度方面也表现出色,达到132 FPS,与较轻的模型(如YOLOv8s(163)和YOLOv8s-p2(139))接近,而其性能优势体现在其较低的参数数量(9.6M)和计算复杂度(36.7 GFLOPs),这表明其具有高效的计算和推理能力。

表2展示了各种YOLO版本在VisDrone2019-test数据集上的实验结果。从表中的数据可以看出,SL-YOLO的达到了38.3%,与其他YOLO模型相比处于领先地位,仅略低于YOLOv9m(38.9%)和YOLOv11m(38.8%),但它的参数体积(9.6M)和计算复杂度(36.7 GFLOPs)都比这两者低得多(20.0M和67.7 GFLOPs,分别)。相比之下,SL-YOLO的计算效率更为突出,与YOLOv8s-p2具有相同的计算复杂度,但具有更高的准确性(37.4% vs 38.3%)。此外,SL-YOLO在参数体积方面也具有优势,几乎与YOLOv8s-p2相同(10.6M),但其准确性显著提高。

picture.image

总之,SL-YOLO在准确率和速度之间取得了良好的平衡。它是这个任务中最具效率和优秀的模型之一,特别适合对实时性能和准确性有高要求的场景。

Ablation Study

为了进一步验证所提出算法的有效性,作者在VisDrone-2019验证集上进行了消融实验。以YOLOv8s为基础模型,作者将本文中提到的各种改进方法逐步添加到基础YOLOv8s模型中,以验证每种方法对目标检测性能的改进。表3给出了在VisDrone-2019验证数据集上进行的消融实验的结果。实验涉及向基础YOLOv8s模型中添加各种改进,包括添加一个P2层小目标检测Head、HEPAN结构、C2fDCB模块、SCDown以及这些改进的组合。从表中可以看出,基础YOLOv8s模型在实验中的mAP为0.5的43.0%,0.5至0.95 mAP的26.0%,参数数量为11.1M,GFLOPs为28.5。在向基础模型中添加P2层后,mAP提高到46.2%(+3.2%),0.5至0.95 mAP提高到28.3%(+2.3%),参数数量减少到10.6M,GFLOPs增加到36.7。

这表明添加小目标检测Head显著提高了检测精度,尤其是小目标的检测能力,但计算量增加了。进一步改进HEPAN结构后,mAP进一步增加到47.2%(+1.0%),0.5至0.95 mAP增加到29.1%(+0.8%),参数数量增加到11.3M,GFLOPs增加到38.1。这一结果表明,HEPAN结构进一步改善了整个网络性能,尤其是高IoU阈值性能。用C2fDCB模块替换C2f模块后,mAP略有下降至47.0%(-0.2%),0.5至0.95 mAP保持为29.1%,参数数量减少到10.6M,GFLOPs也减少到37.3。尽管准确性略有下降,但模型变得更轻,参数和计算量也减少了。最后,用SCDown模块替换下采样模块后,模型mAP为46.9%,0.5至0.95 mAP为28.9%,参数数量显著减少到9.6M(-1.0M),GFLOPs减少到36.7(-0.6),显示出SCDown模块在简化模型结构方面的优势。

picture.image

不同网络结构的分析。在表4中,作者比较了在VisDrone2019-val数据集上,使用PAN、BiFPN和HEPAN三种网络结构进行模型性能。其中,HEPAN结构达到了最高的检测效果,达到了mAP(47.2%),参数大小为11.3M,GFLOPs为38.1,这分别优于PAN和BiFPN结构(mAP分别为46.2%和46.4%)。尽管HEPAN的计算复杂度略高,但性能提升显著。

picture.image

分析不同模块的效果。 表5分别比较了使用C3、C2f和C2fDCB模块的效果。C2f模块实现了最高的mAP(0.5)(47.2%),参数为11.3M,计算量为38.1 GFLOPs。相比之下,C2fDCB的参数和计算量略低(10.6M和37.3 GFLOPs),但性能略低,达到mAP(0.5)的47.0%。这表明C2f模块在性能和计算之间取得了良好的平衡。

picture.image

分析不同下采样模块。实验结果见表6。虽然Conv模块在mAP0.5上略优于SCDown,但两者之间的性能差距几乎可以忽略不计。然而,SCDown模块在参数数量和计算复杂性方面都优于Conv。因此,在实际应用中选择SCDown模块可能带来更好的平衡,尤其是在资源有限的情况下,同时仍能保持良好的检测性能。

picture.image

5 Conclusions

本文中,提出了SL-YOLO模型,这是一个在复杂环境下用于无人机目标检测的更加强大且轻量的模型。

SL-YOLO集成了分层扩展路径聚合网络(HEPAN),用于改进跨尺度特征融合,提升小目标的检测精度,同时引入了C2fDCB和SCDown模块以减少参数量和计算负载,同时保持高性能。

SL-YOLO的设计使得无人机能够高效地检测复杂环境中的小目标,为灾害响应和智能监控等关键任务提供坚实的支持。

未来,作者计划进一步优化SL-YOLO的跨场景适应性,使其能够在更多不同的场景中展现出卓越的小目标检测性能,为无人机领域的智能发展提供更多可能性。

参考文献

[0]. SL-YOLO: A Stronger and Lighter Drone Target Detection Model.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论