点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
计算机视觉中的目标检测对于交通管理,紧急响应,自动驾驶车辆和智能城市至关重要。尽管在目标检测方面取得了显著的进步,但通过远程摄像机捕获的图像中小目标检测仍具有挑战性,这主要是由于它们的大小、与摄像头的距离、形状的多样性和杂乱的背景所造成的。
为了解决这些问题,作者提出了Small Object Detection YOLOv8 (SOD-YOLOv8),这是一种专门针对涉及众多小目标场景的新颖模型。受到Efficient Generalized Feature Pyramid Networks (GFPN)的启发,作者在YOLOv8中的多路径融合中增强了跨层级的多路径融合,保留浅层细节并提高小目标检测精度。
此外,作者引入了第四个检测层,以有效利用高分辨率的空间信息。C2f-EMA模块中的高效多尺度注意力模块(EMA)通过重新分配权重和优先考虑相关特征增强特征提取。
作者提出了Powerful-IoU(PIoU)作为CIoU的替代,主要关注中等质量的 Anchor 框并根据预测框角和实际框角之间的差异添加惩罚。这种方法简化了计算,加快了收敛速度,并提高了检测精度。相比YOLOv8,SOD-YOLOv8在各种指标上的小目标检测显著提高了召回率(从40.1%到43.9%),精确率(从51.2%到53.9%),mAP0.5(从40.6%到45.1%),以及mAP0.5到0.95(从24%到26.6%)。
在动态实时交通场景中,SOD-YOLOv8在各种条件下都有显著的改进,证明了即使在具有挑战性的环境中,它可以检测小目标并且具有可靠性。
I Introduction
计算机视觉领域中的目标检测在各个领域中都起着至关重要的作用,包括自动驾驶[1,2,3],交通场景监测[4,5],增强智能驾驶系统[6],以及便利搜索和救援任务[7]。准确检测小目标,如行人、车辆、摩托车、自行车、交通标志和信号灯等,对于自动驾驶车辆和智能驾驶系统[1,3]的安全导航和决策至关重要。此外,检测小目标可以提升交通流畅管理,行人和整体交通场景分析。这个能力对于改善城市规划和发展交通系统[4,5]是必不可少的。
随着UAV生产成本的降低和飞行控制技术的进步,这些小型、灵活的设备越来越用于智能交通监测[8]。UAV通常在较高的海拔高度运作,以获得更广泛的视角,由于距离较大,地面物体的视觉尺寸会减小。这个距离增加了在捕获图像中的目标检测的复杂度。尽管在目标检测方面有了显著的进步,但检测城市交通中的小目标,如行人、摩托车、自行车和车辆,仍然是具有挑战性的,主要是由于它们的大小,形状的多样化,以及杂乱的背景。这个挑战在计算机视觉和目标检测中使用有限的硬件资源时被进一步放大。
占据图像较小部分且分辨率较低以及视觉特征比较大目标更不明显的较小物体更难以精确检测。此外,网络中的浅层可能会滤除用于检测这些较小物体的必要空间细节,从而导致数据损失。此外,较小物体在特征提取过程中可能会被较大物体部分遮盖,可能导致丢失对准确检测至关重要的相关详细信息。克服这些挑战对于改善现实场景中的整体检测准确性和可靠性至关重要。
为了解决UAV空中拍摄和交通场景中的小目标检测,作者提出了一种基于YOLOv8的新模型。作者的模型采用了增强的GFPN,并集成多尺度的空间和上下文信息[9]。作者将EMA注意力[10]集成到C2f模块中,以确保小目标特征得到足够的关注。此外,作者还包含了一个第四层检测层,以有效利用高分辨率的空间细节。此外,由于框回归在目标检测中具有重大的影响,作者使用了PIoU方法,它通过结合改进的惩罚项和注意力机制,提高了性能,降低了收敛时间。作者的关键贡献如下:
- 受DAMO-YOLO模型[11]中高效RepGFPN的启发,作者对YOLOv8架构中的多路径融合进行了增强。这种增强简化了GFPN结构并通过重参化更好地融合了特征,尤其是在处理小目标时。此外,作者还增加了一个第四检测层,有效地利用了高分辨率和详细的空间信息。
- 作者将C2f-EMA结构集成到网络中,利用高效的的多尺度注意力模块取代C2f在颈层。这种增强可以通过重新分配特征权重来改善特征提取,优先考虑图像通道中的相关特征和空间细节。因此,它增强了网络检测不同大小目标的能力。
- 作者用PIoU代替CIoU在原始网络中。PIoU通过平衡难易样本,特别针对中等质量的 Anchor 框,增强了现有的IoU损失函数的有效性。此外,PIoU还通过仅需要一个超参数简化了计算,提高了收敛速度和优化性能。
- 作者在各种具有挑战性的场景中进行了视觉分析,以证明 proposed 方法在增强小目标检测的有效性。此外,作者还利用建筑物的摄像头捕获的真实场景图像进行了实验,这些图像包含许多小物体,有助于验证作者的增强模型在小目标检测方面的效果。
论文的其余部分如下:第2节讨论相关工作; 第3节概述YOLOv8网络结构; 第4节详细描述了提出的增强YOLOv8; 第5节覆盖作者的实验设置和结果分析; 最后,第6节总结论文。
II Related work
针对小型目标检测,本节回顾了主流目标检测算法,小型目标检测的最新进展,并对YOLO框架中做出特定改进的内容。
主流目标检测算法主要使用深度学习技术,可分为两类:两阶段和一次阶段方法。两阶段方法处理候选帧,并对其进行深度学习,相应的帧进行分类 [13]。典型的两阶段检测算法包括R-CNN [13],快速R-CNN [14],和Faster R-CNN [15]。R-CNN家族是一个经典的两阶段算法,以高检测精度而闻名,但也面临着速度慢,训练复杂,和优化等方面的挑战 [16]。一次阶段检测器,如YOLO系列 [17, 18] 和 SSD [19],使用单个神经网络在一次性预测框坐标和类别,因此单阶段网络在速度至关重要的应用中脱颖而出。然而,他们牺牲了一些精度。尽管在速度上的进步,但这些方法由于物体的多尺度性质和UAV和交通场景中小型物体的普遍存在,在精度上仍然存在困难。
近期研究聚焦于提高UAV航空图像和小场景中物体的检测,由于它们的分辨率和视觉特征不如较大物体,这对检测来说是一个挑战。已经探索了各种backbone架构以增强特征表示,减少错误积极,并从UAV图像的复杂背景中提取相关特征。
刘等人 [20]在UAV图像中引入了一个小型目标检测模型,通过整合ResNet单元来解决泄漏和错误积极,并优化卷积操作以扩大网络的感知场。刘等人 [21]提出了CBSSD,这是一种专门用于UAV交通图像中小型目标检测的检测器。通过将ResNet50的低级特征与VGG16相结合,CBSSD提高了特征表示,增强了物体识别精度,并减少了在恶劣照明条件下出现错误正积极的可能性。此外,刘等人 [22]利用了多分支并行特征金字塔网络(MPFPN)和SSAM来检测UAV图像中的小型物体,方法通过MPFPN进行深度层细节恢复,而SSAM减少了背景噪声,从而显著提高了准确率。在VisDrone-DET数据集 [23]上的实验结果证明了他们的方法具有较强的竞争力。
近年来,YOLO框架内部的调整和优化也已在解决小型目标检测的挑战方面进行了深入研究。Lai等人[24]提出了STC-YOLO,这是一种专门针对交通标志检测的YOLOv5变体。他们的改进包括精化的下采样,专用的 small object 检测层以及基于CNN的多头注意特征提取模块。STC-YOLO在基准数据集上显示了9.3%的显著改进,与YOLOv5相比。
对YOLOv8做了进一步的改进,主要集中在改进后端架构,集成注意力机制以关注相关特征并抑制无关特征,以及修改损失函数。赵等人[25]提出了DS-YOLOv8,通过集成变形卷积C2f (DCN_C2f) 和自校准混合注意力 (SC_SA)进行自适应特征调整,并结合Wise-IoU和位置回归损失来增强性能。在不同数据集上的实验结果显示,在0.5 方面取得了显著改进。王等人[8]为UAV航空摄影使用了改进的YOLOv8,借助生物形式注意力机制聚焦重要信息和FFNB进行多尺度特征融合。这导致了基础模型平均检测精度提高了7.7%,超过了广泛使用的小型目标检测替代方案。尽管如此,由于增加的检测层导致计算复杂性增加,仍需进一步优化。
王等人[27]将YOLOv8应用于远程感测图像的目标检测,专注于复杂背景和多样小型目标。他们引入了小型目标检测层,并采用了C2f-E结构,使用了EMA注意力模块。DOTAv1.0数据集[28]上的实验结果表明,在0.5 方面提高了1.3%。然而,他们的方法引入了更高的计算复杂性。许等人[29]提出了YOLOv8-MPEB,专门用于UAV图像中的小型目标检测,解决了尺寸变化和复杂场景问题。改进措施包括用MobileNetV3替换CSPDarknet53以提高效率,集成C2f中的Efficient Multi-Scale Attention进行更好的特征提取,并在Neck部分集成Bidirectional Feature Pyramid Network (BiFPN)以增强适应性。在自定义数据集上的实验结果显示,YOLOv8-MPEB实现了91.9%的mAP,相对于标准YOLOv8提高了2.2%,同时将参数减少了34%,模型大小减少了32%。然而,准确检测密集小型目标仍然具有挑战性。
尽管已审查的论文中取得了改进,但小目标检测方法在无人机航拍和交通场景中仍然面临挑战。这些方法主要关注特征融合,但通常忽视内部块连接。相比之下,作者的方法将一个优化的GFPN集成到YOLOv8中,灵感来自于Efficient-RepGFPN。这种增强方法通过跳接连接和queen融合结构在提高效率的同时,几乎不影响计算复杂度和延迟。此外,引入的C2f-EMA模块通过EMA注意力机制重新分布特征权重来增强特征提取。与其他注意力机制不同,它克服了忽视空间细节交互和1x1核卷积 receptive field的限制,限制了局部跨通道交互和情境信息建模。
此外,作者的方法避免了其他边界框回归方法中常见的扩大问题。所使用的PIoU损失函数在训练过程中有效地指导了 Anchor 框,使得训练收敛速度更快,证明了其有效性。虽然现有方法在控制数据集中表现良好,但在实际环境中的多样环境和动态照明条件下的泛化能力往往较差。在本文中,作者使用建筑安装的摄像头捕获的实时交通场景,评估了多样环境、照明条件和动态场景(如夜间和拥挤场景)下的挑战。这考验了小目标检测方法在控制数据集之外的泛化能力。
III Introduction of YOLOv8 Detection Network
如图1所示,YOLOv8架构主要由三个主要部分组成:backbone、neck和检测层。这些组件将在以下部分中逐一介绍。
请注意,这是一份英文原文,因此可能存在一些细微的差异。在翻译和整理时,应尽量保持英文原文的意思和结构,同时保证语句通顺易懂。由于我只能根据我的训练数据回答,可能存在一些无法准确翻译的问题,敬请谅解。
Backbone Layer
YOLOv8的结构基于CSPDarknet53 [30] Backbone 网络,采用五种降采样阶段来提取不同的尺度特征,从而提高信息流动和保持轻量级的特性。它使用C2f模块代替了传统的CSP模块 [32],C2f模块包含稠密和残差结构,以更好地实现梯度流动和特征表示。Backbone 网络还包括空间金字塔池化快速(SPPF)模块,能够在多个尺度上捕获特征,从而提高检测性能。同时,SPPF层在降低计算复杂度和延迟的同时,优化了特征提取[34]。
Neck Layer
对于多尺度特征融合,YOLOv8的 Neck 使用了特征金字塔网络(FPN)[35]和路径聚合网络(PANet)[36]。FPN通过自上而下的路径增强分层特征融合,通过提高各种尺度下的目标检测[15];PANet通过自下而上的路径增强特征表示和信息重用,尽管这会提高计算成本[16]。结合FPN-PANet结构和C2f模块整合了各种尺度的特征图,将浅层和深度信息融合。
Detection Head Layer
YOLOv8是一种最先进的目标检测模型,通过使用任务对齐分配器(Task-Aligned Assigner)[37]而不是传统的 Anchor 点,实现了更高的准确性和鲁棒性。该分配器可以动态地将样本分类为阳性样本或阴性样本,从而提高模型准确检测物体的能力。检测Head采用解耦结构,具有独立的分支来进行物体分类和边界框回归。对于分类,它采用二进制交叉熵损失(BCE Loss)。对于回归,它使用一组分布聚焦损失(DFL)[38]和完全交集与并集(CIoU)[39]损失的组合。这些高效的损失函数对于精确的目标本地化至为关键,从而进一步提高了模型的性能。
边界框损失函数旨在通过惩罚预测和真实地面目标框之间的差异来准确地定位目标。基于IoU的损失函数[40]对于检测层中的边界框回归至关重要。IoU Loss通过将预测框和真实框的交集面积与其并集面积的比例进行比较来衡量预测框与真实框的覆盖面积。然而,当没有重叠时,其梯度会降低,使其在某些情况下效率较低。随着不同的方法学和约束,已经开发了许多不同的IoU-基于损失函数。YOLOv8中使用的CIoU方法衡量预测框和真实框中心点之间的归一化距离,并包括长宽比惩罚项。这种方法提高了收敛速度并提高了整体性能。
IV Method
在本节中,作者介绍了三个关于改进小型目标检测的关键增强:首先,作者在YOLOv8架构的 Neck 增强特征融合,以更好地保留通常被较浅层滤除的关键空间细节。这种修改旨在减少信息损失,特别是在特征提取过程中被较大物体所遮盖的小物体。其次,作者提出C2f-EMA模块,集成了一个EMA注意力机制来优先考虑跨不同通道的相关特征和空间细节。这种方法通过有效重新分配特征权重提高了特征提取效率。最后,作者使用PIoU作为一种改进的边界框回归度量标准,替代CIoU。PIoU包含一个惩罚项,用于最小化预测框和真实框对应角点的欧几里得距离,为框回归任务提供了一个更直观的相似度和稳定性度量。这些方法有助于增强作者的小型目标检测框架的准确性和鲁棒性。在本论文中,作者使用了增强后的结构,如图2所示。
Improved GFPN for Multilevel Feature Integration
在YOLOv8中,关键的空间细节主要编码在网络的浅层。然而,这些浅层通常会过滤掉较不突出的细节,导致对小型目标检测的重大数据损失。此外,在特征提取过程中,较大物体可能会掩盖较小物体,导致信息的逐渐丢失和相关细节的消失。为了解决这些挑战,本文在YOLOv8架构的 Neck 引入了增强的特征融合方法。这种方法专注于保留和有效地利用浅层的重要信息,从而提高整体检测准确性,特别是对小型物体。
FPN将来自骨架网络的不同分辨率特征进行融合。它从最高分辨率特征图开始,采用自上而下的方式,逐步组合更高分辨率的特征,从下往上。PAFPN通过添加自下而上的方法改进了FPN,增强了双向信息流。它将来自较低网络层到较高网络层的特征进行融合,优先考虑空间细节保留,即使增加了计算需求。
BiFPN通过跨不同分辨率双向整合特征实现目标检测,使用自下而上和自上而下的路径。这种方法优化了多尺度特征利用,简化了网络,降低了计算复杂性,并在每一层使用跳跃连接。这些连接允许调整输入特征的使用,从而在跨尺度和细节之间增强特征融合。然而,BiFPN块的深度堆叠可能会导致训练中梯度消失,从而可能影响整个网络性能。
以往的方法主要关注将特征组合在一起,而没有考虑内层块之间的连接。与GFPN不同,它引入了跳层和跨尺度连接,以增强特征组合。GFPN采取跳层连接和 queen fusion结构。它使用跳层和跨尺度连接增强特征组合。GFPN在两种形式中实现跳层连接:-link和dense-link。
-link方法通过允许第层在 Level 收到前层特征图来优化信息传输。这些 Short-Cut 有助于缓解反向传播中的梯度消失,通过将每个层的最短梯度距离扩展到大约层来延长梯度传播距离,从而可能增强更深网络的可扩展性。
相比之下,密集链接方法确保每个 Level 的级联特征 从所有先前的特征图接收特征图。另一个显著改进的GFPN模块是Queen Fusion模块,它简化了跨尺度的连接,提高了对多尺度变化的自适应性。这个模块使用了一个3x3卷积来合并不同尺度的特征,将上下方向的 diagonal 对角相邻节点输入特征汇聚在一起,以在特征融合过程中最小化信息损失。实现这种方法增强了网络处理多尺度变化的能力,有可能提高总性能的鲁棒性。图4说明了不同层之间特征图集成的各种方法,包括FPN,PANet,BiFPN和GFPN。
在YOLOv8中,将PAFPN与C2f模块有效结合特征图尺度的结合,从而增强物体的检测能力。本研究旨在利用先进的特征融合技术增强YOLOv8的小目标检测。然而,将PAFPN替换为GFPN在YOLOv8中提高了精度,但同时引入了比PAFPN基础模型更高的延迟。
本文介绍了一种改进且高效的GFPN,如图5所示,它受到Efficient-RepGFPN [11]的启发。将它集成到YOLOv8中,该模型在保持计算复杂度或延迟基本不变的情况下取得了优越性能。Efficient-RepGFPN通过在Queen Fusion中参数化和消除额外的上采样操作来简化复杂性[11]。此外,它还将特征融合模块升级为CSPNet,增强不同尺度特征的融合[11]。
在GFPN架构的特征融合模块中,作者用C2f-EMA取代了传统的3x3卷积特征融合,并引入了注意力机制。这个模块将高层次语义特征与低层次的时空详细信息结合在一起,从而增强小物体的表示和检测准确性。这些修改保持了GFPN通过有效地管理颈段中的两种类型的信息来改善特征交互和效率的能力。受Efficient-RepGFPN启发,作者在Queen Fusion中还进行了参数化和消除额外的上采样操作。最终,这些改进提高了YOLOv8在目标检测任务中的效率和有效性,同时基本保持了计算复杂度或延迟不变。
通过添加一个检测层,该层将P2与P3到P5之间的特征图进行集成,这些特征图在YOLOv8中使用。这一增强显著提高了网络处理小物体的能力。如图5所示,P2具有320x320的分辨率,在保持更细小的局部细节方面起着关键作用,这对改善小目标检测至关重要。此外,还引入了一个检测Head,促使网络结构对小型物体相关的特征给予更多的关注。
本文提出了一种同时利用细粒度和粗粒度特征的方法,不仅提供了更高的分辨率细节,还增强了特征融合,提供了全面的情境信息,并实现了精确的局部定位。通过同时利用两种尺度的特征,网络准确地检测到了小目标,有效地捕捉到了更精细的细节。如图5所示的增强架构设计在本研究中得到了实现和评估。
Embedding Efficient Multi-scale Attention Mechanism in C2f
YOLOv8中的C2f模块通过动态调整通道数量(通过拆分和拼接操作)来增强梯度流动和检测精度,同时优化特征提取而努力降低计算复杂性[41]。该模块结合了卷积和残差结构来加重网络训练和解决梯度消失问题,从而提高特征提取。
图4给出了不同的特征金字塔网络设计:(a) FPN采用自顶向下的策略;(b) PANet增强FPN以实现自下而上的路径;(c) BiFPN以双向方式集成跨尺度路径;(d) GFPN包括一种女皇融合风格的路径和跳层连接。
图5给出了改进和高效的GPFN结构。
图3中的跳层连接:(a)密集连接:将前所有层次的特征信息拼接在一起;(b)连接:在每个 Level 上将特征信息从至的层次拼接在一起。
本文引入的C2f-EMA模块通过使用EMA关注机制重新分配特征权重来增强特征提取。这种机制优先处理图像中的不同通道间的相关特征和空间细节。图6说明了EMA结构,该结构将输入特征分为组,通过并行的子网络处理它们,并利用先进的聚合技术将它们集成在一起。这种改进显著地增强了小型、艰巨的目标的表示,并提高了网络前体的效率。
EMA模块通过特征分组将输入特征图沿着通道维度划分为个子特征,即,其中每个。这种方法使得网络能够学习每个分组内的不同语义或特性,从而实现专门化的特征提取和表示。此外,它通过减少计算优化了CNN(卷积神经网络)。
EMA模块采用并行子网络(Parallel Subnetworks)方法高效地捕捉多尺度空间信息和跨通道依赖性。它有两个并行分支:1x1分支,有两条路线,和3x3分支,只有一条路线。在1x1分支中,每条路线采用1D全局平均池化来编码水平方向和垂直方向上的通道信息。这些操作产生了两个编码特征向量,表示全局信息,然后沿着高度方向进行 concat(合并)。接着用1x1卷积层处理concatenated输出,以保持通道完整性并通过跨通道信息融合捕获交叉通道交互。输出分为两个向量,通过使用非线性Sigmoid函数调整二项分布中注意力的权重进行精炼。通道相关的注意力图通过在组内的乘法进行组合,增强了不同通道间的交互特征。
与传统注意力方法相比,EMA通过解决诸如忽视空间细节间的交互以及限制的1x1核卷积(通过包含3x3卷积分支来完成)等问题,实现了改进。3x3分支使用一个具有3x3卷积核的单一路径来捕捉多尺度空间信息。此外,1x1分支的输出经过2D全局平均池化,编码全局空间信息。池化输出与3x3分支的转换输出相结合,通过两者在空间信息上的融合来实现特征聚合。这种方法有效地捕获了长程依赖性和多尺度空间细节,从而改善了整体特征聚合。
与传统注意力方法使用基本平均不同,EMA通过采用并行子网络的注意力图使用跨空间学习方法进行整合。它使用矩阵点乘操作来捕获像素间的关联关系,从而丰富全局上下文。具体来说,EMA模块通过将并行的1x1和3x3分支的全球和局部空间信息相结合,增强特征表示。这种方法有效地捕获了长程依赖性和多尺度空间细节,从而提高了整体特征聚合。
SoftMax 然后被应用到输出以生成 2D 高斯映射,突显相关特征和建模长程依赖。这一过程 repeated 对第二个空间注意力映射,使用 2D 全局平均池化和 Sigmoid 函数来保留精确的空间位置信息。最后,将每个组的从空间注意力权重中获得的特征图进行汇总。结果的输出特征图保持着原始输入的大小,以确保集成到架构的有效性和效率。最终的输出是捕捉像素级成对关系的重分配特征图,突出所有像素和通道的全局上下文,并赋予更相关的特征和空间细节更高的权重。
在这篇论文中,作者引入了 C2f-EMA 作为 C2f 的替代品,使用 EMA 结构重新分布特征图,以在图像内部为更相关的特征和空间细节分配更高的权重。这一增强旨在提高检测性能,特别是在大小较小且具有非常细腻细节的目标上,由于它们的尺寸。C2f-EMA 包括初始卷积、分割函数、EMA 模块和并行处理,共同提高了网络的整体性能。如图7 所示,这种机制在 C2f 的第二个残差块内运作。
Improved Bounding Box Loss Function
边界框损失函数惩罚预测和实际地面 truth 边界框参数之间的差异,以提高物体定位。基于 IoU 的损失函数对于此目的至关重要,度量交点与 union 的比值。然而,当没有重叠时,它们的效力会降低,导致可忽略的梯度。为了解决这个问题,已经开发了几种基于 IoU 的损失函数,每种损失函数都提出独特的解决方案和特定的局限性。在 YOLOv8 中实现 CIoU,考虑了 Box 中心之间的距离以及同种类型的不同尺寸之间的差异。这种细化增强了收敛速度和整体性能。然而,CIoU中的 aspect ratio 惩罚项可能没有充分考虑具有相同 aspect ratio 但在不同尺寸下的 Box 之间的尺寸差异。 代表预测和实际 ground truth 边界框的中心点之间的欧几里得距离。另外,c代表归一化因子,通常代表包含预测和实际 ground truth 边界框的最小外接盒的对角线长度。 代表 aspect ratio 惩罚,考虑到预测和实际 ground truth Box 之间的 aspect ratio 差异。(w, h) 和 (w_gt, h_gt) 分别代表预测和实际 ground truth 边框的宽度和高度。
Efficient Intersection over Union (EIoU) 通过使用针对宽度和高度的不同惩罚项来调整 CIoU,而不是共享 aspect ratio 惩罚,以实现对 anchor 框和目标框尺寸差异的精确测量。式2给出了 EIoU 的公式。
原始论文文本转换为中文并保持学术标准:
在这里, 和 分别表示最小外接边界框的宽度和高度。尽管解决了大小的差异,但 EIoU 面临这样的挑战,即回归过程中 Anchor 框的膨胀,以及收敛速度较慢。这在使用 IoU 基损失函数的目标检测模型中尤为重要,优化可能会无意识地扩大 Anchor 框,而不是精确地将它们收敛到目标大小,从而降低局部定位精度 [42]。CIoU 和 EIoU 损失使用以下术语 ,其中 是 Anchor 框和目标框之间的对角线长度, 是覆盖两者最小外接边界框的对角线长度。 关于 的梯度为 ,意味着 随着 的增加而降低。问题是,当 Box 不重叠时,扩大 Anchor 框会增加 ,降低 ,从而降低 CIoU 和 EIoU 损失,但并未提高重叠度。将 作为惩罚项的除数是有缺陷的,因为它可以通过调整 Anchor 框大小来降低损失,而不是通过改善重叠度来提高,这表明需要修订惩罚项以更好地处理不重叠的 Box [42]。
智慧交集大于等于五边形(WIoU)[26] 引入了一种动态、非单调聚焦机制在边界框回归中。这种机制优先考虑质量适中且减轻了低质量样本的有害梯度。WIoU 使用周长和预测框与真实框之间的距离作为惩罚项。它通过与所有批次框的平均质量相比,动态评估 Anchor 框质量,并对具有中等质量的框给予更多权重。WIoU 的计算由等式 3 给出。
本研究中,作者研究了一种非单调的WIoU注意力函数,该函数由表示,和为超参数,用于调节其梯度。表示切分操作,表示batch内所有 Anchor 框的平均值。WIoU引入了基于注意力的预测框损失和关注系数。然而,它依赖于多个超参数,这给不同数据集的优化带来了挑战。
作者在原始网络中使用PIoU代替CIoU。PIoU的详细方法在算法1中详细描述。PIoU增强边界框回归是通过预测框和真实框对应边缘的欧氏距离最小化。这种方法提供了一种更直观的相似度度量,证明了对于重叠和非重叠框都有效。与传统的IoU基损失函数不同,PIoU消除了框扩大的问题,保证了精确稳定的框回归。图8的模拟结果证明了其有效性。图8说明了使用各种损失函数评估 Anchor 框回归实验。采用CIoU损失函数的 Anchor 框损失从epoch 25到75出现了连续的扩展,到epoch 150并未达到对真实 Anchor 框的完全收敛。相比之下,在PIoU损失函数中仅由惩罚项决定的 Anchor 框,在训练过程中未出现扩展问题,这在epoch 25和75中有所体现。到epoch 75,它展示了对真实边界框几乎完全收敛,到epoch 150时达到完美拟合。PIoU损失使用非单调注意力层以优先关注中高质量 Anchor 框。通过在 Anchor 框回归中优先考虑中质量阶段,PIoU改进了检测器性能。非单调注意力函数,由参数控制。PIoU通过只需要一个超参数简化了调优过程。将惩罚因子用表示,表示 Anchor 框质量从0到1的等级。当(表示)时, Anchor 框与目标框完美对齐。当增加时,减小,表示质量较差的 Anchor 框。
V Results
本节首先介绍了本文所使用的数据集,接着详细介绍了实验环境和训练策略。还进一步说明了用于评估模型性能的评估指标。然后通过与最先进模型的比较分析,使用YOLOv8作为基准,展示了所提出方法的有效性。此外,本节还包括对模型在具有挑战性的实际场景中表现的评价,例如检测远离摄像头的远程物体和小物体。
Dataset
本文研究了YOLOv8s模型在VisDrone2019数据集上的应用,该数据集是一个由天津大学机器学习与数据挖掘实验室与AISKYEYE数据挖掘团队共同开发的 prominent UAV aerial photograph 集合。该数据集包含288个视频片段,总共261,908帧和10,209张静态图像,使用各种无人机安装的相机在中国超过12个城市拍摄。该数据集涵盖了广泛的地理位置、环境设置和物体类型,是极其丰富的。从地理上讲,数据集覆盖了中国14个不同城市的 footage,提供了从城市景观到农村景观的全面场景。数据集中包括各种物体,如行人、汽车、自行车等。此外,数据集跨越了不同的人口密度,从稀疏到密集的区域,并捕获了不同光条件下的图像,包括白天和 nighttime 场景。VisDrone2019数据集的独特之处在于其中包括许多不同大小的物体,以不同的角度在不同的场景中描绘。这种多样性增加了数据集的复杂性和难度,与其他计算机视觉数据集相比。图9说明了在VisDrone2019数据集中手动标注物体的过程。
在本研究中,YOLOv8s被选为调查和进一步优化的基准模型。该模型在VisDrone数据集上使用一个 NVIDIA RTX A6000 GPU(48 GB)在Linux上进行训练,使用PyTorch 2.2.1进行CUDA 12.1。训练涉及调整关键参数,使用随机梯度下降(SGD)优化器进行200个周期的优化,其中动量设置为0.932。初始学习率从0.01开始,逐渐衰减至0.0001。选择了 batch size 32,以实现高效内存利用和稳定训练,将输入图像放大至640x640像素。还应用了一个权重衰减为0.0005以防止过拟合和提高模型泛化能力。
Evaluation metrics
为了评估作者改进模型的检测性能,作者使用了几个评估指标:精确度、召回率、0.5 AP、0.5到0.95的0.5 AP以及模型参数的数量。这些指标的具体公式如下所述。
精确度: 代表真正率与预测总和之比,如下所示的第4个方程:
真正阳性(TP)表示模型准确预测为正的实例数量。假阳性(FP)表示模型错误预测为正的实例数量。假阴性(FN)表示模型未能预测为正的实例数量。
召回率: 衡量正确预测的阳性样本与所有实际阳性样本之比,如下所示的第5个方程:
真正阳性(TP)表示模型正确预测为正的实例数量。假阴性(FN)表示模型未能预测为正的实例数量。
平均精确度(AP): 用公式6计算精度-召回曲线下的面积,如下所示:
平均平均精确度(mAP): 表示在所有类别上的平均AP值,表示模型在整个数据集上的整体检测性能。这个计算定义在第7个方程中:
其中表示第i个类别上的平均精确值,而表示训练数据集中的总类别数。
mAP: 是当IoU阈值为0.5时的平均精确度。
mAP: 从0.5到0.95的IoU阈值计算,中间值间隔为0.05。
Experiment Results
本节通过对定向实验全面评估了SOD-YOLOv8模型。作者首先比较了PIoU损失函数与其他常见的损失函数在YOLOv8s上的使用。接下来,作者评估了GFPN结构与EMA和其它注意力模块的集成。然后,作者将SOD-YOLOv8模型与各种YOLO变体(YOLOv3,YOLOv5s,YOLOv7)和常用的模型(Faster R-CNN,CenterNet,Cascade R-CNN,SSD)进行了评估。消融实验验证了每个优化的贡献。使用VisDrone2019数据集的视觉实验证明了模型在不同场景下的有效性,包括远程、高密度和夜间条件。最后,实际的交通场景评估突显了模型在具有从感兴趣物体距离建筑物显著的摄像头 mounted 的环境中应用和性能。
Iii-D1 Comparative Evaluation of Bounding Box Regression
为了评估PIoU的影响,作者在保持一致训练条件的前提下,在YOLOv8s上进行比较实验,这些实验使用了PIoU和其他常见的损失函数。如表格I所示,PIoU实现了最佳的检测性能。具体而言,与CIoU相比,它提高了0.5mAP(平均精确率)1.1%,0.5:0.95mAP(平均精确率)0.2%,精确度提高了1.6%,召回率提高了0.4%。此外,PIoU的简单损失函数使得模型调优变得更容易,证明了它是一种高效且有效的边界框回归方法。
Iii-D2 Comparative experiment of attention mechanisms
为评估将GFPN结构与EMA注意力机制相结合的有效性,作者在GFPN结构的同一位置引入了三个广泛使用的注意力模块——CBAM(45),CA(6),和SE(7)。这一设置使得在作者的实验中能够直接进行比较,详细内容请参见表2。实验结果表明,使用GFPN-EMA组合进行训练在0.5mAP值上始终优于使用CBAM、CA和SE的GFPN配置。具体来说,GFPN-EMA模型在大多数物体类别上表现出显著的改进,尤其是在行人、 People(包含 PeopleS、PeopleB)、车辆、公共汽车和摩托车等类别,以及整体的0.5mAP。如表2 所示,这些发现突显了EMA在提高VisDrone数据集中小目标检测精度方面的有效性。EMA通过处理空间交互,通过结合3x3卷积实现多尺度空间信息的克服1x1核卷积的限制,以及利用跨空间学习将来自并行子网络的注意力图合并,有效地结合了全局和局部空间上下文。
Iii-D3 Comparison with different mainstream model
与其他YOLO变体(如YOLOv3,YOLOv5s和YOLOv7)相比,SOD-YOLOv8s实现了显著的效率提升。尽管其模型大小为11.5亿参数,但SOD-YOLOv8s在性能指标上实现了最高。它超过了YOLOv3,YOLOv5s和YOLOv7,尽管YOLOv3和YOLOv5s具有从12000万到18300万参数的较大模型大小。YOLOv8模型通过调整宽度和深度适应各种尺度(YOLOv8n,YOLOv8s,YOLOv8m,YOLOv8l和YOLOv8x),每个尺度都逐步耗用更多的资源以提高检测性能。作者根据表3中的信息比较了SOD-YOLOv8s和不同尺度的YOLOv8,以更加验证作者提出方法的有效性。根据表3中的信息,尽管其参数数量为11.5亿,但SOD-YOLOv8s实现了最高的召回率(43.9%),mAP(45.1%)和mAP(26.6%)。相比之下,具有25900万参数的YOLOv8m在精度指标上较低。这表明SOD-YOLOv8s在计算能力和模型大小方面具有高效性,同时在对目标检测任务中的表现良好。
本研究开展了一项对比实验,以评估SOD-YOLOv8s与广泛采用的模型(包括Faster R-CNN,CenterNet,Cascade R-CNN和SSD)的性能,包括YOLOv8m,具有25900万参数的YOLOv8。在Faster R-CNN [48]中,区域 Proposal 网络(RPN) [49]依赖 Backbone 网络特性来生成区域 Proposal 。然而,由于小物体特征图的分辨率较低,RPN可能难以准确定位它们,导致可能错过检测。Cascade R-CNN [52]通过多层架构提升了检测性能,但代价是增加了计算复杂度和训练难度。CenterNet [53]通过 Anchor-Free 点的中心点方法简化架构,但在拥挤或受阻的场景中精确定位小物体的挑战仍然存在。这些挑战源于物体中心的不确定性,较大物体干扰,物体中心被复杂背景掩盖以及对像素级准确性的敏感性。此外,SSD在较小的物体上的性能比对较大的物体低,因为其浅层神经网络层可能缺乏用于精确小物体预测的详细的高层特性。根据表4的数据,SOD-YOLOv8s模型在AP(45.1%)和AP(26.6%)方面的性能分别超过了其他模型如CenterNet,Cascade R-CNN,SSD和Faster R-CNN。
V-B4 Ablation Experiments
为了验证本研究中提出的方法在各个分类上的有效性,作者在 Baseline 模型上进行了消融实验。这些测试的结果,如表5所示,表明每种增强方法都能显著提高检测性能。引入了PIoU对边界框回归的改进,消除了局部扩大问题,从而导致0.5的1.1%显著提高。这种改进对于行人、行人和自行车等类别尤其有益。将增强的GFPN整合到YOLOv8网络中,并加入一个新的小目标检测层,导致0.5的2.9%显著提高。这一改进在包括行人在内的事故车辆、自行车、汽车、公共汽车和摩托车等所有类别上都取得了显著的性能提升,突显了GFPN在捕获多尺度特征方面的有效性。此外,将C2f-EMA模块(利用EMA注意力机制)集成到YOLOv8网络的颈层中,并用它替换C2f,导致0.5提高了0.5%。这种改进显著地好处了行人、摩托车和卡车等类别,说明了它在改进各种类别检测性能方面的有效性。根据表6,作者提出的有效模型在保留YOLOv8s的计算成本和延迟的同时,显著提高了目标检测性能。从43%的召回率提高到44%,从45%的精度提高到46%,0.5从40%提高到45.1%,0.5:0.95从20%提高到26.6%。
图10描绘了SOD-YOLOv8和YOLOv8s在200个训练周期内的评估指标。从第15个周期开始,作者的模型在精度方面超过了YOLOv8s,并稳定在第50个周期后。
这说明了SOD-YOLOv8显著提高了检测性能,尤其对于小型和具有挑战性的物体,而没有引入显著的复杂性。
V-B5 Visual assessment
作者进行了视觉实验来评估作者模型的检测性能。作者的分析包括各种指标,如混淆矩阵和推理测试结果。为了验证作者在具有挑战性的实际场景中方法的有效性,作者对由建筑物12楼上的摄像头捕获的图像进行了推理测试。这个场景涉及在交叉口捕捉从高处拍摄下来的图像,为检测众多小目标在繁忙的交通场景中造成挑战。
在Visdrone数据集的三个具有挑战性的场景中,SOD-YOLOv8的表现:夜晚条件、高密度物体的高拥挤场景和远离摄像头的场景。值得注意的是,在所有三个场景中,都观察到了显著的改进。在夜晚场景中,如图12第一行所示,物体具有更高的IoU值,并且成功识别出更多的小目标。在第二个场景中,如图12的第二行所示,SOD-YOLOv8通过成功检测到交叉口角落的许多小目标,实现了优于YOLOv8的表现。同样,在涉及远离摄像头的第三个场景中,SOD-YOLOv8在检测具有更高IoU值的物体并成功识别出更多的小目标方面表现突出。这些结果表明,SOD-YOLOv8在不同环境条件下提供了显著的改进,表明在挑战性场景中检测物体的可靠性以及有效性。
Real dataset results
本节评估了在摄像机与感兴趣物体之间有显著距离的建筑场景下的模型性能。为了评估提出的SOD-YOLOv8模型适用性和泛化性,作者使用来自典型交通场景的数据进行了推理实验。图像数据主要由Columbia大学Mudd建筑12楼部署的NSF PAWR COSMOS测试床相机[56, 57, 58]捕获(图13)。这些相机位于纽约市120街和 Amsterdam Ave的交叉口上空。选择了从这个视角捕获的图像,利用其较高的视角和与街道的较远距离。这个视角给目标检测带来独特的挑战,需要增强感知能力,包括各种车辆类型和行人。
图14显示了作者在拥挤场景、远距离物体和夜间场景下使用12楼相机捕获的图像来评估SOD-YOLOv8的性能。在所有三种场景中,作者观察到显著的改进。在第一场景中,如图14顶部一行所示,SOD-YOLOv8在与交叉口角落的众多小型行人检测方面优于YOLOv8。在第二个场景中,具有远距离物体,SOD-YOLOv8表现出优越的性能,实现了更高的IoU值,并能有效地检测到更多的小型物体。在夜间场景中,如图14第三行所示,尽管面临挑战性的光线条件,但SOD-YOLOv8在检测到的物体IoU方面的结果超过了YOLOv8的 Baseline 模型,并识别出更多的小型物体。这些结果表明,SOD-YOLOv8在不同的环境条件下取得了显著的改进,突显了其在挑战性场景中的可靠性和有效的目标检测能力。
VI Conclusion
检测小尺度物体的交通场景存在显著的挑战,这些挑战会降低整体效果。为了解决这些问题,作者提出了SOD-YOLOv8,这是一个专为空中图像和主要由小物体主导的交通场景设计的目标检测模型。基于YOLOv8构建,该模型将增强的多路径融合受到DAMO-YOLO模型中GFPN架构的启发,便于跨层特征融合,并通过参数重配置简化架构。通过利用高分辨率的第四层并集成C2f-EMA结构,SOD-YOLOv8优先考虑小物体,增强特征融合并提高精确局部化。此外,PIoU被用作YOLOv8中CIoU(基于IoU的损失函数)的替代。
SOD-YOLOv8模型在各种评估指标方面优于广泛使用的模型,如CenterNet,Cascade R-CNN,SSD和Faster R-CNN。与YOLOv8相比,作者的有效模型在显著提高目标检测性能的同时,几乎不会增加计算成本或检测时间。它将召回率从40.1%提高到43.9%,精度从51.2%提高到53.9%,0.5 mAP从40.6%提高到45.1%,0.5:0.95 mAP从24%提高到26.6%。在由建筑摄像头捕获的实时交通场景中,SOD-YOLOv8具有更高的IoU值,并识别出比YOLOv8更多的微小物体,即使在照明不良和背景拥挤等具有挑战性的条件下也是如此。这些能力使其成为基于UAV的交通监控的理想应用。
然而,在资源受限的环境中部署小目标检测方法仍存在挑战。尽管注意机制和复杂的特征融合在受控环境中可以提高性能,但在跨环境条件和环境的一般化方面可能遇到困难,从而复杂化了实际部署和维护。在本研究中,考虑到在VisDrone数据集和实际交通场景中的PIoU方法取得的令人鼓舞的结果,作者将未来研究重点放在评估PIoU在各种数据集上的效果。此外,作者将关注优化GFPN架构,探索其他处理方法,并评估模型在不同天气条件下的性能,以增强其适应性和稳健性,适用于各种场景。
参考
[1].SOD-YOLOv8 - Enhancing YOLOv8 for Small Object Detection in Traffic Scenes.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」