DEAL-YOLO Trick叠满 | WIoU+NWD距离约束+线性可变形卷积LD,降参提效,精准检测小目标

大模型数据中台机器学习

点击下方卡片,关注

「集智书童」

公众号

点击加入👉

「集智书童」

交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

尽管深度学习和空中监控技术的进步正在改善野生动物保护工作,但复杂和多变的环境条件仍然是一个问题,需要创新的解决方案以实现成本效益的小型动物检测。本研究引入了DEAL-YOLO,这是一种新颖的方法,通过使用多目标损失函数如Wise IoU(WIoU)和归一化Wasserstein距离(NwD),这些函数优先考虑边界框中心的像素,从而确保更平滑的定位并减少突发的偏差,从而提高了无人机(UAV)图像中小型目标的检测能力。此外,模型通过使用线性可变形(LD)卷积进行高效的特性提取进行了优化,在保持计算效率的同时提高了准确性。缩放序列特征融合(SSFF)模块通过有效地捕捉跨尺度关系、改善特性表示和通过优化的多尺度融合提升指标,增强了目标检测。与 Baseline 模型相比,这种方法表现出高效率,与vanilla Yolov8-N相比参数减少了高达69.5%,突出了所提出修改的鲁棒性。通过这种方法,作者的论文旨在促进濒危物种的检测、动物种群分析、栖息地监控、生物多样性研究以及丰富野生动物保护工作的各种其他应用。DEAL-YOLO采用两阶段推理范式进行目标检测,通过细化选定的区域来提高定位和置信度。这种方法增强了性能,特别是对于物体性评分低的小型实例。

1 引言

野生动物目标检测已被证明对于与生物多样性保护相关的所有方面都至关重要。从航空影像中准确识别和追踪动物物种,有助于评估种群趋势、栖息地变化和有效的保护策略。传统的监测技术,如地面调查和相机诱捕,由于成本高昂和潜在的人类偏见而受到限制。为此,无人机提供了一种更有效的替代方案,以低廉的成本提供高分辨率航空数据,并最大限度地减少人为干预。近年来,深度学习在卷积神经网络(CNNs)和目标检测模型方面的进步,显著提高了野生动物检测的自动化和质量。然而,为了确保计算效率,尤其是在无人机部署方面,还需要进一步提高目标检测的性能。

现代目标检测模型,尤其是YOLO系列和Faster R-CNN,在复杂环境中检测和分类物体方面表现出卓越的准确性。然而,野生动物检测面临着独特的挑战,尤其是在基于无人机图像的情况下。小型动物目标通常只占据几个像素,这使得它们与背景区分困难。此外,遮挡、重叠物种、光照条件的变化和环境干扰进一步复杂化了检测过程。近年来,在小目标检测方面的进步引入了各种技术以提高准确性,但在无人机野生动物检测中仍存在挑战。RRNet采用AdaResampling进行现实增强,但在自然环境中的分割挑战中遇到了困难。RFLA通过高斯感受野分配标签,但面对不规则形状动物的局限性。Focus & Detect框架通过高分辨率裁剪增强了小目标检测,但需要大量的手动标注。跨层注意力机制增强了小目标特征,但增加了计算成本,而SSPNet融合了多尺度特征,但细化细节被稀释。基于YOLOv5、YOLOv8和Faster R-CNN的野生动物检测模型在结构化目标如家畜上表现良好,但在伪装和尺度变化上存在困难。基于卫星图像的CNN方法和带有HRNet的Faster R-CNN提高了小目标的识别能力,但受到 Anchor 框限制和植被噪声导致的误报问题。同样,YOLOv6L检测静态巢穴,但对分辨率变化敏感。还探索了高效的目标检测模型,对YOLOv5的修改提高了效率,但牺牲了细粒度空间细节。UFPMP-Det利用了注意力机制,但引入了计算开销,而Drone-DETR依赖于大量数据集,表现出缓慢的收敛速度。高效的YOLOv7-Drone优化了无人机检测,但由于其依赖于精确的 Mask 生成,在伪装野生动物检测上存在困难。

尽管取得了这些进展,但由于特征分辨率限制、固定 Anchor 框以及难以在背景噪声中区分细微细节,对于之前的作品来说,在无人机图像中实现稳健且高效的野生动物检测仍然具有挑战性。

本工作的主要贡献包括:

  • • YOLOv8的优化与重构:对YOLOv8引入的诸如高效卷积模块和优化的下采样策略等修改,显著降低了计算复杂度,同时保持了高性能。
  • • 在较低的计算负载下实现最先进性能:通过将可训练参数减少高达69.6%,实现了优越的检测精度,有效优化了效率和性能,从而展示了其在实际应用场景中的适用性。
  • • 两阶段推理策略:提出了一种新颖且自适应的两阶段感兴趣区域(ROI)推理方法,通过在需要细粒度区分的模糊环境中细化边界框预测,从而提高了检测性能。这导致平均精度提高了4%,召回率提高了4.2%。

2 本文方法

所DEAL-YOLO结合了先进的损失函数、架构修改和推理策略,以提升无人机图像中的目标检测性能。特别是,DEAL-YOLO集成了归一化Wasserstein距离来将边界框建模为二维高斯分布,测量变换后的预测框与真实标签之间的相似性。通过赋予中心附近的像素更高的权重,这种方法考虑了空中物体尺寸较小的问题,并引入了平滑性以减少边界框偏差,其背后的最优网络理论支持指数归一化,从而得到有效的相似性度量。为了进一步减轻低质量示例的影响,该模型还集成了Wise IoU度量,通过惩罚预测 Anchor 框与目标框之间的大幅和轻微错位,最小化了几何变化(如距离和宽高比差异)的不利影响。其自适应加权机制对于无人机应用尤其有价值,因为高度变化导致物体以不同的尺度出现,确保小物体(通常在高空捕获)能够以更高的精度被检测到。这种结合方法是目前首次在基于无人机检测领域被利用,用于准确预测并确保在复杂空中环境中的稳健性能。其数学公式在附录中详细说明。

在YOLO框架中,特征金字塔网络(FPN)在多个尺度上生成特征图,通常 Token 为P2和P5。P2,一个具有较小感受野的浅层,能够捕捉到细小、高分辨率的细节,非常适合检测小型物体;而P5,由于其较大的感受野和较粗糙的特征,更适合检测大型物体。如图1所示,通过从 Backbone 网络和FPN中排除P5尺度特征图,优化了计算复杂度,虽然性能略有妥协。因此,SPPF块中的通道数从1024减少到512,通过专注于与无人机检测任务最相关的图来增强特征提取。

picture.image

此外,如图1所示,SSFF模块被纳入以增强多尺度信息的提取。传统的融合方法,如简单求和或连接,往往无法捕捉复杂的多尺度关系。SSFF模块通过归一化、上采样和将多尺度特征连接到一个3D卷积结构中来解决这个问题,这有效地处理了具有不同大小、方向和宽高比的物体。这种多尺度融合在无人机应用中特别有益,因为目标经常表现出多样的空间特征,并由于不同的高度和相机角度而以不同的尺度出现。此外,线性可变形(LD)卷积的集成通过根据局部特征变化动态调整卷积核来进一步细化特征提取,从而适应空中图像中常见的几何畸变和不规则形状。这种组合减轻了模型负担,降低了计算开销,并保持了有竞争力的检测性能,使其特别适合于基于无人机的目标检测任务。

最后,DEAL-YOLO包括一种两阶段推理方法,称为置信度引导的适应性细化,以提高检测精度,尤其是对于低置信度检测。第一阶段在全分辨率图像上生成初步检测。置信度低于指定阈值的检测在第二阶段通过适应性区域裁剪进行细化,该裁剪相对于高置信度参考提取并调整候选区域的大小,从而提高置信度分数。细化后的检测坐标被转换回原始图像的尺度,并应用非极大值抑制(NMS)以去除重复项。这一双阶段过程通过将细化努力集中在最不确定的检测上,从而平衡计算效率和精度,通过整合全局上下文和局部细节来优化性能。总体而言,这些组合策略为无人机图像检测提供了一种稳健且高效的检测流程,尤其是在野生动物检测等具有挑战性的环境中。

3 实验与结果

为了验证所DEAL-YOLO,使用了WAID和BuckTales数据集,并进行了彻底的实验以证明作者选择模块的合理性。

picture.image

如表1所示,对各种 Baseline YOLO模型进行了比较,具体包括YOLOv6、YOLOv8、YOLOv9、YOLOv10、Gold-YOLO、RT-DETR、Faster-RCNN和DEAL-YOLO。在这里,作者展示了DEAL-YOLO在更低的计算负载下的性能。参数减少了68%,DEAL-YOLO在所有指标上平均优于这些 Baseline 模型4.8%。这种计算负载的降低,加上卓越的性能,使DEAL-YOLO适用于动物检测任务。正如同一表中所述,作者展示了没有两阶段推理的结果,这些结果明显较低,进一步强调了DEAL-YOLO带来的改进。所提出的模型使用SOAP进行训练,与Adam相比,它提供了更好的稳定性和收敛性。

picture.image

在表2中,所DEAL-YOLO在参数数量比YOLOv8n少87%的情况下,表现与SOTA相当。与YOLOv7-T、YOLOv5-S、ADD-YOLO、WILD-YOLO、YOLOv4-S、MobileNet v2和YOLOv8-N相比,DEAL-YOLO LD凭借其SSFF层和LD卷积,在预测边界框方面保持了强大的性能,尤其是在预测WAID数据集中的小型物体(如动物)时。此外,两阶段推理的优势得到了明确体现,这反映了DEAL-YOLO LD和DEAL-YOLO在标准推理上的改进,即使考虑到包含低置信度预测的情况。附录中提到了额外的实验和细节。

4 结论

在本工作中,作者提出了DEAL-YOLO,这是一种新颖的动物检测方法,展示了其在BuckTales上相较于其他方法最多减少66.93%的可训练参数的优越性能,以及在WAID上以减少69.59%的可训练参数与SOTA相当的性能指标。SSFF模块、LD卷积以及作者创新的二阶段推理设置在WAID和BuckTales等无人机捕获的数据集上均取得了出色的结果。

参考

[1]. DEAL-YOLO: DRONE-BASED EFFICIENT ANIMAL LOCALIZATION USING YOLO

picture.image

扫码加入👉

「集智书童」

交流群

(备注:

方向

学校/公司+

昵称

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
vivo 容器化平台架构与核心能力建设实践
为了实现规模化降本提效的目标,vivo 确定了基于云原生理念构建容器化生态的目标。在容器化生态发展过程中,平台架构不断演进,并针对业务的痛点和诉求,持续完善容器化能力矩阵。本次演讲将会介绍 vivo 容器化平台及主要子系统的架构设计,并分享重点建设的容器化核心能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论