ALSS-YOLO：专为UAV TIR图像设计的轻量级小目标检测器 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

暗夜野生动物盗猎是无人机携带热红外（TIR）相机在夜间发挥重要作用的关键因素。然而，TIR图像通常面临诸如抖动和野生动物重叠等问题，迫使无人机具有识别模糊的和重叠的较小目标的的能力。当前用于无人机上的传统轻量级网络在提取模糊小目标的特征上存在困难。

为解决这个问题，作者提出了一个高效的、轻量级的TIR空中图像检测器，名为ALSS-YOLO。首先，作者提出了一种新的适配式轻量级通分和Shuffle（ALSS）模块。该模块采用自适应通分策略优化特征提取，并集成通道Shuffle机制以增强通道间的信息交换。这一改进对处理由抖动引起的模糊和目标重叠至关重要。

其次，作者开发了一种轻量级坐标自注意力（LCA）模块，该模块利用自适应池化和分组卷积集成跨维度的特征信息。这一模块确保了轻量级操作，同时保持了对抖动和目标重叠的高检测精度和鲁棒性。

此外，作者还开发了一个单通道焦点模块，将每个通道的宽度和高度信息汇总到四个维度的通道融合中，从而提高了红外图像的特征表示效率。

最后，作者修改了定位损失函数，以强调与小型物体相关的损失值，从而提高定位精度。

在BIRDSAI和ISOD TIR UAV野生动物数据集上进行的广泛实验显示，ALSS-YOLO实现了最先进的表现，作者的代码开源在https://github.com/helloworlder8/computer\_vision。

I Introduction

高效野生动物管理依赖于频繁的人口监测。传统的方法，例如在夜间巡逻受保护区域，面临很多障碍。这些方法需要大量的时间和相当大的财政资源，同时也将森林护林员置于因能见度降低、地形崎岖和盗猎活动加剧带来的风险之中。随着技术进步，有人驾驶飞机逐渐取代了传统方法。[1]虽然如此，由于高运营成本和安全飞行限制，仍然存在一些局限性。近年来，无人驾驶飞行器（UAV）出现了对野生动物和栖息地管理的可行性选择，因为UAV可以以较低的运营成本和更强的机动性访问人类难以到达或接近的有毒区域。

可见光图像是最常见的UAV收集的数据格式，相反，热红外（TIR）成像传感器相较于颜色成像传感器提供了有价值的信息。在最近的研究中，研究行人设计并优化了一种定制的ERGW-net[6]，以使用 TIR 摄像机进行全天 24 小时监控来检测小路边物体。认识到 TIR 成像在检测具有挑战性的环境中的小物体方面具有巨大潜力，作者考虑了增强小目标检测能力的需要而设计了 ALSS-YOLO。TIR 图像在医学、安全、军事和自动驾驶等领域已经被广泛使用。近年来，由于其低成本和高图像质量，TIR 摄像头已经成为了自然观察中夜间监控的首选传感器。在能见度受限的情况下，UAV 的高度、负载能力和隐身需求决定了可见光传感器的应用有限。将 UAV 与 TIR 摄像机相结合已经被证明在复杂野生动物环境中对动物监测非常有利。然而，由于其独特的特征，TIR 图像的目标检测仍然具有挑战性。TIR 图像通常具有低分辨率和大量噪声。与颜色图像相比，TIR 图像只有一个通道，造成了视觉细节的丢失，而仅保留轮廓。此外，无人机视角的变化和摄像机视场的变化可能会导致同一目标的大小显得相当大。再者，从 UAV 视角来看，目标通常以密集的小目标的形式出现，这增加了检测过程中的假阳性率。为此，即使人为专家也往往难以准确识别野生动物，导致识别错误。为了解决这些问题，作者设计了自适应轻量级通道分裂与重排（ALSS）和轻量级坐标注意（LCA）模块，并开发了 FineSIOU 损失函数。这些组成部分是根据需要来提高检测精度和速度，从而有效地克服了以前研究中已经识别出的限制。

Venkatachalam等人[13]设计了一种专门的红外野生动物检测器，该检测器使用优化后的区域性卷积神经网络（R-CNN）模型。通过在较小的标注红外图像数据集上采用迁移学习和微调，动物区域检测和分割的准确性得到了显著提高。然而，模型的复杂性使其不适合在UAV平台上实时检测。现有的轻量级红外无人机检测算法（如PHSI-RTDETR[14]）在检测小型红外目标方面已显示出显著的效用。在这个领域的一个典型模型是SLBAF-Net[15]，这是一种专为在严酷的光学和气象条件下进行无人机检测而设计的超轻量级双模态网络，该网络采用了模仿YOLO网络结构的生物模式适应融合模块（BAFM）以提高检测鲁棒性。然而，这些算法通常无法充分解决严重的遮挡和重叠场景的问题。此外，关于它们在红外野生动物检测场景中的性能讨论还不充分。

本文旨在解决在存在严重遮挡和重叠目标的情况下，现有轻量级红外检测算法的局限性，尤其是在野生动物检测方面。因此，在UAV平台上需要一个可靠和高效的目标检测器。为了应对这些挑战，作者提出了一个基于深度卷积神经网络（CNNs）的有效的野生动物检测解决方案，即ALSS-YOLO。

本研究的主要贡献如下：

本研究提出了一种创新模块，以提高网络的特征提取和表示能力，同时优化计算效率。作者提出了ALSS模块和LCA模块。ALSS模块采用自适应信道分裂策略优化特征提取，通过通道混洗增加跨通道信息流动，从而提高模糊目标检测的准确性。LCA模块采用自适应池化和分组卷积增强特征提取，改善空间信息集成。对于低分辨率TIR图像，这尤其有用，可以提高特征提取和检测精度。此外，作者还开发了一种单通道焦点模块，将宽度和高度信息聚合为四维通道融合，将空间信息转换为通道维度，以更好进行特征提取。
FineSIOU被设计为一个局部定位损失函数，在总损失计算中分别处理角度成本。形状损失调整强调真实边界框的大小和形状，从而增强边界框回归速度和TIR小型目标检测能力。
在BIRDSAI和ISOD数据集上的实验表明，作者提出的ALSS-YOLO算法的优越性。具体来说，在BIRDSAI数据集上，ALSS-YOLO（1.452百万参数）相较于YOLOv8-n*（1.795百万参数）实现了1.7%的mAP0.50提升。此外，作者引入了ALSS-YOLO-s（2.226百万参数，0.895mAP0.50）和ALSS-YOLO-m（2.924百万参数，0.903mAP0.50）模型，这两者在与其他轻量级目标检测器相比，在mAP得分和参数效率方面明显优于其他模型。

本文其余部分组织如下：第二部分介绍了目标检测的前期工作，包括通用目标检测、TIR无人机目标检测、小型目标检测和轻量级网络设计。第三部分详细描述了所提出的网络。第四部分呈现实验结果和进一步讨论。第五部分呈现结论和未来工作。

II Related Work

Generic Object Detection

早期的目标检测模型是由一系列手动设计的特征提取器集成构建的。(比如Viola-Jones[16]和HOG[17],等)。这些模型因为其处理速度慢、准确度低和适用范围有限而具有特征。在过去的十年里，卷积神经网络在目标检测领域取得了突破，逐步取代了传统方法。目标检测算法可以分为两大类：两阶段目标检测算法，涉及生成候选框并对框内目标进行分类，以及单阶段目标检测算法，不需要生成候选框。前者，如R-CNN[18]，利用Selective Search算法生成大约2000个区域 Proposal 。快速R-CNN[19]和Faster R-CNN[20]分别引入了基于R-CNN的RoIPooling和RPN。目标检测算法的后续发展主要集中在提高准确性上，典型的算法包括Mask R-CNN[21]、HyperNet[22]和PVANet[23]。尽管这些算法具有强健性和低错误率，但它们具有很大的计算负载，不适合实时应用。与单阶段目标检测器相比，单阶段目标检测将目标检测视为回归问题，消除了生成 Proposal 框的需要，从而降低了计算复杂性和运行时间。典型的算法包括SSD[24]和YOLO[25]。SSD是第一个能够保持一定准确度的单阶段检测器，同时确保实时性能。YOLO在目标检测领域取得了很好的效果，因为其快速处理速度、端到端训练方法和捕捉全局上下文信息的能力，但定位精度较低，且在处理类别不平衡问题时表现不佳。YOLOv2[26]和YOLOv3[27]分别用Darknet-19和Darknet-53替换了GoogLeNet作为 Backbone 网络，此外，全局平均池化和批量归一化(BN)被采用以提高网络性能。YOLOv4[28]利用完全交集与并集(CIOU)损失进行预测框过滤，增强模型收敛性。YOLOv5在其颈网络中融入了 Feature Pyramid Network (FPN) 和 Pixel Aggregation Network (PAN) 结构。在单阶段检测的后续发展中，包括RetinaNet[29]使用焦损失函数，全卷积单阶段目标检测器(FCOS，它将目标检测任务建模在拓扑空间中，以及更新的YOLOv8，在速度和准确度方面都得到了提高。

TIR UAV Target Detection

当前的目标检测算法主要针对涉及可见光图像的任务而设计，在TIR图像上的研究相对有限。SiamSRT[32]引入了一种创新的对称网络，该网络既不需要区域搜索也不需要模板，采用两阶段架构。它采用交叉相关区域 Proposal 进行初步检测，并使用相似度学习的区域CNN进行预测细化。这种方法结合了空间位置一致性、时间存储库和单类别前景检测器，提高了跟踪准确性和鲁棒性，尤其是在模型退化的情况下。但是，尽管在稳定环境下有效，SiamSRT和类似的算法在 more dynamic 或更混乱的场景中可能会有困难，限制了它们在更复杂的TIR检测任务上的适用性。

Zou等人在[33]中对YOLOv5架构进行了改进，通过引入两流背传网络有效地将可见光和热成像数据合并。这两种模态的互补特性被利用来提高人类检测性能。此外，该模型还集成了一种多维注意机制和一种专门的目标损失函数，以减轻背景干扰并增强跨模态特征融合的鲁棒性。尽管进行了这些改进，但该方法主要针对行人检测和车辆检测，在高度动态的环境或 less common 的检测任务，如野生动物监测方面可能面临挑战。

在TIR-based野生动物检测领域，CE-RetinaNet [10]通过集成通道增强机制增强了红外图像特征提取。它使用批量归一化的随机通道注意（BSCA）模块滤除 Mask 引起的异常激活，确保了保持一致的跨通道像素被强调。虽然这提高了局部化精度，但该模型对复杂通道增强和路径聚合操作的依赖可能导致高计算需求，这在实时应用或资源受限的平台（如UAV）上可能不可实现。

Ye等人[34]提出了一种基于Grid R-CNN框架的深度学习算法，特别针对红外图像中的非显著目标检测问题。该模型定制了特征提取网络以解决这个问题，并集成了一种引导局部化（GA-RPN）机制以增强区域 Proposal 网络。通过使用切片推理机制，该算法有效地将多尺度特征相结合，从而获得更高质量的 Proposal 并提高目标检测精度。然而，这种方法的专业性质和依赖复杂的跨尺度特征组合可能导致更大的计算开销，可能会在实时或资源受限的环境中，如UAV上限制其部署。

作者的研究通过开发一种专门针对TIR UAV目标检测系统的解决方案，实现了高检测准确性和低模型复杂性和计算开销的平衡。这种在准确性和效率之间的平衡对于实际部署在实时UAV应用中非常重要。

Small Object Detection

现有关于小目标检测的研究主要关注于多尺度表示、上下文信息、图像超分辨率以及区域建议技术[35]。

TPH-YOLOv5[36]通过用Transformer Prediction Head (TPH)取代CNN预测头，引入了一个小目标检测Head，并利用Sparse Localized Attention (SLA)模块高效捕获额外头与其他头之间的非对称信息，从而丰富特征表示。然而，Transformer结构带来的复杂性可能会增加计算需求，使其在实时应用中效率较低，尤其是在处理能力有限的环境中。同样，Zuo等[37]设计的AFFPN架构，集成了一个空洞空间金字塔池化 (ASPP) 模块，捕获全局上下文信息以检测小目标。他们的注意力融合模块增强了多级特征的空间和语义细节，提高了红外小目标检测的准确性。尽管取得了这些进展，依赖全局上下文信息可能会降低模型在具有强烈局部特征的环境中的有效性，例如在杂乱或噪声背景中发现的这些特征。张等[38]针对红外单帧小目标检测（IRSTD）提出了Curvature Half-Level Fusion Network (CHFNet)，通过开发半层次融合（HLF）块解决暗目标和背景杂乱带来的挑战。他们还引入了一种计算图像权重平均曲率的方法，以增强边界注意力和提高目标边缘检测。尽管这种方法改善了边缘检测，但过度关注曲线特征可能会限制其对具有较小定义边界或嵌入复杂纹理的目标的泛化能力。

此外，这些模型多数关注检测如车辆和行人等小目标，而在红外野生动物保护方面的研究还比较有限。为填补这一空白，作者的工作引入了受坐标注意力（CA）启发的LCA模块，允许模型捕获更细粒度的空间依赖性，并调整检测Head输入的不同特征图的权重。此外，在构建损失函数时，作者强调了准确地计入小目标框损失的重要性，通过多种机制提高小目标检测能力。这些创新在复杂环境中尤为有效，如红外野生动物监测中遇到的环境，那里的传统方法已经挣扎。

总结：本研究中，作者提出了一种新的LCA模块，灵感来源于坐标注意力（CA），该模块允许模型捕获更细粒度的空间依赖性并调整检测Head输入的不同特征图的权重。此外，作者在构建损失函数时特别强调准确计入小目标框损失的重要性，以提高小目标检测能力。在红外野生动物监测等复杂环境中，这些创新将发挥重要作用。

Lightweight Model Design

轻量级网络方法包括模型压缩、网络量化、知识蒸馏、轻量级模型设计、网络压缩和迁移学习。这些方法旨在在资源受限的环境中，最小化模型参数数量和计算复杂性，同时保持模型性能。在作者的研究中，作者专注于轻量级模型设计，因此以下将重点介绍这一领域的相关进展。

MobileNet[39]提出了深度可分卷积的概念，将标准卷积分解为深度卷积和点卷积，从而显著减少了计算量和参数数量，同时保持了高精度。SqueezeNet[40]引入了两种卷积层：挤压层和扩展层，通过减少通道数和增加特征图深度，实现了轻量级设计。ShuffleNet[41]利用组卷积和通道置换操作，在最小化计算成本的同时实现了高精度。ShuffleNetV2[42]提出了设计轻量级网络的四个原则，引入了通道划分，用连接操作代替加法操作，以减少模型参数数量。GhostNet[43]引入了Ghost模块，通过经济高效的操作来提取冗余特征，使模型能有效地利用和集成这些特征，同时减少计算成本。MobileFormer[44]吸取了MobileNet和Transformer的设计原则，实现了局部特征和全局特征的无缝融合，在各种任务上都表现良好。ConvNext[45]通过并行组合、组卷积和交叉路径设计，最大化多尺度特征信息的利用率，从而显著提高了效率和可扩展性。

在作者的工作中，作者提出了ALSS模块，该模块遵循轻量级设计原则，如瓶颈操作和深度可分卷积策略，以优化特征提取，同时保持低计算开销。ALSS模块采用自适应通道分割策略，并集成通道置换机制，增强不同通道间的信息流动，从而提高了模糊目标的检测精度。这种设计确保了模型在处理由抖动引起的重叠目标和过拟合时的稳健性。此外，作者还构建了一个LCA模块，编码全局空间信息，提高网络理解空间结构的能力。LCA模块结合自适应池化和分组卷积，有效地捕获和集成空间信息，确保在抖动和目标重叠时保持高检测精度和稳健性，同时实现轻量级操作。

III Proposed Method

作者的ALSS-YOLO检测器的总体架构源于当前最先进的YOLOv8-n目标检测器。作者引入了一种创新性的ALSS模块作为 Backbone 网络。通过利用通道分裂和后续独立的处理，网络可以学习输入数据的多种特征，提高模型识别复杂或微妙特征的能力。借助瓶颈设计和深卷积，ALSS模块实现高效特征提取，所需的参数数量 minimal。此外，通过在不同的路径上进行通道重新排列和特征融合，模型的表达能力和泛化能力显著提高。

第二，受到通道注意力（CA）[46]的启发，作者引入了LCA模块，该模块将自适应平均池应用于输入特征图的高度和宽度维度，从而在两个空间维度上生成全局上下文特征。在每个方向上解耦并独立处理特征，提升了模型捕捉全局信息的能力，优化了计算效率和参数使用。此外，作者还专门为单通道UAV FIR图像设计了单通道聚焦模块。该模块将单通道的宽度和高度信息聚合为四维通道，从而在较小的空间分辨率下保留更多的细节。宽度和高度数据通过卷积操作与通道信息相融合，从而提高了特征表示的效率和准确性。

最后，作者提出了 FineSIOU，它强调形状成本与实际边界框的尺寸之间的相关性，并把角度成本作为一个独立的项目纳入总成本的计算，从而提高了回归速度和对于小型目标的检测能力。图2说明了ALSS-YOLO检测器的架构，表1列出了主要的参数。

picture.image

Lightweight and Efficient Network Architecture - ALSS Module

在深度学习中，轻量和效率是当前的研究热点。设计一个轻量和高效的神经网络架构对于资源受限的场景至关重要。在这个背景下，作者提出了一种名为ALSS的新颖网络架构，旨在实现轻量和高效的目标检测。该模块的结构如图3所示。此外，图4展示了ALSS模块作为降采样操作的配置。

picture.image

此模块采用窄和深的设计策略，首先将输入特征图分成和；

其中，表示输入通道的总数。缩放因子根据 ALSS 模块内的特征级动态调整，以满足网络在不同阶段对特征抽象的变异性需求。在较低的特征级中，重点是捕捉细粒度详细信息和低级特征，因此作者设置一个较低的值。这确保了只有少量通道通过图3中部分 A 经过基本卷积操作处理。大部分通道被引导进入一个更复杂的分级网络（图3的 B 部分），用于增强特征提取和捕捉复杂的模式。随着特征 Level 的增加，对抽象和高阶语义信息的需求变得更加关键。为了满足这一点，作者在更高特征 Level 增加的值。这一调整使输入通道直接连接到输出通道，有助于提取复杂特征并增强网络的表示能力。通过优先使用卷积操作在较低 Level ，并向高级特征提取（如 ResNet 结构）转型，有助于在计算效率和特征丰富性之间取得平衡，优化网络在不同特征 Level 的性能。

此外，在较低特征 Level ，网络结构如图3 A部分所示，使用卷积操作提取特征。这是因为，在浅层卷积层中，特征更为局部化和详细。通过卷积操作，网络可以获取检测图像中局部特征的多样滤波器，包括边缘、纹理和其他特征。这种方法使网络能够高效地提取基本特征并逐步融合它们以获得更先进的特征表示。相反，在更高特征 Level ，作者更倾向于使用恒等连接。在深层卷积层中，特征变得更加抽象和语义化，包括物体形状、类别等更高阶语义信息。通过使用恒等连接，作者可以保留这些高级特征并防止过度压缩或丢失网络学习的重要信息。这一过程可以用如下表示：

上述自上而下的信息传播有助于信息和流动的传递，从而提高模型的性能和泛化能力。对于参数设置策略和网络结构选择策略的合理性将在后续实验部分得到验证。

为了减少模型的参数数量并提高计算效率，作者使用瓶颈结构和对称卷积（图3的B部分），瓶颈结构通过提取较低维度的特征有效地降低了计算成本，而对称卷积进一步提高了网络的感知范围和特征提取能力，特别适用于处理更复杂的语义信息。具体来说， initially 应用了一个的卷积 Kernel ，步长为1以完成维度降低。

= Conv()

这一操作引入了一个维度减少系数，它修改了输出通道的数量以调节模型的参数数量和计算工作量。在实际处理具有更高通道数 Level 的层次时，选择一个较大的值可以更强制地压缩通道，从而降低资源消耗。这使得模型可以有效地管理计算负载和内存使用。相反，在通道数量较低的层次上，使用较小的值以确保模型可以维持足够的特征提取能力，保留特征图中的关键信息。因此，的选择就是资源效率和捕捉和表示不同阶段网络中关键特征之间的一个平衡。深度卷积的运用进一步补充了这一策略，通过降低参数数量和计算复杂性，同时保持数据的空间和通道关系，为轻量级的有效架构作出了贡献。

在完成维度降低操作后，为了进一步增强模型的特征提取能力，本策略然后应用了一个的深度卷积层。深度卷积通过将输入特征图的每个通道进行卷积运算，增强了网络的非线性，从而减少参数 count，与传统卷积相比；

=DWConv

然后，为了调整模型的输出维度，再次应用了一个的卷积 Kernel ，并将输出维度设置为，

其中代表输出通道数，表示前面提到的预定义缩放因子。

作者的网络设计也遵循了 ShuffleNetV2[42] 中提到的轻量级网络设计原则，避免过度的分支结构和选择按通道方向拼接特征图来降低计算负担。这种设计不仅提高了网络的计算效率，还提高了信息交换和特征表示的能力，使其更适合在各种复杂场景下的实际应用。遵循 Ref.[47] 的建议，不在逐点卷积后使用 SiLU 激活函数。

在模块的最后阶段，通道重排操作被采用来增强不同特征通道之间的信息交换。这重新排布了输入特征图的通道，使得原本隔离的特征分支可以共享学习到的信息，从而改进信息流动和特征表达的多样性。整个网络结构保持轻量级设计，更好地捕获和集成多尺度、多角度特征信息，提高从复杂场景中提取特征的能力。

在 ALSS 模块中，作为下采样结构，作者设计了三个模块对输入特征图通道进行下采样。如图4 部分的 A 所示，根据网络模型中的特征 Level ，作者按照从低到高的顺序依次应用以下操作：卷积、卷积池化、池化；

这些操作可以在低 Level 实现详细的特征提取，并帮助捕捉图像的基本纹理和形状信息。在更高 Level ，引入了一种类似于 ResNet 的残差学习结构，以促进网络的有效训练，尤其是在网络深度非常深的情况下。这种方法使网络可以在不损失低级信息的情况下更好地学习高级抽象特征。对于输入特征图通道的，在瓶颈阶段的初始卷积中使用步长为 2，从而减小特征图的宽度和高度；

Conv()

在ALSS-YOLO网络架构中，系数从下到上设置为（0.4, 0.4, 0.5, 0.6, 0.7, 0.2, 0.3, 0.2, 0.2），而系数被定义为（0.4, 0.4, 0.5, 0.6, 0.6, 0.8, 0.8, 0.8, 0.8）。

LCA module

深度学习技术的最近进步强调了注意力机制在提高神经网络表现方面的关键性。特别地，注意力模块在提炼特征表示方面起着关键作用，通过选择性地强调特征图中的信息性组成部分并抑制无关部分。尤其，CA（Convolutional Attention）机制的引入进一步优化了这一过程。该机制不仅关注特征通道，还强调特征空间的坐标信息。这种设计使模型在解析空间维度时能够更有效地集成全局上下文信息。为了提高特征提取的效率并最小化参数数量，本文提出了一种改进的坐标注意力机制，即LCA。图5提供了CA和LCA之间的比较视图，而图6详细揭示了LCA的内部结构。在以下几个部分，作者将详细阐述LCA的设计原理和实现细节。

picture.image

对于输入张量，其维度为，其中、和分别表示高度、宽度和通道数，作者采用了一种专门的方法来捕捉特定空间维度的特征。这是通过使用两个独立的池化操作实现的，每个操作都使用一个不同的核大小：一个使用的池化核沿水平维度进行池化，而另一个在垂直维度上采用的池化核。这些操作分别对每个通道进行独立处理以保留各自维度上的空间信息。在输入张量的个通道中，沿高度应用的池化核进行水平池化，在宽度上应用的池化核进行垂直池化。池化输出在位置处计算得到：

picture.image

这两个方向池化操作可以捕捉特征沿两个空间维度，从而产生一个能增强网络识别精确位置和提高空间感知的方向感知特征图。这种将特征处理沿两个维度解耦的方法允许进行高效的特征提取，尤其对于具有有限计算资源的移动设备。

一旦通过上述池化操作生成了特征图，它们将受到区别对待的深度可分卷积。这些卷积在通道间进行线性变换，同时引入非线性激活函数来调制注意力权重。这些变换可以用以下表达：

picture.image

其中，表示非线性激活函数，和分别表示调整后的注意力权重。因此，坐标注意力块的最终输出可以表达为：

picture.image

LCA模块进一步提高了网络关注空间特征的能力。通过在高度和宽度维度上应用自适应平均池，然后进行深度可分卷积，模块可以捕获全局空间信息，同时保持计算效率。通过这些过程生成的注意力权重可以调节输入张量，从而增强网络的判别能力。

在将LCA模块集成到网络架构中时，特别关注具有高分辨率特征图的层，尤其是用于检测小物体的层。根据作者的分析，这些特征图上的小物体更有效地被检测到。因此，将LCA模块 strategically 放在距离检测Head最近的第15层，以最大化复杂场景中对小物体的检测准确性。作者将在接下来的一节实验中验证其合理性。

总之，LCA模块将自适应池化和深度可分卷积结合在一起，提供了一种增强空间注意力并保持低计算复杂性的强健机制。将其 strategically 集成到网络架构中显著提高了特征歧视和检测能力，特别是在具有复杂空间结构和存在小而重叠的物体的环境中，这使其成为需要精确和高效的任务的必要组成部分。

Single Channel Focus module

该高效准确的特征提取机制可以极大地提高模型的性能。对于单通道TIR图像，传统的特征提取方法面临信息利用不足或计算资源消耗高的挑战。为此，作者提出了一种单通道聚焦模块，旨在通过在通道维度中有效地聚合宽度和高度信息来增强模型的特征表示能力，采用优化卷积策略（请参阅图7）。

picture.image

对于给定的 TIR图像，其中是样本数（batch size），是通道数，和分别是高度和宽度。首先在宽度和高度维度上进行分割，然后将分割区域在通道维度上组合以生成一个的图像，如图(13)所示。每个通道携带原始TIR图像的局部信息，新的多通道组合在通道维度上将这些局部信息融合，从而实现信息聚合的效果。

对于

,它表示从位置(0,0)开始，每隔2个像素选择像素，而

遵循相同的规律。接下来，生成的特征图经过一个卷积操作，卷积核大小为6，步长为2（请参阅方程(15)），这扩展了全局特征提取的感受野，有助于更有效地从输入特征图中捕获空间信息。这进一步帮助模型学习更全局和抽象的特征，提高识别复杂模式和结构的能力，并将特征图大小减半。这种方法在后续层可以减少参数数量和计算负载，同时保留关键特征信息。

Optimization of Loss Function - FineSIOU

在YOLOv8中，损失函数包括分类损失和框回归损失。与YOLOv8中使用的CIOU框回归损失函数相比，SIOU[49]损失函数考虑了真实框和预测框之间的角度。这使得模型在训练过程中更容易、更快地接近真实框，从而显著提高了模型的训练效率和准确率，特别是在检测复杂背景下的物体和重叠场景中的物体时。基于SIOU，作者考虑到框回归和真实框大小的紧密关系（对于小目标来说，回归难度大于大目标），并通过调整形变损失来强调真实框的大小和形状，显著提高了小目标检测的准确率。此外，角度成本被单独作为一个术语来加速收敛。这种增强的损失函数称为FineSIOU。为了提供背景信息，有必要简要回顾SIOU，它集成了四个组成部分：角度成本、距离成本、形变成本和IOU成本。图8显示了SIOU的计算方案。

picture.image

SIOU定义形变成本[49]如下：

和分别表示真实框的宽度和高度。和分别表示预测框的宽度和高度。用于控制对形变损失的关注程度。

SIOU的损失函数定义[49]如下：

表示IoU损失，表示距离成本，对应于形变成本，角度成本集成到距离成本的计算中。

在作者的形状成本计算调查中，作者观察到形状回归的难度与真实框的大小密切相关。如图9(a,b)所示，在保持角度成本和距离成本不变的前提下，SIOU得到的形状成本结果是相同的。然而，作者认为图9(a)中小真实框与大预测框之间的回归难度要高于图9(b)中小真实框到大预测框之间的难度。此外，在如图10(a,b)所示的距离成本为零的特殊情况下，作者认为图10(a)的形状成本应该低于图10(b)。基于以上的分析，作者设计的FineSIOU的形状成本如下：

picture.image

参数用于调节形状损失的权重。当分配值为1时，形状优化过程将优先处理。作者的实验结果显示，将其设置为6可以达到良好的结果。改进后的形状成本更加关注真实框的大小，特别是对于由小物体主导的空中图像。较小的边界框将产生更高的形状损失值，这与直觉认为较大物体具有更大的回归挑战的观点相一致。表2提供了在各种真实框和预测框下计算的形状成本示例。

picture.image

同时，作者也关注角度成本，并将其作为单独的项目纳入总成本计算。作者的修改后角度成本如下：

picture.image

在这里，表示真实边界框中心点与预测框之间的欧几里得距离，表示真实边界框中心点与预测框之间的身高差。计算得到的 0.9847 对应的角度为 5°。当角度小于 5° 时，预测框与真实框之间的角度损失不再是主要关注点，而距离损失和形状损失应更受重视。是一个调节角度损失程度的参数，在作者的实验中，将其设置为 3 取得了良好的效果，作者认为进一步微调参数可能会获得更好的结果。最后，FineSIOU 可表示为：

IV Experiment and Analysis

Experimental Setup and Evaluation

在本节中，作者将介绍实验设置和评估的方法，并对模型进行详细的对比分析。首先，作者从实验硬件和软件两方面介绍了实验环境。实验所用硬件主要包括服务器、工作站和笔记本电脑，用于运行实验脚本和训练模型。软件方面，作者将使用Python进行模型实现和实验数据分析，同时采用TensorFlow和Keras库进行模型搭建和训练。

接下来，作者将详细介绍模型的构建方法。在这个实验中，作者将使用深度学习技术，搭建一个具有多层感知器结构的神经网络。这个网络由输入层、隐藏层和输出层组成，其中隐藏层采用Sigmoid激活函数，输出层采用softmax函数，以获得对各个类别的预测结果。模型构建过程中，作者将根据实验需求设计合适的网络结构和超参数，并在实际实验中不断进行模型调整，以获得最佳的性能。

为进一步验证模型性能，作者将采用多种方法对实验结果进行评估。评估方法包括准确率、召回率和F1分数等指标。这些指标可以全面反映出模型在分类任务中的性能，帮助作者更好地理解模型的优缺点。此外，作者还将随机选取一部分样本进行数据增强，以提高模型在实际应用中的鲁棒性。

最后，作者将对实验结果进行详细分析，包括模型在不同数据集上的表现、模型在各层神经元活动的分布情况等。通过对实验结果的深入剖析，作者可以发现模型的潜在问题，为未来研究提供有益借鉴。

Iv-A1 Experimental data

在本次研究中，作者使用了由哈佛大学于2020年公开的TIR UVA数据集BIRDSAI[12]。该数据集是一个通过固定翼无人机搭载的TIR相机获取的全面夜间事件数据集，包括各种非洲国家保护区的动植物和人类。数据集中包括挑战性场景，如方向变化和由于热反射导致的背景干扰，多种相机旋转和运动模糊。数据集包括48段不同的真正航空TIR视频，带有详细的目标标注，如人类和野生动物，以及它们的轨迹。原始数据集中总共有9个类别，但由于其他类别的比例在整个数据集中较小，作者选择进行实验研究的4个类别，即未知、人类、大象和狮子，并只选择带有标签的图像。作者的训练集有10924张图像，测试集有1943张图像。作者并没有针对原始图像进行离线数据增强，而是实现了一系列在线增强技术，如拼接增强、随机扰动（包括旋转和缩放）、mixup、颜色扰动和随机翻转。

picture.image

图11显示了训练集中的标签分布。图11(a)是每个类别中的实例数量分布的直方图。图中的x轴表示数据集中的不同类别，y轴表示实例数量。图11(b)是整个图像中真实框位置的分布密度图，其中"x"表示目标的水平中心点与图像宽度的比率，"y"表示目标的水平中心点与图像高度的比率。深蓝色区域表示高密度数据点，浅蓝色区域则表示低密度且稀疏的数据分布。可以发现，数据点主要集中在图片的中心部分。图11(c)显示了整个图像中真实框的宽度和高度的分布密度，其中"width"表示目标的宽度与图像宽度的比率，"height"表示目标的宽度与图像高度的比率。颜色越深，表示宽度范围内和高度范围内物体越密集。其数据分布揭示了目标的丰富性，宽度范围和高度范围约为0.05和0.15，这与大象在数据集中大量存在且具有狭窄和高的特征相一致。图12显示了测试集中标签的分布，其分布模式与上述讨论一致。

picture.image

V-A2评估标准

作者使用了一系列的评价指标来评估模型的性能，包括精确度（P）、召回率（R）、平均精确度（AP）、平均平均精确度（mAP）、模型参数数量、帧率（FPS）。精确度评估正预测的准确性，而召回率评估模型是否能识别出所有相关实例。F1分数是精确度和召回率的调和平均值。单类别AP值评估了单个类别的预测准确性，而mAP值则评估了所有类别平均精确度，从而作为评估检测模型整体性能的关键指标。模型的复杂程度由参数数量决定，参数数量越多表示模型越复杂。FPS量化了模型的处理速度，表示每秒处理帧数。应强调的是，如果没有特别说明，则正预测和召回率在IOU阈值为0.5和对应最大F1分数的置信阈值时进行测量。

这些指标共同构成了一个综合的模型性能评估系统。计算过程如下：

True Positive (TP)、False Positive (FP)和False Negative (FN)分别表示被正确识别的、被错误识别的和被遗漏的样本。N表示需要分类的类别数量。

V-A3 Implementation Details

在进行了200个周期的模型训练后，所有实验都收敛了。模型使用的输入图像尺寸为640x640，并采用了SGD优化器，具体参数为：批处理量为120，动量0.937，权重衰减0.0005。为了稳定训练，作者开始了一个3个周期的 Warm up 阶段，其中优化器的动量为0.8。在 Warm up 训练之后，学习率通过使用余弦退火函数进行衰减，初始和最小值分别设置为0.001和0.00001。实验设置包括一台Intel i9-10900K CPU，一台带有24GB内存的NVIDIA GeForce RTX 3090 GPU，以及Ubuntu 20.04操作系统。所使用的框架为Python 3.11.0，PyTorch 2.2.2和CUDA 12.0。

Ablation Experiments

为了评估本研究中提出的改进策略的效应，进行了一系列的消融实验以量化结果。如表3、表4和图13所示，每种技术优化都导致了性能提升。在保持模型参数数量近似一致的基础上，将模型宽度超参数从0.25调整到0.18，并标记为YOLOv8-N'（尽管作者也探究了深度超参数的调整，但结果不佳，0.50 mAP 的值为0.863）。本研究所提出的网络架构以 ALSS 模块为中心，并纳入了单通道聚焦模块。原始模型的卷积层在16到19层和20到23层，步长为2的卷积层被替换为最大池化和单点卷积。此外，引入了 LCA 模块，并相应地修改了损失函数。此外，还进行了一个控制实验，比较了 CA 和 LCA 模块的性能。

picture.image

为了研究 ALSS 模块作为模型核心组件的有效性，本研究通过用 ALSS 模块替换原始 C2F 模块并调整指向检测Head的不同特征尺度的通道比例，修改了 YOLOv8-N'，得到了新的网络结构M1。根据表3（行1和2）的数据，与 YOLOv8-N' 相比，M1 模型在 mAP0.50 指标上提高了0.3个百分点，同时减少了17.4%的参数数量。值得注意的是，精确率显著从0.869增加到0.889。图13（a）揭示了 M1 模型相对于 YOLOv8-N' 更快地收敛，而图13（c）显示，当设置高置信度阈值时，YOLOv8-N' 的 F1 评分显著下降，这一现象在后续的图14中进一步得到证实。这些结果充分展示了 ALSS 模块的轻量和高效特性。

picture.image

此外，为了确认单通道专注模块在增强模型识别复杂模式和结构的能力方面的有效性，本研究在M1模型第一层引入了该模块，得到了 M2 网络结构。根据表3（行2和3）的数据，在参数数量大致相同的情况下，M2 模型的 mAP0.50 提高了1%，同时根据表4（行2和3）的数据，除了未知类的 AP 值略有下降外，其他类别的 AP 值均有所增加。

为了进一步降低参数数量和模型复杂度，作者将M2模型的16到19层和20到23层的3×3卷积层（步长2）替换为步长2的最大值冷却层（pointwise convolution结构），即M3。通过最大池化降低模型在空间上的不变性。与卷积核大小为3的卷积层相比，点乘卷积具有更少的参数和计算成本，便于改变输入特征图的深度以实现跨通道信息融合。根据表3和表4的数据（第3行和第4行），与M2相比，M3的参数数量降低了3.4%。同时，当mAP0.50仅降低0.1%，各分类的AP值相近的情况下，AP值降低了0.1%，但mAP0.50增加了0.3%。考虑到 Baseline mAP值达到了88.6%，这种增加相当显著。同时，召回率也从0.834提高到了0.854，各种分类的AP值也有相应的增益和损失。

图13展示了基于BIRDSAI TIR UAV数据的去噪实验性能比较图：图13的（a ）曲线随训练轮数变化；（b ）精度与召回率拟合曲线；（c ）曲线随置信阈值变化；（d ）mAP0.50和参数数量之间的关系。

如图14所示的消融实验基于置信度大于0.6的检测结果。如图13(c)所示，当置信度为0.6时，F1值约仅为0.1，这表明模型召回率显著降低。如图14(a)所示，存在许多漏检情况，但在作者改进后的后续模型中，这些漏检都已被消除。此外，ALSS-YOLO检测帧具有最高的总体置信度。

图15提供了检测区域第10、12、14和16层模块特征激活图的可视化结果。这些可视化结果揭示网络，特别是在集成LCA模块后，有效地关注整个被检测到的物体。即使在相对较浅的层，网络也可以集中关注目标的意义信息，体现出优秀的特征抽象。这强调了LCA模块提高特征表示和判别能力的能力，有助于检测过程的整体有效性。

picture.image

Comparison Experiments

为了验证ALSS-YOLO模型的性能，作者在BIRDSAI TIR UAV数据集上与其他最先进的目标检测模型进行了比较，这些模型包括YOLOv3-tiny，YOLOX-nano，YOLOv5-n', YOLOv6-n', YOLOv8-ghost，YOLOv8-AM，YOLOv8-p2，MASK-RCNN-r18，FASR-RCNN-r18，RTMDet-tiny，VarifocalNet和CE-RetinaNet。为了确保各模型性能的公平对比，作者将在相同训练环境下训练这些模型。作者将在表8中呈现ALSS-YOLO与其他模型在BIRDSAI TIR UAV数据集上的比较结果，而图16将显示ALSS-YOLO与最佳模型之间的性能比较。

picture.image

在BIRDSAI TIR UAV数据集上的比较实验评估中，采用的ALSS-YOLO模型仅需1.452百万参数，即可实现0.50 mAP0.50的显著结果，显示出其在基于无人机应用的高效性。尽管专门针对红外野生动物检测设计的CE-RetinaNet获得了更高的0.50 mAP0.50，但其55.823百万参数的大数，使其不适合部署在计算资源有限的无人机上。相比之下，尽管YOLOX-nano参数数量最少（0.912百万），但其检测精度仅比ALSS-YOLO低2.6%。如图16所示，作者的详细分析揭示了，虽然YOLOv8-p2略优于作者的模型，但具有可比参数数量 ALSS-YOLO-m 在0.9%的参数数量优势，使其超越YOLOv8-p2，实现0.50 mAP0.50的90.3%。ALSS-YOLO的高召回率如图16(b, c)所示，进一步彰显了其健壮性。

这些结果显然证明了ALSS-YOLO在处理TIR野生动物检测任务中遇到的图像模糊和目标重叠的挑战方面具有有效性。由于作者的模型在准确度和计算效率方面表现出平衡，使其非常适合基于无人机进行监测。

为了展示模型在多种类别下的普适性，作者给出了在典型场景条件下各种物种的检测结果。结果呈现如图17所示。ALSS-YOLO-m在总检测性能上表现优秀，没有遗漏任何检测或误报。尽管ALSS-YOLO在一个场景中出现了轻微的遗漏，但仍然优于诸如YOLOv8-p2等在特定挑战场景中出现显著遗漏的模型。这些分析确认了ALSS-YOLO在无人机应用的TIR野生动物检测中提供了一个强大的解决方案。

picture.image

图18和19描绘了高噪声环境下的不同算法检测结果： (a ) 真实值; (b) YOLOv5-n; (c) YOLOv8-ghost; (d) YOLOv8-mM; (e) YOLOv8-p2; (f) ALSS-YOLO-n; (g) ALSS-YOLO-m; (h) ALSS-YOLO-m的检测细节。图18和19阐述了模型在挑战条件下的检测性能。图18，描绘了一个具有严重噪声干扰的场景，ALSS-YOLO-m模型获得了最高的召回率，表明其在高检测性能方面的优越性。同时，ALSS-YOLO-m模型还交出了非常竞争力的结果，强调了其在困难条件下的有效性。图19，呈现了一个具有严重遮挡的场景，揭示出只有ALSS-YOLO-m模型能够检测到所有目标，强调了其在困难情况下的健壮性。### 基于ISOD数据集的实验评价

picture.image

在ISOD[10]数据集的实验评估中，作者验证了ALSS-YOLO模型的泛化能力。如表9所示，结果表明，在AP50方面，ALSS-YOLO模型优于许多知名的目标检测器，同时保持了显著较低的参数数量和更快的推理速度。ALSS-YOLO实验的结果来自于作者的研究，而其他模型在这项比较中的数据来源CE-RetinaNet。

picture.image

具体来说，ALSS-YOLO-m在仅需其参数的一小部分的情况下，达到了令人印象的AP50为80.3%，超过了如RetinaNet（ResNet-101）[29]和CE-RetinaNet（ResNeXt-101）[10]等模型，并具有更高的召回率，进一步证实了其在ISOD数据集上实时应用的有效性。这些发现强调了ALSS-YOLO在精度和效率之间的平衡，使其成为需要同时具有高度精度和实时处理场景的坚固解决方案。

V Conclusions

本研究引入了ALSS-YOLO，一种针对UAV TIR图像的轻量级检测器，旨在解决检测模糊小目标面临的挑战。ALSS-YOLO将几个关键创新集成在一起，包括ALSS模块，通过自适应channel splitting、bottleneck操作和depthwise convolution增强特征提取。模型的LCA模块编码全局空间信息，单通道聚焦模块改进TIR图像中的特征提取。此外，局部定位损失函数的修改增强了小目标的准确性。

在BIRDSAI数据集上的实验结果表明，与YOLOv8-n' Baseline 相比，ALSS-YOLO实现了1.7%更高的mAP0.50，ALSS-YOLO-s和ALSS-YOLO-m模型在mAP分数和参数效率方面进一步提高了mAP分数。这些结果突显了模型在复杂UAV TIR成像场景中的有效性，满足了UAV应用的精度要求。

未来的工作将专注于优化ALSS模块，通过探索动态channel division ratios和改善channel shuffling策略来增强模型性能。此外，还将扩展评估，包括其他数据集，并在UAV平台上进行实际测试，以评估模型在动态环境中的适用性。

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」