点击下方卡片,关注 「AI视界引擎」 公众号
在各种尺度上检测物体在计算机视觉中仍然是一个重大挑战,特别是在诸如水稻叶病(RLD)检测这样的任务中,物体显示出相当大的尺度变化。传统的目标检测方法常常难以解决这些变化,导致检测遗漏或准确度下降。
在本次研究中,作者提出了多尺度注意力金字塔模块(mAPm),这是一种将膨胀卷积整合到特征金字塔网络(FPN)中的新颖方法,以增强多尺度信息提取。此外,作者还结合了一个全局的多头自注意力(MHSA)机制和一个反卷积层来优化上采样过程。
作者在YOLOv7上对mAPm使用MRLD和COCO数据集进行了评估。与普通的FPN、BiFPN、NAS-FPN、PANET和ACFPN相比,mAPm在平均精度(AP)上取得了显著的提升,在MRLD数据集上与YOLOv7中的 Baseline FPN方法相比,提升了。这证明了其在处理尺度变化方面的有效性。此外,mAPm的灵活性使其能够整合到各种基于FPN的目标检测模型中,展示了其推动目标检测技术进步的潜力。
1 Introduction
尽管在计算机视觉(CV)领域目标检测已经取得了成功,但针对任务目标和约束,它仍然面临着一些实际的挑战。其中一个问题就是尺度变化,因为目标检测器需要检测不同尺度上的目标[1]。尺度变化可能是指目标大小或边界框长宽比的变化。例如,从不同距离通过摄像机观察目标会导致目标边界框的变化,而一些目标可能非常扁平或细长(如树叶、刀、叉、筷子等)。本质上,目标的大小是任意的,可以从整张图像到几个像素不等。在这个广阔范围内对目标进行广泛搜索是一个重大挑战,即使是最高效的目标检测器也如此[2]。在作者特定的场景中,这个挑战尤为明显,因为目标检测必须识别稻叶病害(RLD),特别是广阔开阔田野中的小目标。为了简单和具体地解决这个问题,作者集中精力于提升YOLOv7目标检测的尺度变化能力。
如果在对真实世界物体(RLD)的检测中没有适当地解决尺度变化问题,可能会导致漏检、误报和整体准确性的降低[4]。例如,如果一个目标检测器仅被设计来检测特定大小的物体,它可能会漏掉在其感受野之外的小型或大型物体。另外,如果检测器设计为检测不同大小的物体,它可能在检测特定形状的物体时准确性较低。通过增强RLD检测中物体的尺度变化,作者旨在提高目标检测算法的准确性和鲁棒性,使作者能够准确检测和分类图像中不同大小和形状的物体。这在实际应用中具有重要意义,例如在农业病害监测、遥感、监控和灾害响应等领域,准确的目标检测对于决策和响应计划至关重要。
早期的FPN模块被提出用于解决目标检测早期遇到的尺度变化挑战。一种方法是使用不同尺度的图像金字塔来检测目标,但由于图像数量众多,这种方法在内存和计算上成本很高。另一种方法是使用特征金字塔,实际上,由于接近图像的特征图具有低级结构,这种方法对精确检测并不有效。更先进的方法是使用特征金字塔网络(FPN),它被引入到YOLOv3中改善尺度变化,这种方法作为特征提取器,能够生成多尺度特征图,然后将信息与相应的特征层级上采样并结合,形成输出特征图。
这种从浅层和深层结合位置和丰富语义信息的重复过程,显著提高了YOLOv3,Faster R-CNN和SSD在特定尺度上的性能,但在极小或极大尺度上表现不佳。这是因为FPN的工作机制并没有有效地利用其特征图来预测适当的目标大小。这导致了进一步的设计改进,如PANET,神经架构搜索特征金字塔网络(NAS-FPN),双向特征金字塔网络(BiFPN)和ASPP。尽管这些先前设计是为了通用应用而开发的,但mAPm独特地设计来解决RLD检测中的尺度变化问题。多尺度注意力金字塔模块(mAPm)的设计至关重要,因为它使作者能够充分利用FPN解决这一特别具有挑战性的问题。
mAPm通过在FPN自顶向下路径的侧连接中以不同比率用膨胀卷积替换传统卷积,增强了特征图的提取。这种修改有效地捕捉到不同尺度的特征。同时,作者通过整合两个关键组件改进了上采样过程:一个全局的MHSA机制和一个反卷积层。MHSA机制通过关注重要特征同时降低不那么重要的特征来提高网络性能,而反卷积层则致力于提高空间分辨率,从而保留细粒度信息。
本研究引入了mAPm,一个旨在增强RLD检测中尺度变化的新型自注意力FPN模块,主要应用于YOLOv7架构中,尽管也可以适应其他框架,如Faster R-CNN,SSD 和RetinaNet。通过融合自注意力机制和膨胀卷积,该模块有效地捕获全局上下文,解决了在RLD场景中检测不同尺度目标所遇到的挑战。通过定性和定量的评估,作者提出的模块与现有最先进的FPN模块相比,在处理尺度变化方面显示出显著的改进。
本文的贡献总结如下:
- 作者提出了一种名为mAPm的新型FPN设计,该设计利用了一种自注意力机制,在自顶向下的路径中提升采样特征图时增强语义信息的保留。
- 作者巧妙地将扩张卷积整合到横向连接中,使用扩张比率来捕获多尺度特征。这种方法使得mAPm模块能够在更大的上下文中同时捕捉到细粒度细节,从而有效地解决尺度变化问题。
- mAPm在用RLD数据集进行测试时,显著提升了目标检测模型的检测性能。结果表明,在进行定性和定量评估之后,性能有了显著的提升。
- mAPm模块是多功能的,可以集成到各种使用FPN的目标检测架构中,而无需进行重大的架构改变。这种兼容性可以使研究行人或开发行人轻松地增强现有模型。
3 Method and Tools
YOLOv7
YOLO是一种典型的一阶段目标检测方法,即它同时进行定位和分类,与使用RPN(区域 Proposal 网络)的两阶段方法不同,后者显著增加了计算成本。这种独特的设计选择使得YOLO在训练和推理时间上更快,因此,非常适合实时目标检测任务。
在实时检测中,YOLO使用FPN在三个 Level 上检测各种尺度的目标目标,每个 Level 分别进行带有位置和语义信息的定位和分类。作者采用了YOLOv7,它使用CSPDarknet-53作为其基础网络,具有52个卷积和跳跃连接。这个基础网络负责从输入图像中提取特征。随后,模型学习根据提取的特征生成预测边界框。最后,应用非极大值抑制(NMS)以产生最终结果,如图3。
回顾一下,YOLO在实时检测方面表现出色,并且由于其能够高效地在单次传递中处理各种大小的目标,因此易于适应尺度变化,这使得它非常适合于RLD检测任务等实时应用。Anchor 框的使用及其集成FPN等增强功能的能力,进一步提升了其处理尺度变化时的性能,同时保持了速度。
mAPm Architectural Design
受到最近计算机视觉领域中关注机制成功的启发,作者提出了mAPm,这是一个旨在增强RLD检测中尺度变化的全新关注模块。它通过结合关注机制和孔洞卷积来实现这一点。该模块集成了一个全局MHSA组件,以减少特征金字塔网络(FPN)自顶向下路径中上采样所导致的信息丢失。通过引入全局关注,该模块确保了不同尺度下重要上下文信息的保留。
接着,作者用尺度为{1, 2, 3}的并行孔洞卷积替换了FPN横向连接中显眼的3 x 3卷积层。这一修改使模块能够通过扩大感受野来捕捉各种尺度的物体,而不会显著增加计算负担。总的来说,这些设计选择增强了YOLOv7框架内RLD检测的固有的尺度变化,从而提高了目标检测任务的准确性和鲁棒性。
mAPm Architectural Components
侧向连接: RLD图像本质上是复杂的,包含感兴趣的目标表现出广泛的尺度变化,从小到极小,到大。这对于大多数通用目标检测系统来说提出了重大挑战,通常会导致假阳性检测和漏检。这种不准确可能在植物病害检测等领域造成灾难性的后果,在这些领域,准确检测目标至关重要。因此,作者打算改善侧向连接上语义信息的捕获能力。
YOLOv7 FPN结构融合了三个横向连接 , 和 ,用以处理来自自下而上路径的特征图,逐步减少空间尺度尺寸的同时增强语义丰富性。在每个横向连接中,有两个模块,每个模块最初由一个 层接着一个 层组成,类似于深度卷积。
为了提高捕捉不同尺度目标的能力,作者通过扩张卷积来扩展感受野。感受野指的是输入图像中,网络中某个特定神经元能够“看到”或在做预测时考虑的区域。感受野的计算如公式1所示。
在何处, 是尺度因子。
是在层n上的感受野。
是前一层中的感受野。
是核大小(滤波器大小)。
是膨胀率。
增加 会扩展网络中每个神经元的 ,使其能够从输入图像的更大区域捕捉信息。这有助于网络通过考虑更广泛上下文中的细节来检测不同尺度的目标。这种重新设计为捕捉复杂场景中的尺度变化提供了增强的能力。
在作者的修改中,作者用并行带孔卷积(PAC)替换了FPN横向连接中的3×3卷积层,其特点是并行使用{1, 2, 3}的比例尺(图4),作者旨在保留不同尺度上的信息。设表示从第层的比例因子带孔卷积获得的特征图。这些从不同扩张率获得的特征图的 ConCat 如方程2所示。
注意力上采样: 在原始的FPN设计中,利用了来自主干网络不同层的特征图来传播语义信息。虽然深度神经网络的低层通常捕捉到低级特征,而高层则捕捉到关于图像内容的更抽象、语义信息。为了利用低层与高层之间的这些价值差异,FPN将这两层融合在一起,从技术上将低层的信息传递到高层。这种融合增强了目标定位和理解,因为网络可以在每一层使用细粒度的高级信息。在融合之前,由于低层与高层之间的空间分辨率不均,需要对高层特征进行上采样,这会导致信息损失。为了增强这一限制,作者将全局MHSA整合到上采样操作中,以减轻信息损失。
对于mAPm,作者在自顶向下的路径中为输入张量创建了双路径。这个张量具有形状 ,作为2D全局MHSA操作的输入。
然后,作者分三个步骤处理输入到MHSA中:
投影:作者首先使用可学习的线性投影将输入特征图 X 投影到 Query 、键和值矩阵中,即 和 。其中, 和 是用于投影的可学习权重矩阵。
缩放点积注意力: 接下来,作者根据方程式3计算输入特征图内所有位置对之间的注意力得分 。 (3) 其中 是键向量的维度。
加权求和: 然后,作者计算输出特征图 作为值向量 的加权求和,权重由注意力得分 确定,公式 4. (4)。
随后,作者对MHSA的输出应用全局平均池化,得到形状为 的结果。然后作者执行 与经反卷积上采样的特征图之间的逐元素乘法,记作上采样 (图4)。这种方法增强了FPN的上采样操作,使其能够同时考虑细粒度细节和更广泛的上下文。这个修改有效减少了在FPN自顶向下路径上采样操作期间的信息损失。
需要注意的是,尽管最近邻插值和双线性插值是可选的替代方法,但由于可学习的特性和对特定任务的适应性,反卷积在上采样方面被证明更为有效。这种设计选择在上采样过程中最小化了信息损失,从而显著增强了FPN的自顶向下路径。
4 Experiment
在这一部分,作者分别在定性和定量两个方面在MRLD 数据集上评估了mAPm模块。随后,作者使用COCO 数据集来评估其泛化能力。作者将mAPm与其他最先进模型进行了比较,以验证在RLD中改善尺度变化的有效性。
数据集和评价指标。 作者在MRLD数据集上进行实验,该数据集包含四个病类别的5,932张图像:分别是爆发、细菌性斑点、稻热病和褐色斑点。接着,作者使用了COCO数据集,它包含了80个目标类别的330,000张图像。作者使用平均精度(AP)和均值平均精度(mAP)来评估作者模型的性能。AP和mAP的计算公式如方程(5)和(6)所示。
实验设置。 作者初始化了默认的YOLOv7网络设置,以及使用CSPDarknet-53网络作为主干网络。在检测Head中的分类和定位层的偏差值分别设为0.01和0.1。在所有层中,包括所提出的特征选择网络,使用了的高斯权重。作者采用了AdamW优化器,初始学习率为0.001,权重衰减为0.0009,动量为0.9。
作者的实施是在基于Linux的系统上进行的,该系统配有Intel Core i7 8700k处理器,2个NVIDIA Titan XP 12GB GPU和32GB的RAM。为了公平起见,作者在相同的环境中和从头开始训练比较模型。
Qualitative Evaluation with Bounding Boxes and mAP scores.
作者检查了四种水稻疾病的边界框和mAP得分,分别是BB、BS、RB和TG。随后,作者对mAPm性能与几种最先进的尺度变化模块进行了比较分析,包括 Baseline FPN,BiFPN,NAS-FPN,PANET,以及ACFPN。作者的研究发现,在使用mAPm模块检测水稻叶片中疾病目标时,mAP得分有了显著的提高(见图1)。这种改进可以归因于mAPm模块的增强设计,该设计集成了全局MHSA机制和膨胀卷积,有效解决了尺度变化的挑战。
微小物体变化的边界框: 在本节中,作者的关注点是较小尺寸的物体或是具有变化特征的物体。通过可视化,作者突出了微小物体变化带来的挑战,比如准确度降低和可能遗漏物体,强调了精确检测方法的必要性。
作者全面地将mAPm与几种最先进的尺度变化模块进行了比较,包括 Baseline FPN,BiFPN,NAS-FPN,PANET,以及ACFPN。可视化提供了对边界框检测精度和有效性的洞察,特别是对于尺寸变化较小的物体。作者的研究发现,在检测这些具有挑战性的物体时,mAP得分有显著提高,强调了mAPm模块在有效解决微小物体变化细节方面的重要性。
在MAPM的最后层(P5)上进行特征图可视化。 作者对mAPm模块中的最后一层(P5)进行了特征图可视化,以了解这个模块是如何减轻空间信息的丢失的。作者将这些结果与几个最先进的尺度变化网络模块得到的结果进行了比较,这些模块包括基准FPN,BiFPN,NAS-FPN,PANET和ACFPN。
作者的分析揭示了mAPm模块在保持空间信息完整性和捕捉全局信息方面的显著增强(图7)。这种改进可以归因于在横向连接中整合了扩张卷积,以及在上行路径中采用了全局MHSA机制。因此,网络在检测各种尺度物体方面的能力得到了实质性提升,包括在RLD图像中常见的小物体。
Quantitative Evaluation of mAPm and Comparisons.
作者对各种最先进的特点金字塔模块进行了_AP_指标的计算,并将结果与mAPm进行了比较。表1显示了与其他检测RLD方法相比,在尺度变化上的改进。例如,与FPN( Baseline )相比,作者观察到_AP_提高了+2.91%,而AP提高了+3.10%。mAPm在一系列目标检测(OD)模型中一致地优于其他特征金字塔方法,尤其在检测小尺寸和中尺寸目标方面表现出色。这些发现表明mAPm在提高目标检测中的尺度变化方面是有效的。
与(测试开发)数据集的比较: 在表2中,作者对_test-dev_数据集进行了类似的实验,以进一步评估mAPm。结果显示,与其它方法相比,mAPm有显著改进。
具体来说,与mAPm相比,在YOLOv7中使用 Baseline FPN时,作者在AP上提高了+2.61%;而在YOLOv7中与FPN Baseline 相比,在AP上增加了+0.37%。
在COCO数据集上的评估。 为了确定mAPm的泛化能力,表4提供了两种类别:两阶段方法和单阶段方法的目标检测方法的综合性能比较。
评估基于广泛使用的COCO数据集,指标包括AP、IoU阈值为0.50 () 和0.75 () 时的AP,以及小 ()、中 () 和大 () 物体的类别特定AP。这些结果共同提供了各种目标检测方法性能的重要洞见。
此外,作者对各种最先进的OD模型上的mAPm进行了广泛的测试。这些评估的发现揭示了检测模块性能的显著和一致提升。这一结果不仅突显了mAPm模块在解决RLD图像所提出的特定挑战中的有效性,也表明了它作为更广泛图像分析任务中的一种健壮且可靠的解决方案的潜力。
5 Conclusion
总之,作者的研究提高了在目标检测中应对尺度变化的挑战,特别是在RLD图像中。尽管目标检测在计算机视觉中已取得成功,但变化的目标尺度仍然是一个重大障碍,导致检测遗漏和准确度下降。
为了解决这个问题,作者在YOLOv7架构中提出了多尺度注意力金字塔模块(mAPm)。mAPm在横向连接中整合了扩张卷积,以在多个尺度上进行有效的特征提取,并通过全局多头自注意力(MHSA)机制和可学习的反卷积层增强了上采样。
作者的实验表明,在RLD数据集上取得了显著的改进,突显了mAPm的有效性。它与现有目标检测架构的兼容性凸显其实用性,为在农业、监控和灾难响应等多样化领域进行尺度内精确且鲁棒的目标检测提供了宝贵工具。
参考
[1].mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation in RLD detection..
点击上方卡片,关注 「AI视界引擎」 公众号
