告别FPN局限!PLUSNet三模块协同:HFP净化特征+MCLA优化标签+FDHead解耦任务,小目标精度飞跃

向量数据库大模型机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

精简阅读版本

本文主要解决了什么问题

小目标检测中的特征稀释问题 :传统方法中,特征金字塔网络(FPN)的自顶向下融合方式导致低层特征图中的小目标信息被语义信息和噪声掩盖。

标签分配中的尺度偏差问题 :单一标准(如IoU)的标签分配方法对小目标检测不友好,限制了正样本的数量和质量。

检测Head任务耦合问题 :分类和回归任务共享相同的特征表示和结构,容易受到背景和噪声干扰,影响小目标检测性能。

本文的核心创新是什么

层次特征净化器(HFP) :通过快速傅里叶变换(FFT)将特征分解为低频和高频分量,去除冗余语义信息并突出小目标细节,显著提升低层特征的质量。

多标准标签分配器(MCLA) :引入位置偏移准则(POC)和形状约束准则(SCC),结合原始IoU准则,平衡不同尺度下正样本的数量和质量,缓解大目标带来的固有偏差。

频率解耦头(FDHead) :针对分类和回归任务分别利用低频和高频特征分量,通过全连接层和卷积层实现更专业的特征处理,减少任务间的干扰。

结果相较于以前的方法有哪些提升

在SODA-D数据集上的表现

  • • 使用Faster RCNN作为Baseline时,PLUSNet整体检测精度提升了超过3 AP,特别是在极小目标检测上取得了显著改进。
  • • 在ResNeXt-101 Backbone下,PLUSNet全面超越当前最佳算法,所有指标均表现出色。

在AI-TOD数据集上的表现

  • • 基于经典Faster RCNN,PLUSNet优化后性能提升了超过10 AP。
  • • 集成到高级检测器DetectoRS中时,PLUSNet仍能显著改进性能,超越所有现有方法。

在MS COCO数据集上的泛化能力

  • • PLUS模块无缝集成到多种经典检测器中,展现出即插即用的能力,并在多尺度检测场景中持续提升性能。

局限性总结

计算成本较高 :由于引入了傅里叶变换,计算开销显著增加,尽管参数数量略有增长,但推理效率受到影响。

优化空间较大 :虽然频域信息有效提升了小目标检测性能,但仍需探索更高效的频域变换方法或引导模型直接学习傅里叶变换后的特征模式以降低计算负担。

适用场景的限制 :尽管PLUSNet在小目标检测领域表现优异,但在非小目标主导的数据集中,其优势可能不如预期明显。

深入阅读版本

导读

小目标检测是一项广泛研究的科研任务,通常被概念化为一种"流水线式"的工程流程。在上游阶段,图像作为检测流水线中的原始材料进行处理,其中预训练模型被用于生成初始特征图。在中游阶段,分配器选择训练的正负样本。随后,这些样本和特征被输入下游进行分类和回归。以往的小目标检测方法通常集中于改进流水线的孤立阶段,从而忽视了整体优化,进而限制了整体性能的提升。

为解决这一问题,作者优化了流水线中的三个关键方面,即净化、标注和利用,提出了一种高质量的小目标检测框架PLUSNet。具体而言,PLUSNet包含三个顺序组件:用于净化上游特征的层次特征净化器(HFP)、用于提高中游训练样本质量的多元标准标注分配器(MCLA)以及用于更有效利用信息以完成下游任务的频率解耦头(FDHead)。

所提出的PLUS模块可以方便地集成到各种目标检测器中,从而增强其在多尺度场景下的检测能力。大量实验表明,所提出的PLUSNet在多个数据集上始终对小目标检测实现了显著且一致的性能提升。

  1. 引言

目标。作为目标检测的扩展,小目标检测具有相当重要的意义,跨越了理论探索和实践应用的领域。在常规检测场景中,小目标检测的准确率通常与大目标相比显著较低。提高小目标检测的性能有助于克服检测 Bottleneck ,并极大地提升整体性能。此外,在遥感[1]-[3]、灾害救援[4],[5]、智能交通[6]-[8]、医疗应用[9],[10]等特定检测场景中,小目标的大量存在是主要特征。在这种情况下,提升小目标检测性能极大地促进了这些领域的发展。

当前的小目标检测流程,类似于工厂装配线,可以分为三个阶段:上游、中游和下游。在上游阶段,图像通过预训练模型获取特征图,这个过程类似于将原材料(即图像)输入机器(即预训练模型)以生产初始部件(即特征图)。随后,特征图连同候选样本被输入中游,其中分配器充当质检员,根据其评估对样本进行质量评估,并分配正负标签。最后,训练样本和特征图进入下游检测阶段,检测Head执行分类和回归任务以生成结果。

picture.image

然而,在整个 Pipeline 的三个关键阶段中,小目标特征容易丢失,而低质量的小目标特征限制了信息利用,导致小目标检测性能显著下降。具体而言,作者在广泛使用的小目标检测框架中识别出三个问题:

    1. 特征金字塔网络(FPN)[12]底部层的噪声低频信息淹没了小目标的信息。如图1(b)所示,原本设计用于检测小目标的最低层特征图表现出明显的噪声。作者将这种现象归因于FPN特征融合的影响。自顶向下的融合方式持续地将顶层语义信息与细节信息相结合,无意中掩盖了小目标的信息。
    1. 单一标准的标签分配极大地限制了小目标正样本的数量。许多主流检测器[13]-[16]完全依赖于广泛使用的基于IoU的标签分配。不幸的是,IoU(IoU),在数学上本质上是Jaccard系数[17],[18],存在一个固有的缺陷:它对集合的大小敏感。当两个集合的大小存在显著差异时,Jaccard相似度可能会失去准确性,因为它仅考虑交集与并集的比率,而忽略了集合之间的大小差异。这个问题在小目标检测中尤为突出,导致各种问题,如图2(a)所示。
    1. 目前的检测Head通常对分类和回归任务共享相同的特征表示和结构,这对小目标检测不利。小目标本质上容易受到背景和噪声的干扰。例如,在图1(a)中,行人的特征可能与背景车辆的特征轻易混淆。直接同时对这些特征进行分类和回归会混淆检测器的判断。此外,标准的检测Head通常对不同的分类和回归任务采用相同结构。为每个任务定制专用结构将构成更合理和有效的设计方案。

为统一有效地解决上述三个问题,作者提出了PLUSNet,该网络由三个相互协作的组件构成如下:

    1. 为获取信息丰富且噪声降低的特征表示,作者提出在上游特征融合阶段进行特征纯化的层次特征纯化器(HFP)。HFP引入快速傅里叶变换(FFT)[11]将图像特征分解到不同的低频和高频域。如图1(c)和图1(d)所示,低频分量捕获语义信息(即街道场景),而高频分量消除背景和噪声的干扰,有效突出小目标。
    1. 为提高训练样本的整体质量,作者引入了一种新的多标准标签分配(MCLA)来增加小目标正样本的数量。具体而言,MCLA是一种多标准范式,包括三个指标:位置偏移准则(POC)、形状约束准则(SCC)和原始IoU准则。MCLA在不增加成本的情况下有效缓解了图2(a)中的问题。如图2(b)所示,通过利用与Jaccard系数互补的标准,MCLA缓解了大型目标带来的固有偏差问题,平衡了不同尺度下正样本的平均数量,并在正样本的质量和多样性之间实现了平衡。
    1. 最后,作者进一步引入了频率解耦头(FDHead)来有意使注意力偏向相关信息,同时减少有害线索的干扰。对于分类分支,FDHead更侧重于语义信息,并使用全连接层,这能够建立复杂的映射关系。对于回归分支,FDHead强调轮廓细节,并采用卷积层,因为卷积天然擅长空间感知[19]。通过利用这三个PLUS模块的协同能力,输入图像经历了更彻底的特征纯化、更优越的标签分配以及更专业的检测,最终生成了精确的检测结果。

主要贡献可总结如下:

  • • 首先,作者采取整体视角,识别出小目标检测流程中的三个关键问题。为解决这些挑战,作者提出了新型PLUSNet,该网络在三个关键阶段联合优化流程。
  • • 其次,作者从净化、标注和利用三个角度缓解小目标检测中的现有问题。这使得检测器能够具备更纯净的特征、更多高质量的小目标正样本以及增强的特征利用能力。
  • • 第三,所提出的三个模块可在检测流程中即插即用,无缝集成到 Baseline 算法中,显著且一致地提升了检测性能,尤其对小目标检测效果显著。在SODA-D [20]、AI-TOD [21]和MS COCO [22]等多个基准数据集上进行的广泛实验验证了作者提出方法的有效性和泛化能力。
  1. 相关工作

A. 小目标检测

小目标检测是目标检测的一个子集,主流检测器致力于提升小目标检测性能,以增强多尺度检测精度。例如,基于 Anchor 框的检测器通常采用分而治之的设计,利用FPN从低层获取更高分辨率的特征来检测小目标。另一方面, Anchor-Free 框方法[15][25-27]通过引入更多预测点采用密集预测策略,从而提高小目标的覆盖率和召回率。在基于 Query 的方法中,开创性工作DETR[16]由于缺乏局部感知能力,在小目标检测中表现不佳。Deformable-DETR通过将其训练过程融入多尺度特征图,提升了小目标检测性能。具体而言,先前的小目标检测研究通过数据操作[29-31]、超分辨率和特征融合等技术,专注于获取更多高质量的小目标特征。

最近,研究行人探索了在网络学习中引入高斯概率模型的益处,以增强小目标检测性能。例如,GWD[36]和NWD[37]提出了先验的高斯分布建模,而RFLA[38]基于此建模设计了一种基于高斯的标签分配方法。DCFL[39]引入了由粗到细的标签分配策略,细化了高质量正样本的选择过程。最近的CFINet[40]通过采用由粗到细的流程,确保了足够数量的高质量候选框,实现了更高的精度。总之,现有的小目标检测方法通常局限于改进检测流程的某个特定阶段, Bottleneck 效应仍然限制了整体性能的提升。而PLUSNet优化了整个流程,从而全面提升小目标检测性能。

B. 标签分配

标签分配在模型训练中至关重要,因为它直接影响训练样本的分布。最常见的方法是MaxIoU标签分配[13],该方法在基于 Anchor 点和 Anchor-Free 点检测器中都得到广泛应用。它基于 Proposal 与真实值之间的IoU来衡量样本质量,从而确定正负样本。ATSS[24]分析了基于 Anchor 点和 Anchor-Free 点检测器之间的性能差异,并提出了一种自适应分配正负样本的策略。FSAF[41]引入了目标的有效区域和忽略区域的概念,根据检测框中心是否落在这些区域内来选择正负样本。

此外,一些改进的标签分配方法从不同角度旨在获得更好的训练样本。OTA[42]将标签分配表述为一个最优传输问题,通过优化传输成本来达到更好的分配结果。FreeAnchor[43]放弃了基于IoU的设计,使用最大似然理论来选择正负样本。尽管各种标签分配方法存在差异,但它们通常依赖于单一样本评估指标,例如IoU、Wasserstein距离或匈牙利成本。作者观察到这种对单一指标的依赖限制了训练样本的多样性,特别是对于小物体。为解决这一问题,作者提出了一种多指标分配策略。

C. 卷积神经网络中的频率学习

频率作为图像内部强度变化的指标,频域信息极大地有助于图像理解。人们普遍认为低频信息对应图像的语义内容,而高频信息对应细粒度细节。具有启发性的工作[44]深入研究了频率对卷积神经网络(CNN)鲁棒性和准确性的影响,发现CNN严重依赖于高频信息。DCTNet[45]对深度学习中频域的作用进行了详细分析,并提出将图像从空间域转换到频域,在降低通信带宽的同时实现图像压缩,并达到更高的精度。IRN[46]考察了图像下采样过程中信息损失的主要原因可归因于高频信号的损失。

为此,它巧妙地采用小波变换来保留高频信息,实现无损且可逆的图像缩放。大量研究表明,频率学习在提高模型对图像的理解方面具有有效性。然而,利用频域辅助目标检测的研究尚未得到充分探索。FDCOD[47]开创性地在伪装目标检测中引入频率增强模块,利用离散余弦变换(DCT)提取频域信息。在PLUSNet中,作者采用常用的快速傅里叶变换(FFT)和逆快速傅里叶变换(IFFT)进行频域处理,以辅助特征净化,从而获得小目标的清晰特征。此外,所提出的FDHead根据分类和回归任务的不同特点,分别利用低频和高频分量,有效提升了检测性能。

  1. 方法

A. 概述

picture.image

近年来,小目标检测已发展成为一个成熟的范式。如图3所示,典型的检测流程通常包含六个关键组件:

    1. 图像及其相关真实标注的输入;
    1. 图像特征提取,主要由预训练网络如ResNet [48]、ResNeXt [49]、HourglassNet [25]执行;
    1. 特征融合,通过整合语义信息与细节信息以增强特征利用,通常采用FPN [12]实现;
    1. 标签分配,用于选择正负训练样本;
    1. 检测Head,负责完成分类和回归任务;
    1. 结果输出。

基于流水线范式,上游提供的特征图在后续检测中发挥着基础性作用。中游训练样本的分布决定了模型的泛化能力,而下游则专注于检测任务,直接影响分类和回归的结果。然而,以往方法往往只关注流水线的局部方面。据作者所知,作者首次尝试在小型目标检测中进行整体优化。图3展示了作者提出的PLUS模块。作者对流水线的上游、中游和下游阶段进行了改进,具体涉及特征融合、标签分配和检测Head。这些互补的增强共同提升了小型目标检测网络的有效性。

B. 分层特征净化器

大多数检测框架都集成了FPN进行图像特征融合。然而,FPN采用的自顶向下融合策略往往会将过多的语义信息传播到低分辨率特征图中,这对小目标检测是有害的。为了解决语义信息在小目标检测中稀释细粒度细节的问题,作者提出了分层特征净化器(HFP)。HFP创新性地将傅里叶变换应用于二维特征图,在频域中完成特征净化。

HFP被应用于FPN的较低层,以过滤掉过多的语义信息并去除有害噪声,因为小目标主要在这些低层特征中被检测到[12][34]。如图3(a)所示,作者首先选择FPN中低于第

层的特征

,因为小目标主要在这些低层特征中被检测到。随后,作者对选定的特征采用快速傅里叶变换(FFT),将其转换为频谱图

。然后,作者应用一个 Mask

对S进行高通滤波,从而生成滤波后的特征图

。为了控制滤波程度,作者引入超参数

以去除低频信息,同时保留清晰的细节。考虑到低层特征需要更强的滤波,作者设计了一个自适应滤波强度 Mask ,描述如下:

其中

表示

的层级,换句话说,即第

层级。而

表示取绝对值的操作。然后对滤波后的频谱图

进行逆FFT,以获得强调精细焦点细节的新特征图

。最后,为减少全局感知的潜在损失,作者采用残差结构融合来自

的信息。得到的净化特征图

然后被输入到 Pipeline 的下游,用于小物体的精确分类和定位。上述过程可表述如下:

其中

是残差结构中的权重参数,

表示逐元素乘积。

C. 多标准标签分配

上游特征图确定后,会在特征图内生成大量预定义先验( Anchor 框、点等),然后送入中游由分配器进行评估。常见的标签分配通常依赖于单一IoU标准,从而将Jaccard系数的局限性引入标签分配过程中,正如前文所述,在小型目标检测中尤为明显。采用多维度的样本评估方法,考虑不同视角至关重要。遵循这一原则,作者设计了一种简单而有效的多标准标签分配(MCLA)。

对于分配器,它接收一组真实框

C 和一组候选框

。然后它评估每个候选框的得分,以确定其作为正样本的资格。如图1所示,MCLA评估过程如下:首先,MCLA获取

中每个框的中心坐标和尺寸,得到一个四元组

。然后,将这些向量连续拼接形成一个

的矩阵

,其中

是真实框的数量。类似地,MCLA使用相同的方法构建候选框矩阵

,其中

是候选框的数量。接下来,MCLA将框的位置和形状解耦,计算它们的均方误差(MSE),

。MSE是数学中Jaccard系数的补充指标[18],作者使用它来强调小尺寸的训练样本。

随后,考虑到

对图像尺寸差异敏感,作者使用最小-最大归一化对其进行归一化,得到

。准备工作完成后,MCLA继续计算每个真实框和候选框之间的三个评估指标:

,和

。IoU使用原始算法计算,而POC(位置偏移准则)和SCC(形状约束准则)通过非线性映射函数转换为

范围内的得分分布,这也有助于减轻异常值的不利影响。最后,三个得分加权归一化,得到最终得分,综合反映每个候选框的质量。

此外,由于归一化加权,非线性映射函数中的调整因子20和0.25对结果的影响最小,因为它们的影响可以归因于

权重。如图3(b)所示,综合MCLA能够公平评估目标尺度,有效缓解训练样本尺度不平衡的问题,并提供大量高质量的训练样本,从而提升整体性能。

频率解耦头

一旦经过纯化的特征和精心筛选的样本被传输到下游,检测Head的职责就是从这些样本的独特特征中提取线索,无缝地将它们引导回它们应有的位置,并准确地对它们进行分类。虽然分类和回归是两个不同的任务,但对大多数检测Head来说,采用相同的结构和特征可能不是最优的。为了处理分类和回归任务的独特重点,并减少噪声信息的干扰,作者提出了频率解耦头(FDHead)。

FDHead结构如图3(c)所示,包含用于分类和回归的独立分支:

    1. 从RoIAlign生成的特征图

开始,作者采用FFT滤波提取包含语义信息的低频特征分量

,以及捕获细节轮廓信息的 高频特征分量

。 2. 2. 在分类分支中,低频分量

经过两层全连接层,以获得用于分类的特征向量

。 3. 3. 在回归分支中,高频分量

通过卷积层进行维度扩展。随后应用多个卷积块,并使用全局平均池化(GAP)获得用于回归的特征向量

上述过程可以用以下公式数学表示。

其中BR表示BN-RELU层。

是截止频率,用于指示低通滤波和高通滤波的强度。

表示卷积块,

是卷积层内的可学习参数。最后,

通过独立的线性层分别获得分类和回归结果。模型参数通过交叉熵损失进行分类和Smooth-L1损失进行回归,通过反向传播进行更新。

  1. 实验

A. 设置

数据集。为验证PLUSNet在小目标检测任务上的有效性,作者在两个具有代表性的小目标基准数据集上进行了对比实验,具体为SODA-D [20] 和 AI-TOD [21]。

SODA-D是最新的小目标检测基准数据集,包含从自动驾驶场景中捕获的24,828张高质量图像,共计278,433个标注的小尺寸实例。它们的平均尺寸仅为20.31像素。AI-TOD由28,036张航空和无人机视角图像组成,包含8个类别的700,621个目标实例。它是一个在遥感领域具有高度代表性的小目标检测数据集,因为目标的平均尺寸约为12.8像素,明显小于其他航空数据集。

评估指标。SODA-D中检测到的目标进一步分为四个等级:

(0至12像素)、

(12至20像素)、

(20至32像素)和

(32至45像素),定量反映了小目标的检测性能。类似于SODA-D,AI-TOD根据目标大小进一步细化检测指标为

(2至8像素)、

(8至16像素)、

(16至32像素)和

(32至64像素)。

实验设置。所有实验均遵循

12 epoch的训练计划,实现细节与 Baseline 算法的设置保持一致。具体而言,所有实验均在单个RTX3090 GPU上进行。SODA-D的批处理大小设置为4,AITOD的批处理大小设置为2。模型采用SGD(随机梯度下降)优化算法。学习率初始值设置为0.01,并配合动量0.9,在8th和11th epoch时进行衰减。权重衰减设置为0.0001。

B. 与最先进方法比较

SODA-D上的结果。作者在SODA-D基准测试上将PLUSNet与14种代表性方法进行了比较。如表1所示,基于 Query 的方法和无需 Anchor 点的方法在基于 Anchor 点的方法明显落后,特别是在极小和相对较小尺寸的情况下。这表明这些方法在小型目标检测任务上仍有很大的改进空间。在基于 Anchor 点的方法中,RFLA [38] 和CFINet [40]被认为是小型目标检测领域的最先进方法。

picture.image

相比之下,作者提出的PLUSNet,仅使用基本的Faster RCNN作为 Baseline ,在检测精度上直接提高了超过3

,优于最先进的方法。使用ResNeXt-101作为 Backbone 网络,PLUSNet取得了优异的性能。此外,PLUSNet在所有指标上都超越了当前最佳算法,展示了其优越性。

AI-TOD任务结果。在遥感与无人机场景的小目标检测任务中,作者的PLUSNet始终取得了显著的性能提升。

picture.image

如表2所示,基于经典的Faster RCNN,PLUSNet通过优化净化、标注和利用策略,在检测性能上提升了超过

。通过将PLUS模块应用于先进的DetectoRS,PLUSNet仍然实现了显著的性能改进,超越了所有现有方法。

C. 消融实验

单个组件的消融研究。作者对每个提出的PLUS模块的有效性进行了消融研究,结果报告在表3中。

picture.image

HFP引入了更清晰的特征图,从而将整体检测精度从28.9 AP提高到30.0 AP。然而,高通滤波会移除大量低频信息,导致整体特征耦合度下降。由于缺乏足够的小目标样本以及有限特征的合理利用不足,极小目标的检测精度受到不利影响。通过应用MCLA,小尺寸正样本获得更多关注,从而将12.6 AP_es显著提升至13.8 AP_es。最后,FDHead实现了特征的更好利用和训练样本的充分利用,全面提升了多尺度检测流程的质量,最终达到32.0 AP。通过这三个PLUS组件的协同作用,小目标检测的性能得到了系统性和显著的提升。

HFP中的消融研究。

    1. FPN中的分而治之设计允许其低层捕获详细信息以检测小物体,而高层主要捕获语义信息以检测大物体。作者提出的HFP专门设计用于消除冗余的语义信息并增强小物体低层特征的表示。为此,作者引入一个中继层,记为

,以控制层次深度。不同

值带来的不同影响在表5中清晰可见。当

时,即不存在HFP组件时,整体检测性能仅为31.4 AP。引入HFP后,检测精度显著提高,尤其是在

时,小物体的AP从13.7增加到15.4,显著提升了小目标检测能力和整体性能。然而,当

时,即不存在层次策略时,所有FPN层都经过低频特征过滤,导致检测大物体时语义信息不足,检测性能下降至31.6 AP。上述结果明确证明了HFP中层次策略的必要性和有效性。 2. 2. 在HFP中,低频过滤是通过将 Mask M与频谱图S相乘实现的,过滤强度由超参数

决定。随着

的增加,过滤强度增强,导致更多低频信息被移除,特征中的高频细节更加突出,从而提高小目标检测能力。为探索最佳过滤强度,进行了一系列消融实验。如表4所示,观察到适当增加

的值会导致

的提高。然而,过高的

值会导致显著的语义信息损失,导致大目标检测能力下降,如

所示。当

设置为0.05时,性能最佳。此外,作者引入残差结构以防止全局感知能力的损失,并使用超参数

控制纯净特征的权重。实验结果表明,当

固定在最佳值0.05时,将

设置为0.3可达到最佳检测性能。

picture.image

MCLA中的消融研究。在MCLA中,多个指标以加权方式组合,然后进行归一化以将分数限制在0和1之间。权重的调整本质上涉及在基于Jaccard的分数和基于MSE的分数之间找到平衡。当这些分数经过精细调整达到互补状态时,训练样本的质量得到提高。从表6中展示的结果可以观察到,当

分别设置为1.0、3.0、1.0时,性能最佳。

picture.image

FDHead的消融研究。

    1. FDHead中高通滤波的有效性由截止频率

决定,该参数控制高频信息的保留程度。较高的

值会导致保留的低频信息减少,从而产生更突出的高频特征。相反,

的表现则与之相反。调整

会直接影响特征的冗余性和全面性。通过分析表7中的结果,作者发现FDHead对截止频率的波动具有鲁棒性,因为在特定的截止频率范围内,检测结果保持相对一致。 2. 2. 为了全面验证作者提出的FDHead中采用的特征解耦方法的合理性,作者进行了消融实验,以检验使用不同频率成分进行分类和回归的影响。众所周知,特征中的低频信号包含丰富的语义信息,而高频信号则描绘了物体轮廓。FDHead中高低频特征的解耦与这一先验理解相符,如表8进一步证实。作者可以观察到,使用低频特征分量进行分类,使用高频特征分量进行回归确实达到了最佳性能,即32.0

。相反,当使用低频语义信息进行回归,使用高频细节信息进行分类时,性能下降至31.4

picture.image

picture.image

D. 其他实验

MS COCO泛化实验。为验证作者的PLUS模块在多尺度目标检测中的普适性,作者在广泛使用的MS COCO数据集[22]上进行了大量实验,证明PLUSNet不仅限于小目标检测。

具体而言,作者选取了几种经典检测器,并将PLUS模块集成到这些检测器中。从表9中的结果可以看出,作者令人鼓舞地发现,PLUSNet不仅展示了即插即用的能力,能够无缝集成到各种检测器中,而且得益于PLUS组件的鲁棒性,在多尺度检测方面表现出色。通过分层策略、加权标准、频率过滤等手段,作者的高质量检测流程始终能够显著提升性能,即使在主要关注点并非小目标的数据集中也是如此,从而展现了高质量流程带来的持续且显著的性能提升。

picture.image

仿真实验。标签分配在模型训练之前进行,其目的是从大量原始样本中选取高质量的正面和负面样本。这一分配结果对后续的模型训练过程具有显著影响。作者认为单一标准标签分配导致小尺寸真实样本训练样本不足,这是小目标检测性能差的一个重要因素。为了验证这一假设,作者设计了一个标签分配的仿真过程,强调了当前主流检测器中小目标训练不足的问题,并展示了作者提出的多元标准标签分配(MCLA)方法的改进效果。

目前,大多数检测器[27]、[54]、[59]、[62]-[66]通常采用MaxIoU策略进行标签分配。为了保持通用性,作者选择了最常见的一阶段MaxIoU和两阶段MaxIoU,分别遵循RetinaNet[14]和Faster RCNN[13]的设计。此外,作者在模拟分配中包含MCLA,以便与其他方案进行比较。模拟实验的细节如下。首先,作者遵循原始的 Anchor 点生成方法,在五个预定义的特征层上获得初始框。其次,作者在

图像上随机生成2,000个真实框,其位置、大小和宽高比均匀分布。请注意,真实框的最大维度不超过64像素。第三,作者使用三种策略分配正负标签:MCLA、MaxIoU(一阶段)和MaxIoU(两阶段)。最后,在完成分配后,作者按尺寸比例统计并计算正样本数量。

图4展示了模拟实验的结果,它说明了在不同尺度上,三种不同的标签分配方案分配给正样本的百分比。作者可以直观地观察到,典型的基于MaxIoU的方法完全忽略了极小和相对较小的物体,而作者的MCLA方法将这些物体分配了7.4%的正标签。对于一般较小的物体,MCLA分配了26.7%的正样本,这比单阶段和双阶段的基于MaxIoU的方法分别高出了5.2%和7.2%。统计结果清晰地表明了基于IoU的标签分配对小物体的局限性。相反,作者提出的MCLA方法以更合理的方式分配正样本。特别是,它非常关注极小和相对较小的物体,并将少量正样本分配给它们,从而提高了对这些小物体的检测能力。

E. 可视化

SODA-D数据集的可视化结果。作者在SODA-D数据集上展示了多个可视化结果,并与 Baseline 方法,即Faster RCNN [13]进行了比较。通过图5中的可视化结果,PLUSNet在小型目标检测方面的巨大潜力变得更加直观。

picture.image

对于尺寸小且特征有限的目标,例如模糊的交通信号灯、交通标志和车辆,PLUSNet在检测和精确分类方面表现出卓越的能力。这一观察结果突出了PLUSNet在自动驾驶领域检测远处小型物体方面的优势,使智能车辆能够做出及时决策。

AI-TOD数据集的可视化。作者还对AI-TOD数据集进行了可视化与 Baseline 方法(Faster RCNN)的比较,该数据集专注于遥感中的小目标。该数据集主要由卫星遥感图像构成,包含少量无人机视角图像。这些图像具有共同特征,包括尺寸较小且通常密集分布的目标。此外,俯视视角引入了各种角度,进一步增加了检测难度。

picture.image

如图6所示, Baseline 方法对一般尺寸的目标(如较大车辆或行人)能够实现准确检测。然而,随着目标尺寸减小, Baseline 方法难以有效检测小目标,导致漏检率较高。

相比之下,作者提出的PLUSNet在各种场景中始终展现出优异的检测性能。特别是,它在检测小型目标(如小型船只、小型车辆、风力涡轮机、储罐等)方面表现出色,并展现出对不同类别小目标的渐进式检测能力。显著的性能提升归因于创新的PLUS模块。这些令人信服的结果有力地强调了PLUSNet在遥感目标检测领域的优越性能和巨大潜力。

F. 局限性

作者必须承认,尽管利用频域信息极大地促进了小目标检测中检测Head的特征纯化和解耦,但傅里叶变换带来的计算成本是显著的。作者在SODA-D数据集上比较了 Baseline 方法、最先进方法和PLUSNet的性能。

picture.image

结果如表10所示。虽然PLUSNet的参数数量仅略有增加,但计算开销显著更高。作为将频域信息融入小目标检测的探索性工作,作者相信仍有巨大的优化空间。例如,可以探索替代的、更高效的频域变换方法,或者引导模型在训练过程中学习傅里叶变换后的特征模式,从而使用这些变换后的特征直接进行推理。

  1. 结论

在本文中,作者提出了PLUSNet,这是一个旨在解决小目标检测特定挑战的高质量流程。PLUSNet集成了三个即插即用模块:HFP、MCLA和FDHead。它们分别改进了检测流程的上游、中游和下游阶段的设计,从而实现了互利共赢的结果。PLUSNet在各种数据集上始终取得了显著的进步。这些结果强调了系统地增强整个检测流程的重要性。

值得注意的是,这是首次尝试从整体角度审视目标检测,并采用相对简单的组件进行改进。在如何确保流程中各组件之间的协同作用以及进一步优化其性能方面,仍有大量的探索空间。

参考

[1]. Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论