点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
特征利用效率低下 :现有方法在处理微小目标时,由于冗余特征处理和背景区域计算过多,导致特征利用效率低。
刚性 Query 分配问题 :传统DETR类方法使用固定数量的 Query ,无法适应不同密度场景,导致在密集场景中召回率低,在 Sparse 场景中浪费资源。
计算成本高 :浅层特征图分辨率高,全局注意力机制带来巨大的计算负担,限制了实时应用。
本文的核心创新是什么
密度焦点提取器(DeFE) :通过轻量级模块生成密度 Heatmap,聚焦前景区域并增强多尺度特征表示,减少背景区域的冗余计算。
Mask 窗口注意力Sparse化(MWAS) :利用 Mask 筛选关键窗口,将计算资源集中于信息量丰富的区域,降低计算复杂度。
渐进式自适应 Query 初始化(PAQI) :根据密度估计动态调整 Query 数量和位置,消除手工设计超参数,提升密集场景中的召回率。
结果相较于以前的方法有哪些提升
AI-TOD-V2 数据集 :Dome-DETR-L 达到 34.6% AP (+3.3 AP),在极小、微小、小型和中型目标检测上分别提升了 +3.7%、+4.6%、+1.4% 和 +0.7%。
VisDrone 数据集 :Dome-DETR-L 达到 39.0% AP (+2.5 AP),显著优于 D-FINE-L 和 DQ-DETR。
计算效率 :在性能提升的同时保持较低的计算复杂度,例如 Dome-DETR-L 在增加 5.9% 参数的情况下,AP 提升了 2.5 个百分点,GFLOPs 仅增加 31.2。
局限性总结
依赖浅层特征 :虽然 DeFE 和 MWAS 提高了效率,但浅层特征的分辨率仍然可能对极端微小目标的检测构成挑战。
动态 Query 调整的复杂性 :PAQI 虽然实现了自适应 Query 分配,但在极端密度变化的场景下可能仍需进一步优化。
跨数据集适应性 :尽管减少了手动调优的需求,但模型在不同数据集上的表现可能仍受制于特定场景的分布特性。
训练时间 :引入新模块可能导致训练时间增加,尤其是在大规模数据集上。
微目标检测在无人机监控、遥感及自主系统中发挥着关键作用,能够识别广阔场景中的小型目标。然而,现有方法因冗余特征处理和刚性 Query 分配而存在特征利用效率低下和计算成本高的问题。
为应对这些挑战,作者提出了Dome-DETR框架,即面向密度的特征 Query 操控高效微目标检测新框架。为减少特征冗余,作者引入轻量级密度聚焦提取器(DeFE)生成聚类紧凑的前景 Mask 。利用这些 Mask ,作者结合 Mask 窗口注意力Sparse化(MWAS)通过Sparse注意力将计算资源集中于最具信息量的区域。
此外,作者提出了渐进式自适应 Query 初始化(PAQI),自适应调节空间区域的 Query 密度以实现更好的 Query 分配。大量实验表明,Dome-DETR在AI-TOD-V2上达到
AP的当前最优性能,在VisDrone上提升
AP,同时保持低计算复杂度和紧凑的模型尺寸。
1 引言
目标检测是计算机视觉中的基础任务,支撑着自动驾驶、机器人导航等众多实际应用。近年来,卷积神经网络(CNN)推动了目标检测领域的显著进步[5, 7, 8, 14, 17, 25, 27, 28, 30, 35]。与此同时,检测Transformer(DETR)通过利用Transformer架构实现了端到端检测,革新了该领域[3]。后续变种包括可变形DETR[50]、DINO-DETR[44]和D-FINE[24]等[4, 10, 16, 19, 48],进一步提升了性能和速度。
然而,这些进展主要针对通用目标检测,对于检测微小物体,尤其是在无人机或卫星的航空图像中,未能解决关键挑战。
微目标检测,旨在定位和分类仅占据少量像素的目标,在计算机视觉中仍然是一个特别具有挑战性的问题。它在遥感、无人机监控和自动驾驶等应用中至关重要。主要挑战源于微目标脆弱且Sparse的特征表示。这些目标严重依赖Low-Level空间细节,而这些细节往往在特征层次结构的深层丢失。保持高分辨率特征图有助于保留此类信息,但代价是增加了计算复杂度和内存消耗。可变形DETR [50] 通过Sparse可变形注意力机制减轻了部分负担,但由于其宽多尺度注意力机制,仍然存在高推理延迟的问题。RT-DETR [48] 通过解耦同尺度与跨尺度交互来提高推理速度,但严重依赖深层低分辨率特征,导致对小尺度目标的性能下降。这些问题凸显了迫切需要能够在细粒度特征保留与计算效率之间取得平衡的检测框架。
在有效的特征表示之外, Query 分配为微小目标检测引入了另一个 Bottleneck 。航空图像通常表现出高实例密度和复杂的物体分布[37, 49]。这种变异性使得在目标检测框架中分配 Query 变得复杂。现有的DETR类方法[3, 13, 16, 44, 48, 50]使用固定数量的 Query (DETR中
,Deformable-DETR中
),这限制了其对物体数量变化的适应性。虽然简化了实现,但在密集场景中降低了召回率,在Sparse场景中浪费了资源。例如,航空数据集如AI-TOD-V2[37]可能包含超过1,500个微小物体的图像——远超传统DETR变体的 Query 容量。
为解决这一问题,DDQ-DETR[46]增加了 Query 密度(使用
),并应用类不可知的NMS结合手动设置的IoU阈值来过滤冗余预测。然而,其固定的 Query 数量和固定的NMS阈值在密集场景中导致低召回率,且对实例密度的变化不敏感。与此同时,DQ-DETR[11]通过分类计数模块引入动态 Query 调整,该模块估计分类数量用于 Query 分配。尽管前景广阔,但其计数头依赖于跨不同数据集手动调整的分类超参数,而将密度预测与特征增强模块集成会导致巨大的计算开销。这些挑战凸显了需要一种自适应 Query 机制的需求,该机制能动态使 Query 密度与实例分布相匹配,同时消除手动调优并保持效率。为此,微小目标检测仍因小物体特征的脆弱性和固定 Query 机制处理多样化实例密度的低效性而具有挑战性。
本文介绍了Dome-DETR,一种新型的端到端目标检测框架,通过极少的额外计算提升了小目标和微小目标的检测性能。首先,在卫星和无人机图像以及自然场景中,前景仅占图像帧的一小部分,如图2所示。这导致背景区域进行了过多的计算,而背景区域包含的目标检测信息远不如前景区域。上述观察表明,通过更关注前景区域可以加速检测过程。此外,从CNN Backbone 网络提取的浅层特征图富含空间密度信息,这一点非常直观。
为了利用这一动机,作者提出了一种轻量级的(A)密度焦点提取器(DeFE),该提取器能够生成与真实标注高度对齐的密度响应 Heatmap 。这些 Heatmap 可以同时增强编码器中的多尺度特征,并促进解码器中的渐进式 Query 初始化。其次,虽然深层特征能够捕捉场景级语义信息,但浅层特征中包含的实例级形态细节对于小目标的精确检测至关重要。然而,它们的分辨率较高,在注意力机制中会带来巨大的计算成本。
为了解决这个问题,作者利用(A)的密度响应 Heatmap 来屏蔽非关键区域,使(B) Mask 窗口注意力Sparse化(MWAS)仅关注重要窗口。最后,传统的DETR的固定 Query 机制难以应对航拍图像中典型的极端目标数量变化。因此,作者引入了(C)渐进式自适应 Query 初始化(PAQI),该机制通过解码密度响应生成动态边界框抑制的阈值来自适应分配 Query 。这消除了先前方法中的手工设计超参数,同时提升了密集场景中的召回率。此外,作者对现有实时DETR架构中的计算密集型组件进行了简化,在速度和准确性之间取得了更好的平衡。
在AI-TOD-V2 [37]数据集上的实验结果表明,作者的Dome-DETR在微小目标检测方面达到了最先进的性能,同时在准确性和效率上均超越了现有模型。具体而言,作者的Dome-DETR-M和Dome-DETR-L模型在AI-TOD-V2测试集上分别达到了34.0% (+3.2 AP)和34.6% (+3.3 AP),而计算成本仅为252.6和358.7 GFLOPs。作者在VisDrone [49]验证集上也取得了优异的结果,Dome-DETR-L达到了39.0% (+2.5 AP)。通过有效解决特征表示和 Query 操作中的关键挑战,Dome-DETR在基于DETR的架构的微小目标检测方面实现了显著进步,为该领域未来的研究铺平了道路。
总之,作者的主要贡献如下:
- • 作者提出了Dome-DETR,一种基于DETR的端到端微小目标检测新框架,通过精细调整的密度图高效提升特征利用和 Query 初始化,从而提高准确性和效率。
- • 作者引入了密度焦点提取器(DeFE)和 Mask 窗口注意力Sparse化(MWAS),以将计算集中于信息丰富的区域,从而提高效率和检测精度。
- • 作者提出了渐进式自适应 Query 初始化(PAQI)方法,以克服刚性 Query 分配的局限性,该方法根据密度估计自适应地调整目标 Query 的数量和位置。
- • 作者在AI-TODV2和VisDrone-DET-2019数据集上取得了最先进的性能。具体而言,DomeDETR-L在AI-TOD-V2测试集上实现了34.6%的AP,在VisDrone验证集上实现了39.0%的AP,同时保持了较低的计算成本,超越了所有现有的最先进模型。
2 相关工作
2.1 小型/微型目标检测
微小目标检测由于像素信息有限且分布复杂,面临着重大挑战。传统的基于CNN的检测器,如Faster R-CNN [7, 28]和FCOS [32],由于特征表示不足以及缺乏长距离依赖建模,难以处理小目标。早期的解决方案集中于数据增强(例如, Copy-Paste 策略[12])和专用损失函数[36, 38-40],这些方法重新定义了IoU(IoU)以考虑目标的绝对和相对尺寸。
基于transformer的模型,如DETR变体[3, 4, 13, 16, 24, 44, 48, 50],通过消除手工设计的组件(例如,NMS)并利用自注意力机制来缓解这些问题。DQ-DETR [11]引入了动态 Query 选择,利用密度图根据实例密度调整 Query 数量和位置。然而,这些方法严重依赖于手工设计的边界框表示或精细调整的超参数,使得优化变得具有挑战性。
2.2 实时 / 端到端目标检测器
YOLO系列通过架构、数据增强和训练技术的先进改进引领了实时目标检测领域[27, 35]。尽管高效,YOLO依赖非极大值抑制(NMS),引入了延迟并在速度和精度之间造成权衡。DETR[3]移除了手工设计的组件如NMS和 Anchor 框,但面临高计算成本[13, 16, 44, 50],限制了实时应用。
近期模型RT-DETR[48]、LW-DETR[4]和D-FINE[24]针对实时应用优化了DETR。与此同时,YOLOv10[34]消除了NMS,标志着向完全端到端检测的转变。然而,由于对浅层特征的关注不足,这些方法在微小目标检测上表现不佳。
2.3 针对无人机的检测器
近年来,针对无人机(UAV)的特定检测器在航空图像中应对了微小目标检测的挑战。QueryDet [41] 和 ClusDet [42] 采用了由粗到细的流程以实现更好的定位,但存在高计算成本的问题。近期的UAV-OD方法 [18, 20, 29, 30] 致力于轻量化模型或优化处理流程以实现实际应用。UAV-DETR [45] 集成了多尺度空间特征与频率感知处理,通过频率聚焦下采样和语义校准来增强微小目标检测。然而,这些方法仅关注小目标,忽略了极端微小目标的检测,后者在基于UAV的视觉应用中仍是一个重要挑战。
3 方法
3.1 概述
如图3所示,作者的研究提出了Dome-DETR,该模型基于D-FINE [24]的架构构建。作者通过三个组件增强了该模型,即 (A) 用于密度预测的密度焦点提取器 (DeFE)、(B) 用于高效浅层特征增强的 Mask 窗口注意力Sparse化 (MWAs) 以及 (C) 用于动态 Query 操作的渐进式自适应 Query 初始化 (PAQI)。
3.2 密度焦点提取器
在DETRs中, Backbone 网络通过多尺度特征提取生成空间通道编码的特征图。该映射通过端到端训练建立,网络学习将基础视觉特征转换为High-Level语义表示。因此,包含目标的前景区域表现出独特的激活模式,而背景区域保持低响应特征。
此外,已有研究表明,浅层特征能够保留微小物体的关键空间细节[22, 33],但它们难以利用,原因如下:
-
- 高分辨率特征图会导致过高的计算成本
-
- 冗余的背景区域主导空间注意力,削弱了关键的实例级信息。
为此,作者提出了密度聚焦提取器(DeFE)——一个轻量级模块,它明确学习实例密度分布以指导高效的特征增强和 Query 分配。
如图3(A)所示,DeFE通过一个优化的级联网络处理最浅层的 Backbone 特征图
,该网络采用具有不同膨胀率(1,2,3)的深度可分离卷积,以捕获多尺度上下文信息的同时保持效率。随后,一种轻量级注意力机制通过通道特征重新校准来突出显著区域。处理后的特征通过一个包含
卷积和双线性上采样的密度预测头,生成归一化的密度 Heatmap Dpred e RHwx1。DeFE可以表示为:
表示使用不同膨胀率的级联深度可分离卷积来提取空间丰富的特征。
是通过全局平均池化(GAP)从特征图池化得到的紧凑全局表示。
表示一个卷积层,该层将特征投影到单通道密度图,随后通过sigmoid函数和双线性上采样来匹配原始分辨率和数据分布。
真实密度图
是通过在每个物体的中心坐标处卷积高斯核生成的,核的大小与边界框的维度成比例。这种设计将实例位置和相对尺度编码为连续的监督信号。为了训练DeFE,作者提出了密度召回Focal Loss(DRFL),该损失优先考虑在关键区域进行精确的密度估计:
𝟙
其中
基于真实密度强度自适应地加权位置,而
惩罚高密度区域的低估。这种公式确保了在Sparse和密集区域之间进行平衡学习,同时防止拥挤场景中的漏检。在保持优异的密度估计精度的同时,整个模块仅增加了
参数,这是由于优化了深度卷积和注意力机制。
3.3 Masked Window AttentionSparse化
浅层特征的分辨率对于捕捉微小物体的细粒度细节至关重要,但它也引入了巨大的计算负担。使用全局注意力机制处理这些密集特征图会导致过度的内存消耗和延迟。为了缓解这一问题,作者提出了 Mask 窗口注意力Sparse化(MwAS),该技术选择性地将计算资源集中于关键前景区域,同时丢弃冗余的后景信息。如图3(B)所示,MwAS包含两个关键阶段:前景 Token 剪枝和轴置换编码器(APE)。
首先,通过使用密度焦点提取器(DeFE)预测的密度图,作者生成一个二值 Mask ,其中保留高密度区域,修剪低密度背景区域。这种机制显著减少了参与注意力计算的token数量,同时保留了关键的物体细节。
基于密度的 Mask 生成。给定从 Backbone 网络提取的浅层特征图
和DeFE生成的密度 Heatmap
,其中每个元素
表示在空间位置
处的估计目标密度。通过使用自适应阈值
对
进行阈值处理,生成二值 Mask
。
其中
由激活至少一个前景区域所需的最小调整步数
确定:
𝟙
其中
表示初始阈值,
是减量步长。这种公式确保
是满足
的最高阈值,在保留有意义的目标区域的同时抑制背景冗余。
窗口划分与背景 Token 剪枝。浅层 Backbone 特征图
被划分为大小为
的非重叠窗口,以确保结构化处理。为了确定哪些窗口包含有效的前景信息,通过在二值 Mask
上应用最大池化来计算窗口级 Mask 。
其中
表示第
个窗口内的像素集合。若
,则该窗口被保留以进行进一步处理。随后,选中的k个窗口被收集为
。
其次,在每一个窗口内高效计算注意力,确保目标细节得到增强,同时最小化冗余的全局交互。为了增强跨窗口通信,作者引入了轴置换注意力,它不仅支持区域注意力,还能实现高置信度区域之间的长距离依赖。
特征增强的轴置换编码器。对于每个
,分别进行相对位置编码和全局位置编码。轴置换编码器(APE)通过处理局部窗口进行顺序自注意力操作,同时引入空间置换机制来细化特征表示,如图4所示。给定位置编码的窗口特征
,其中
是中间索引,第一个自注意力计算如下:
其中MSA(-)表示多头自注意力机制,用于捕捉窗口内依赖关系。为了建立长距离空间交互,作者对特征轴进行置换,并应用第二次自注意力机制:
Permute
对空间维度进行重排以在窗口间传播信息。然后,细化后的特征通过带有残差连接的 FFN (FFN):
该编码方案有效捕获了局部和全局依赖关系,同时保持了计算效率,使MWAS能够将资源集中于高置信度目标区域。
3.4 渐进式自适应 Query 初始化
现有的DETR变体通常采用固定数量的 Query (例如300个),这些 Query 基于图像中的token分数进行选择。然而,这种静态分配无法适应不同的目标密度,导致在Sparse区域计算效率低下,而在密集区域 Query 数量不足。先前的工作尝试通过引入分类 Query 数量[11]或密集 Query [46]来解决这个问题,但它们无法动态调整以适应目标分布,需要额外的超参数调整,并增加了跨数据集的适应复杂度。
作者提出了渐进式自适应 Query 初始化(PAQI)方法,该方法根据场景复杂度动态调整 Query 密度,同时消除了手动阈值调节。Dome-DETR基于以下观察:编码器输出的Top-K Query 在Sparse区域往往冗余,而在密集区域则不足。
此外,许多 Query 在无目标的背景区域初始化,对检测无益。为解决这些低效问题,PAQI采用渐进式 Query 初始化策略,优先处理密度图中的高响应区域,同时过滤低响应区域。该策略消除了数据集特定的超参数调节,并实现了与实际场景分布相匹配的自适应 Query 生成。
基于分类分数的候选 Query 选择。如算法1所述,PAQI首先根据图像的空间分布生成一组 Anchor 点。编码后的特征记忆通过分类头进行处理以获得目标性分数,这些分数表示每个 Anchor 点包含目标的概率。为了平衡密集区域中的冗余减少和充分覆盖,作者基于这些分数选择Top-
特征作为候选 Query 。
Query 分割与密度感知采样。为了增强在不同目标密度下的鲁棒性,选定的 Query 被分为两个子集:(1)前
个 Query 的核心集,作为强检测 Baseline ;(2)包含剩余
个 Query 的灵活集,用于进一步优化。作者采用DeFE的高响应 Mask 进行密度感知过滤,丢弃低响应 Query 。这确保了Sparse区域不会被过度采样,而密集区域则获得适当的 Query 分配。
边界框生成与动态NMS。为了根据密度进一步调节 Query 数量,精细化 Query 通过回归头生成边界框预测,随后进行基于密度的动态非极大值抑制(NMS)。
传统非极大值抑制算法使用固定的IoU阈值,这可能导致在密集目标区域出现过度抑制,或在Sparse区域产生过多 Anchor 框。为缓解这一问题,作者基于最终分类分数Sfinal动态调整IoU阈值:
其中
表示最终 Mask 过滤后的得分,IoU阈值根据目标密度进行自适应调整。这可以防止在密集区域出现过度抑制,同时在Sparse区域减少 Query 数量。具体而言,在密集区域应用更高的IoU阈值以减轻过度抑制,而在Sparse区域执行更严格的阈值以优化计算效率,从而提升检测性能和效率。
4 实验
4.1 数据集
作者在两个航空数据集上进行了实验:AI-TOD-V2和VisDrone,这两个数据集主要包含微型和小型目标。
AI-TOD-V2. AI-TOD-V2 [38] 包含28036张航空图像,共计752745个标注目标实例。该数据集分为三个子集:11214张用于训练,2804张用于验证,14018张用于测试。该数据集的特点是目标尺寸极小,平均目标尺寸仅为12.7像素。值得注意的是,86%的目标小于16像素,即使最大的目标也不超过64像素。此外,每张图像中的目标数量差异显著,范围从1到2667,平均每张图像24.64个目标,标准差为63.94。
VisDrone. VisDrone [49] 包含14,018张无人机拍摄图像,其中训练集有6,471张图像,验证集有548张图像,测试集有3,190张图像。该数据集涵盖10个类别。它包含多种类型的物体,包括行人、车辆和自行车,并且物体密度从Sparse到高度拥挤的场景都有变化。每张图像的平均物体数量为40.7,标准差为46.41。
4.2 评估指标
为了评估Dome-DETR的性能,作者使用平均精度(AP)指标,并设定最大检测目标数量为1,500个。具体而言,AP的计算方式是在IoU阈值范围从0.50到0.95之间,以0.05为步长,计算平均AP值。
此外,作者在AI-TOD-V2[21, 47]中采用针对不同尺寸目标的AP评估,包括
、
、
和
,分别对应极小、微小、小型和中型目标的评估,如[37]中所述。
4.3 实现细节
基于D-FINE结构[24],作者采用1层Transformer编码器、可变形Transformer解码器以及HGNetv2作为作者的CNN主干网络[48]。Dome-DETR在
4090 GPU上进行训练。遵循D-FINE[24],作者应用相同的随机裁剪和缩放增强策略。
此外,作者应用了mixup[43]和Mosaic[1]技术进行VisDrone训练,其中Mosaic的概率设置为1,mixup的概率设置为0.2。
作者提供了三种模型版本:小型、中型和大型,其参数规模和计算复杂度逐渐增加。不同DomeDETR模型的详细超参数配置可以在附录D中找到。
4.4 主要结果
AI-TOD-V2 表2展示了作者在AI-TOD-V2 [38]测试集上的主要结果。作者将作者的Dome-DETR与强 Baseline 进行了性能比较,包括非端到端目标检测器和端到端目标检测器。除YOLOv12外,所有非端到端目标检测器均使用ResNet50与特征金字塔网络(FPN)[9]。
作者在AI-TOD-V2上重新实现了系列DETR类模型,除DETR外,所有DETR类方法均使用4尺度特征图,这些特征图从 Backbone 网络的第1、2、3和4阶段提取。结果汇总于表1,作者提出的Dome-DETR-M和Dome-DETR-L与其他最先进方法(包括非端到端目标检测器和端到端目标检测器)相比,分别达到了34.0和34.6 AP的最佳结果。
此外,Dome-DETR-L在
、
、
和
方面分别超越了 Baseline
、
、
和
。性能提升在
和
上更为显著,作者的Dome-DETR在AI-TOD-V2上优于先进的DETR类模型系列。关于LRP评估结果,参见附录A。
VisDrone数据集。作者还在VisDrone数据集[49]上评估了作者的Dome-DETR。表2展示了在验证集上的结果,比较了Dome-DETR与最先进的基于CNN的检测器和DETR类检测器。Dome-DETR-L达到了最佳的AP(39.0%),比D-FINE-L高2.5%的AP。类似地,Dome-DETR-M优于D-FINE-M 2.5%的AP,而Dome-DETR-S超过D-FINE-S 2.3%的AP。与DQ-DETR相比,Dome-DETR-L分别提高了AP、AP50和AP75 3.8%、6.2%和5.2%。
4.5 效率分析
尽管其功能得到增强,Dome-DETR依然保持了具有竞争力的效率。如表1所示,Dome-DETR在保持具有竞争力的效率的同时,实现了更高的准确率。与DFINE-L(34M参数,327.5 GFLOPs)相比,Dome-DETR-L(平均36M参数,358.7 GFLOPs)在仅增加5.9%参数的情况下,AP提升了2.5个百分点,且平均GFLOPs仅高出31.2。
与此同时,Dome-DETR-M和Dome-DETR-S在保持效率的同时也实现了更好的性能,证明了作者密度引导Sparse化方法的有效性。更多分析请参见附录B。
4.6 消融实验
密度焦点提取器(DeFE)、 Mask 窗口注意力Sparse化(MWAS)和渐进自适应 Query 初始化(PAQI)是本文提出的新贡献。作者进行了一系列消融实验以验证本文提出的每个组件的有效性,并选择D-FINE-S作为对比的DETR类 Baseline 。
主要消融实验。表3展示了作者的贡献在AI-TOD-V2上的性能表现。引入每个提出的组件都显著提升了性能。具体而言,单独添加DeFE将AP从30.1提升至31.2,而整合PAQI进一步将其提升至32.1。结合所有三个组件的完整模型达到了最佳性能,其AP达到33.3。这表明DeFE、MWAS和PAQI在提升微小目标检测能力方面具有互补优势。
超参数敏感性分析。表4突出了关键超参数对Dome-DETR-S性能的影响。对于
和
,最佳AP(33.3)在(0.4, 0.9)处达到,适度的负阈值防止过多抑制真阳性,而更严格的正阈值确保高质量检测。将
降低至0.7会因正例分配的模糊性略微降低AP,而将
提高至0.6会因过度过滤难例而略微降低AP。
对于 Query 初始化阈值
,0.05提供了最佳平衡,达到AP 32.6。将其提高至0.1会因过度剪枝略微降低AP(32.9),而将其降低至0.03会因引入不必要的背景噪声显著降低AP(32.3)。对于窗口大小
,
提供了最佳权衡。较小的
能增强极小目标但降低整体AP,而较大的
有利于中等尺寸目标但牺牲了小目标性能。这表明中等窗口分辨率能在细节和全局上下文之间取得平衡。
4.7 可视化分析
图5展示了Dome-DETR与其他模型在AI-TOD-V2测试集的不同检测场景下的对比分析。通过引入面向密度的特征 Query 操作,Dome-DETR在密集和Sparse场景中均实现了性能提升。附录C提供了中间处理步骤的额外可视化结果。
5 结论
本文提出了Dome-DETR,一个专为微小目标检测设计的端到端目标检测框架。受小目标检测独特挑战的启发,包括特征利用效率低下和 Query 分配不平衡等问题,作者引入了密度焦点提取器(DeFE)、 Mask 窗口注意力Sparse化(MwAS)和渐进式自适应 Query 初始化(PAQI)来有效解决这些问题,从而在AI-TOD-V2和VisDrone数据集上实现了精度和效率方面的当前最佳结果。
未来工作可探索更先进的架构或边界框表示,以进一步提升DETR类模型在小目标检测方面的性能。作者希望Dome-DETR能激励该领域的持续进步——在广阔的天穹之下展现新的可能性。
参考
[1]. Dome-DETR: DETR with Density-Oriented Feature-Query Manipulation for Efficient Tiny Object Detection
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)