点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
遥感图像中微小目标检测困难 :由于遥感图像中微小目标具有像素少、结构模糊、背景复杂、分布密集等特点,主流检测器在该场景下表现不佳。
特征表达不充分 :现有检测模型在处理微小目标时存在特征显著性不足、空间上下文信息利用不充分、特征完整性受损等问题。
信息衰减与语义差距 :深度网络在特征传递和融合过程中存在信息损失,影响了对微小目标的检测性能。
本文的核心创新是什么
提出RS-TinyNet框架 :专为遥感图像中微小目标检测设计的多阶段特征融合与增强模型。
微小目标显著性建模 :设计 多维协同注意力模块(MDCA) ,融合通道、空间、局部和全局信息,提升微小目标的显著性。
特征完整性重建机制 :
- • 辅助可逆分支(ARB) :缓解深度网络中的信息衰减问题,增强特征梯度流的完整性。
- • 渐进式融合检测Head(PFDH) :通过逐层融合不同层级特征,减少语义差距并保留结构细节。
分阶段特征增强策略 :在Backbone、Neck和Head中逐步融合和增强特征,提升整体检测能力。
结果相较于以前的方法有哪些提升
在AI-TOD数据集上的性能提升 :
- • 平均精度(AP)提升4.0%;
- • AP75提升6.5%;
- • 在APvt、APt、APs、APm等尺度指标上分别提升2.1%、4.2%、3.7%和1.8%。
在DIOR数据集上的泛化能力验证 :
- • mAP50达到74.3%,优于现有SOTA方法;
- • 在20个类别中有11个类别达到SOTA性能。
模型鲁棒性增强 :通过多阶段特征增强策略,RS-TinyNet在多种复杂遥感场景中均表现出色。
局限性总结
计算开销未明确优化 :虽然性能提升显著,但论文中未详细讨论模型在实时性或计算效率方面的表现,可能限制其在资源受限场景下的应用。
仅在遥感数据集上验证 :模型设计虽针对遥感图像,但未在其他领域(如自然图像)进行泛化能力测试。
模块组合复杂度较高 :MDCA、ARB、PFDH三个模块协同工作虽然提升了性能,但也增加了模型结构的复杂度,可能影响部署和维护成本。
导读
在遥感(RS)图像中检测微小物体一直是一项长期存在的挑战,因为它们具有极其有限的空间信息、微弱的特征表示,并且在复杂背景下分布密集。尽管投入了大量研究,主流检测器在这种情况下仍然表现不佳。为了弥补这一差距,作者提出了RS-TinyNet,这是一种专为不同RS场景中的微小目标检测而设计的多阶段特征融合与增强模型。RS-TinyNet包含两项创新设计:微小物体显著性建模和特征完整性重建。基于这些原则,作者设计了三个逐步特征增强模块。其中,多维协同注意力(MDCA)模块采用多维注意力机制来增强微小物体的显著性。此外,作者还引入了辅助可逆分支(ARB)和渐进式融合检测Head(PFDH)模块,以保持信息流并融合多级特征,以弥合语义差距并保留结构细节。在公开RS数据集AITOD上的综合实验表明,作者的RS-TinyNet在平均精度(AP)上比现有最先进(SOTA)检测器提高了4.0%,在AP75上提高了6.5%。在DIOR基准数据集上的评估进一步验证了其在多种RS场景中的优越检测性能。这些结果表明,所提出的多阶段特征融合策略为复杂RS环境中的微小目标检测提供了一种有效且实用的解决方案。
- 引言
旨在精确检测尺寸微小且信噪比极低的物体[1], [2]。自因其具有广泛的实际应用,包括可疑物体监控、军事侦察、智能交通和精准农业[3], [4],已成为遥感领域的研究重点。如图1所示,微小物体在遥感图像中广泛存在,这些图像主要由卫星拍摄,具有独特的成像条件和广泛的地理覆盖范围。与自然场景图像中的小物体相比,遥感数据中的小物体往往更模糊、更密集、像素更少,且缺乏清晰的结构细节。尽管深度学习在通用目标检测方面取得了进展[5]-[8],但遥感图像中微小物体的独特特征仍然对当前流行模型的泛化能力和精度构成挑战。
目前大多数检测方法都是针对自然感知和遥感影像中正常尺寸物体设计的。例如SSD模型[9]、YOLO系列[10]-[12]、R-CNN[13]、Fast R-CNN[14]以及遥感特定模型如
[15]、Popeye[8]等,这些模型在通用目标检测方面取得了良好性能。然而主流检测器在定位和分类小于
像素的微小物体时面临困难。值得注意的是,已有大量研究集中于微小目标检测。基于超分辨率的模型[16]-[18]将超分辨率模块集成到目标检测流程中,增强了微小物体的视觉细节,但这些模块显著增加了计算成本,严重降低了检测器的适用性。此外,Chen等人[19]引入了跨阶段多头注意力模块以提升特征表示质量,Xu等人[20]优化了标签分配过程以缓解训练阶段微小物体正负样本分配不准确的问题。然而这些研究工作忽略了长距离和空间上下文信息的优化以改进微小物体的特征表示。此外,它们往往以牺牲特征完整性和区分能力为代价来换取效率。因此,信息特征利用不足持续制约着微小目标检测器的检测精度。
为解决上述问题并更好地捕捉微小物体的特征,本文提出了一种新的遥感微小目标检测框架,称为RS-TinyNet,该框架通过多阶段特征融合与增强策略显著提高了检测精度。所提出模型的设计基于两个核心原则:提高微小物体的显著性以及保持特征表示的完整性。具体而言,设计了一种多维协同注意力(MDCA)机制,通过双分支协同设计建立通道空间维度与全局-局部特征之间的动态连接,实现高效的特征精炼。此外,为应对遥感微小目标检测中特征退化的挑战,作者引入了辅助可逆分支(ARB)和渐进融合检测Head(PFDH),以在网络中保持特征完整性[21], [22]。ARB模块缓解了深度网络中的信息衰减问题,增强了特征梯度流的完整性和可靠性[21]。同时,PFDH逐步融合不同层次的特征,以最小化语义差距并减少信息损失[22]。综合来看,这些创新显著提高了模型在复杂遥感场景下检测微小物体的能力,通过增强注意力引导的特征精炼和保持语义信息的完整性。
在RS tiny object dataset AI-TOD上的大量实验表明,RS-TinyNet不仅在检测精度方面显著优于现有主流算法,还为微小目标检测领域提供了新的视角。具体而言,RS-TinyNet在当前最优(SOTA)检测器上实现了显著的性能提升,整体AP提高了4.0%,同时在
、
、
和
上分别提升了2.1%、4.2%、3.7%和1.8%。这些改进突显了模型增强特征表示和保留完整性的能力,尤其对于像素数量有限的极微小目标。所有尺度上的一致性提升进一步验证了RS-TinyNet在不同遥感场景中的鲁棒性。
本文的主要贡献如下。
- • 作者提出了RS-TinyNet,一个专为RS影像中微小目标检测设计的有效框架。RS-TinyNet的设计遵循两个新引入的原则:微小目标显著性建模和特征完整性重建。这些原则推动了一种多阶段特征增强策略,该策略提高了模型提取判别性表示的能力,同时保留了关键的结构信息,从而显著提升了检测精度。
- • 作者提出了一种分阶段的分级特征融合与增强策略,以联合提升微小物体的显著性并保持网络中的特征完整性。基于微小物体显著性建模原理,作者设计了一个MDCA模块,该模块协同整合通道和空间信息,以及全局和局部上下文,从而使网络能够高效提取微小物体的判别性特征。
此外,为了保持特征完整性,引入了ARB和PFDH模块,以减轻在特征的不同层传输和融合过程中信息损失,从而显著提高微小目标检测性能。
- • 据作者所知,RS-TinyNet是首个在多个RS微小目标检测基准上实现显著性能提升的模型。与SOTA模型相比,在AI-TOD数据集上,其AP指标提升了超过4.0%。此外,RS-TinyNet在其他RS数据集(如DIOR)上表现良好,这突显了其在多样化RS场景中的鲁棒性和实用价值。
- 相关工作
A. 常规目标检测
目标检测是计算机视觉中的一个基本任务,旨在识别和定位图像中所有物体的实例。近年来,自然场景中的通用目标检测算法取得了显著进展,涌现出多种经典方法。R-CNN系列[13]通过提取候选区域进行特征分类,具有高度准确性但速度较慢。基于此,Fast R-CNN[14]和Faster R-CNN[5]通过实现ROI Pooling和区域 Proposal 网络(RPN)显著提高了检测效率和准确性。YOLO系列[10]-[12], [23]-[26]将检测问题转化为回归问题。从YOLOv1[10]到YOLOv12[26],模型结构和训练策略不断优化,以在实时性能和准确性之间取得平衡。SSD[9]通过在多尺度特征图上进行预测,提高了模型对不同大小物体的适应性。后续衍生方法如DSSD[27]、RefineDet[28]等,通过添加解码路径、特征重采样等机制增强了特征表达能力。在COCO[29]、PASCALVOC[30]等自然图像数据集上,这些方法通常表现出优异的性能,并已成为目标检测领域的主流框架。
在遥感(RS)目标检测中,研究行人针对其特点如变视角、大覆盖范围和密集目标等提出了特定的检测方法。
[15] 引入了一种对齐卷积(AlignConv)来自适应地对齐特征与旋转 Anchor 点,并采用了一种旋转敏感检测Head以减少分类和定位之间的不一致性。该方法显著提高了对航空影像中密集分布和任意方向目标的检测精度。Chalavadi等人[31]针对航空影像提出了一种多尺度目标检测网络(mSODANet),该网络采用分层扩张卷积来有效捕获多尺度上下文信息。该网络集成了双向特征聚合模块(BFAM)以融合密集的多尺度上下文信息,从而增强对尺寸变化目标的检测,并提高复杂航空场景中小型Sparse目标的定位精度。Gao等人[32]提出了一种用于RS目标检测的无注意力全局多尺度融合网络,该网络消除了传统的注意力模块,而是采用全局上下文建模策略来融合多尺度特征,以克服复杂背景的挑战。该设计降低了计算开销并保持了高检测精度,从而能够高效检测高分辨率RS影像中的密集分布小型目标。Zhang等人[8]提出了Popeye用于遥感影像中的多源船舶检测。通过融合多源图像表示并引入语言引导信息,Popeye有效提高了船舶检测模型在复杂背景和不同成像条件下的鲁棒性和泛化能力。尽管这些自然和遥感影像中的目标检测方法取得了显著成功,但它们主要针对正常尺寸目标设计,在有效检测微小目标方面存在困难。
B. 微型目标检测
为解决微小目标检测的难题,研究行人探索了多种改进策略,主要聚焦于超分辨率方法、优化训练机制和多尺度特征融合等方向。Rabbi等人[16]提出了一种端到端的微小目标检测框架,该框架集成了边缘增强的GAN与检测网络,其中超分辨率模块提升了微小目标的视觉细节,并提高了遥感图像的检测性能,但显著增加了计算复杂度。Chen等人[19]提出了一种基于退化重建增强的遥感微小船舶检测方法,该方法结合图像重建与跨阶段多注意力机制,有效提升了微小目标的特征质量和特征识别能力。Wang等人[33]提出了一种采用归一化Wasserstein距离损失的微小目标检测框架,为微小目标定位提供了更稳定且对尺度敏感的优化目标。Ge等人[2]提出了一种基于交叉注意力的特征融合增强网络
,通过细化深度特征的上采样结果来提高微小目标检测精度,同时设计了一种回归驱动的重新聚焦学习策略,以提升模型获取高质量微小目标检测帧的能力。MARNet[34]通过集成全局注意力机制来改进多尺度特征融合,该机制从深度特征图中捕获通道上下文,并将浅层特征的增强引导至微小目标区域以突出该区域的信息。多分支特征金字塔网络(MB-FPN)[35]提出了一种微小目标检测方法,该方法利用全局局部注意力模块,通过多尺度特征融合策略整合不同层级的语义信息,使用全局注意力捕获上下文关系,局部注意力增强微小目标区域的细节表示,显著提升了在复杂背景下准确识别微小目标的能力。
尽管已有诸多改进,现有的常规尺寸/微小目标检测器仍面临特征退化及微小目标空间上下文利用不足的问题。微小目标中缺乏区分信息凸显了保留特征完整性与增强空间感知表示方法的需求。为此,作者设计了RSTinyNet以明确解决这两个关键挑战。
- 方法论
本节介绍了所提出的RS-TinyNet框架。模型架构首先在第三节A中总结。随后,描述了RS-TinyNet中的三项主要改进:用于微小目标显著性建模的MDCA模块(第三节B)以及用于特征完整性重建的ARB和PFDH模块(第三节C)。
A. 概述
为了应对遥感小目标检测中模糊特征、像素不足和细节结构缺失的挑战,本文构建了一个多级特征融合检测框架,即RS-TinyNet。RSTinyNet的整体框架如图2上部所示。该整体结构基于YOLOv11[25],通过多维结构增强以实现更好的检测性能。RS-TinyNet的关键改进体现在三个方面。首先,MDCA模块融合通道、空间、局部和全局信息,以捕获小目标的显著特征。其次,提出了ARB模块来重建 FFN 的特征连接性,以及PFDH模块以分层逐步融合不同层级的特征,从而缓解特征传递和融合过程中的信息损失,并提高整体检测精度。同时,所提出的逐步特征融合与增强策略贯穿于网络的 Backbone 、 Neck 和检测Head。在每个阶段,采用互补机制逐步细化多级特征表示,增强显著线索,并保持信息完整性,从而在复杂的遥感条件下实现鲁棒的小目标检测。设计的逐步特征增强核心组件详细阐述如下。
B. 微小目标显著性建模
在遥感影像中,微小物体表现出模糊的结构和显著的尺度变化,这使得单一尺度或仅关注通道的注意力机制不足以进行判别性特征提取。尽管传统的注意力方法强调通道依赖性,但它们通常忽略精确的空间定位,这对于微小目标检测至关重要。为解决这一问题,作者设计了遥感微小物体网络RS-TinyNet的核心模块MDCA,旨在打破分离通道和空间建模的限制,通过双重协同结构实现多维特征的动态聚合,从而更有效地表示显著物体的线索,并提升检测性能。MDCA的详细结构如图2左下角所示,包含两个并行分支。
-
- 通道注意力分支:在该分支中,作者融合局部和全局上下文信息,分别使用局部平均池化和全局平均池化对输入特征图
提取特征,然后通过轻量级1D卷积建模通道间依赖关系。最后,将局部和全局特征进行 Reshape 和加权以实现融合。这种融合不同尺度的视觉特征有助于捕捉RS图像中微小物体与复杂背景之间的细微差异,从而深化对图像的理解。该过程可以用数学公式描述为
其中
和
分别表示局部和全局上下文特征向量,
是局部池化窗口的大小,
和
是池化窗口内的空间位置索引,
和
分别表示输入特征图的高度和宽度,
是Sigmoid激活函数,
和
分别表示局部和全局通道注意力,
是局部通道注意力权重,
表示融合通道注意力。
-
- 空间注意力分支:该分支专注于目标的空間分布信息,并在通道维度上融合平均池化和最大池化以进行空間注意力建模。通过从原始特征图提取通道维度的統計特征,它在空間维度上编码关键区域,然后实現空間层面的信息重新加权。与傳統的全局建模策略不同,空間注意力分支可以显著突出微小目标所在的位置区域,同时削弱背景干扰,同时保持計算成本可控,从而弥补通道注意力在空間結構感知上的不足。具体來說,空間注意力分支的構建可以寫作為
其中
和
分别表示通道维度的平均池化和最大池化特征,
是拼接的空间特征,
指的是空间注意力。
这两个分支通过并行共享输入和建模来协同工作,共同构建了一个通道-空间双向增强特征表示机制,该机制在区分遥感图像中的微小目标方面提供了改进的辅助功能。MDCA的整体输出与输入形状一致,并具有即插即用的灵活性,适用于所有尺度主干的特征增强,并显著提升了模型在复杂背景下定位微小目标的能力。随着MDCA的引入,网络不仅能够捕捉局部结构变化,还能考虑全局布局信息,有效缓解了多尺度目标检测中常见的特征遗漏和模糊表达问题。
C. 特征完整性重建
深度神经网络面临"信息 Bottleneck "问题,特征信息在传输和融合过程中会衰减。这可以正式表示为
其中
表示原始输入,
和
分别是浅层和深层特征变换函数,
表示互信息。这种衰减会导致特征损失和梯度偏差,对微小目标检测尤其有害,因为此时特征本就稀缺。为缓解这一问题,作者引入了两个互补模块。ARB模块专注于在整个特征提取过程中保留信息并稳定梯度,而PFDH模块则聚焦于减轻多尺度特征融合过程中因语义差异导致的信息损失。两者协同作用,增强了复杂遥感场景下微小目标的特征完整性和检测鲁棒性。这两个模块的详细设计如下。
-
- ARB模块:为缓解特征提取网络中的信息 Bottleneck 并保证每层梯度的可靠性,作者引入受可逆残差网络启发的ARB模块。可逆网络通过设计可逆残差块来避免中间信息的单向丢失,使得在反向传播过程中每层的输入特征能够被精确重建。这可以用以下公式表示:
逆
:
其中
和
表示可逆连通结构的子函数。然而,由于映射受限,完全可逆结构在浅层网络上的性能会下降,而过度扩展网络规模将带来巨大的计算开销,这不符合实时检测要求。
ARB的核心目标是在避免模型复杂度过度增加的同时,缓解特征迁移中的信息衰减问题。如图2上半部分所示,ARB采用辅助监督机制,通过分类损失和回归损失生成互补梯度,并通过加权融合将其与主干网络结合。这种设计使不同网络层级,特别是深层,能够获取超越特定尺度或局部区域的更全面的目标信息。此外,辅助分支通过少量卷积操作实现跨层特征重建,参数更少,并利用 Shortcut 保留浅层细节,有效补偿主网络深度处理过程中可能丢失的微小目标信息。与全可逆结构不同,这种设计放宽了主网络保留完整原始信息的要求,显著降低了计算开销,同时保持了检测性能。最终,在可逆连接提供的稳定梯度流和辅助分支的高效监督下, Backbone 网络能够在所有尺度上保持对全局特征的敏感性,从而有效缓解信息 Bottleneck 问题,提高RS微小目标检测的准确性和收敛速度。
-
- PFDH模块:虽然ARB致力于在特征提取过程中保留信息,但PFDH模块针对有效多尺度特征融合的挑战。传统金字塔网络在跨尺度融合特征时存在语义不一致问题,尤其通过信息冲突和细节损失损害了微小目标检测。如图2右下角所示,作者的PFDH模块通过逐步构建特征融合路径来解决这些限制,实现High-Level语义和Low-Level细节的逐层对齐,从而提高检测精度和稳定性。
PFDH的核心思想是融合仅发生在相邻层级之间,避免直接跨层连接,从而有效缓解不同层级之间的语义差距,并确保细节和上下文信息的连续融合。值得注意的是,在多层级特征的逐步融合过程中,逐元素求和并非有效方法,因为不同层级间某一位置的不同目标可能存在矛盾。因此,采用自适应空间特征融合来分配层级特定的空间权重,增强显著特征并缓解不同目标表示之间的矛盾。作者将融合层在空间位置
处
层级的输出定义为
其中
表示第
个特征层的输入,
表示融合的源特征图数量(通常为3)。通过逐层融合和自适应空间对齐,PFDH不仅有效保留了每一层的语义和空间特征,还减轻了由跨层直接融合引起的语义漂移和噪声干扰,显著提高了RS图像中多尺度目标的整体建模能力,尤其适用于检测RS图像中的远小、重叠和密集微小目标。
将ARB和PFDH模块的集成建立了一个全面的框架,用于在整个检测流程中保持特征完整性。ARB模块通过其辅助可逆架构保证稳定特征传播和梯度流,而PFDH模块通过渐进式特征融合实现精确的多尺度语义对齐。这种协同组合有效减轻了特征提取和融合阶段的信息退化,显著提高了具有挑战性的遥感微小目标场景的检测精度。
- 实验
A. 实现细节
所有实验均基于Pytorch框架,并在NVIDIA A800 GPU上执行。模型使用批量大小为16进行600个epoch的训练。训练和测试阶段图像尺寸均为
。所使用的优化器为随机梯度下降(SGD)[52],动量为0.937,权重衰减为0.0005。除非另有说明,所有实验均在上述配置下进行。
B. 数据集
-
- AI-TOD: AI-TOD [33] 是一个用于检测微小物体的遥感数据集,源自一个大型公开可访问的航空图像集合。该数据集包含280,036张航空图像,每张图像大小为
像素,总共包含700,621个 Token 的物体实例,涵盖八个常见类别。物体的平均大小仅为12.8像素,其中85.6%的物体小于16像素,使其成为在涉及微小物体的困难场景中测试检测器的理想选择。该数据集提供11,214张图像用于训练,2,804张用于验证,总共有14,018张图像。测试集中额外提供了14,018张图像,用于评估检测器的性能。 2. 2. DIOR:DIOR [53] 是一个广泛使用且具有挑战性的遥感数据集,专注于在复杂场景中检测小目标。该数据集包含23,463张高分辨率航拍图像,标注了总共190,288个目标实例,涵盖二十个类别。DIOR数据集中的每张图像尺寸为
像素,空间分辨率范围在0.5至30米之间。它包括飞机(AL)、机场(AT)、棒球场(BF)、篮球场(BC)、桥梁(BG)、烟囱(CM)、水坝(DM)、高速公路服务区(EA)、高速公路收费站(ES)、高尔夫球场(GC)、地面轨迹场(GF)、港口(HB)、立交桥(OP)、船舶(SP)、体育场(SD)、储罐(ST)、网球场(TC)、火车站(TS)、车辆(WH)、风车(WM)。训练集包含5,862张图像,验证集包含5,863张图像,总共11,725张图像用于模型训练。测试集包含11,738张图像,用于评估检测器的性能。
C. 评估指标
在作者的实验中,作者使用平均精度(AP)来评估模型的检测性能。公式如下
其中
表示精确率,
表示召回率,定义为
TP、FN和FP分别表示真阳性、假阴性和假阳性样本的数量。为了评估AI-TOD上的检测性能,作者采用MS COCO [29] AP评估指标对所有检测器进行评估。具体来说,
表示IoU阈值为0.5时的准确率,而
采用更严格的IoU阈值为0.75。整体AP是通过在0.5到0.95的IoU阈值范围内以0.05的步长平均AP值来确定的。此外,作者使用
、
、
和
来评估模型对不同尺度目标的鲁棒性。具体而言,
表示尺寸小于
的目标的AP,
表示尺寸在
之间的目标的AP,
表示尺寸在
之间的目标的AP,而
表示尺寸大于
的目标的AP。
为了全面评估目标检测器的计算效率,params被引入作为关键指标。Params量化了模型架构中可学习权重和偏差的总和,直接反映了其内存占用和存储需求。较低的参数数量通常意味着减少硬件资源需求。
D. 对比实验
作者在AI-TOD和DIOR数据集上,将RS-TinyNet与其他优秀的目标检测模型进行了比较,包括 Baseline 模型YOLOv11m。
-
- AI-TOD数据集上的结果:表1展示了不同SOTA检测器在AI-TOD数据集上的实验结果。显然,与其他方法相比,RS-TinyNet在RS微小目标检测方面达到了最高的准确率。首先,在相同的实验条件下,与 Baseline 模型相比,RS-TinyNet的检测性能在各个方面均得到提升。具体而言,AP、
、
、
、
、
和
指标分别提升了
、
、
、
、
、
和
。其次,与传统的目标检测网络相比,RS-TinyNet的检测性能大幅提升,尤其对于微小目标。此外,与其他在AI-TOD上达到SOTA性能的微小目标检测算法相比,RS-TinyNet表现出更优的性能。作者的
指标分别超越了MENet、DNTR、BRSTD、FFCA-YOLO 和
,提升了
、
、
、
和
,同时其他评估指标也得到改善。实验结果明确表明,RS-TinyNet在AI-TOD上优于现有的SOTA方法。图3展示了在测试集上获得的检测结果。 2. 2. DIOR数据集上的结果:为了评估RS-TinyNet的泛化能力,作者使用DIOR数据集进行了对比实验,结果如表2所示。DIOR数据集上的对比实验表明,作者的算法表现良好,具有
的
泛化能力,优于其他SOTA模型。所提出的模型在20个类别中的11个类别中达到了SOTA性能,准确率分别为
(AT)、
(BC)、
(BG)、
(CM)、
(ES)、
(GC)、
(HB)、
(OP)、
(SP)、
(TC)和
(VH)。RS-TinyNet在DIOR数据集上的检测结果如图4所示,不同颜色标签的检测框用于表示不同类别的物体。这为所提出的RSTinyNet的有效性提供了强有力的证据。
E. 消融实验
为验证每个组件的有效性,作者在AI-TOD测试集上进行了系列实验。表3展示了在不同条件下作者检测器的性能和模型大小。以YOLOv11m作为 Baseline 模型,通过添加DCA、ARB和PFDH模块对模型的精度进行评估。为确保公平比较,以下实验中所有超参数保持一致。
-
- MDCA的有效性:为了评估所提出的MDCA模块的影响,作者将该模块整合到 Baseline YOLOv11m模型的 Neck 架构中。如表3所示,仅通过整合MDCA模块即可显著提升性能,AP、
和
分别提升了3.2%、3.7%和4.2%。这一改进得益于MDCA高效捕获和融合通道、空间、局部及全局信息的能力,使网络能够更好地在复杂环境中区分物体。 2. 2. ARB的有效性:作者进一步通过将ARB模块单独插入 Baseline 网络来检验其影响。结果表明,引入ARB模块分别使AP、
和
提升了2.7%、3.1%和3.6%,具体如表3所示。ARB模块引入具有可逆变换的辅助分支,通过梯度引导反馈促进特征学习,并有效缓解了前向传播过程中目标特征信息的损失。这有助于更稳定的表征学习,尤其对于微小和模糊物体。同时,它可以与MDCA模块协同工作,进一步提升模型的检测性能。上述结果表明,ARB有效增强了特征完整性重建的能力,并提高了检测性能。 3. 3. PFDH的有效性:为评估所提出的PFDH的有效性,作者首先将其独立添加到 Baseline 模型中,并观察到在AP、
和
方面均有显著提升,如表3所示。PFDH模块通过逐步整合跨尺度语义特征,增强了检测能力,从而提升了定位和分类效果,尤其对于微小和多尺度目标。此外,当与MDCA或ARB模块结合时,检测性能进一步提升,表明这些组件之间具有强兼容性和互补优势。值得注意的是,MDCA与PFDH的结合更好地优化了多尺度目标的显著特征,而ARB与PFDH的集成则增强了特征完整性重建,防止特征丢失,尤其对于微小目标。当MDCA、ARB和PFDH三个模块共同应用时,RS-TinyNet取得了最佳性能,证实了每个模块的累积和相互增强效应。这些结果验证了作者架构设计的整体有效性和合理性。
- 结论
本文提出了一种名为RS-TinyNet的创新且高效的框架,用于遥感图像中的微小目标检测。通过集成MDCA模块进行微小目标显著性建模,ARB和PFDH模块进行特征完整性重建,RS-TinyNet显著提升了微小目标的表征能力和区分度。在AI-TOD和DIOR等基准数据集上的实验表明,RS-TinyNet在检测精度上显著优于现有SOTA方法,尤其对微小目标的改进效果显著。进一步的消融实验证实了每个建议模块的重要性,突显了它们在解决低像素密度、目标密度以及遥感场景中缺乏清晰结构细节等挑战时的协同效应。这些发现强调了RS-TinyNet在现实应用中的卓越鲁棒性和实用价值。未来的研究方向将集中于计算效率提升和框架优化,以及探索其在更广泛遥感任务中的适应性和泛化能力。
参考
[1]. RS-TinyNet: Stage-wise Feature Fusion Network for Detecting Tiny Objects in Remote Sensing Images