SAR图像目标检测新高峰：R-Sparse R-CNN借BAPs、DCP与Transformer登顶 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

作者介绍了R-Sparse R-CNN，这是一种用于合成孔径雷达（SAR）图像中目标船检测的新型流程，该流程利用包含背景上下文信息的Sparse可学习候选区域，称为背景感知候选区域（BAPs）。

Sparse候选区域的采用通过消除对重叠预测的候选区域生成器和后处理的依赖，简化了流程。所提出的BAPs通过整合船体和背景特征来丰富目标表示，使模型能够学习它们之间的上下文关系，从而在复杂环境中更准确地区分船体。

为了补充BAPs，作者提出了双上下文池化（DCP），这是一种新型策略，在单个统一操作中联合提取船体和背景特征。这种统一设计通过消除单独池化中固有的冗余计算来提高效率。

此外，通过确保船体和背景特征从同一特征图 Level 进行池化，DCP提供了对齐的特征，从而改进了上下文关系学习。

最后，作为R-Sparse R-CNN中上下文关系学习的核心组件，作者设计了一个基于Transformer的交互模块。该模块将池化的船体和背景特征与其对应的候选区域特征进行交互，并建模它们之间的关系。

实验结果表明，R-Sparse R-CNN具有出色的准确性，在SSDD和RSDD-SAR近岸数据集上分别比当前最先进模型高出12.8%和11.9%。这些结果证明了R-Sparse R-CNN作为SAR图像中目标船检测的强大框架的有效性和竞争力。

代码可在以下网址获取：www.github.com/ka-mirul/R-Sparse-R-CNN*.

一引言

一种能在所有天气条件下全天候可靠运行的微波成像技术。在其多种应用中，船舶检测任务是最常见的之一，适用于民用和军用海上监控目的。

合成孔径雷达船舶检测传统上依赖于基于规则的技巧，这些技巧使用手工制作的特征和统计建模。例如恒虚警率（CFAR）检测方法已被广泛采用，通过自适应阈值来区分船舶和海杂波[1]-[11]。针对海背景干扰的特定条件，设计出了多种CFAR技术的改进方法。*论文发表后代码将公开。

稿件收到日期 2025年2月xx日；修改日期 2025年2月xx日。

多层CFAR [1]、RmSAT-CFAR [2]、CHA-CFAR [3]、BTS-RCFAR [4]、OS-CFAR [5]、双边CFAR [6]、TSCFAR [7] 以及几种基于超像素的CFAR方法 [8]-[11]。除了依赖船舶特征的常规方法，近期方法探索了尾迹特征作为间接线索来检测船舶存在 [12]-[15]。模拟SAR尾迹的发展 [16]-[21] 通过提供理论上无限的数据集进一步推动了这一方向。尽管这些方法有效，但在SAR图像中检测船舶及其尾迹特征仍然高度依赖手工特征，这限制了它们对变化成像条件的适应性。

例如，基于CFAR的技术在均匀海杂波中表现良好，但在更复杂的沿海区域则表现不佳。此外，CFAR方法中固定的保护窗口大小阻碍了它们对不同尺寸船舶的泛化能力，常常导致漏检，尤其是在密集海上交通场景中。这些局限性促使人们转向基于卷积神经网络（CNN）的方法。

基于CNN的SAR船舶检测器大多借鉴了常见的目标检测技术，即水平边界框（HBB）检测[22]-[27]。虽然HBB检测器能够提供精确的位置定位，但它们在检测定向船舶方面的应用本质上并不理想。

HBB通常不仅包含船舶，还包含其周围的大量区域。这引入了冗余信息和过多的背景干扰。在诸如近岸区域密集停泊的船舶（如图1a所示）等场景中，HBB的局限性更为明显，经常产生重叠的边界框。因此，单个边界框可能包含多艘船舶或陆地特征，从而可能降低检测精度。

picture.image

图2.r 展示了 4 个s R-CNN [52] 和（右）R-Sparse R-CNN 中的背景感知 Proposal 。

picture.image

为解决上述水平边界框（HBB）检测器的局限性，近期研究越来越关注方向边界框（OBB）检测器[28]-[43]。与HBB不同，OBB能更精确地封装船舶特征，同时有效捕捉船舶方向，如图1b所示。该方向信息对于理解船舶航向至关重要，有助于提升航线预测、避碰系统及海上交通分析等方面的进展。

基于CNN的目标检测中，基于 Anchor 框的方法因其能有效处理形状、大小和方向各异的物体而确立了主导地位[34][35][44]-[46]。预定义的 Anchor 框特性使得目标定位更加精确，并使基于 Anchor 框的检测器在复杂的检测场景中表现出鲁棒性。相比之下，无需 Anchor 框的方法直接预测边界框而不依赖 Anchor 框，往往难以达到同等精度和可靠性。

尽管基于 Anchor 点的方法具有优势，但它们存在两个显著的缺点：

(1) 预测结果的重叠；

(2) 对 Anchor 点配置的敏感性。 Anchor 点的密集生成导致预测框之间存在大量重叠，需要使用非极大值抑制（NMS）来解决。这增加了计算负担并降低了推理速度[47]。此外，基于 Anchor 点的检测器的检测性能高度依赖于初始 Anchor 点的属性，如数量、大小和长宽比[24]，[48]，[49]。为了缓解这些问题，近期研究着重于减少对NMS的依赖，并最小化模型对密集 Anchor 点的依赖，从而催生了Sparse候选框方法[50]-[53]。

基于Sparse候选框的检测器通过无需设计密集 Anchor 框作为候选框，简化了流程。G-CNN [50] 可被视为此类检测器的前驱。该方法不使用候选框生成器，而是从180个固定边界框的多尺度网格开始。随后训练一个回归器，以迭代方式优化这些网格元素的位置和尺度，使其更好地与目标对齐。当时，G-CNN的性能与Fast R-CNN [54]相当，后者使用了约2,000个边界框。然而，与Fast R-CNN的当前后继Faster R-CNN [24]相比，G-CNN在性能上有所落后。

基于同样的动机，论文[51]中介绍了一种基于Transformer的方法DEtection TRansformer (DETR)。DETR将目标检测视为一个直接的集合预测问题，仅使用100个学习到的目标 Query 作为输入。通过固定的一组学习到的目标 Query ，DETR同时推理目标之间的关系以及全局图像上下文，并行地直接输出最终预测。然而，DETR的基本概念要求每个目标 Query 都与全局图像上下文进行交互。因此，这种密集交互不仅减缓了训练收敛速度，还阻碍了目标检测完全Sparse流程的建立。

迄今为止，Sparse R-CNN [52] 是唯一一种为HBB检测引入完全Sparse候选框的方法。与依赖目标 Query 和全局图像特征之间密集交互的DETR不同，Sparse R-CNN通过一种新颖的Sparse可学习候选框表示消除了这种必要性。在此过程中，数十万个候选框被替换为一组小的可学习候选框，称为Sparse可学习候选框，每个候选框包含一个候选框及其相关特征。该框架在这些候选框特征与池化区域感兴趣（Rol）特征之间采用一对一的交互。这种交互被认为是完全Sparse的，因为它不需要完整的图像上下文，从而确保了真正的Sparse表示。Sparse R-CNN采用Sparse可学习候选框带来了相对于传统密集候选框的独特优势。值得注意的是，它消除了训练期间区域候选框网络（RPN）的需求，并消除了推理期间对非极大值抑制（NMS）的依赖，因为重叠的密集预测被自然地避免了。这种简化的方法使Sparse R-CNN能够以简化的架构运行，该架构仅由 Backbone 特征提取器、交互模块以及回归和分类层组成。关于Sparse候选框方法的另一项值得注意的工作在[53]中提出，其中Sparse Anchor 定网络（SAN）生成了一组减少的区域候选框。然而，由于SAN在基于R-CNN的检测器中充当RPN，因此它未能实现Sparse R-CNN的简化设计。

Sparse R-CNN中的完全Sparse交互与SAR船舶检测的特征相吻合，船舶目标通常在大面积内Sparse分布。这使得Sparse R-CNN成为SAR船舶检测的强候选方案。然而，该应用在近岸区域面临独特挑战，尤其是波浪、反射和附近结构产生的背景干扰会造成显著模糊性。此类干扰常导致假阳性增加，降低检测模型在复杂海况下的可靠性。基于Sparse Proposal 的优势和近岸船舶检测的挑战，作者设计了一个增强型R-CNN框架，旨在提升此类环境下的性能。

作者介绍了R-Sparse R-CNN，这是首个针对任意方向目标检测的Sparse可学习 Proposal 的扩展，专为SAR船舶检测而设计。前缀"R"表示通过定向边界框回归将Sparse R-CNN应用于旋转目标检测任务。通过将可学习方向嵌入 Proposal 中，R-Sparse R-CNN解决了现有Sparse Proposal 方法在捕捉目标方向时存在的局限性。捕捉方向的能力在船舶检测中起着关键作用，能够实现下游任务，如轨迹预测和避碰。R-Sparse R-CNN结合了Sparse R-CNN的鲁棒性，并采用无成本的 Proposal 设计，完全消除了对RPN和NMS后处理的依赖。这一新颖设计实现了更简单的模型结构，并简化了端到端的整体设计和训练。所提出的模型可视为对[52]中HBB检测的Sparse R-CNN的扩展，继承了其独特特性，同时提升了其估计目标方向的能力。

为提升近岸区域船舶检测效果，作者提出了背景感知 Proposal （BAPs），这是一种结合了目标周围上下文信息以增强目标表示的新型 Proposal 概念。图2展示了传统Faster R-CNN中使用的传统 Proposal 、Sparse R-CNN中的可学习 Proposal 以及作者提出的BAPs之间的比较。传统 Proposal （图2-左）仅依赖于可学习边界框，而Sparse可学习 Proposal （图2-中）通过在边界框中包含可学习目标特征来扩展这一方法。更进一步，作者提出的BAPs（图2-右）集成了可学习目标特征和相应的背景特征，提供了更丰富和全面的目标表示。这些特征与其RoI池化版本相互作用，并融合形成最终的边界框回归表示。这种一对一的交互和特征融合使模型能够捕捉目标与背景之间的关系，增强其从杂乱场景中区分船舶的能力，并提高检测精度。作者提出的模型是首个结合上下文特征以提升性能的Sparse Proposal 检测器，为该领域研究做出了创新性贡献。

总而言之，本文的主要贡献总结如下：

作者提出了R-Sparse R-CNN，一种基于Sparse可学习 Proposal 的新型极化合成孔径雷达船舶检测模型。R-Sparse R-CNN是首个在极化合成孔径雷达图像领域利用Sparse可学习 Proposal 进行目标检测的模型，并特别设计用于提升近岸区域的检测性能。该模型通过消除密集 Anchor 点设计、避免RPN训练和NMS后处理，实现了精简化的架构。
作者提出了背景感知 Proposal （BAPs），该 Proposal 利用船舶和背景特征以实现丰富的目标表示。通过捕捉这些特征之间的关系，所yinqing-R-Sparse-R-CNN_2504增强了模型的上下文理解能力。实验结果证实，将BAPs融入所提出的模型能够显著提高整体检测精度。
作者提出了双上下文池化策略，这是一种新颖的池化方法，能够在单次操作中提取目标和背景特征。通过避免单独池化，双上下文池化加速了特征提取过程并提升了检测性能。这种改进归因于其设计，该方法从同一特征金字塔网络（FPN）层级提取两种特征，确保了特征的一致性对齐。
作者设计了一个交互模块，用于实现 Proposal 与RoI特征之间的一对一交互。该模块包含两个交互头，分别用于目标-目标和背景-背景交互，随后是一个融合头，用于融合生成的特征。

本文其余部分组织如下，第二节更深入地解释了SAR船舶检测和Sparse可学习 Proposal 的概念，第三节提供了所提出的R-Sparse R-CNN模型的实现细节，第四节提供了实验细节，而第五节涵盖了实验结果、与其他模型的性能比较以及后续讨论，最后，第六节总结本文。

II. 相关工作

A. 基于深度学习的面向SAR船舶检测

深度学习领域的最新进展，特别是卷积神经网络（CNN）的发展，推动了其在合成孔径雷达（SAR）图像中目标船舶检测的广泛应用[28]-[43]。现有的目标船舶检测方法通常通过引入额外的参数来表示方向性，将设计用于自然图像的水平边界框（HBB）检测器进行扩展。根据所需的阶段数量以及是否使用预定义的 Anchor 框，这些检测器可分为单阶段检测器、双阶段检测器和 Anchor-Free 框检测器。

单阶段检测器：单阶段检测器（图3a）通过在单个、统一的步骤中同时执行目标定位和分类任务来简化这些操作。这些模型将检测视为密集回归和分类任务，通过将检测Head直接应用于从输入图像提取的特征图来实现。图像被划分为网格，每个网格单元预测目标类别的概率以及相对于预定义 Anchor 点或参考点的边界框偏移量。通过移除对显式区域 Proposal 阶段的需求，单阶段检测器实现了更快的推理速度和更低的计算复杂度。

YOLO [22] 和 SsD [23] 是两种被广泛采用的框架，为许多后续的单阶段检测方法奠定了基础。基于这些框架，针对定向SAR船舶检测提出了多种改进和适配方案。例如，Yu和Shin [29] 通过结合坐标注意力模块和双向特征金字塔网络（BiFPN）增强了YOLOv5模型，以实现更好的特征融合。Ren等人 [30] 使用具有特征增强 Backbone 网络和通道与位置增强注意力（CPEA）模块的YOLO-Lite来捕捉详细的位置信息。Li等人 [31] 通过调整预测层并引入卷积块注意力模块（CBAM）优化了YOLOv3-Tiny，以实现实时SAR船舶检测。Ma等人 [32] 采用了SSD并引入了MRSSD，利用高分三号（GF3）数据集的三分辨率输入。此外，Yang等人 [33] 通过引入坐标注意力和感受野增强模块进一步提升了SSD对尺度变化的鲁棒性。

两阶段检测器：两阶段检测器（图3b）首先生成区域 Proposal ，然后对它们进行优化以完成最终的目标检测。在第一阶段，不同尺度和长宽比的基础框被放置在特征图上。区域 Proposal 网络（RPN）通过边界框回归优化这些基础框，以生成物体 Proposal 。在第二阶段，提取与这些 Proposal 对应的区域特征，并将其传递给分类和回归分支，以预测物体类别并优化框坐标。

R-CNN系列检测器——包括Faster RCNN [54]、基于区域的全卷积网络（R-FCN）[56]、级联R-CNN [57]和Mask RCNN [58]——构成了大多数两阶段目标检测器的基础。在面向SAR船舶检测的背景下，一些方法对这些架构进行了适配和扩展。Jiao等人 [34] 提出了一种名为DCMSNN的模型，该模型基于Faster R-CNN框架，旨在解决多尺度、多源SAR船舶检测的挑战。他们的方法不依赖于单一特征图，而是将自上而下的特征图进行连接，并从每个融合图中生成候选框。Zhao等人 [35] 提出了注意力感受野金字塔网络（ARPN），以增强SAR图像中多尺度船舶的检测。该模型通过加强非局部特征之间的关系，并细化不同特征图之间的信息，从而提升性能。Ke等人 [36] 提出了一种增强型Faster R-CNN框架，通过引入可变形卷积核来更好地捕捉形状变化的船舶的几何变换。Chai等人 [37] 提出了一种改进的级联R-CNN模型，旨在检测复杂背景中的小型船舶目标。此外，文献[38]和[39]展示了Mask RCNN在SAR船舶检测中的应用。

Anchor-Free 点检测器： Anchor-Free 点方法通过消除预定义 Anchor 点模板的需求，为传统的基于 Anchor 点的目标检测器提供了替代方案。这些模型通过直接回归关键点、区域或像素来检测目标，从而指示目标的存在。显著例子包括CenterNet [26]、CornerNet [25]和FCOS [27]。CenterNet（图3c）通过 Heatmap 回归定位目标中心，并通过偏移估计预测边界框尺寸。CornerNet通过识别左上角和右下角来检测目标，然后将其分组形成边界框。FCOS将检测表述为逐像素回归任务，其中每个位置预测目标边界距离及其类别标签。这些 Anchor-Free 点范式已被应用于定向SAR船舶检测。Fu等人[40]引入了具有注意力引导平衡金字塔（ABP）的特征平衡和细化网络（FBR-Net），用于多尺度特征平衡，以及特征细化（FR）模块以实现精确定位。Cui等人[59]提出了一种基于CenterNet的模型，结合了空间Shuffle组增强（SSE）模块以加强语义特征提取并减少误报。Guo等人[41]通过添加特征细化模块和特征金字塔融合扩展了CenterNet，以改善小船舶检测。最后，Sun等人[42]通过添加类别位置（CP）模块增强了FCOS，以在复杂场景中改进位置回归，而Zhu等人[43]进一步通过Focal Loss、回归细化和IoU（CIoU）损失优化了FCOS，用于大规模SAR船舶检测。

B. Sparse可学习 Proposal

Sparse可学习候选框的核心思想，最早在Sparse R-CNN [52]中提出，是用少量

个可学习候选框替代数十万个候选框（ Anchor 框）。在典型的R-CNN架构如Faster R-CNN中，区域候选框网络（RPN）生成密集 Anchor 框作为候选区域，学习目标性和位置细化以生成候选框。然而，Sparse R-CNN用可学习候选框替代密集 Anchor 框，这些候选框随机初始化并通过与特征图池化RoI的交互进行迭代优化。这种设计消除了对密集 Anchor 框设计和RPN训练的依赖，也无需进行NMS后处理，通常是由于密集重叠预测而进行的。因此，Sparse候选框概念使Sparse R-CNN实现了精简化的设计。

从技术角度来看，可学习的候选框是传统候选框的改进版本，增加了被称为候选框特征的额外可学习特征。学习的候选框代表了训练集中目标位置的统计分布，并作为与输入无关的初始估计，用于可能包含目标的区域。另一方面，RPN生成的候选框直接受特定输入图像的影响，并提供目标位置的粗略估计。虽然候选框提供了简洁且明确的目标表示，但它仅提供粗略的位置定位，并遗漏了目标姿态和形状等关键细节。然而，候选框特征编码了丰富的实例特征，允许每个候选框不仅嵌入与框相关的参数，还嵌入独特的实例特征，这些特征捕捉了这些缺失的细节。利用Sparse可学习候选框的Sparse RCNN流程图如图4所示。

picture.image

在其原始实现[52]中， Proposal 与RoI特征的交互通过一个动态实例交互头实现。对于

个 Proposal 框，模型首先应用RoIAlign[58]操作提取每个 Proposal 框的特征，称为RoI特征。每个RoI特征通过其专用的定位和分类头进行处理。每个头都专门基于相应的 Proposal 特征进行条件化。每个RoI特征

与相应的 Proposal 特征

交互以优化其表示，最终得到目标特征

。具体而言，这种特征交互机制通过两个连续的

卷积和ReLU激活实现，其中这些卷积的权重动态地由相应的 Proposal 特征

导出。由于这种交互的性质，该机制被称为动态实例交互。动态实例交互的伪代码在算法1中提供。算法1中的bmm表示批量矩阵乘法。

picture.image

HII. 方法论

本节对R-Sparse R-CNN进行深入解释，介绍了其核心概念以及提出的背景感知 Proposal 。此外，作者展示了R-Sparse R-CNN的整体架构，该架构由 Backbone 网络和专用检测Head组成，如图6所示。最后，作者讨论了模型的训练目标、推理过程以及所使用的损失函数。

A. 旋转可学习 Proposal

作者将原始的Sparse可学习 Proposal 概念扩展，最初设计用于检测轴对齐目标，以促进定向目标的检测。为此，作者引入了额外的参数来表示方向，通过一个5维向量

定义每个 Proposal 框。这些参数应用于表示船舶坐标的示例如图5所示。

表示 Proposal 框的中心点，而

分别表示宽度、高度和方向。

picture.image

为了嵌入方向参数

，作者对基准模型 [52] 进行了两次重大调整。首先，在 RoI 池化阶段，作者没有使用为 HBB 最初设计的标准 RoIAlign [58]，而是在 Backbone 网络输出的特征图上使用了旋转 RoIAlign (R-RoIAlign)。这是为了更好地捕获由旋转 Proposal 框包围的目标特征。为简洁起见，本文余下部分将此操作称为“RoI 池化”。其次，作者修改了回归层，使其输出五个参数而不是四个。这些参数表示旋转框属性的偏移量：位置

，宽度

，高度

，以及方向

B. 基于背景感知的 Proposal

在Sparse R-CNN框架中， Proposal 特征与RoI特征之间的交互使模型能够在每个 Proposal 与其对应的RoI特征之间建立一一对应的推理机制。这种成对交互机制为每个目标 Proposal 提供了专门的注意力空间，使网络能够迭代地优化对每个候选目标的理解，从而提升检测性能。基于这种目标-目标交互机制，作者假设通过引入背景-背景交互，并将目标-目标推理和背景-背景推理产生的交互结果进行融合，可以进一步提升检测性能。通过允许模型通过特征融合联合推理目标及其对应的背景上下文，它能够学习与特定目标相关的典型背景模式。这种丰富的上下文理解将使模型能够更好地区分目标与其周围环境，从而在复杂场景中提高检测的准确性和鲁棒性。

为促进背景-背景交互，作者提出了背景感知 Proposal ，这是传统可学习 Proposal 的扩展，它结合了上下文特征，称为 Proposal 背景特征。因此，背景感知 Proposal 由三个元素组成： Proposal 框、目标特征和背景特征。 Proposal 背景特征专门设计用于与从池化RoI特征周围区域提取的背景特征（称为RoI背景特征）进行交互。 Proposal 特征和RoI特征之间的交互机制以及所提出模型的总体结构如图6所示，并在第III-D2节中进一步详细说明。

将背景-背景交互引入流程，使模型能够学习在每个区域 Proposal （RoI）上下文中“典型”的背景是什么样的。这种上下文敏感性对于海上环境中的SAR船舶检测任务尤为宝贵，因为背景元素（例如海面纹理或港口基础设施）差异显著，但可能与物体形状非常相似。通过利用背景感知 Proposal ，所提出的模型将上下文信息整合到物体特征中，以更好地区分船舶与其周围环境，从而在复杂场景中减少误报并提高检测可靠性。

C. 主干网络

R-Sparse R-CNN采用ResNet-50主干网络，并使用特征金字塔网络（FPN）进行多尺度特征融合，如图7所示，称为ResNet-50-FPN。初始阶段，ResNet-50的残差块（res2、res3、res4、res5）输出特征图C2、C3、C4和C5，这些特征图随后被传递到FPN。之后，为了标准化它们不同的通道维度（分别为2048、1024、512和256），应用了

的横向卷积，将所有这些图对齐到256个通道。对齐后的图以自顶向下的方式融合，其中较小的图被上采样以匹配较大的图。最后，一个

的卷积细化融合后的图，生成输出P2、P3、P4和P5。

图7.ResNet-50-FPN主干网络架构

D. 检测Head

如图6所示，检测Head由三个主要部分组成，即双上下文池化、交互模块以及分类和回归层。

双上下文池化：R-Sparse R-CNN 利用两种关键交互：RoI 与 Proposal 背景特征的交互，以及 RoI 与 Proposal 目标特征的交互。捕捉这些交互需要一种联合提取 RoI 背景和目标特征的池化方案。一种直接且常用的解决方案是为目标和背景区域分别应用池化操作。然而，这种方法引入了两个显著缺点。首先，双池化操作本质上将计算成本翻倍，导致处理时间大幅增加。其次，由于背景框的尺寸通常大于目标框，背景和目标特征可能从特征金字塔的不同层级提取。具体而言，较小区域使用更深层、高分辨率的特征图，而较大区域则依赖更粗糙、低分辨率的特征图。因此，这种差异导致特征在分辨率和细节上出现错位，进而造成目标与背景特征之间的交互效果不佳。此类交互会阻碍后续依赖这些特征精确融合的流程，从而影响性能。

图6. 所提出的R-re R-流水线背景旋转备用方案架构。方案功能通过交互头随后接融合头实现。

为解决上述问题，作者提出了双上下文池化（Dual-Context Pooling，DCP）机制，该机制在单一、统一的操作中捕获背景特征和目标特征。通过从特征金字塔的同一层级提取特征，DCP确保了特征的一致性对齐，并加强了提取的目标特征与背景特征之间的关系。DCP的详细过程如图8所示。

picture.image

DCP模块设计用于从给定的目标 Proposal 框中提取目标和背景特征。这通过一个两步过程实现：(1) 在特征图

上的扩展RoI应用池化操作，以捕获包含目标和背景特征的特征

，以及(2) 中心裁剪Froi以提取目标特征Fbj，同时处理剩余特征以获得背景特征

。在作者的实现中，目标和背景特征均设置为7×7像素的尺寸，遵循[24]和[52]中普遍采用的设置。

具体而言，给定一个 Proposal 框

，在扩展区域

（约是

大小1.86倍的区域）上对指定的特征图

执行RoI pooling操作，生成一个

的RoI特征

。从

中应用

的中心裁剪操作以提取RoI目标特征

。扩展因子

对应于

的比例，该比例的选择是为了能够直接在

的

上进行中心裁剪以提取

的

。这种特定的因子避免了额外的插值。如果从

的池化特征图中心裁剪

的区域（如在

为2.0的情况下），则需要进行插值来估计亚像素位置上的值。这种

的选择进一步得到了第V-C节实验的支持，其中

的检测性能优于其他实用比例

和

。

为了提取RoI背景特征

，作者首先将

的中央

值替换为其周围背景的平均值

。该操作移除特定目标特征，并将其替换为背景的统计表示，确保所得特征准确反映背景。最后，将修改后的

下采样9倍，得到

大小的

。为清晰起见，DCP机制涉及的运算在式(1)至式(3)中给出。

提取出的

和

特征随后被输入到一个交互模块中，分别与 Proposal 目标特征

和背景目标特征

进行交互。

本模块的详细架构和功能将在下一节中提供。

交互模块：交互模块由两个专门的交互头和一个融合头组成。

a) 交互头：第一个交互头负责RoI目标特征与 Proposal 目标特征之间的交互，而第二个交互头负责RoI背景特征与 Proposal 背景特征之间的交互。为清晰起见，这两个交互头分别称为目标交互头和背景交互头。在作者的实现中，这两个交互头共享相同的架构，即文献[52]中提出的交互头架构。

每个 Head 内的特征交互采用动态实例交互（DII），具体如算法1所示。交互 Head 的结构细节在图9中进行了说明。遵循[52]和[60]中的方法，作者在将 Proposal 传递给DII层之前，使用多头注意力块对其应用自注意力操作。该操作使模型能够推理 Proposal 集中目标之间以及背景之间的关系。注意力机制的一般公式表示为

picture.image

和

分别是 Query 矩阵、键矩阵和值矩阵。

和

是可学习的权重矩阵，其中

是特征向量的维度。在自注意力机制中，使用相同的输入

来生成

和

，使得

中的每个元素能够关注输入序列中的所有其他元素，从而捕捉

内部的上下文关系。

对于背景交互头，该头与RoI背景特征

和 Proposal 背景特征

进行交互，对

上的自注意力输出的结果应用dropout操作。得到的特征随后与原始

进行残差连接，并通过归一化层。归一化后的特征通过DII与RoI特征进行交互。

最后，方程6的输出通过两个连续的线性层进行进一步精炼，并与初始输入维度对齐。

如前所述，目标交互头与背景交互头共享相同的架构；因此，公式(5)和公式(6)同样适用于该头。唯一的区别在于目标交互头使用多模态特征

和区域特征

，而背景交互头使用

和

。目标特征

与背景特征

融合头：所提出的融合头结合由交互头生成的目标特征

和背景特征

，生成一个统一的表示，该表示能够捕捉目标与其上下文之间的关系。为此，作者利用了类似于公式(4)的交叉注意力机制，其中

作为 Query 和键，而

作为值。这种设置允许每个目标特征选择性地关注相关的背景信息，从而创建一个上下文感知的表示，增强目标与背景之间的关系。

所提出的融合头的架构简单，仅包含交叉注意力操作后的dropout层和归一化层，用于稳定和细化融合特征。

除了交叉注意力之外，作者还实验了其他融合策略，例如直接特征相加和拼接。然而，实验结果表明交叉注意力方法能够获得更高的准确率，使其成为捕捉物体与其背景之间详细上下文依赖关系的首选方案。

分类和回归层：在最终阶段，检测Head以融合特征

作为输入，对 Proposal 进行分类并回归其边界框。为此，作者采用一种直接的结构，即对回归层和分类层都使用一个线性层，随后进行归一化和ReLU激活。具体来说，分类层输出类别logits，而回归层输出 Proposal 框参数

、

和

的偏移量。然后，通过以下公式更新初始 Proposal 框参数：

根据[51]、[52]、[57]的研究，堆叠多个检测Head被证明能够提升模型性能。遵循这一策略，所提出的R-Sparse R-CNN通过堆叠多个检测Head来迭代优化候选框。具体而言，在公式8中计算得到的更新框参数，以及当前头的交互头输出的

和

特征，将作为输入传递给后续头。

E. 训练与推理

训练细节：R-Sparse RCNN的训练阶段与Faster RCNN[24]的第二阶段非常相似。在这个阶段， Backbone 网络生成的特征图，特别是P2至P5，通过DCP操作提取RoI特征。关键区别在于，与直接将RoI特征输入分类和回归层的Faster R-CNN不同，R-Sparse R-CNN采用了不同的方法。它首先通过交互模块将这些特征与候选特征进行交互，生成融合特征。然后，融合特征被传递到分类层以计算类别logits，并传递到回归层以确定偏移值，这些偏移值将候选框映射到预测框。这些预测随后用于计算损失，通过反向传播更新模型参数。
推理细节：R-Sparse RCNN中的推理过程简单高效。给定一张输入图像，模型直接输出

个边界框及其对应的置信度分数。这些预测结果直接用于评估，无需进行任何NMS后处理。

F. 损失函数

在R-Sparse R-CNN训练中，计算了两种类型的损失：匹配损失和训练损失。匹配损失用于衡量生成建议与真实标注之间的差异。具体而言，建议根据匹配成本与真实标注目标进行一对一匹配，其中较低的成本表示更接近的匹配。

匹配成本表示为：

在本公式中，

表示Focal Loss，用于衡量预测分类与实际类别标签之间的差异。

和

分别表示旋转边界框之间计算的 L1 损失和IoU（IoU）损失。系数

用于对损失的各个分量进行加权。训练损失的计算与匹配损失使用相同的公式，但仅针对匹配的 Proposal -真实对。最后，总损失通过将所有配对的损失求和，并除以训练批次中匹配对的数量进行归一化计算得出。

IV. 实验设置

A. 数据集

R-Sparse R-CNN 在两个公开数据集 SSDD [61] 和 RSDD-SAR [62] 上进行训练和评估（分别进行）。

SSDD：SSDD是首个公开可用的用于SAR图像中定向船舶检测的数据集，并已发布两个版本。本研究使用的是2021年版本，该版本包含统一的OBB标注。该数据集包含1,160张图像，共计2,456艘船舶。它涵盖了广泛的分辨率、图像尺寸和极化模式。SSDD被广泛用作评估SAR图像中船舶检测方法性能的标准基准。
RSDD-SAR：RSDD-SAR数据集专门用于SAR图像的OBB标注。该数据集包含7,000张图像，共计10,263艘船舶。此数据集具有多种分辨率、极化模式和成像技术。它为测试所提模型的泛化能力以及基于OBB标注的船舶检测性能评估提供了宝贵资源。

SSDD和RSDD-SAR数据集均包含近岸和近海测试集，这对于评估模型在不同环境和背景下的性能至关重要。SSDD和RSDD-SAR数据集的具体参数在表1中详细列出。

picture.image

表1 SSDD和RSDD-SAR数据集参数

B. 评估

为了定量评估R-Sparse RCNN的性能，采用了Microsoft Common Objects in Context（MS COCO）[63]评估框架中的平均精度（AP）指标。AP的公式表述如下：

。

精确率

和召回率

定义如下：

召

回

率

其中

表示真阳性，指正确识别的正样本数量。

指的是真实边界框的数量，而

表示模型做出的预测数量。

AP指标用于评估模型在不同IoU阈值下的性能，以表示真实正例预测。在本工作中，作者采用AP、

和

作为评估指标。AP通过在0.5到0.95之间以0.05为步长进行10个IoU阈值的平均精确率计算得出，为检测精度提供综合度量。

表示在IoU阈值为0.5时的精确率，作为宽松标准；而

采用更严格的IoU阈值为0.75，强调更高的定位精度。

C. 超参数与环境

R-Sparse R-CNN的主干网络使用在ImageNet [64]上预训练的权重，而新引入的层（包括 Proposal 特征）则采用Xavier初始化 [65]进行初始化。随后，该模型使用Adam优化器进行训练，初始学习率为

，训练150个epoch，动量为0.9，权重衰减设置为0.001，并采用L2范数梯度裁剪。在前50次迭代中，实施了预热策略，使用初始学习率的1/3。在epoch 130和140时，学习率进一步乘以10进行衰减。损失权重系数

、

和

分别设置为2.0、5.0和2.0，遵循[52]中的 Baseline Sparse RCNN，以确保公平比较。数据增强包括概率为0.5的随机水平翻转，以及将最短边随机缩放到128到800像素范围内的操作。训练在两个NVIDIA RTX 2080 GPU（总显存16GB）上进行，批处理大小为8，而与其他模型的比较则在单个NVIDIA RTX 3090 GPU上进行。软件环境使用Detectron2版本0.3，基于PyTorch 2.4，在Linux系统（Rocky Linux 8.9）上运行，并由布里斯托大学High-Level计算研究中心的高性能计算集群提供支持。

表2 Proposal 数量的影响

picture.image

V. 结果与讨论

在本节中，作者提供了RSparse R-CNN的实验结果。首先，作者使用SSDD-SAR数据集进行消融研究，因其图像数量较少，便于快速实验。随后，作者将获得的最佳超参数应用于在RSDD-SAR数据集上训练一个独立的模型。接着，作者在SSDD和RSDDSAR数据集上评估模型的性能与当前最优模型。尽管在RSDD-SAR上训练的模型仅使用在SSDD上调整的超参数，但在两个数据集上均观察到一致的性能。这种一致性将在表9和表10中详细说明，并通过图11和图12进行可视化支持，这证明了超参数的有效性和泛化能力。

picture.image

A. 方案配置

在本节中，作者进行实验以评估 Proposal 配置对模型性能的影响。具体而言，作者改变了 Proposal 的数量，并采用了不同的策略来初始化 Proposal 框。

建议数量：建议数量是基于建议的检测器模型性能的关键决定因素。例如，Faster R-CNN [24] 最初采用300个建议，后来增加到2000个以提升性能。类似地，Cascade R-CNN [57] 使用高达1000个建议，而Sparse R-CNN 利用100到500个建议。

表2展示了 Proposal 数量对模型性能的影响。增加 Proposal 数量略微提升了性能，但代价是更长的训练时间和更慢的推理速度。模型大小受影响极小，因为每个 Proposal 仅包含一个5维框和用于目标及背景特征的

参数——与模型总大小相比可忽略不计。

鉴于上述情况，模型默认配置设置为100个 Proposal 。然而，需要注意的是， Proposal 的数量限制了可检测的最大目标数量，应根据具体应用进行调整。例如，在单张图像中检测数百艘船时，使用100个 Proposal 是不合适的。

建议框的初始化：一般来说，基于建议框的检测器的性能对框参数的初始配置非常敏感。在本实验中，作者评估了三种不同的初始化策略：

91:

r i mn

. 随机： Proposal 框参数使用高斯分布随机初始化。网格： Proposal 框在图像上按GCNN [50]中使用的策略以规则网格形式初始化。

促进 Proposal -ROI交互。作者将其与一种分别池化这些特征的方法进行比较，该方法被称为“单独池化”，结果报告在表5中。

表3 不同框初始化方法实验

picture.image

表5 双上下文池化实验

根据表3，该模型对初始化策略表现出极低的敏感性。在AP50上0.8%的微小变化表明， Proposal 框的初始位置、大小和方向对整体性能的影响可以忽略不计。这种鲁棒性可归因于检测Head（Detection Heads）的动态 Proposal 优化机制，该机制通过 Proposal -目标交互迭代更新框，而不管框的初始条件如何。作者在其余实验中选择"Center"作为默认配置。

B. 叠堆检测Head的效应

前人在[57]和[52]中的研究已经表明堆叠检测Head可以显著提升检测性能。基于此，作者采用类似的策略堆叠一系列检测Head，并评估其在提高检测精度方面的有效性。

表4 不同堆叠头数下的模型性能

picture.image

表4突显了增加更多检测Head（Detection Heads）能够持续提升模型精度。这种改进源于堆叠设计的迭代优化机制，其中每个后续模块都对其前一个模块的候选区域（proposals）和特征表示（feature representations）进行优化，从而构建出越来越鲁棒的模型。

作者观察到，当堆叠超过六个头时，准确率从0.927略微下降到0.901，同时模型尺寸继续增加且推理速度继续降低。因此，作者选择一个包含六个堆叠的检测Head的配置作为默认设置，以平衡准确率和效率。

C. 双上下文池化有效性

在本节中，作者展示了所提出的双上下文池化（DCP）机制的有效性，该机制联合从RoI中提取目标特征和背景特征。所提出的DCP在准确性和推理速度（FPS）方面均显著优于单独池化的 Baseline 方法。图10(a)和10(b)进一步验证了上述结果，因为结合了DCP的模型能够出色地检测所有船舶实例，且无误报或漏报。通过从FPN同一层联合提取目标特征和背景特征，它保持了特征的一致性。这种一致性使融合头能够更有效地结合上下文信息，从而提升检测性能。相比之下，单独池化策略独立处理目标特征和背景特征，通常导致从FPN不同层提取特征。由于背景框倾向于更大，其特征通常从FPN较浅的层中池化，而目标框的特征则从较深的层中提取，导致特征层次不一致。这种错位削弱了特征融合的一致性，并可能损害融合头对目标-背景关系进行推理的能力。此外，通过移除两个单独的池化操作需求，DCP提高了推理速度，实验结果已证实。

picture.image

DCP的性能对扩展因子

敏感，

是一个超参数，用于将目标的宽度和高度进行缩放，以包含周围的背景信息，具体细节见第三节D1。作者发现，将

设置为1.86

13/7，在定义的各项指标上能够获得更好的准确率，同时保持高效的训练和推理时间，如表6所示。基于这些发现，作者在模型中采用

=1.86作为默认值。

picture.image

表6 扩展因子

的影响

D. 融合头性能

融合头结合了背景交互头和目标交互头产生的特征，并将它们输入回归层。作者使用交叉注意力机制进行融合（公式7），并对照表7中的标准方法（如逐元素加法和乘法）进行验证。

picture.image

表7 融合头不同融合策略的实验

所提出的具有交叉注意力的融合头在近岸场景中比其他融合策略将AP50提升了7.6%，展示了其在复杂场景中的有效性。这一性能提升在图10(c)-(e)中也有明显体现，交叉注意力驱动的融合头成功检测了所有船舶实例，而加法和乘法则容易发生漏检。逐元素加法和乘法以固定的、位置方式融合特征，平等对待所有空间位置，缺乏优先考虑信息区域的能力。相比之下，交叉注意力动态权衡特征重要性，并根据其与每个船舶目标的相关性选择性地整合背景线索。这种目标导向的融合通过支持性上下文信息（如周围纹理或空间模式）增强了目标特征，从而强化目标证据并提高语义一致性。这些丰富的特征为真阳性分类提供了更高的置信度，使其更有可能通过检测阈值，从而减少漏检。尽管具有这些优势，交叉注意力模块仅引入了110万个额外参数，推理时间增加了1.4毫秒，在性能和效率之间保持了良好的平衡。

E. 背景感知 Proposal 的有效性

背景交互是R-Sparse RCNN与 Baseline 模型Sparse R-CNN的关键区别。这种交互提升了候选框的上下文感知能力，使得利用局部背景信息进行更精确的预测成为可能。

为验证背景感知 Proposal （BAPs）的有效性，作者将模型的性能与一个支持旋转目标检测的扩展版Sparse R-CNN进行了比较。具体而言，作者扩展了Sparse R-CNN中的 Proposal 框，增加了方向参数，并更新其回归层以预测这些框的偏移量。这些修改与应用于R-Sparse R-CNN Proposal 框和回归层的修改完全相同，详见第III-A节和第III-D3节。所提出的R-Sparse R-CNN和修改后的Sparse R-CNN的整体架构非常相似，不同之处在于R-Sparse R-CNN将背景特征整合到 Proposal 中并采用融合头，而Sparse R-CNN则没有。因此，修改后的Sparse R-CNN可作为强有力的 Baseline ，以强调所提出模型中排除背景感知机制的影响。

表8 背景感知 Proposal 的有效性

picture.image

如表8 所示，很明显所提出的模型受益于背景-背景交互，这证明了背景感知 Proposal （BAPs）的有效性。值得注意的是，在具有挑战性的近岸区域，R-Sparse R-CNN 的

比其对应模型高出

。修改后的 Sparse R-CNN 的 AP 率较低，证实了以目标为中心的 Proposal 在缺乏上下文背景信息的情况下难以处理模糊性。相比之下，R-Sparse R-CNN 明确地将背景视为一个独特的特征集，并将其动态地与 Proposal 特征交互。这种交互使所提出的模型能够自适应地融合背景和 Proposal 特征，增强上下文理解，并提高复杂环境中的检测性能。性能差距在图10(f) 和图10(g) 中进一步可视化，其中采用背景感知 Proposal 的模型由于其背景感知设计，在避免误报方面表现明显更好。

与SOTA检测器的比较

为验证R-Sparse R-CNN的先进性能，作者将其性能与最先进（SOTA）的一阶段、两阶段和无需 Anchor 点检测器进行比较。这些检测器基于MMRotate [66] 代码库构建。在SSDD和RSDD-SAR数据集上的性能比较分别如表9和表10所示。在SSDD数据集上，R-Sparse R-CNN在定义的评价指标上始终表现出色。具体而言，R-Sparse R-CNN与R-RetinaNet共享最高的整体AP值0.511，在混合近岸和近海场景中均优于其他检测器。在近海区域，R-Sparse R-CNN实现了卓越的

值0.972，比最接近的竞争对手RoI Transformer高出6.2%。在近岸区域，R-Sparse R-CNN实现了具有竞争力的

值0.793，与最佳方法Oriented R-CNN仅相差0.1%。同样，在RSDD-SAR数据集上，R-Sparse R-CNN保持领先地位，以最高的

值0.511，并在近海（

）和近岸（

）场景中表现出色，突显了其在不同环境条件下的适应性。在SSDD和RSDD-SAR数据集上的强劲性能，突显了R-Sparse R-CNN处理具有不同特征数据集的能力，在不同场景中均能保持一致的性能。

在两个数据集上的实验结果证实了RSparse R-CNN在近岸和近海场景中均有效，展示了其适应不同环境复杂性的能力。近海区域通常具有Sparse的背景特征，需要精确的目标检测且尽量减少上下文干扰，而R-Sparse R-CNN在此方面表现优异。另一方面，近岸区域则面临背景杂乱、目标密度更高的挑战。尽管存在这些挑战，R-Sparse R-CNN仍展现出强大的检测能力，在大多数指标上优于其他方法。此外，R-Sparse R-CNN在SSDD和RSDD-SAR数据集上均取得了第二高的

，证明其在更严格的IoU阈值下具备强大的精确目标定位能力。尽管其推理速度（16 FPS）相较于R-Faster R-CNN等其他两阶段模型（40 FPS）较慢，但这一权衡得到了所有指标检测精度的显著提升所证明。

最后，在SSDD和RSDD-SAR数据集上的测试结果视觉比较分别展示在图11和图12中。这些视觉比较进一步证实了准确度指标，因为R-Sparse R-CNN在近岸和近海场景中均表现出与真实边界框更接近的匹配效果。此外，性能提升在近岸区域更为明显，R-Sparse R-CNN有效减少了误检。这种误报的减少反映了在包含船舶的SAR图像中采用Sparse候选区域表示的优势，其中目标在空间中通常较为Sparse。Sparse候选区域通过将候选区域数量限制在一个小而高质量的集合中，帮助减少误报，使模型对误检的敏感性降低。

综上所述，实验结果突出了所提出的R-Sparse R-CNN在SAR图像中面向船舶检测的有效性。通过消除RPN训练、密集 Anchor 点设计和NMS后处理的需求，该方法简化了检测流程，同时保持了具有竞争力的性能。这些发现验证了简化模型架构在更高效、更精确的SAR船舶检测中的可行性。此外，实验结果验证了利用背景信息通过背景感知 Proposal 机制提升检测精度的优势。该方法使模型能够动态学习物体与其背景之间的关系，从而在模型内部促进更丰富的上下文理解。此外，所提出的Dual-Context Pooling提供了一种高效的方法，用于统一池化背景和物体特征，实现更快的执行速度和更高的模型精度。该方法适用于其他需要物体-背景池化的实现，为面向船舶检测的SAR领域做出了重要贡献。

表9 SSDD数据集上的性能比较

加粗的值表示每个指标的最高性能。

表10 在RSDD-SAR数据集上的性能比较

加粗的值表示每个指标的最高性能。

G. 大规模图像上的性能

为进一步评估所提方法的有效性，作者在RSDD-SAR验证集中的高分三号（GF-3）SAR图像上进行了补充实验。该图像覆盖了近岸和近海区域，分辨率为3米，尺寸为8,500×12,500像素。作者将基于SSDD数据集训练的模型直接应用于该图像。如图13所示，模型成功检测了近海区域的大部分船舶目标，表明该方法在开阔海域场景中具有较强的泛化能力，即使在领域偏移的情况下也是如此。

picture.image

在近岸区域，模型偶尔会漏检小型船只，这是现代检测器在处理场景复杂性和领域偏移时已知的局限性。这种性能下降可归因于两个主要因素：（1）人工沿海建筑物的存在增加了背景杂波；（2）SSDD训练集中近岸场景的代表性有限。尽管存在这些局限性，模型在近海环境中表现出强大的检测能力，并指出了在更具挑战性的近岸场景中提高性能的潜在方向。

VI. 结论

作者提出了R-Sparse R-CNN，一个用于SAR图像中目标船检测的新型框架，该框架利用了富含背景上下文的Sparse可学习候选框，称为背景感知候选框（BAPs）。Sparse可学习候选框概念的采用确保了流程的精简设计，无需密集 Anchor 点、RPN训练以及NMS后处理。此外，BAP中背景上下文信息的融入提高了模型在内陆和近海区域的检测精度，因为它使模型能够动态学习目标与背景之间的关系，并促进更丰富的上下文理解。

为补充背景感知的检测框生成方法，作者引入了双上下文池化（Dual-Context Pooling，DCP），这是一种统一的池化策略，能够在单次操作中高效提取目标与背景特征。与单独的池化方案不同，DCP避免了冗余计算，并确保目标与背景特征均从同一特征金字塔网络（Feature Pyramid Network，FPN）层级的特征图中提取。该设计提供了目标与背景特征之间更好的对齐性和一致的表示，无论检测框大小如何，均能显著提高检测精度。

在R-Sparse R-CNN的目标背景学习核心中，作者设计了一个由两个交互头和一个融合头组成的交互模块。交互头首先对感兴趣区域（RoIs）和候选框之间的目标目标和背景背景交互进行建模。随后，融合头通过基于交叉注意力的推理结合所得特征，实现更精准的候选框优化，最终提升性能。

在SSDD和RSDD-SAR数据集上的大量实验验证了R-Sparse R-CNN在检测海岸带和近海区域任意方向SAR船舶时的鲁棒性。作者预期R-Sparse R-CNN可扩展至其他定向目标检测领域，为遥感领域做出重要贡献。

参考

[1]. R-Sparse R-CNN: SAR Ship Detection Based on Background-Aware Sparse Learnable Proposals

点击上方卡片，关注「AI视界引擎」公众号