稀疏 R-CNN OBB 基于定向稀疏算法的SAR图像目标检测！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

作者提出了Sparse R-CNN OBB，这是一个利用稀疏可学习 proposals 的定向物体在SAR图像中的检测框架。

与Sparse R-CNN的 Baseline 模型相比，Sparse R-CNN OBB 采用了一种简化的结构和易于训练的方法，即利用300个稀疏 proposals，而不是在数十万个 Anchor 点上训练 proposals generator。据作者所知，Sparse R-CNN OBB 是首次采用稀疏可学习 proposals 的概念进行定向目标检测，以及用于合成孔径雷达（SAR）图像中的船只检测。

作者将 Baseline 模型Sparse R-CNN的检测Head进行重新设计，以使模型能够捕获物体的方向。作者还在RSDD-SAR数据集上对模型进行微调，并将其与最先进的模型进行了性能比较。

实验结果显示，Sparse R-CNN OBB 在内外海场景中取得了出色的性能，超过了其他模型。代码可在本研究中找到：www.github.com/ka-mirul/Sparse-R-CNN-OBB。

I Introduction

合成孔径雷达（SAR）是一种在所有天气条件和任何时刻都具有强大可靠性的主动微波成像技术。在海洋场景中，船只检测是应用最为广泛的一种，可用于民用和军事目的。

船只检测任务包括在图像中定位船只并确定其种类。在传统的SAR船只检测系统中，该过程通常包括三个关键阶段：预处理、候选提取和鉴别。预处理阶段可能涉及增强输入图像的质量、减少噪声，并执行陆海分割以避免提取非海洋目标。在候选提取阶段，潜在的船只目标被识别。基于恒虚警率（CFAR）技术的方法通常用于这项任务。基于CFAR的检测器是一种自适应阈值系统，使用假定的背景概率密度函数估计潜在目标周围的海洋杂波统计。这种估计使它们能够保持一致、可接受的虚警概率（PFA）。最后，鉴别阶段确保只有真正的船只保留进行进一步分析。尽管传统检测器通常表现良好，但受到每个阶段人为分配的手工参数的影响，其精确度易发生变化。此外，这些方法缺乏端到端设计，增加了设计复杂性，使训练和适应其他数据集更具挑战性。

随着卷积神经网络（CNNs）的进步，正在朝着在其身上利用定向边界框（OBB）检测器为主进行船舶检测。通常，定向SAR船只会检测器从一般定向物体检测器中获取灵感，这些检测器可以分为一类、二类、 Anchor-Free 检测器。一阶段和二阶段检测器也被称为基于 Anchor 框的检测器，因为它们依赖于预定义的 Anchor 框。模型训练的目的是回归这些框，以准确地将它们与物体边界对齐。与二阶段检测器使用的较小网络提取候选物（也称为建议）不同，一阶段检测器直接回归 Anchor 框。一阶段检测器包括R-RetinaNet [3]，S2ANet [4]，和R3D2C [5]，而二阶段检测器包括Gliding Vertex [6]，Oriented RCNN [7]和ReDet [8]。此外，CFA [9]和BBAV [10]是 Anchor-Free 检测器，直接进行预测，不依赖预定义的 Anchor 框。

总的来说，基于 Anchor 框的方法仍然具有的优势。然而，使用密集 Anchor 框引入了持续的挑战，如导致冗余输出，并使模型性能强烈依赖初始 Anchor 框配置。这些问题导致了使用更少的 Anchor 框，引入了稀疏建议的概念。

在本研究中，作者提出了一种名为稀疏R-CNN OBB的区域性卷积神经网络（R-CNN）家族，用于SAR图像中的定向船只检测。稀疏R-CNN OBB减少了需要数百万个 Anchor 框的需求，只使用了300个相同生成的可学习性建议。作者的主要贡献有两点。首先，作者开发出稀疏R-CNN OBB，这是首次采用稀疏可学习性建议对定向目标和SAR图像中的船只进行检测。其次，作者在定向SAR船只数据集RSDD-SAR [11]上调优模型，并与最新模型进行比较。

本文的其余部分如下所述，第II节阐述了稀疏可学习性建议的概念。第III节提供了Sparse R-CNN OBB的实现细节。实验细节在第IV节中提供，实验结果和与其他模型的性能比较在第V节中覆盖。最后，在第VI节中提供结论。

II Related Work

Sparse Learnable Proposals

松散可学习 Proposal 的关键理念首次在论文 [12] Sparse R-CNN中引入，即用少量 Proposal 框（proposal boxes）替代数百万个边界框（anchors）。从技术角度来看，可学习 Proposal 代表了传统 Proposal 的改进版本，增加了可学习特征（在本例中为256维），称为 Proposal 特征。这一添加使得每个 Proposal 不仅嵌入 Box 相关参数，还可以嵌入独特的256维实例特征。

虽然Sparse R-CNN OBB的架构将在稍后的阶段介绍，但值得在这里值得一提的是Sparse R-CNN OBB的训练方式类似于论文 [13] Faster R-CNN的第二阶段训练。在 Backbone 网络生成的特征图之后，通过池化操作在任意一张图上提取感兴趣区域（RoI）特征。与Faster R-CNN的不同之处在于，不同于直接将RoI特征传递给分类和回归分支，Sparse R-CNN OBB首先通过Dynamic Head与 Proposal 特征发生交互。

Dynamic Head

动态头可以促进 Proposal 特征与池化区域感受野（pooled RoI）特征之间的交互，从而生成最终的目标特征。这种交互是通过两个连续的1x1卷积层与ReLU激活函数实现的。生成后的目标特征将被传递到回归和分类分支以获取 Proposal 的边界框偏移量和类别Logits。然后将边界框偏移量用于更新 Proposal 框参数。

在原始的Sparse R-CNN实现中，动态头被用来增强模型性能。在这个架构中，更新的边界框参数和生成的目标特征将被送入下一层，形成迭代细化过程。遵循这种策略，作者的提出的Sparse R-CNN OBB使用同样的方法，通过使用六个动态头的堆叠来实现。

III Sparse R-CNN OBB

本文节将详细介绍所提出的模型及其用于将方向信息融入模型的策略。

Backbone

稀疏R-CNN OBB采用了ResNet-50 Backbone 网络和特征金字塔网络（FPN）进行多尺度特征融合，称为ResNet-50-FPN。首先，ResNet-50的残差模块（_res2, res3, res4, res5_）输出特征图C2, C3, C4和C5，然后被传递到FPN。随后，为了标准化所有这些图的通道维度（256, 512, 1024, 2048），应用了1x1的横向卷积，将这些图 alignment到256通道。对齐后的图进一步以自上而下的方式迭代融合（参见图1），较小的图被上采样以匹配较大的图。最后，通过一个最终的3x3卷积微调融合图，产生P2, P3, P4和P5输出。

picture.image

Rotated Sparse Learnable Proposals

作者利用原用于检测非旋转物体的稀疏可学习 Proposal 概念，以进一步容纳定向物体的检测。在作者的 Pipeline 中，每个 Proposal 都包含256维可学习 Proposal 特征和5维边界参数，，，，。，表示 Proposal 的中心点，，，分别表示 Proposal 的宽度、高度和方位。

以容纳定向参数的嵌入，作者对基准模型[12]进行了两个显著的调整。首先，在RoI池化阶段，作者代替标准RoIAlign[14]，在ResNet-50-FPN生成的特征图上使用旋转向量对齐(R-RoIAlign)[7]，这是为了更好地捕捉被旋转的 Proposal 框包围的目标特征。其次，作者修改了回归层的结构，使其输出五个参数（代表每个旋转框参数的偏移量：，，，，），而不是四个。

图1提供了所提出稀疏R-CNN OBB的方案。

正如[12]中所述，初始的，，，，参数对性能影响很小。因此，作者将其初始化为图像中心点，宽度和高分别设置为图像大小的和，方位角为的 Proposal 框，。

Loss Function

在稀疏R-CNN OBB训练中，两种类型的损失计算得到：匹配损失和训练损失。匹配损失衡量 Proposal 和真实值之间的差异。匹配成本的数学表示如下：

picture.image

在此表示中，总损失是目标检测损失，L1损失和IoU损失的加权和，权重分别为 . 仅对匹配对计算的训练损失，与匹配损失的结构相同，并通过批量中的目标数量进行归一化。

IV Experiment Setup

第IV实验设置部分的开端。

Dataset

稀疏R-CNN OBB在RSDD-SAR数据集上进行训练和评估，该数据集专门针对调整定向SAR船舶检测器进行优化。数据集包含来自TerraSAR-X和Gaofen-3卫星的7,000张图像（256152像素），并附带了10,263个船舶标注。该数据集涵盖了2至20米的空间分辨率，并包括多个极化模式（HH, HV, VH, VV, DH, DV）。RSDD-SAR为模型在不同环境中的性能提供了内河和 offshore测试集。

Evaluation

在本研究中，平均精确度（AP） [15] 被用作评估指标。AP被定义为如下的_Precision-Recall_ （PR）曲线下的面积：

AP=∫[0,1] P(R) d(R). (3)

Precision （P）和_Recall_ （R）的定义如下：

(4)

(5)

在这些公式中，表示真实阳性预测的数量，表示真实边界框的数量，表示模型做出的预测数量。此外，作者使用交点与边界框（IoU）确定真实阳性检测。具体来说，作者使用 AP_{50}，该方法需要预测框和真实框之间的 IoU 分数最小为 0.5 才能将预测分配为真实阳性。此外，作者还使用 AP_{50} Inshore 和 AP_{50} Offshore 在不同的测试集上评估模型。

Hyperparameters and Environment

稀疏R-CNN OBB采用了在ImageNet上预训练的权重 [16]。接下来，该模型使用Adam优化器进行训练，基础学习率为，迭代150次，加速度为0.9，权重衰减为。为了在训练的前1000个迭代中实现预热，学习率为基础率的1%。在训练的130和140周期末，基础学习率进一步降低为原来的十分之一。训练采用了批量大小为8，在两个NVIDIA RTX 2080 GPU上运行，使用Detectron2在PyTorch上运行，运行在Ubuntu 22.04上。在简体中文的表述下，这段内容已经被翻译并符合学术标准。

V Results and Discussion

本文节将呈现实验结果并对比Sparse R-CNN OBB与当前最先进（SOTA）模型的性能。

Effect of Number of Proposals

作者通过对 Proposal 数的调整来评估它们在精度和模型大小、训练时间和推理速度方面的影响。

根据表1，增加 Proposal 数可以略微提高性能，但会付出训练时间更长和推理速度减慢的代价。结果还表明，使用更多的 Proposal 数并不能显著增加模型大小。这是因为 Proposal 数的增加只会添加5维 Proposal 框和256维 Proposal 特征的参数，与整体模型大小相比是微不足道的。

picture.image

鉴于以上的性能表现，作者将300个 Proposal 数的配置设为模型默认值，并在剩余实验中使用。然而，需要指出的是， Proposal 数限制了最大可检测物体数，并应根据应用进行调整。例如，在单张图像中检测数百个物体时，使用100个 Proposal 数是不合适的。

Comparison to SOTA Models

在本节中，作者将Sparse R-CNN OBB与其他最先进的算法在所有指标上的性能进行比较。如表2所示，Sparse R-CNN OBB在所有指标上都优于其他方法，除了。在混合场景测试集上，通过进行衡量，作者的方法表现出优越性能，相比所有最先进算法，优势范围从2.47%到25.12%，且最接近的竞争者是CFA。与其他阶段检测器相比，作者的模型在优势为2.94%，优于这个类别的性能最优异的算法Oriented R-CNN。

picture.image

在近海场景中，Sparse R-CNN OBB优于其他最先进算法（除了CFA），但性能优势微小（小于0.02%），排名第二最高。然而，作者的提出的模型仍然具有很高的竞争力，可以认为是最佳的算法。这个结果表明，Sparse R-CNN OBB在复杂环境中能更准确地检测船只，而其他方法在更高的假阳性检测率上则存在问题。

最后，在离岸场景中，Sparse R-CNN OBB展现出了异常的性能，达到了96%以上的准确率，并且与其他模型相比，优势至少达到了1.87%。这一结果表明，Sparse R-CNN OBB在受到噪声SAR海洋图像干扰时，更具鲁棒性，这些图像可能还会受到海浪和船只产生的尾迹干扰。

最后，图2展示了Sparse R-CNN OBB在两个数据集上，通过对不同背景场景的不同目标进行预测的结果。这些结果从视觉上证实了提出的模型能够准确地按照地面 truth 进行预测，证实了模型在不同场景下的鲁棒性能。作者期待作者的Sparse R-CNN OBB能够为定向船只的检测提供一种多功能的解决方案，在实现更高准确率的同时，保持设计和训练的简单性。

picture.image

VI Conclusion

在本章中，作者首先介绍了深度学习的本质及重要性。然后，作者探讨了深度学习的结构基础，即神经网络，并研究了不同类型的神经网络，如卷积神经网络（Convolutional Neural Networks，CNNs）、循环神经网络（Recurrent Neural Networks，RNNs）和Transformer。在此基础上，作者进一步深入了解了深度学习的训练算法，包括梯度下降、反向传播和优化器等。

深度学习的出现大大推动了人工智能的发展，使得许多过去难以实现的任务变得切实可行。例如，深度学习可以用于图像识别、语音识别、自然语言处理（NLP）等领域。此外，深度学习在自动驾驶、机器人、医疗诊断、金融预测等诸多领域也具有广泛应用。

然而，深度学习也存在一些挑战。例如，训练深度学习模型通常需要大量的计算资源和时间，且容易出现过拟合现象。此外，由于深度学习的黑盒性质，解释性较差，难以对模型决策过程进行理解和分析。

在未来，深度学习有望在诸多领域得到更广泛的应用。尤其是在机器人、自动驾驶和智能家居等领域，作者可以预见，深度学习将会发挥越来越重要的作用。

参考

[1].Sparse R-CNN OBB: Ship Target Detection in SAR Images Based on Oriented Sparse Proposals.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

稀疏 R-CNN OBB 基于定向稀疏算法的SAR图像目标检测 ！

I Introduction

II Related Work

Sparse Learnable Proposals

Dynamic Head

III Sparse R-CNN OBB

Backbone

Rotated Sparse Learnable Proposals

Loss Function

IV Experiment Setup

Dataset

Evaluation

Hyperparameters and Environment

V Results and Discussion

Effect of Number of Proposals

Comparison to SOTA Models

VI Conclusion

参考