视觉Transformer革命 | SparseFormer 横扫高分辨检测，跨切片 NMS 驯服巨幅尺度鸿沟 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

近年来，使用像素级图像和视频捕捉系统以及具有高分辨率宽视角（HRW）的基准测试越来越多。然而，与MS COCO数据集中的近距离拍摄不同，更高的分辨率和更宽的视野带来了独特的挑战，如极端Sparse性和巨大的尺度变化，导致现有的近距离检测器不准确且效率低下。

在本文中，作者提出了一种新颖的模型无关Sparse视觉Transformer，称为SparseFormer，以弥合近距离和HRW拍摄之间的目标检测差距。所提出的SparseFormer选择性地使用注意力 Token 来仔细检查可能包含目标的Sparse分布窗口。通过这种方式，它可以通过融合粗粒度和细粒度特征来共同探索全局和局部注意力，以处理巨大的尺度变化。SparseFormer还受益于一种新颖的跨切片非极大值抑制（C-NMS）算法，以精确地定位噪声窗口中的目标，以及一种简单而有效的多尺度策略来提高准确性。

在两个HRW基准测试PANDA和DOTA-v1.0上进行的广泛实验表明，所提出的SparseFormer在检测精度（高达5.8%）和速度（高达3倍）方面显著优于现有方法。

1 引言

目标检测在过去十年中一直是计算机视觉领域的一项具有挑战性但基础的任务。如MS COCO[28]等近距离场景已经展现出令人印象深刻的性能，并在实际应用中取得了成功。然而，随着成像系统的发展和无人机等新应用需求的出现，检测具有平方公里场景和吉比特级分辨率的超高分辨率宽幅（HRW）图像中的目标引起了越来越多的关注。

picture.image

在HRW照片中使用近距离检测器检测物体并不有效，这是因为HRW照片具有一些独特的特性，如PANDA 和DOTA 所发现，与MS COCO等近距离照片相比。最显著的挑战是HRW照片中的信息Sparse，物体通常只占据图像的不到5%。这使得检测器难以从背景噪声中提取关键特征，导致在训练和测试过程中背景中出现误报，物体区域中出现漏检。第二个挑战是HRW照片中物体的尺度变化，变化幅度可达100倍。依赖于感受野和 Anchor 点固定设置的检测器无法适应这些极端尺度，如图1所示。例如，YOLOv8 在检测小物体方面表现不佳。虽然DINO 有所改进，但它仍然难以适应这种夸张的尺度变化，导致对大物体的检测效果不佳（图2）。此外，典型的两阶段下采样方案 [5, 10, 21, 34] 未能检测到更多的小物体。

picture.image

切片策略[1]在使用NMS合并预测框时可能导致框不完整，如图5所示。因此，弥合近距离和HRW镜头中目标检测之间的差距至关重要。

picture.image

受近期提高目标检测精度的先进技术[33, 36, 42, 45, 46, 53]的启发，作者提出了一种针对HRW镜头的新型检测器，称为SparseFormer。SparseFormer通过选择性使用注意力 Token 来关注图像中物体Sparse分布的区域，从而促进细粒度特征的提取。为实现这一目标，它学习了一个ScoreNet来评估区域的重要性。通过检查所有区域的重要性得分的方差，SparseFormer优先考虑能够捕捉丰富细粒度细节的区域。因此，它可以专注于复杂的图像区域，而不是不那么重要的区域（例如，背景中的平滑内容）。同时，它将每个HRW镜头划分为非重叠窗口以提取粗粒度特征。与原始Vision Transformer[8]的接受场策略有相似精神，作者提出的SparseFormer结合了粗粒度和细粒度特征，比Swin Transformer实现了更高的效率。这极大地有助于处理大规模变化并准确检测大物体和小物体。

作者进一步提出了两种创新技术来提高对大规模变化检测的准确性。首先，作者观察到传统的非极大值抑制（NMS）仅参考置信度分数来合并检测结果，导致 oversized 目标的边界框不完整。

为了解决这个问题，作者提出了一种新颖的跨切片NMS方案（C-NMS），该方案优先考虑置信度高的较大边界框。所提出的C-NMS方案显著提高了 oversized 目标的检测准确性。其次，作者采用多尺度策略来提取粗粒度和细粒度特征。多尺度策略扩大了感受野，提高了对大目标和小目标的检测准确性。

总之，本工作的主要贡献如下：

• 作者提出了一种基于Sparse视觉Transformer的新型检测器，用于处理HRW图像中的大规模变化。
• 作者进一步采用跨窗口NMS和多尺度方案来提升对大、小目标的检测效果。
• 作者在两个大规模HRWshot基准数据集PANDA和DOTA-v1.0上对方法进行了广泛验证。SparseFormer在性能上大幅超越了现有技术水平。

2 相关工作

近距离拍摄检测模型。大多数常见的目标检测数据集，如PASCAL VOC [9] 和 MS COCO [28]，收集了高分辨率且包含近距离拍摄的图像，这对目标检测的发展做出了重大贡献。基于检测Head，文献可以大致分为两类：单阶段检测器和双阶段检测器。双阶段目标检测的主要目标是准确性，它将检测过程描述为“由粗到精”的过程 [3, 12, 13, 18, 39]。另一方面，单阶段检测器在速度方面具有优势，例如YOLO [37]。后续工作尝试进行了改进，如增加 Anchor 点、改进架构和更丰富的训练技术 [11, 29, 38]。总之，当前的检测器在近距离拍摄中表现出极高的速度和准确性。

高分辨率宽视角检测模型。成像系统的引入导致了用于高分辨率宽视角（HRW）检测的新基准PANDA [49] 的开发。这个基准最近受到了广泛关注。以往关于吉像素级检测的研究主要集中在通过 Patch 选择或排列来实现更低延迟 [5, 10, 23, 24, 34]。然而，它们无法解决HRW检测中面临的独特挑战。一些工作在 Patch 上使用Sparse策略 [36]、自注意力头 [33] 和Transformer块 [33] 进行图像分类。PnP-DETR [46] 利用投票和池化采样器从 Backbone 网络中提取图像特征，并将Sparse Token 输入到注意力编码器。这种方法在目标检测、全景分割和图像识别方面显示出有效性。然而，对 Backbone 网络上的Sparse采样尚未得到充分研究。DGE [42] 是视觉Transformer的插件，但它不够灵活，无法扩展到基于ConvNet的模型或使用任意大小的图像作为输入。因此，如何设计一个灵活且模型无关的架构以用于HRW检测的目标检测问题仍然是一个未充分探索的领域。

Transformer Backbone。Transformer在自然语言处理（NLP）领域取得了成功，其在视觉任务上的潜力也引起了广泛关注。其中一个例子是视觉Transformer（ViT）[8]，它使用纯Transformer模型进行图像分类，并显示出有希望的结果。然而，ViT处理高分辨率图像的计算成本不切实际。已经尝试了多种方法来降低ViT模型成本，包括基于窗口的注意力[30]、自注意力中的下采样[47, 50]和低秩投影注意力[52]。其他工作则使用Sparse策略在图像块[36]、自注意力头[33]和Transformer块[33]上进行图像分类。不幸的是，这些方法在检测高分辨率宽视角中的目标时，准确性显著下降。

3 提出方法

picture.image

作者通过提出Sparse视觉Transformer来解决HRW检测的独特挑战。该模型能够有效地从Sparse信息中提取有价值特征，同时扩大感受野以处理大规模变化。为了解决交切片区域中不完整的大物体问题，作者对传统的非极大值抑制（NMS）进行了修改。此外，作者引入了基于HRW的增强方法，用于训练和推理阶段，以提高大物体和小物体的检测精度。流程图如图3所示。

3.1 SparseFormer概述

理想的视觉模型应能够利用有限的计算从Sparse数据中提取有意义的信息，就像作者的眼睛倾向于关注有价值区域而不是不重要背景信息一样。为了实现这一点，作者设计了一种名为SparseFormer的新型Sparse视觉Transformer。它能够动态选择关键区域，并启用动态感受野以覆盖各种尺度的目标。SparseFormer的整体框架如图4所示。

picture.image

受Swin Transformer的启发，作者将输入图像分割成非重叠的块以生成 Token 。SparseFormer由四个阶段组成，它们协同工作以产生自适应表示。每个阶段都以一个块合并层开始，该层将每个2×2相邻块组的特征连接起来。然后，使用线性层将这些连接的特征投影到其维度的一半。

SparseFormer的每个阶段都围绕设计用于捕捉不同尺度上的长程和短程交互的注意力块展开。为了实现这一点，作者结合了标准自注意力Transformer块和Swin Transformer块的优势。因此，作者开发了两种不同类型的Sparse风格块。一种用于在粗粒度上捕捉长程交互，而另一种则专注于在更精细的尺度上捕捉短程交互。

为了便于这种方法的实现，作者引入了窗口的概念，将每个特征图划分为等间距的窗口。每个窗口内的操作被认为是“局部”的，而涵盖所有窗口的操作则是“全局”的。作者更详细地概述了全局和局部注意力块。作者使用标准的多头自注意力（MSA）[43]和聚合特征的多层感知器（MLP）模块，或仅使用卷积层来构建全局块，具体细节见第3.2节。作者通过在Swin Transformer [30]块前后添加Sparse化和逆Sparse化步骤来构建局部块，如第3.3节所述。与先前的工作[46, 55]不同，作者并没有为全局和局部注意力构建独立的分支。相反，局部注意力被放置在全局注意力之后，以获得更多细节，而不是不同的特征。当一个阶段有多个块时，全局注意力块（G）和局部注意力块（L）的顺序遵循“GGLL”的模式。

3.2 全局注意力机制在聚合特征上的应用

特征聚合 。全局注意力旨在通过长距离交互捕捉粗粒度特征。因此，作者通过在每个窗口中Sparse化特征来生成低分辨率信息。如图4所示，作者以全局注意力模块作为每个阶段的开始。该模块的主要功能是聚合每个窗口的特征。

为了实现这一点，作者将输入特征图划分为大小为的窗口，并确保它们不重叠。每个窗口的左上角位置由给出，窗口内的每个 Token 都有一个相对位置。然后，作者使用以下公式计算聚合特征：

在此，和，其中是每个 Token 的权重。在本文中，作者通过设置来对所有 Token 赋予相同的权重。使用上述公式对特征进行聚合后，作者得到聚合特征，该特征可以进一步用于注意力机制。

窗口级全局注意力 。特征聚合是一种通过将 Token 数量减少到倍的技术，相当于分辨率下采样倍。这种 Token 数量的减少使作者能够在不进行昂贵计算的情况下使用全局注意力交互。使用聚合后的特征，连续的全局块的计算方法如下：

表示第个全局块的输出特征。

逆聚合特征 。聚合特征包含有助于不同图像区域之间全局内容依赖交互的抽象信息。然而，它们的分辨率与输入特征图不同。因此，作者使用方程（1）的逆函数将窗口级特征转换回 Token 级，具体如下：

此处，和，其中和分别代表输入和输出特征图上的位置。此外，代表相对于的相对位置。作者将视为输出特征图上每个窗口的左上角，窗口的划分方式与特征聚合过程相同。

此步骤从连续的全局块中提取输出特征图。然后，作者使用方程（3）对其进行逆变换，并将得到的特征图表示为。值得注意的是，最终的全局特征与输入特征图具有相同的分辨率。尽管聚合特征具有较低的分辨率，但全局注意力操作可以在额外计算很少的情况下提供更多非局部信息。

3.3 Sparse窗口上的局部注意力

基于方差评分。请注意，每个窗口的粗粒度特征可以实现高效率。然而，作者仍然需要细粒度特征来提取目标细节，以准确检测目标。因此，作者根据其低信息含量丢弃某些窗口以减少计算。作者的目标是识别需要进一步局部关注的窗口，因为这些窗口 Level 的特征无法代表其内部 Token Level 的特征。

作者从维度为的初始特征图开始，在应用全局和局部注意力之前。然后，作者使用公式（1）从中获取聚合特征，并通过公式（3）应用逆Sparse化函数，生成与具有相同分辨率的中间特征图。接下来，作者计算和之间的残差，并将每个窗口的特征连接起来，以获得尺寸为的 Token ，其大小为。作者使用 MLP 构建一个 ScoreNet，根据每个残差生成分数。

MLP将每个窗口的维特征投影到1维，SoftMax操作计算每个窗口的得分。得分越高表示方差越大，意味着高方差窗口需要细粒度关注。换句话说，作者在局部注意力过程中丢弃得分较低的窗口。一旦作者对窗口进行排序，作者可以选择其中的一部分来生成更细粒度的特征。在此操作之前，作者使用全局特征更新特征图。

窗口Sparse化。作者首先分析全局注意力和基于方差的评分，以获得每个窗口的初始特征和评分。接下来，作者将分成与 ScoreNet 相同大小的窗口，即。作者将这些窗口表示为一个矩阵，其中是窗口的总数，即，。

为了确定保留哪些窗口，作者定义一个超参数来表示保留比率。作者维护一个二进制决策 Mask 向量，根据和评分来指示是否丢弃或保留每个窗口。的值将取决于具体任务，并可按需调整。Sparse矩阵收集向量的单热编码，其中是保留窗口的数量，即。使用这个Sparse矩阵，作者计算Sparse窗口的特征如下：

输出特征然后被用作局部注意力的输入。

基于平移窗口的注意力。作者利用了首次在Swin Transformer中提出的基于平移窗口的注意力模块。连续的局部块可以表示为：

表示局部块的输出特征。该层可以是自注意力或卷积模块。为了融合局部注意力的输出和输入特征，作者使用以下方法：

在此，通过局部注意力进行更新，而是 SparseFormer 每个阶段的输出。最后，作者将转换回的原始维度空间，以获得最终的特征图，记为。基于方差评分的窗口注意力可以以轻量级的形式提取更多局部信息，从而提高小物体的检测性能，同时节省背景的计算。

端到端优化。由于作者仅使用输出结果对窗口进行排序，无法进行梯度反向传播，因此优化ScoreNet具有挑战性。为了克服这一问题，作者实现了Gumbel-Softmax技巧，以放松采样过程，使其可微分。该技巧通过重新参数化，在软值和二值化值之间提供了一个梯度反向传播的桥梁。因此，作者将公式（5）重新写为：

在此，表示SoftMax函数的输出，它表示窗口的得分。

3.4 跨切片非极大值抑制

在HRW射击处理中，切片策略为每个切片生成候选框，这些候选框随后必须合并成一个互不冲突的框集。然而，使用非极大值抑制（NMS）来选择得分最高的框可能导致在目标位于多个切片的边缘区域时出现不完整的框（更详细的解释和可视化表示，请参阅图5）。为了解决这个问题，作者提出了一种跨切片非极大值抑制方法。

抑制（C-NMS）策略，如图1所示，该策略优先考虑多个切片中面积最大的框，而不仅仅是最高分数的框。C-NMS算法包括两个阶段：局部抑制阶段和跨切片抑制阶段。

3.5 多尺度训练与推理

由于内存限制，无法在原始尺寸下训练和测试超高分辨率数据集。因此，作者在训练和测试阶段都采用了切片策略。为了更好地利用多尺度信息，作者使用高分辨率图像，并利用切片策略将它们分割成不同大小的块。所有切片都被缩放到相同的大小，从而使得目标检测器能够进行有效的训练和推理。作者将图像分别划分为、、和的网格，并移除无目标的切片。这种方法使作者能够分析和理解这些图像的复杂特征，最终提高检测器的整体准确性和有效性。

在推理阶段，作者使用两种大小的切片窗口：原始大小和高度和宽度各为四分之一的大小。作者并非简单地将两个窗口合并，而是为两种类型的窗口设置了不同的感受野，并设定了一个阈值。基于第一个窗口，作者移除预测框中大于的部分。作者只保留第二个窗口中大于的框。这遵循了特定尺度设计的理念[40, 41]，即作者应该安排每个窗口以覆盖适当的尺度以提高性能。使用这项技术，作者可以快速准确地处理高分辨率图像。

4 实验

4.1 效果评估

数据集。作者的评估基于两个包含HRW射击的公开基准数据集，PANDA [49] 和 DOTA-v1.0 [51]。PANDA 是第一个以人为中心的吉兆像素级数据集。它包含18个场景，标注了超过15,974.6k个边界框。具体来说，有13个场景用于训练，5个场景用于测试。DOTA 是一个大规模数据集，用于评估空中图像中的定向目标检测，图像尺寸高达。它包含2,806张图像和188,282个带有定向边界框标注的实例，覆盖了15个目标类别。

评估指标。作者报告了FLOPs和标准COCO指标，包括，（），（）和（）。对于定量效率评估，作者使用每个检测器处理数据集中窗口的平均FLOPs。此外，作者分别计算前景和背景的FLOPs，以展示SparseFormer在减少背景计算上的效率。

实现细节。作者使用MMDe.tection [4]实现检测器。为确保公平比较，作者在四个不同的 Backbone 网络上评估这两个检测器，包括Swin、DEG以及作者自己的专有设计，所有配置均使用相同数量的超参数（例如，深度、嵌入维度、多头数量）。所有模型均从头开始训练36个epoch，与[17]中的观察结果一致。

PANDA上的结果。作者将SparseFormer与不同保持率与当前最先进的方法在首个吉比特级数据集PANDA上进行比较，该数据集不仅具有宽视场（FoV）的挑战，还具有超高分辨率。结果如表1所示。

picture.image

首先，作者构建了两个 Baseline 模型，一个基于ATSS框架并采用动态头块，其GFLOPs为114.80，另一个基于DINO，其GFLOPs为132.84。然后，作者将 Backbone 网络修改为SparseFormer以进行进一步实验。请注意，保持比例指的是基于前一阶段的保留token比例，因此每个阶段基于token总数的比例为。作者可以观察到，SparseFormer在AP上比SotAs提高了超过5%，同时仅使用75.71 GFLOPs，相比Swin-T减少了43%，相比PAN减少了63%。

最值得注意的是，减少的FLOPs主要来自背景区域，这也是作者能够显著减少计算量但保持高性能的原因。另外，GigaDet和PAN是通过优化过程来加速检测器。与这些方法不同，作者的工作并没有规定一个特定的流程。相反，作者提出了一种模型无关的策略，该策略可以无缝集成到现有的流程中。

DOTA结果。作者选择了同时包含HRW拍摄的航空图像来验证泛化能力。比较的方法包括：Faster RCNN-O 、ICN 、RoI-Transformer 、CADNet、DRN、CenterMap、SCRDet、、-Net、CFA、CSL、ReDet、Or-RepPoints。RoI-Transformer被用作比较的 Baseline 检测器，作者设置。

picture.image

在表3中，SparseFormer将mAP从提升到，并将296.74 GFLOPs减少到174.31 GFLOPs。与SotA Transformer-based方法-RepPoints相比，作者实现了的AP提升，并减少了的GFLOPs。与计算量相似的-Net方法相比，作者将其AP超越了。这表明在准确性和效率方面有显著提升。DOTA数据集提出了严峻的挑战，但SparseFormer以显著更少的FLOPs实现了当前SotAs的精度。这不仅验证了SparseFormer设计意图背后的减少计算需求，也展示了其在各种任务和领域中的泛化能力。

4.2 消融研究

组件有效性。作者研究了全局块、C-NMS、多尺度训练（MS Train）和多尺度推理（MS Inference）的有效性。在PANDA数据集上，以进行评估。如表2所示，所有组件都能显著提升性能，同时增加的额外成本也表明，作者的策略对于高分辨率宽视角（HRW）图像中的目标检测是有益的。

picture.image

保持比例。作者的策略包括丢弃被认为不重要的网格。作者研究了网格保持比例对最终性能的影响。表4展示了作者的研究结果，其中每个阶段的保持比例表示为。随着特征变得更加Sparse，作者观察到FLOPs显著减少，但准确度的下降不显著。

picture.image

对ScoreNet的影响。作者研究了不同残差值后处理对ScoreNet（在3.3节中介绍）的影响。和分别表示原始特征和聚合特征，在方程（4）中它们是相同的。从最后三行可以看出，基于残差的一些变体在误差范围内有良好的性能，因此作者考虑使用更少的计算，并且不对它们进行任何冗余处理。与直接使用窗口中所有特征的相比，平均特征可以取得更好的结果。作者认为这是因为ScoreNet是一个简单的MLP，它不能很好地利用复杂的特征，而更容易根据颜色（蓝色代表天空，绿色代表眼镜）和其他模式进行分类。

4.3 边缘设备比较

HRW图像通常由边缘设备如无人机捕获。无人机检测器通常无法在大型计算设备上运行，而是运行在低功耗的边缘设备上。由于在边缘设备上通常难以量化FLOPs，作者使用NVIDIA AGX Orin（最大功率60W）来评估每个检测器在PANDA的千兆像素级图像上的平均推理时间，结果如表6所示。

picture.image

值得注意的是，与先前方法相比，SparseFormer可以大幅减少推理时间。SparseFormer比PAN快3倍，AP提高了5.8%。由于 Head 结构的复杂性，作者可以看到dynamichead的推理速度并不理想。相反，DINO比先前工作显示了有希望的FPS，速度提升更为明显。与竞争方法DEG相比，SparseFormer在更快的速度下实现了更好的性能。

4.4 针对模型的无关性研究

值得注意的是，作者的策略是模型无关的，能够与ConvNet或Transformer架构无缝集成。这种灵活性导致了SparseNet和SparseFormer的诞生。在先前提到的SparseFormer的基础上，作者进行了创新，将每个自注意力模块替换为卷积层。如表1和表3所示，SparseNet的表现不仅与著名的ResNet相当，而且更具竞争力。

特别值得一提的是，SparseNet将GFLOPs减少了高达56%，同时与CSL相比提高了准确率，在DOTA数据集上实现了最低的GFLOPs，这突显了它在复杂计算任务中的高效性和有效性。

4.5 Sparse窗口的可视化

为了更好地理解窗口Sparse化的工作原理，作者在图7中可视化了每个阶段的选定窗口。红色区域代表得分较高的区域，而蓝色区域代表得分较低的区域。SparseFormer将对得分较高的区域进行细粒度特征提取。这一插图突出了在背景区域和低熵前景上减少计算的优势。此外，结果验证了方法的有效性。PANDA和DOTA数据集关注不同的目标目标，它们共同的特点是包含大规模的背景区域，这使得Sparse化方法特别相关。作者相信，这种方法不仅将有助于HRW镜头中的目标检测，还将有助于各种其他视觉任务。

picture.image

5 结论

作者引入了SparseFormer，这是一种基于Sparse视觉Transformer的检测器，专为HRW镜头设计。它利用选择性 Token 利用来提取细粒度特征，并聚合窗口内的特征以提取粗粒度特征。细粒度和粗粒度的结合有效地利用了HRW镜头的Sparse性，便于处理极端尺度变化。作者的Crossslice NMS方案和多尺度策略有助于检测超大和超小物体。

在PANDA和DOTA-v1.0基准上的实验表明，与现有方法相比，SparseFormer在HRW镜头目标检测方面取得了显著的改进，推动了该领域的最先进性能。

参考

[1]. SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image