武大提出 Point Teacher，两阶段去噪，让小物体点标注检测更可靠！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

细小物体由于其有限的空间分辨率，往往呈现出点状分布的特点。因此，使用点级监督进行边界框预测自然且成本效益高，成为传统框级监督的一种替代方案。

然而，细小物体的小尺寸和缺乏特征使得点标注容易受到噪声的影响，对模型的鲁棒性构成了重大挑战。

为应对这些挑战，作者提出了一种端到端的点级监督方法——Point Teacher，首次用于解决航空图像中细小目标检测的鲁棒性问题。

为处理点标注因尺度模糊和位置偏移带来的标签噪声，Point Teacher 使用了教师-学生架构，并通过两阶段去噪过程分离学习。

在此框架中，教师网络逐步去噪从噪声点标注中派生出的伪框，指导学生网络的学习。

具体而言，在第一阶段，随机遮掩图像区域有助于回归学习，使教师能够将噪声点标注转化为粗略的伪框；

在第二阶段，通过动态多重实例学习进一步细化这些粗略的伪框，该方法会在粗略伪框周围动态构建建议袋，并从中选择最可靠的实例。

在三个细小物体数据集（即AI-TOD-v2、SODA-A 和 TinyPerson）上进行的广泛实验验证了所提出方法的有效性和鲁棒性，尤其是在对抗点位置偏移方面。

值得注意的是，仅仅依靠点监督，作者的Point Teacher 已经表现出与框级监督方法相当的性能。

1.1 Introduction

尽管近期在微小目标检测方面取得了显著进展，现代微小目标检测器的成功很大程度上依赖于大规模高质量标注数据，如TinyPerson 、AI-TOD 和SODA 。然而，获取高质量标注数据对于微小目标尤其具有挑战性，这些目标的特点是像素数量较少且缺乏区分特征，这大大增加了框标注的成本和难度。此外，微小目标极低的像素足迹导致形状和特征信息高度稀疏，使得它们类似于点分布。

这自然引出了一个有趣的问题：作者能否简化框标注为点标注以监督微小目标检测？虽然这个问题先前曾针对通用目标进行探索，但对于微小目标检测而言仍然是一项重大挑战，原因在于其独特的尺寸小和边界模糊问题。具体来说，现有的基于点监督的目标检测（PsOD）

方法通常会对点的位置施加强烈的前提假设，例如中心点、中心区域、高斯区域或 Mask 区域假设。尽管这些前提假设在通用场景下有利于优化模型，但对于小目标而言却不再适用，导致性能急剧下降（图1(a)）。这种性能下降主要归因于小目标点标注的噪声分布：极为有限的尺度和模糊的边界不仅使得确保点标注准确落在目标主体上变得极具挑战性，还让模型特别容易受到位置噪声的影响（图1(b)）。

picture.image

为了弥合嘈杂点标注带来的挑战与精确小目标检测需求之间的差距，作者引入了Point Teacher（图1(c)）——一种在基于去噪训练方法下的鲁棒性对位置噪声进行处理的点监督方法。在之前的点到框训练中，缺乏尺度信息和嘈杂的点标注显著降低了生成伪框的质量，严重影响了用于框预测的监督信号的有效性。

Point Teacher 通过将针对小物体的PsOD任务转化为两阶段的框生成和去噪过程来应对这一挑战：

第一阶段将嘈杂的点标注转换为粗略的框预测，第二阶段则通过学习去噪边界框逐步提升框质量。作者将这两个阶段分别命名为空间感知框生成和噪声感知标签演化。尽管每个阶段不同，但整个模型依然以端到端的方式进行训练。值得注意的是，与依赖辅助知识（例如合成目标或使用SAM基模）来生成点到框的方法不同，作者的方法通过自监督学习策略直接使网络推理出小物体的粗略尺度，从而避免使用辅助知识。

在具体的时空感知框生成阶段，作者随机 Mask 图像的一部分，并要求网络预测被 Mask 区域的尺度和位置，赋予网络初步的空间 Aware （即边界框回归能力）。

随后，在后续的噪声感知标签演化阶段，作者引入了一个动态多实例学习（DMIL）模块，以精炼由教师网络生成的噪声伪边界框，为学生网络提供更清洁的监督。与之前的MIL模块相比，作者的DMIL能够动态扩展目标袋，并在袋内校正每个 Proposal 的位置。这种位置调整增强了袋子生成的可靠性，即使点标注噪声较大也是如此。此外，作者提出了一种简单而有效的鲁棒回归损失——抖动IoU损失（Jittering IoU Loss），用于减轻对噪声伪边界框的过拟合现象。抖动IoU损失通过对回归目标施加可控的小扰动，鼓励模型从多个附近的靶标位置中学习。这使得模型能够更好地捕捉整体目标分布，避免过分依赖特定的噪声边界框。

作者的点教师可以无缝集成到各种检测架构中，支持横向边界框（HBB）和定向边界框（OBB）任务。在小型物体数据集（即AI-TOD-v2、TinyPerson和SODA-A）上进行的全面实验表明了所提出方法的稳健性和有效性。

本文的主要贡献包括三个方面：

作者提出了点教师(Point Teacher)，这是一种端到端的点监督框架，专门用于解决在嘈杂点标注下实现精确检测的挑战。
作者的点教师将学习过程拆分为两阶段去噪学习范式，包括空间感知盒生成阶段和噪声感知标签演化阶段，以确保在嘈杂点监督下的鲁棒性能。
作者证明，作者的点教师具有很高的普适性，可以应用于现成的目标检测器，并支持横轴边界框(HBB)和定向边界框(OBB)任务，在基于中心的点标注和嘈杂点标注下的点基小目标数据集上取得了最先进的成果。
Related Work

2.1. Tiny Object Detection

极低的像素数量使得小型目标检测面临巨大挑战，导致针对这一问题的专业研究激增。简而言之，作者可以将专门设计用于小型目标检测的方法区分为如下几类。

(a) 多尺度图像和特征表示。在图像层面，技术如SNIP 和SNIPer 通过在特定范围内标准化物体尺度来实现尺度不变检测。在特征层面，特征金字塔网络已成为多尺度检测策略的基础，随着PANet（Liu等人，2018）、递归FPN、BiFPN、TridentNet（Li等人，2019）和去噪FPN 等方法的发展，这些技术得到了进一步完善。近期，王等人（Wang等人，2024）、肖等人和彭等人（Peng等人，2024）提出了新的特征融合策略，通过有效结合全局和局部特征，提高了对微小物体的表示能力。

(b) 超分辨率。除了多尺度技术外，基于超分辨率的方法也成为了提升特征表示的有效手段，通过高效重构高分辨率特征来弥补有限像素信息的不足。这些方法利用生成模型的进步和图像增强技术，放大了细微细节，从而提高了对微小目标检测的准确性。

(c) 学习策略。最近的研究还揭示了细粒度目标检测（TOD）中的学习策略的新见解。值得注意的是，鉴于Intersection over Union（IoU）对框偏移的敏感性，一些工作引入了新的评估指标以获得更准确的任务分配。此外，更加最新的方法（例如RFLA）开发了尺度平衡的任务分配策略，为微小物体提供了更有效的监督。

以往的研究在假设拥有完全标注训练集的情况下，在微小目标检测方面取得了显著进展。然而，在现实世界中，获取完全标注的数据集代价高昂。本项工作则致力于在点监督条件下实现稳健且高效的 aprending。

2.2. Point-supervised Object Detection

使用点标注进行训练因其较低的标注成本而受到了广泛关注。为了仅通过点监督来实现边界框预测，广泛采用的方法是两步点到框的转换。第一步是训练一个模型从点标注生成伪边界框，第二步则是利用生成的伪边界框来训练目标检测器。根据生成伪边界框的方式，现有的方法可以分为以下几类（见图2）。

picture.image

(a) 基于MIL的方法。基于MIL的方法通常首先训练一个MIL模型生成伪框，然后使用这些伪框来训练检测器。Papadopoulos等人提出了一种中心点击标注方法，用以替代框标注，利用MIL改进定位过程。UFO2（Ren等人，2020）引入了一个统一的弱监督检测框架，利用MIL从标签、点、素描或框等多种类型的标注中学习并定位目标。Omni-DETR（Wang等人，2022）在UFO2的基础上支持更多形式的混合标注，从而提高了检测准确性。

然而，这些多实例学习（MIL）方法基于旅行商路径问题（OTSP）方法，并未专门针对点监督任务进行设计。P2BNet首次提出了一种针对点监督改进的MIL框架，显著提高了伪框生成的质量。PointOBB在此基础上引入了一种自监督损失来学习角度和尺度信息，并将其应用于定向目标检测。张等人将这些方法扩展到稀疏点标注设置中，大幅降低了标注成本。

（b）基于CPM的方法。基于CPM的方法训练一个分类头以生成类别概率图（CPM），随后使用该CPM生成用于训练检测器的伪框。PLUG（何等人，2024）通过引入点- Mask -框框架细化了点到框的过程，在此框架中，CPM被用来生成有助于生成伪框的 Mask 。PointOBB-v2 进一步优化了这一过程，通过提出非均匀正负样本策略来训练CPM，从而实现更准确的 Mask 生成。

（c）基于辅助信息的方法。基于辅助信息的方法分为两类，根据辅助知识来源的不同可分为合成法和SAM法。合成法人工合成物体或模式作为端到端训练的伪标签，而SAM法则利用分割一切皆有可能模型（SAM）生成的 Mask 来优化检测过程。Point2Rbox 作为一种合成法，引入了合成知识并构建了合成目标以学习回归能力，使端到端的定向目标检测成为可能。P2RBox 和PMHO 采用了点- Mask -框范式，并整合了SAM模型，从而显著提升了网络性能。

尽管这些方法已经推进了点监督目标检测的发展，但它们主要假设点的位置位于中心或中心区域内部。对于具有极少像素占用的小目标而言，这种假设过于严格，因为即使位置发生微小偏移也会导致显著的准确性下降，这是因为小目标对位置的高度敏感性。

此外，上述方法采用的是两阶段、非端到端的范式，通常需要更多的时间来实现点到框的检测训练过程。因此，在本文中，作者关注点位置对网络性能的影响，并提出了一种鲁棒的端到端去噪为基础的点监督目标检测方法——Point Teacher。

3.1 Methodology

3.1. Overall Framework

本文提出了一种端到端点监督小目标检测器。与之前两阶段方法不同，这些方法首先训练一个伪框生成器，然后再训练一个检测器，作者提出了一种基于去噪的端到端方法，该方法包括空间感知盒生成阶段和噪声感知标签演化阶段，如图3所示。这两个阶段被集成到一个统一的Pipeline中，实现了从点标注直接优化到最终检测输出的过程。

在空间感知盒生成阶段，网络被训练以发展空间 Aware 并学习从点到粗略伪框的映射。在随后的噪声感知标签演化阶段，网络进行去噪学习，以细化粗略的伪框为精确的伪框。此外，由于标注的点提供了类别信息和粗略的位置 Prompt ，在整个过程中进行目标分类。总体损失函数可以总结为：

picture.image

其中，表示来自检测Head的分类损失。和分别表示空间感知框生成阶段和噪声感知标签演化阶段的损失。在推理过程中，仅使用检测器。

此外，由于Point Teacher对方向不敏感，因此它适用于水平边界框（HBB）和有方向边界框（OBB）检测任务。在本节的最后一部分中，作者将演示如何在HBB检测器上部署该方法。对于OBB检测器，唯一需要调整的是引入角度参数。

3.2. Spatial-aware Box Generation

基于点的标注缺乏目标的尺度和精确位置信息，使得仅从点监督回归边界框变得不切实际。受DINOv2自监督学习鲁棒视觉特征方法的启发，该方法通过随机遮掩图像片段以确保特征一致性（Oquab等，2023），作者为此任务适应了这种策略，帮助网络发展空间 Aware 。具体来说，作者随机遮掩图像中的某些区域：对于HBB任务，遮掩区域表示为；而对于OBB任务，则表示为。回归头的任务是预测被遮掩区域的尺度和位置。此项任务的监督由损失项提供，该损失项用于计算每个被遮掩的区域。

其中，表示网络的预测结果，对于HBB任务，表示；对于OBB任务，表示。术语表示回归损失，例如平滑L1损失或基于IoU的损失。在本文中，作者使用抖动IoU损失，相关内容将在下一节3.3中详细描述。

Mask区域回归通过利用回归驱动的指导机制增强了模型的空间 Aware 。然而，基于MIL的方法通过在粗略的伪框周围应用固定尺度的抖动来构建袋子，缺乏根据空间 Aware 动态调整袋子构建的灵活性（Wu等，2023）。为了应对这一局限性，作者引入了一个动态多实例学习（DMIL）模块。如图4所示，DMIL包括四个关键过程：袋子构建、袋子扩展、袋子分类器和实例选择。

作者的DMIL强调扩展构建的袋子，并引入了回归分支以细化建议框，从而提高空间 Aware 并生成更准确的伪框。为了清晰起见，作者使用HBB任务为例来说明DMIL框架。当扩展到OBB任务时，只需将角度参数纳入所有边界框，并将RoI提取器（Ren等，2017）替换为旋转RoI提取器（Ding等，2019）。

picture.image

由于所有袋中元素都采样自粗糙的伪框附近，它们可能不够准确。因此，在袋扩展阶段，作者扩展并细化这些袋，以确保能够采样出更精准的 Proposal 。对于袋和中的每个 Proposal ，作者执行邻域采样，将其扩展成一个扩充集和，其中表示在袋扩展过程中生成的新 Proposal 数量。然后，作者对和中的 Proposal 进行细化，以获得更准确的 Proposal 袋。

具体来说，使用 RoIAlign 和两个全连接层（fc 层），提取和中 Proposal 的特征，表示为和。回归器随后将 Proposal 袋和特征作为输入，并输出细化后的袋和。请注意，在此阶段（即空间感知框生成阶段），作者掌握着被遮掩区域的可靠定位信息，因此可以利用这些信息监督回归器的训练。由于同一个袋中的监督信号一致，作者将复制次，得到。相应的损失表示为：

在构建并扩展了集合之后，为DMIL配备从每个集合中选择高质量 Proposal 的能力是至关重要的。因此，在集合分类器阶段，作者专注于训练DMIL的分类器和实例选择器。

值得注意的是，由于没有类别信息，作者未对应用集合分类器和实例选择操作。作者通过RoIAlign和两个全连接层（不与回归器的全连接层共享权重）处理生成特征。随后，作者使用分类分支作用于，得到，然后通过对分类维度应用sigmoid函数获得分数，其中表示类别的数量。

与此同时，作者使用实例分支作用于，得到，并通过在个 Proposal 上应用softmax函数获得。在训练过程中，每个 Proposal 的分数计算为和的Hadamard乘积。随后，将袋内所有 Proposal 的分数相加，以获得每个袋的最终分数。

其中，表示在索引处的元素值。在分类维度上，的每个位置应用了 Sigmoid 激活函数；而在 Proposal 维度上，的每个位置应用了 Softmax 激活函数。

DMIL 分类器和实例选择器的训练监督来自损失项，该损失项为每个袋子和负 Proposal 计算得到。需要注意的是，负 Proposal 不会形成袋子，因此它们只有分类分数而没有实例分数。损失项定义如下：

其中，，。术语代表分类损失。在本文中，作者使用Focal Loss（Lin等，2017c）。

在实例选择阶段，利用分类得分和实例得分来从每个袋子中选择出得分最高的前个 Proposal 作为伪框。具体来说，作者首先将和 Reshape 为和。然后，对于每个粗糙的伪框，作者筛选扩展袋子以选择最准确的前个 Proposal ，并将它们与粗糙的伪框融合生成精确的伪框。

表示加权融合系数，是一个介于 0 和 1 之间的超参数。

总结来说，空间感知框生成阶段的损失可以表述如下：

其中，和分别设置为 0.01 和 0.25。

3.3.Noise-aware Label Evolution

在空间 Aware 框生成阶段之后，网络实现了粗略的空间 Aware ，使得教师网络能够预测粗略的伪框。在噪声 Aware 标签演化阶段，作者进一步细化粗略的伪框并执行去噪训练。

遵循典型的教师-学生架构，作者使用教师网络生成的伪框来监督学生网络进行高质量的训练。然而，作者的方法在两个关键方面与之前的方案有所不同：

(1) 点匹配：与像Soft Teacher这样的方法不同，这些方法仅基于分类得分阈值（≥0.9）来确定伪框的位置，作者的方法还利用点标注的空间信息来更好地指导伪框的生成。

(2) 框细化：在PsOD任务中，教师网络生成的伪框较为粗糙且不适合直接监督学生网络。因此，作者利用DMIL和抖动IoU损失对这些伪框进行细化，以实现更精确的框生成并增强回归分支的鲁棒学习能力。需要注意的是，在之前的空间感知框生成阶段，作者仅训练DMIL以增强空间 Aware 而不细化伪框。而在本阶段，作者将进一步利用DMIL来细化伪框。

点匹配：与仅使用分类得分来确定伪框不同，作者的方法得益于点标注粗略位置信息提供的指导。为了实现标注点与预测框的最佳匹配，作者提出了一种两阶段Top点匹配方法。具体来说，作者首先根据候选框与标注点的距离筛选出Top个候选框。接着，从这个候选框中，使用成本矩阵选择Top个 Box ，这有助于合并和生成伪框。成本矩阵由两大组成部分构成：分类成本和空间成本。

其中是标注点的索引，而是预测框的索引。和分别代表标注点及其类别。和表示属于标注点的分类得分和预测框。项表示当标注点位于预测框内时成本为0；否则，成本为1。

最后，作者基于分类分数进行框融合，生成粗略的伪框。融合公式如下：

箱精炼：在获得粗糙的伪框后，标注点的随机性会导致伪框存在潜在的偏移和尺度变化。为了给学生网络提供高质量的伪框，作者首先进行袋构造和袋扩展操作以生成候选 Proposal 和 Proposal 分数。接着这些信息被传递到袋分类器和实例选择阶段，在这里会选择Top最准确的 Proposal 来生成精炼后的伪框。融合方法如下：

在训练过程中，作者使用生成的伪框来监督检测Head和DMIL的回归分支。此外，DMIL中的分类器保持不变。整体损失函数为：

为了进一步增强网络的鲁棒性并提高其对噪声伪框的抵抗能力，作者提出了一种简单的有效辅助回归损失——抖动IoU损失。该损失促使模型在不同的但近邻的目标位置上学习，使其更好地捕捉整体的目标分布，并避免过度拟合特定的噪声伪框（Li, 2024）。具体而言，在处理HBB任务时，给定一个预测框和一个回归目标，作者首先按一定比例扩展和缩小，生成扰动版本。

对于OBB任务，作者保持角度参数不变，只扰动参数。最终的回归损失由基本损失和从扰动目标导出的最小损失组成。

3.4. Detector Integration

作者的方法具有通用性，并不限制于特定的目标检测器。然而，由于点标注中缺乏尺度信息，像FPN（Lin等人，2017b）和现有检测器（如FCOS，Tian等人，2019；Faster R-CNN，Ren等人，2017）中的尺度感知组件无法直接使用。为解决这一问题，作者在方法中替换了FPN和Label Assignment，采用了提出的Top-down FPN聚合和尺度不变的Label Assignment。

自顶向下 FPN 聚合：FPN 的每一层都有具有不同感受野的特征点（Gong 等人，2021 年），通常用于从低层到高层检测不同大小的目标，范围从到层。对于非常小的目标，特征主要分配给层。为了在避免尺度混淆的同时仍然结合高层次语义信息，作者提出了一种简单而有效的自顶向下的 FPN 聚合策略。具体而言，作者使用卷积（Conv）和上采样（Up）操作将来自至层的特征聚合到一个输出层，如下图所示：

尺度不变的标签分配：现有的标签分配算法严重依赖于准确的尺度信息。例如，FCOS 在 Box 的中心区域内分配正样本，而 Faster R-CNN 当 Anchor 点和 Box 的 IoU 超过 0.5 时指定正样本。但是，在没有 gt Box 的情况下，这些分配策略无法适用。因此，作者提出了一种一对一的尺度不变的标签分配策略。具体来说，作者利用由 DMIL 生成的伪 Box 的中心点，并基于这些中心点的 L1 距离选择最近的特征点作为正样本。

Experiments

4.1. Experimental Settings

点标注数据集。作者对方法在AI-TOD（Xu等人，2022a）数据集上进行了全面评估，这是一个以具有挑战性的微小目标检测场景而著称的数据集，平均物体大小为12.7像素。此外，作者还使用TinyPerson（Yu等人，2020）和SODA（Cheng等人，2023）数据集验证了方法在小型航空目标检测场景中的有效性。基于这些数据集，作者提出了一种生成点标注的方法。

点的位置定义在一个范围为的区域中，该区域与区域相关，并且m的取值从到变化。具体地，令和分别代表HBB任务和OBB任务中的一个物体。作者模拟了一个标注点，如下所示：

其中，和遵循均匀分布。当时，该点位于的中心；而时，则允许该点在内任意位置。值得注意的是，为了验证 Point Teacher 的鲁棒性，作者在不同条件下对 AI-TOD 和 SODA-A 进行了主要实验，条件范围从到。特别地，作者进行了消融研究，范围从开始，以消除每个组件的影响。

实现细节。作者的实现基于MMDetection（Chen等，2019）和MMRotate（Zhou等，2022）工具包，构建于PyTorch（Paszke等，2019）深度学习框架之上。作者采用ImageNet（Russakovsky等，2015）预训练模型作为 Backbone 网络。使用随机梯度下降（SGD）优化器进行12个周期的训练，动量设置为0.9，权重衰减为0.0001，批量大小为2。初始学习率设置为0.005，并在第8和第11个周期后减少。区域建议网络（RPN）生成至多3000个建议框。

在推理过程中，作者通过置信度阈值0.05筛选背景框，并应用非最大抑制（NMS），IoU阈值设为0.5，选择前3000个边界框。其余所有参数与MMDetection和MMRotate中的默认值一致。鉴于基于IoU的指标对于小目标检测特别不利（Xu等，2022a），在点注解场景下，不是一个理想的评价标准。

因此，在本工作中，作者采用作为替代的评价指标。教师模型是学生模型的指数移动平均（EMA），EMA动量设置为默认值0.999（Xu等，2021b）。生成伪边界框的融合权重设置为0.25，抖动比例选择为0.2。在融合过程中，、、分别设置为5、3和1。空间感知边界框生成阶段在训练的前4000个迭代中发生，剩余迭代用于噪声感知标签演化阶段。

4.2. Main Results

作者将在AI-TOD∇·D·O （水平目标检测）和SODA-A （定向目标检测）数据集上，将作者的方法与当前最先进的（SOTA）方法进行对比。如表1所示，作者的方法在小目标检测任务中始终优于所有现有的SOTA算法。对于水平目标检测任务，作者将作者的方法与P2BNet 和PLUG（He等，2024）进行了对比。其中，P2BNet的表现仅为2.4%。这主要是因为P2BNet作为一个基于MIL的伪框生成器，仅仅依赖分类得分来过滤伪框，而小目标的弱特征使得分类得分不能准确反映伪框的质量。另一方面，PLUG作为一个基于CPM的伪框生成器，生成相对准确的伪框。然而，由于小目标边界不清且色彩特征不明显，PLUG中的分割损失难以有效收敛。相比之下，在空间感知框生成阶段获得粗略伪框之后，作者的方法利用了具有空间感知性的DMIL ISPRS期刊模块，从而生成更稳定和准确的伪框，从而在检测性能上提高了16.3%。对于定向目标检测任务，作者将作者的方法与PointOBB（Luo等，2024）、PointOBB-v2（Ren等，2024）和Point2Rbox（Yu等，2024）进行了比较。

虽然PointOBB仍然是一种基于MIL的方法，但由于SODA-A数据集中物体尺寸较大，分类得分问题得到了缓解，从而显著提高了准确性，达到37.8%。Point2Rbox作为一种辅助方法，也表现出很强的竞争性。然而，值得注意的是，小目标的不明确特征在合成目标和真实小目标之间造成了域差距，限制了其泛化能力。在训练过程中，网络容易过度拟合合成目标的特点，从而使回归分支恶化。与此相反，作者的方法通过利用DMIL生成的伪框进行监督，解决了这一问题，从而在性能上提高了11.1%。与HBB任务上的显著改进不同，Point Teacher在OBB任务上的表现相对较差。这主要是因为作者的方法从HBB直接转移到OBB，并未进行任何细化或专用设计以解决角度相关的问题。

picture.image

作者还在 TinyPerson（Yu 等人，2020）数据集上进行了实验。如表4 所示，作者的方法实现了竞争力的表现，达到 Supervised 准确率的 54.4%。

picture.image

4.3.Robustness of Point Location

为了评估作者的方法对点位置变化的鲁棒性，作者进行了一系列详细的实验。首先，在完全随机化的点位置设置下（），作者分别在AI-TOD和SODA-A数据集上进行了主要评估，见表2。与表1中中心点设置的结果相比，所有方法都出现了一定程度的性能下降。Point2Rbox的性能下降最为显著，达到了，因为它在其标签分配策略中依赖于中心点作为先验信息，这导致在随机化点位置下性能大幅下降。类似地，基于MIL的方法（如P2BNet、PointOBB）和基于CPM的方法（如PLUG、PointOBB-v2）在该条件下也表现出一定程度的下降。相比之下，作者提出的一种基于降噪的方法展示了较强的鲁棒性，在AI-TOD和SODA-A数据集上的性能分别只下降了和。

此外，作者还进一步分析了不同点位置参数值设为、、和时的结果。表3中的结果显示，作者的方法无论在哪种点位置设置下都能保持较高的准确性，而其他方法如P2BNet和PLUG则随着点位置的变化显示出更大的准确性下降。值得注意的是，当点位于中心（即）时，相较于，准确性略微降低了。这是因为将点放置在中心位置能够提供先验信息，促使网络学习到中心偏置。相反，将点位置设置为增强了网络的鲁棒性，从而产生了更准确的预测。

picture.image

4.4. Ablation Study

本节探讨了关键设计贡献和超参数选择的影响。首先，作者验证了Point Teacher中每个模块的效果。然后，作者研究了不同超参数选择的影响。值得注意的是，作者在包含中心注解点的AI-TOD数据集上进行了消融实验。

点教师中的模块验证：为了进一步验证作者提出的方法中每个模块的有效性，作者在AI-TOD数据集上进行了消融实验，结果见表5a。当仅使用空间感知框生成阶段时，网络开始发展空间感知能力。因此，精度相对较低，仅为21.0 AP。引入了噪声感知标签演化阶段后，网络性能有所提升。教师网络提供的伪框监督改善了整体性能。但由于这些伪框较为粗糙，精度仅提高了3.5%。加入DMIL模块后，粗糙的伪框得到细化，提供了更为稳定和精确的监督信号。最后，通过集成抖动IoU损失，网络对嘈杂边界框的鲁棒性显著增强，整体性能进一步提升了11.0%。此外，为了验证作者提出的DMIL是否比MIL提供了更准确的监督，作者分别用单阶段MIL和两阶段MIL*（Chen等，2022）替换DMIL。

picture.image

伪框生成中的：, 和是控制伪框生成的超参数。具体而言，和联合工作以指导教师网络生成粗糙的伪框，而则用于 DMIL 模块进行实例选择以过滤高质量的建议框。如表5c 所示，当和分别设置为 5 和 3 用于生成粗糙的伪框时，结果显著优于分别设置为 3 和 1 的情况。这是因为更多的建议框增加了生成更准确的框的可能性，并有助于构建中等大小物体的建议框。对于，相对于 5，使用 1 进行伪框的细化证明更为有效，因为更多建议框的细化往往会生成更大的框，这更适合中等大小的物体。

r 在抖动IoU损失中的作用：参数控制着抖动IoU损失中扰动的程度。当设为0时，抖动IoU损失退化为标准IoU损失。如表5d所示，将设为0.2时可以获得最佳性能，而将增加到0.4和0.6则会导致准确率下降。这是因为轻微的扰动引入了有益的噪声项，防止网络过度拟合到不准确的回归目标。然而，随着的增加，扰动变得过于明显，导致网络学习错误信息，从而导致准确率下降。

DMIL融合中的：控制粗伪框与通过DMIL选择的 Proposal 之间的融合权重。是一个广泛使用的超参数，用于生成伪框。当设置为0时，仅使用通过DMIL筛选出的 Proposal 来生成细化的伪框。相反，当设置为1时，仅使用粗伪框进行监督。如表5e所示，设置为0可能导致目标漂移（即在密集场景中预测到更高置信度的目标的伪框），从而降低准确性。另一方面，仅依赖设置为1的值的粗伪框会导致不准确的预测。通过平衡这两种来源的监督，可以实现最佳性能，因为结合两者提供了更可靠的预测结果。

第一阶段的训练时间：空间感知框生成阶段（即Phase1）在前4000次迭代（即总训练迭代次数的5%）内发生，以使网络获得初步的空间感知能力。为了评估该阶段持续时间对整体网络性能的影响，作者进行了不同Phase1持续时间（分别为总训练迭代次数的5%、25%、50%和100%）的实验。实验结果显示，随着Phase1所占比例的增加，网络准确性逐渐下降。这种行为可以归因于基于 Mask 的指导学习方法，它仅能使网络获得粗略的空间感知能力，而这种能力不会随着训练时间的增长而提升，过长的初始化过程会减少用于噪声学习阶段（即Phase2）的时间分配，从而恶化整体网络性能。值得注意的是，在仅使用Phase1而不使用Phase2进行训练时，其准确性显著低于同时使用两个阶段的情况。

4.5. .Visual Analysis

作者进行了一系列分析性实验，以证明作者的方法可以为训练提供可靠的边界框监督。首先，作者将DMIL模块生成的伪边界框与GT边界框可视化展示在图5中。DMIL生成的伪边界框更为精确，并且与GT边界框紧密对齐。然而，在密集场景中（如图中的第四列所示），由于DMIL在细化过程中依赖分类得分，导致了重叠预测的发生。其次，作者在测试集上展示了作者方法的检测结果，并将其与SOTA算法PLUG进行了对比。结果显示在图6中，即使仅有点标注，作者的方法在端到端训练场景中也能生成相对准确的预测结果。

picture.image

5.1 Discussion

在本工作中，作者探索了使用低成本标注检测小目标的潜在可能性，特别是利用点标注。由于小目标主体部分的规模有限且边界模糊，准确标注其主要部分颇具挑战性。因此，作者提出了一种抗点干扰的方法——Point Teacher，以解决这些问题。

为了进一步推动点监督小目标检测领域的进展，本节致力于回答以下三个关键问题：

为什么研究点监督而非其他标注方法来实现小目标检测？点标注不仅适合小目标的独特特性，还能在标注成本和检测准确性之间找到平衡。由于尺寸较小（小于16x16像素），小目标在特征图上呈现出点状分布。与较大目标相比，点标注提供了更强的先验信息，特别是在小目标检测方面具有明显优势。此外，虽然点标注的成本略高于图像级标注（Chen等，2022），但其检测精度可以媲美框标注，因此具有实际的应用价值。相比之下，诸如草图或其它详细形式的标注方法会引入更高的成本，并且往往包含过多对于小目标检测任务来说冗余的信息（Ren等，2020）。因此，点标注既精准又高效，是标注小目标的最佳选择。

为什么现有的点监督方法在微小目标检测中表现不佳？微小物体的弱特征表示和模糊边界为其适应这一领域带来了显著挑战。当前的方法主要分为三类：基于MIL的方法，基于CPM的方法，以及基于辅助信息的方法。基于MIL的方法依赖分类分数来选择 Proposal 作为监督。然而，微小物体的弱特征使得根据分类分数区分 Proposal 变得困难，限制了MIL方法在微小目标检测中的应用。基于CPM的方法使用类别概率图生成伪框（CPM）。然而，微小物体的小规模和模糊边界削弱了CPM中的边界显著性，降低了这些方法的效果。对于基于辅助信息的方法（不包括SAM方法），微小物体的弱特征表示阻碍了回归训练的泛化能力，妨碍了进一步提高检测精度。相比之下，作者提出的Point Teacher 引入了一种两阶段去噪范式，在每阶段逐步提升伪框的质量。这种方法确保了更稳健的监督，有效应对了微小目标检测带来的挑战。

点教师的局限性是什么？尽管点教师取得了显著的进步，但仍存在一些挑战。首先，虽然作者的方法在点监督的小目标检测方面表现出色，但在多尺度目标上的性能仍有优化空间。这一限制是因为空间 Aware 框生成阶段依赖于随机遮掩区域来增强空间 Aware 。然而，使用的遮掩区域简单且形状和颜色变化有限，这限制了模型在多尺度目标上的泛化能力。为了应对这一问题，未来的研究可以引入更多样化的遮 Mask 式，或者在空间 Aware 阶段采用多尺度特征来提高模型的泛化能力。其次，在点标注固有的位置噪声影响下，密集排列的小目标的精确检测变得更加困难，这对精准定位造成了重大障碍。尽管作者的方法利用空间 Aware DMIL提高了局部化指导的效果，但在密集排列的目标场景中，多个实例学习仍然难以有效地过滤伪 Box 。未来的工作可以探索使用视觉-语言模型（Radford等，2021；Kirillov等，2023），这些模型提供了增强的文本-视觉对齐能力，以在密集目标布局中提供更稳健的指导。

Conclusion

单点监督为标注大规模微小物体数据集提供了一种经济高效的解决方案。然而，微小物体固有的挑战——如其较小的尺寸和较弱的特征——使其对点位置的精度非常敏感。

在本文中，作者研究了在变化的点位置下点监督微小目标检测的鲁棒性，并引入了Point Teacher，这是一种稳健的端到端基于点的检测器。Point Teacher包括一个旨在减轻点定位噪声的两阶段去噪学习范式。

在空间感知框生成阶段，通过随机 Mask 图像区域来增强空间 Aware ，促使网络更好地预测空间模式。在噪声感知标签演变阶段，使用带有DMIL的师生架构来细化伪框并提高检测准确性。

此外，作者引入了一种新颖的抖动IoU损失，以防止模型过度拟合到噪声伪框，从而进一步增强鲁棒性。在微小物体数据集上进行的大量实验表明，Point Teacher超越了现有方法，在点监督微小目标检测中展现出更优的鲁棒性和准确性。

Acknowledgements

参考

[0]. Tiny Object Detection with Single Point Supervision .

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

武大提出 Point Teacher，两阶段去噪，让小物体点标注检测更可靠 ！

参考