作者探讨了一种多视角行人检测方法,在这种情况下, Token 数据是由不同于测试使用的多摄像机系统收集的。
尽管最近的多视角行人检测器在用于训练的摄像系统上表现出色,但在应用于不同设置时,其性能会下降。
为了实现跨多种摄像系统的无缝部署,作者提出了一种无监督领域自适应(UDA)方法,该方法无需额外的 Token 数据即可使模型适应新的摄像系统。
具体而言,作者利用了一种新颖的伪标签技术与预训练教师自我训练框架,专门适用于多视角行人检测。该方法在多个基准测试中达到了最先进的性能,包括MultiviewX
Wildtrack。
与之前的方法不同,作者的方法消除了对外部单目 Token 数据集的依赖,从而减少了对 Token 数据的依赖性。
广泛的评估结果证明了该方法的有效性,并验证了关键设计选择。
通过使模型能够在不同的摄像系统配置下进行稳健的适应,作者的工作增强了多视角行人检测的实际应用,并为未来的研究奠定了牢固的UDA基础。
- Introduction
多视图检测旨在从由多个摄像头同时拍摄的一组图像中检测物体,每个摄像头提供了同一场景的不同视角。利用多个视图可以提高对遮挡的鲁棒性,并有助于推理物体的三维属性,这在单一摄像头的情况下可能会更具挑战性。在本文中,作者专注于多视图行人检测,目标是从多个固定摄像头拍摄的图像中生成鸟瞰图(BEV)中的占用地图。这一任务在监控[12]、机器人技术[8]、体育分析[35]以及自主移动机器人控制[44]等应用中具有重要意义。
近期的多视角行人检测方法会联合考虑所有输入图像,以学习一个密集的鸟瞰图(BEV)特征图。随后,通常使用卷积层对该BEV表示进行细化,以获得概率占用图(POM),从中可以提取检测结果。尽管这些方法取得了显著成果,但它们依赖于标注的多视角数据集,这类数据集由于多相机布置和图像标注的成本问题通常是稀缺的。在实践中,标注数据通常限于仿真或单一的真实世界相机布置,这导致了过拟合,并且在不同相机布置下泛化能力较差。
从实际测试环境中收集 未标注 数据相对较为直接,因此无监督域适应(UDA)成为了解决多视角检测中的泛化挑战的有前景的方法。UDA 在单目感知任务中得到了广泛应用,例如图像分类、语义分割和目标检测,其中均值教师自训练方法尤为流行。该方法使用均值教师生成的伪标签对学生模型进行训练,均值教师是由学生参数的指数加权平均组成的。然而,据作者所知,目前仅有 Lima 等人 [27, 28] 的工作探索了在多视角行人检测中的无监督域适应。他们在方法中通过自训练来适配多视角检测器,但依赖于基于大量带标签单目数据集的预训练外部检测器,这限制了该方法在缺乏此类资源的应用场景中的实用性。
作者通过考虑一个严格的未监督域适应(UDA)设置来解决这一问题,该设置排除了任何外部 Token 数据集或预训练检测器。由于受限的数据集和衍生检测器的许可问题,这种设置在实践中具有相关性;此外,从概念上讲也十分有趣,因为它为进一步扩展框架到新的目标类型提供了可能性。作者在此基础上借鉴了均值教师自我训练的方法,并将其应用于多视角行人检测,同时确定了严格未监督域适应设置的关键成功因素。尤为重要的是,作者提出了一种新颖的后处理方法,以增强伪标签的可靠性,显著提高了自我训练的有效性。作者的方法在多个基准测试中实现了最先进的性能。此外,尽管最近的研究主要集中在弥合模拟与现实世界的领域差距上,但很少有研究关注不断变化的摄像头配置所带来的挑战。为此,作者引入了两个新的基准测试,专门用于跨摄像头配置适应性研究。
作者的贡献可以概括为:
-
作者在严格的UDA设置下揭示了多视角行人检测中自我训练的潜力,并开发了一种领先的方法来解决这一问题。
-
作者提出了一种简单而有效的后处理方法,该方法可以提高伪标签的可靠性,从而增强自我训练的效果。
-
作者在多个已建立的标准基准和两个新基准上展示了作者方法的有效性,这两个新基准是作者专门为了解决跨相机 rigs 调适问题而引入的。
-
Related Work
2.1. Multi-view pedestrian detection
多视角行人检测旨在利用不同视角的摄像头,以实现比单一摄像头更强健的3D检测和定位。早期方法依赖于每个视角的背景减除,并利用结合贝叶斯推理的图形模型来推理3D地面平面的位置。由于在拥挤场景中背景减除不够具有区分性,许多后续工作用更具先进性的单目感知方法取代了这一组件,例如2D边界框检测、人体姿态估计[26]或实例分割[34]。这些方法还提出了融合单个检测的新方式,例如将检测投影到地面平面上,并基于欧几里得邻近度进行分组,或者采用条件随机场(CRF)[36]。然而,因为这些方法依赖于单目感知,任何单个视角中的缺陷都可能影响整体性能。
与之相对,端到端方法会综合考虑所有输入图像,从而能够更全面地理解视图间的对应关系。早期的方法通过使用卷积神经网络(CNN)处理每个视图以提取特征,然后应用多层感知机(MLP)[6] 或条件随机场(CRF)[3] 来生成检测结果,这些方法通过联合考虑这些特征来进行检测。
最近,MVDet [20] 引入了一种新的方法,即将单个视图中的特征通过透视变换投影到鸟瞰图(BEV)中,从而在BEV中创建了密集的特征图。许多近期的方法在此基础上进行了改进,包括改进的视角特征提取、BEV中的增强特征聚合、修改的解码器 以及多视图特定的数据增强技术。虽然这些方法继续推动多视图行人检测领域的进步,但它们通常需要 Token 的多视图数据集来进行训练,并且难以很好地适应新的相机设置。本研究旨在减少对标注多视图数据的依赖,从而使这些方法在实际应用中更具实用性。
2.2. Unsupervised Domain Adaptation (UDA)
给定来源于源域的带标签数据集和来源于目标域的无标签数据集,无监督领域适应(UDA)旨在将知识从源域转移到目标域,使得模型能够在不需要额外标注的情况下泛化到新的数据分布。UDA在计算机视觉任务中得到了广泛应用,包括图像分类、语义分割以及目标检测。近年来,UDA方法主要遵循两种途径:对抗学习和自助学习。对抗学习旨在创造跨领域的不变输入、输出或特征,帮助模型忽略与任务无关的领域变化。而自助学习则涉及使用伪标签在目标数据集上以监督方式训练学生模型[23]。为了提高伪标签的质量,许多方法[4, 5, 10, 21, 25]使用均值教师[40]——即学生参数的指数移动平均——在训练过程中生成这些标签。然而,伪标签的准确性问题仍然是一个重大挑战[5, 25, 45]。此外,虽然UDA已经在单目任务上取得了显著进步,但将其应用于多视图感知仍鲜有研究。
在少数尝试将UDA方法应用于多视图行人检测的研究中,Lima等人[27]提出了将检测器从[43]适应到 未标注 的目标数据的方法,并使用自训练手段。然而,该方法由于伪标签质量低,仅在单个基准测试上获得了小幅改进。Lima等人后来通过引入均值教师进行伪标签生成[28]改进了其方法。尽管如此,这种方法的成功依赖于预先使用外部检测器生成的伪标签进行训练[26],而这些伪标签又依赖于对大规模标注数据进行单一视图人体姿态监督训练。因此,该方法仍然需要大量的标注数据,可能限制其实用性。相比之下,作者的工作提出了一种无需任何辅助标注数据集或从中派生的预训练模型的多视图行人检测无监督领域适应方案。
- Methods
在本节中,作者介绍了用于多视角行人检测的UDA方法,该方法旨在利用 Token 的源数据和 未标注 的目标数据来训练适用于目标领域的多视角检测器。首先,作者将详细介绍检测器架构。
随后,阐述作者的整体UDA策略,并最终介绍生成高质量伪标签的方法。
3.1.Multi-view detector
由于其简洁性和良好的泛化能力,作者使用了[43]提出的多视图检测器,它是[20]的一种变种,该检测器由三个部分组成:二维图像特征提取、视角变换和空间聚合。
特征提取器:给定来自不同视角的
张 RGB 图像,一个 ResNet-18 [16] 提取每个视角的特征,具有
个通道和空间维度
。
视角变换:假设每个相机已知的校准矩阵,则特征提取器的输出通过视角变换转换为BEV表示。此操作的结果是
张形状为
的BEV特征图,其中
和
定义了BEV的空间维度。目的是将所有特征统一到共同的BEV中,从而为后续的空间聚合做准备。对于详细的解释,作者建议读者参考原始论文[20]。
空间聚合:来自不同摄像头的BEV特征通过Concat操作生成一个形状为
的BEV特征图。然后,在第一个维度上应用平均池化以将其形状简化为
。
由于平均池化使BEV特征图的形状与视图数量
无关,因此可以自然地处理不同数量的摄像头。最后,三个空洞卷积层处理该BEV特征图以回归尺寸为
的概率占用图。在推理过程中,通过阈值处理概率占用图以生成检测候选,并对其进行非最大抑制(NMS)以去除重复检测。
3.2. Mean teacher self-training
在多视图检测中,源数据集包含有标签的数据,记作
个样本
,其中
表示来自源域的一批多视图图像,而
则是对应的占据地图标签。同样地,目标数据集包含无标签的数据,共有
个样本,描述为
,其中
是来自目标域的一批多视图图像。
在现有的单目感知自训练方法中,一个学生模型
被训练在源数据集的有标签样本上以及目标数据集的伪标签样本上。请注意,在作者的案例中,
是前文所述的多视图检测器。此外,这些伪标签通常是在训练过程中由一个教师模型
创建的。教师模型
的架构与学生模型
相同,但其权重
是根据学生模型
的权重按指数移动平均更新,
其中
是一个超参数。形式上,在目标域上的多视图图像批次
的伪标签
(在公式中省略了索引
以简化表示)定义为
其中
表示后处理函数,用于将预测映射到伪标签。在多视图行人检测中,
通常包括对预测占用图应用阈值,然后进行非最大抑制。在本工作中,作者考虑了常规的后处理方法以及作者自己的 Proposal ,后者将在下一节中描述。此外,在生成伪标签时,教师网络
接收目标图像
,而学生网络接收增强的图像
。在作者的工作中,作者还通过增强源图像
来提高学生的泛化能力。因此,学生网络
的权重
被训练以最小化损失。
在对来自源数据集和目标数据集的数据进行期望值计算时,
是一个超参数,用于调整目标数据的影响。按照文献[20]的方法,作者应用高斯核函数
生成一个软目标,并使用均方误差损失进行模型训练。根据文献[20],作者在这两个领域(源域和目标域)都采用这种损失函数。
其中,
和
分别表示标签(或伪标签)和预测。所提出的 mean teacher 自训练框架如图2 所示。然而,在适应目标领域之前,作者仅使用源数据对其进行预训练。
3.3. Local-max pseudo-labeling
在上一节详细描述的自我训练框架中,伪标签的创建是一个关键步骤。在多视图行人检测中,对预测的概率占据图进行后处理以推导出一组检测结果。本节首先回顾传统的后处理方法,然后介绍作者针对UDA问题定制的替代方法。
常规伪标签方法:传统的做法,如[19, 20, 32, 43]所采用的方法包括以下步骤:首先,将所有置信度得分超过阈值
的候选位置添加到一个列表中,并按得分降序排序。其次,算法选择列表中的第一个候选目标作为检测结果,并移除该检测结果周围欧几里得距离为
的所有候选目标。再次,重复第二步直到列表为空。
为了说明这一点,考虑一个一维的例子,其中
且
,如图3所示。在这个例子中,在位置
上的六个候选点超过阈值并被添加到列表中。由于位置
的置信度最高,因此被选为第一个检测。随后,位于第一检测点周围距离
内的候选点6、7、9和10从列表中移除。接着,位于位置11的候选点被选为第二个检测。由于列表中不再有其他候选点,算法在此终止。然而,需要注意的是,如果阈值
较低,例如为0.3,则可以得到第三个检测点,如
。
由于目标域上预测的信心水平难以预见,作者质疑这种后处理方法是否过于依赖阈值
。理想情况下,经过充分训练的网络在使用方差损失对高斯目标进行训练后,期望在网络的每个位置能够产生单个局部最大值的预测。然而,这种后处理方法也可能生成非局部最大值的检测。作者假设这些检测不够可靠,尤其是在UDA场景中,阈值
存在不确定性时更为明显。
局部最大伪标签方法:受上述分析的启发,作者提出了一种替代的后处理方法,该方法仅考虑局部极大值点作为候选检测。为了实现高效性,在例如 PyTorch 中,作者将局部极大值定义为占位图中满足预测置信度
条件的位置
。
其中,
和
是整数,
是一个参数,用于定义考虑的邻域大小。由于预测值可能会表现出一定程度的噪声,作者还要求任何检测的预测置信度超过阈值
。然而,请注意,在作者的方法中,如果某个位置不是局部极大值,则无论
的值如何,都不会将其作为候选检测考虑,这使其与传统方法有所不同。
- Experiments
4.1. Experimental setup
数据集:作者使用了流行的Wildtrack [7] 和MultiviewX [20] 数据集,以及新引入的GMVD [43] 数据集的一部分。Wildtrack 是一个包含来自七台摄像机单架系统的400个多视角图像的真实世界数据集,覆盖面积为12×36米,具有重叠的视野。在标注时,地面平面被离散化为一个480×1440的网格,其中每个单元格对应一个2.5×2.5厘米的区域。与此同时,MultiviewX 是一个合成数据集,包含了六台摄像机采集的400张图像,覆盖面积为16×25米,网格形状为640×1000,具有相同的空间分辨率。GMVD 另是一个合成数据集,其特点是包含多个场景和不同的摄像机配置。该覆盖面积根据场景的不同而变化,网格选择以达到相同的2.5×2.5厘米的空间分辨率。
作者考虑使用基准测试MultiviewX
Wildtrack来评估从 Token 的模拟数据到 未标注 的真实世界数据的适应性,以及相反方向,作者将其表示为Wildtrack
MultiviewX。按照[43]的做法,作者还考虑了数据集内部的基准测试,包括Wildtrack
,Wildtrack
,和MultiviewX
,其中来自单个数据集的不同摄像机子集构成源域和目标域。目的是在不存在仿真实验到真实世界的数据缺口的情况下,评估跨摄像机架的适应性。此外,为了应对来自不同场景的数据集作为源和目标的情况这一更具挑战性的场景,作者引入了两个新的基准测试,其中GMVD和MultiviewX分别作为源域和目标域。类似地,作者在单个摄像机架上标注了标签,并因此仅使用GMVD的一部分作为 Token 的源数据集。具体来说,作者考虑了GMVD第一场景中的两种不同的摄像机配置作为源域,并引入了基准测试GMVD1
MultiviewX 和 GMVD2
MultiviewX。对于所有基准测试,作者使用MultiviewX和Wildtrack的前90%样本进行训练,剩余的10%用于测试。GMVD1和GMVD2均包含五台摄像机,共有517帧训练数据。
评价指标:与大多数先前工作类似,作者根据MODA、MODP、精确率和召回率等指标来评估模型。MODA作为主要性能指标,因为它同时考虑了漏检和假阳性的情况,而MODP则评估了定位精度[22]。对于所有指标,作者以百分比形式报告性能。
4.2. Implementation details
在参考了[43]的研究后,输入图像被调整至720x1280的大小,之后通过ResNet-18 [16]进行处理,提取出512通道的特征图。这些特征图通过双线性插值调整至270x480的尺寸,然后投射到地面上,地面的尺寸取决于数据集。对于空间聚合,作者采用三个卷积层,卷积核大小为3,扩张因子分别为1、2和4。在训练过程中,作者使用最大学习率为0.1的一周期学习率调度器[38],并结合动量为0.5的SGD优化器,以及L2正则化系数为
。作者选择批量大小为1,并采用早停策略以防止过拟合。在评估时,作者像之前的工作[20,43]一样,使用(传统)非极大值抑制(NMS),其空间阈值设为0.5米。然而,与其他工作不同的是,作者在范围
上对模型进行评估,并选取MODA最高的结果。这样做的目的是确保实验结果不受特定
值选择的影响,在UDA设置中,最优的
值是不明确的。
在自我训练之前,作者使用ImageNet [9] 的权重初始化ResNet-18,并在源数据上预先训练20个epoch,构成了作者的 Baseline 模型。除非另有说明,UDA结果通过将 Baseline 模型适应目标域,在自我训练中进行5个epoch的调整,使用
、
以及提出的局部极大值伪标签法(
)获得。对于MultiviewX
Wildtrack,阈值
被实验设定为0.4;对于Wildtrack
MultiviewX,阈值
被设定为0.2;而对于所有其他基准,则设为0.3,这一设置在第4.5节进行了说明。此外,Dropview [43] 和 3DROM [32] 数据增强方法被用于 Baseline 模型的训练和自我训练中。
4.3. MVUDA compared with previous methods
在本节中,作者将作者的UDA方法与此前的SOTA方法进行了对比,并将其与仅在源域上训练的 Baseline 方法以及Oracle方法进行了比较。Oracle方法类似于 Baseline 方法在源域上进行了训练,但在目标域上使用了标签。关于定性的结果,请参阅补充材料。表1展示了MultiviewX
Wildtrack和Wildtrack
MultiviewX上的结果。虚线将使用辅助标注数据的方法与仅在源域上使用标签的方法分隔开来。可以看出,与所有研究指标上的基准性能相比,作者的UDA方法显著提高了基准方法的表现。此外,作者的UDA方法在不依赖辅助标注数据的方法中MODA值最高。值得一提的是,在Wildtrack
MultiviewX的情况下,作者的UDA方法将基准方法的MODA值从35.9提高到了82.4,尽管[28]方法依赖于一种源自大量标注单目数据集的单目检测器,但其表现仍然远逊于作者方法。
在表2中,作者进一步评估了作者的方法在五个相机阵列适应基准上的表现。在所有情况下,作者的UDA方法在MODA指标上显著提升了 Baseline 。此外,作者在他们提出的两个Wildtrack基准上也超过了[43]的方法。进一步地,作者的UDA方法在两个GMVD
MultiviewX基准上接近Oracle性能。有趣的是,与Oracle的差距在三个同数据集基准上稍大一些,这表明当摄像头数量较少时,作者的方法效果不佳。值得一提的是,在MultiviewX
上作者没有将结果与[43]进行比较,因为他们使用了不同的评估协议,仅在部分标签上进行评估,而作者则使用了所有标签。
4.4.Ablation study
为了研究 Mean Teacher (MT) 和数据增强 (Aug) 在自我训练 (ST) 框架中的重要性,作者在表3 的两个基准上消融了这些组件。其中,第一行展示了未进行任何适应时的表现( Baseline )。此外,不使用 Mean Teacher 的自我训练意味着冻结的 Baseline 模型在训练过程中生成伪标签。可以看出,单独使用自我训练相较于 Baseline 带来了显著改进。而且,加入 Mean Teacher 和数据增强后,结果有了更显著的提升。值得注意的是,在从仿真到现实的基准中,数据增强的影响更大,它可能是弥合更大领域差距的关键因素之一。
4.5. In-depth analysis of MVUDA
在本节中,作者详细分析了所提出方法的关键组件,包括引入的伪标签技术、参数
以及数据增强方法。通常情况下,检测到的局部极大值更为可靠。然而,由于vanilla方法通常会产生更多的检测结果,因此其召回率更高。值得注意的是,当
值较小时,两种方法之间的差异更为明显。这是因为在此情况下,vanilla后处理方法会生成许多非局部极值的检测结果,这些检测结果可靠性较低,因此作者的方法在这种情况下可以实现更高的MODA。因此,作者的方法能够在较低置信度下利用可靠的伪标签,这在Wildtrack
MultiviewX基准测试中尤为有益。
除另有说明外,本研究中的自训练包含局部最大伪标签 Token ,参数设置为 ( k_d = 3 ), (\alpha = 0.99), (\lambda = 1),且不进行数据增强。再次强调,对于从 MultiviewX 到 Wildtrack 的阈值 (\tau) 设定为 0.4;从 Wildtrack 到 MultiviewX 的阈值 (\tau) 设定为 0.2;而对于所有其他基准,则设定为 0.3,以上设定遵循表4 中所呈现的实验结果。
伪标签法:表4展示了作者UDA方法在使用普通伪标签或局部最大值伪标签时的MODA值。为了方便起见,在基准标题中,作者用括号表示 Baseline 方法的MODA值(见表1和表2)。缺失值意味着与 Baseline 相比没有获得改进。可以看出,除了第一个基准之外,作者的伪标签方法在所有基准上的性能最佳,其中普通方法略微更优。值得注意的是,作者的方法在Wildtrack
MultiviewX上比普通方法高出超过25个MODA值。此外,所提出的方法在更大的
值范围内优于 Baseline ,显示出对这一超参数选择的鲁棒性更好。
为了理解这些结果,作者分析了 Baseline 模型在使用两种后处理方法之一评估时的表现。表5展示了在不同阈值
下,MultiviewX
Wildtrack和Wildtrack
MultiviewX上的结果。可以看出,作者的后处理方法在平均教师模型
下的精度和MODP更高。表7显示了作者的UDA方法在训练5或20个epoch时,不同
参数值下的MODA性能。注意,
表示教师模型等于学生(即学生模型生成伪标签),而
表示冻结的 Baseline 模型在整个训练过程中创建伪标签。可以看出,当训练5或20个epoch时,
和
都能在这两个基准上获得不错的性能,尽管缓慢进化的教师(
)似乎从更长时间的训练中受益。此外,作者还注意到,
值过低会导致一个基准上的稳定性问题,原因是教师模型快速更新。虽然用
冻结教师模型在两个基准上表现合理,但它没有达到最佳性能,因为这错过了提高伪标签质量的机会。对于额外的实验,请参阅补充材料。
数据增强 由于数据增强是自我训练的一个重要组成部分,作者研究了三种不同的方法……
- Conclusions
近年来提出的不同方法被用于多视角行人检测。如表8所示,作者进行了Dropview (DV) [43]、3D随机遮挡 (3DR) [32]以及MVAug中开发的两级数据增强 (MVA) [11]的相关实验。可以看出,这些增强方法在大多数基准上的性能都有所提升。然而,当组合使用不同的方法时,最理想的性能是由DV和3DR实现的(不包括MVA)。
作者在补充材料中提供了对 Baseline 模型泛化能力的研究,结果显示相似的结果。鉴于[11]关于MVAug的良好表现,这些结果显得有些出乎意料。不过,这也说明了MVAug的优势,因为与Dropview和3DR相比,MVAug不仅对输入图像进行增强,还对应用于特征的透视变换进行增强,从而使得其更为复杂。
参考
[0]. MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection .