现有的三维目标检测受限于昂贵的标注成本以及对未知数据迁移性差的问题,由于领域间隙,无监督领域自适应(UDA)旨在将训练于带标签源域的检测模型推广到能在未探索的目标域上稳健运行,为跨领域三维目标检测提供了一种有前景的解决方案。
尽管基于自训练(ST)的跨领域三维检测方法在伪标签技术的辅助下取得了显著进展,但在存在显著领域差异时,由于缺乏特征分布对齐的过程,它们仍面临低质量伪标签的问题。
而基于对抗学习(AL)的方法可以有效对齐源域和目标域的特征分布,但在目标域无法获得标签的情况下,迫使采用非对称优化损失,导致源域偏差的挑战性问题。
为了克服这些限制,作者提出了一个新颖的三维目标检测无监督领域自适应框架,通过协同ST和AL,名为STAL3D,释放伪标签和特征分布对齐的互补优势。此外,专门为3D跨领域场景设计了一个背景抑制对抗学习(BS-AL)模块和一个尺度过滤模块(SFM),有效缓解了背景干扰比例大和源域尺寸偏差的问题。
作者的STAL3D在多个跨领域任务上实现了最先进的表现,甚至在Waymo KITTI和Waymo KITTI-rain上超越了Oracle结果。
I Introduction
三维目标检测对于自动驾驶的感知系统至关重要,旨在对真实世界三维空间中的目标进行分类和定位,为轨迹预测和路径规划等高级任务提供基本工作基础。由于深度学习技术的进步和大规模标注数据集的出现,这一任务最近取得了显著进展。然而,由于域偏移的存在,当将训练有素的模型直接应用于新领域时,性能显著下降,这阻碍了检测器在不同场景之间的泛化能力和可迁移性。
为了克服这一挑战,无监督域自适应(UDA)努力将知识从标记源域转移到 未标注 目标域。虽然在2D目标检测领域已有大量关于UDA的研究,但这些方法不适用于稀疏、无序和不规则的点云。因此,3D UDA方法尚未得到彻底探索。现有的跨域3D检测方法主要分为两种范式,即自训练(ST)范式和对抗学习(AL)范式。
如图1(a)所示,ST范式是缩小域自适应中域差距的最简单、最直接的方法,主要由源域预训练阶段和目标域自训练阶段组成。在初始阶段,模型在源域标记数据的监督下进行训练。随后,将训练后的模型参数加载到为目标域生成伪标签,并使用这些伪标签迭代更新和训练模型。为了适应3D数据的特性,某些方法考虑了目标真实3D物理尺寸分布的差异,提出了尺寸分布正则化[13]和数据增强技术[14, 15]。另外,一些方法考虑了激光雷达传感器扫描光束模式的差异,并设计了光束重采样[16]或激光雷达蒸馏[17]策略。然而,这些方法仅考虑了单一维度上的域差异,忽略了由天气、路况、传感器类型等因素引起的显著域差异。由于ST固有的特征分布对齐过程缺失,当存在显著的域差异时,它们将生成低质量的伪标签。这些低质量的伪标签对模型优化产生不利影响,在伪标签生成和模型更新的迭代过程中导致误差累积,最终导致性能下降。
如图1(b)所示,AL范式包括一个共享的特征提取器和领域判别器,它们同时接收来自源域的标注数据和来自目标域的无标注数据作为输入。通过梯度反转层(GRL)和领域判别器,源域和目标域在对抗性损失的影响下最小化分布差异。此外,标注的源域也通过检测损失进行优化。受到在2D目标检测中学习领域不变特征表示的启发,一些方法从范围感知[18],尺度感知[19],类别感知[20]等角度探讨了对抗性学习在3D领域适应中的应用。然而,由于缺乏伪标签,目标域仅利用对抗性损失进行优化,而源域可以同时使用检测损失和对抗性损失进行优化。这种不对称的优化损失阻碍了特征在两个领域之间对齐到平衡位置,导致源域偏差问题,这严重损害了检测器在目标域中的泛化能力。
通过以上分析,作者可以观察到:
(1) ST范式在为无标签目标域提供伪标签监督信号方面表现出色,但其固有的局限性在于缺乏特征分布对齐,这在对多个领域差异同时进行适应时提出了挑战,特别是在存在显著领域差异时,会导致生成低质量的伪标签;
(2) AL范式的优势在于其能够通过特征分布对齐解决多个领域差异和显著领域差距。然而,其缺点是缺乏来自目标域的监督信号,这迫使形成不对称优化损失,可能导致源域偏差问题。
受到这两种范式之间强烈互补性的启发,如图1(c)所示,作者提出了一种新颖的3D目标检测无监督领域适应框架,通过协作ST和AL,释放伪标签和特征分布对齐的潜在优势。从ST到AL的角度来看,作者的ST方法可以为无标签的目标域数据生成伪标签,这些伪标签随后参与AL的训练过程。通过获得额外的伪标签监督信号,AL形成对称优化损失,即源域和目标域的对抗性损失和检测损失,这可以有效地解决之前由不对称梯度优化引起的源域主导问题。从AL到ST的角度来看,作者的AL方法利用梯度反转层和领域判别器将额外的特征分布对齐约束整合到ST的特征提取网络中,从而形成领域不变特征。依靠领域不变特征表示,ST即使在面对多个领域差异或显著领域差距时也能生成更高质量的伪标签,从而有效地减轻迭代过程中的错误积累。
此外,与传统的2D任务相比,3D跨领域目标检测任务展现出一些独特的特点:
(1) 在3D场景中,背景的比例显著大于前景,可能导致背景干扰;
(2) 3D检测反映了物体在现实世界中的真实大小,但同一类别在不同领域的大小分布差异很大,从而产生了独特的主域大小偏见问题。针对上述两个问题,作者设计了一个背景抑制对抗学习(BS-AL)模块和一个尺度过滤模块(SFM),分别减轻背景干扰比例过大和主域大小偏见问题。
总之,作者的贡献如下:
- 作者指出了自训练(ST)和对抗学习(AL)之间的强烈互补性,并提出了一个新颖的协同STAL3D框架,用于跨领域3D目标检测,释放了伪标签和特征分布对齐的潜在优势。
- 作者为3D跨领域场景量身定制了背景抑制对抗学习(BS-AL)模块和尺度过滤模块(SFM),有效地减轻了背景干扰比例过大和主域大小偏见问题。
- 作者在三个类别的多个数据集上进行了广泛的实验。所提出的STAL3D框架一致地大幅超越了强 Baseline ,突显了其有效性。
II Related Work
LiDAR-based 3D Object Detection
基于LiDAR的3D目标检测技术可以广泛分为三类:基于点的方法、基于 Voxel 的方法和点- Voxel 结合的方法。基于点的方法,采用PointNet作为主干网络,直接从原始点云中提取几何特征以完成检测任务。该领域的近期进展集中在通过设计更有效的点采样策略来提升性能。然而,这些方法常常需要耗时的点采样和邻域搜索操作。基于 Voxel 的方法通常将点云划分为规则的网格结构,并采用3D卷积主干网络来提取特征。最近的进展也探索了利用Transformer架构来增强 Voxel 特征的表示能力,通过捕捉长距离的依赖关系。虽然计算效率高,但 Voxel 化不可避免地引入了量化损失。另一方面,点- Voxel 结合的方法试图结合基于 Voxel 和基于点的方法的优点。然而,现有方法忽视了不同3D场景之间的领域差异,使得它们几乎不适用于未见过的环境。在本文中,作者研究3D目标检测中的领域适应问题,这有效地提升了领先3D检测器的领域泛化能力。
Cross-domain 3D Object Detection
现有的跨领域3D检测方法主要分为两种范式:自训练和对抗学习。自训练(ST)范式主要关注利用源领域的标注数据来预训练鲁棒的初始模型,并优化生成的伪标签的质量。Zoph等人[42]利用数据蒸馏和带数据增强的自训练技术来减轻确认偏差,提高伪标签的质量。Wang等人[13]首先指出不同数据集中目标的大小分布是影响模型域适应性能的关键因素,并提出了一种使用统计信息简单校正大小的策略。ST3D[14]引入了一种数据增强技术,以增强预训练模型对目标尺寸的鲁棒性,并提出了一种质量感知的三元组记忆库来细化伪标签。ST3D++[15]对伪标签噪声进行了进一步分析,并提出了从伪标签生成到模型优化的伪标签去噪自训练流程。DTS[16]提出了一种密度不敏感的跨领域方法,以减轻因密度分布变化导致的域差距影响。AVP[43]明确利用跨领域关系高效生成高质量样本,从而减轻域偏移。对抗学习(AL)范式则力求通过更好地对齐源领域和目标领域的特征分布来减少域差距。Wang等人[18]首次尝试研究点云中3D目标检测的适应性,将细粒度的局部适应性和对抗性的全局适应性结合起来,以提高基于激光雷达的长距离目标检测。SRDAN[19]还引入了在尺度和范围上进行域对齐的技术,利用点云的几何特性来对齐特征分布。3D-CoCo[20]利用对比学习机制,在各个领域内同一类别之间最小化特征距离,同时在不同类别之间最大化特征距离,从而促进特征分布的对齐。然而,现有方法尚未完全探索ST和AL范式的优势、劣势和互补效应。在本文中,作者对ST和AL之间的内在协同作用进行了深入分析,并提出了一种新颖的框架,以释放伪标签和特征分布对齐的潜在优势。
III Method
Framework Overview
如图2所示,该框架主要由两个阶段组成:源领域预训练阶段和自训练与对抗学习阶段。在源领域预训练阶段,作者使用带标注的源数据执行有监督的训练以获得初始参数。在自训练和对抗学习阶段,在目标领域中,作者使用第一阶段预训练的参数生成伪标签。同时,背景抑制对抗学习模块(BS-AL)被用于执行源领域和目标领域的特征分布对齐。此外,规模过滤模块(SFM)被应用以减轻源领域大小偏差的问题。
在无监督领域适应的场景中,作者提供了来自单一标记源领域 的点云数据和一个 未标注 的目标领域 ,其中 和 分别表示来自源领域和目标领域的样本数量( 是点云, 是相应的标签)。源领域中第 个点云的3D边界框标注表示为 ,其中 , 指示 中标记框的总数。这里, 表示框的中心位置, 代表框的尺寸, 表示框的方向,而 表示目标类别。域自适应检测任务的目标是利用 和 训练一个模型 ,旨在最大化在 上的性能。训练过程在以下算法1中概述。
算法1 作者的STAL3D的流程。
Source Domain Pre-training
STAL3D从在标记好的源数据集上训练一个3D目标检测器开始。预训练的模型学习如何对源标记数据进行3D检测,并进一步用于初始化目标域 未标注 数据的目标预测。
如图2(I)所示,遵循[14]的方法,作者首先使用随机目标缩放(ROS)通过数据增强初步减轻大小分布的域差异。令表示标注框内的所有点,其中表示点云的坐标。表示标注框的中心点,而是旋转矩阵。然后,可以如下表示为目标中心坐标系:
在获得目标的中心坐标系坐标后,设置一定范围内的随机缩放因子。增强后的点云可以表示为,如方程2所示。这种增强应用于源域数据用于预训练,得到模型的预训练参数。
作者的框架包括两个关键阶段:源域预训练和迭代自训练。源域预训练阶段的目的是为迭代自训练阶段提供一个健壮的初始化模型。此外,与2D目标检测任务不同,3D目标检测反映了3D物理空间中目标的实际大小,数据集之间目标大小的分布差异会影响预训练模型的训练,从而影响迭代自训练的初始化效果。因此,作者考虑在源域预训练阶段使用这种随机缩放策略来增强目标点云,以提高初始模型的训练质量。
Self-Training
在训练检测器之后,自训练步骤是为 未标注 的目标数据生成伪标签并执行迭代细化。
如图2(II)所示,作者引入了伪标签记忆库融合模块。该模块接收来自第阶段的伪标签和存储在记忆库中的伪标签作为输入,输出融合后的记忆库伪标签,其中和分别表示来自当前模型和记忆库的伪标签数量。具体来说,作者计算了两个标签集合之间的3D IoU矩阵。对于记忆库中的第个目标框,其匹配的目标框被确定为。如果,则认为这两个框是匹配的,从和中选择得分较高的标签作为新的伪标签并存储在记忆库中。如果,作者在记忆库中设置一个额外的缓冲区,用队列缓存这些目标框并保持它们。
值得注意的是,由于作者的STAL3D框架为ST引入了特征分布对齐,这将使作者的ST更好地应对大的领域差异,从而减少由于低质量伪标签在迭代过程中积累的错误。
Background Suppression Adversarial Learning
如图3所示,为了在源领域和目标领域之间对齐特征分布,作者采用了对抗性学习来进行特征分布对齐。检测器被划分为一个 Backbone 网络和一个检测Head网络。对于由 Backbone 网络生成的特征图,引入了一个域分类器,并构建了一个最小-最大优化的对抗性游戏损失。具体来说,域分类器的优化方向是区分源领域和目标领域,最小化域分类损失。相反, Backbone 网络的优化方向是使域分类器难以区分特征的来源,最大化域分类损失。为了实现端到端训练,作者采用了梯度反转层(GRL)[44]来连接和,当模型通过GRL层时,梯度被反转,允许优化器进行正常优化。当模型训练收敛时, Backbone 网络可以提取域不变的特征表示,从而完成特征分布对齐。
令和分别表示源领域和目标领域数据,和分别表示 Backbone 网络和域分类器的参数,表示特征图在位置的特征来自源领域的概率。这一阶段的损失函数可以表示为:
其中、和分别表示来自源领域和目标的输入以及期望。
在3D目标检测的背景下,前景区域在整个场景中占据的比例很小,大约只占5%[45]。此外,在3D目标检测任务中,前景区域通常比背景重要得多,因为它包含更丰富的语义信息。然而,一个简单的域分类器无法区分前景和背景,使用这样的分类器进行特征分布对齐可能导致长尾问题,从而减少对前景的关注。因此,本文利用特征图的特征丰富度得分(Feature Richness Score, FRS)[46]作为语义前景指导来解决这个问题。然后使用FRS对基于前景区域的对抗损失应用注意力加权。如图4所示,通过这种方法可以很好地区分有价值区域。
具体来说,令表示特征图在位置的特征向量。令表示要检测的类别,表示预定义 Anchor 框的方向数。3D目标检测网络使用1x1卷积预测位置处预定义 Anchor 框的置信度,得到。在得到置信度分数向量后,可以通过取分数向量的最大值来获得位置的特征丰富度得分,如等式4所示。这里,表示sigmoid函数。
考虑到在3D目标检测任务中,背景占据的比例远高于前景,并且包含的信息内容较少的问题,该算法将整个场景划分为两个区域:一个学习区域(主要由前景主导)和一个抑制区域(主要由背景主导)。特征丰富度得分用于指导这种划分。作者认为特征丰富度得分在前的 Voxel 作为学习区域的一部分,而其余 Voxel 作为抑制区域的一部分。此外,抑制区域的特征丰富度得分设置为0。这表达在等式5中。
在获得区域划分图 后,作者继续使用这个特征丰富度得分图来加权原始对抗训练损失,从而得到具有基于区域抑制的最终对抗损失:
值得注意的是,由于在作者的STAL3D框架中引入了ST过程用于主动学习(AL),在训练过程中可以获得目标域的伪标签监督信号,从而在训练过程中的主动学习中进行对称优化损失,这可以有效缓解源域偏差问题。
Scale Filtering Module
与伪标签相比,源域标签可以被视为无噪声标签,因此在自训练过程中引入源域标签监督信号理论上可以帮助训练过程。在3D目标检测中,目标的大小反映了它们在现实世界中的尺寸,不同域在大小分布上表现出显著差异。因此,直接使用源域标签信息训练网络面临一个关键挑战,因为模型可能由于训练过程中的域间大小差异逐渐过拟合到源域大小,这通常被称为源域大小偏差问题。
在处理源域大小偏差时,作者从3D目标检测模型的损失设计入手。以单阶段网络SECOND [32]为例,其损失设计主要包含三个部分:分类损失、角度分类损失和回归损失。对于分类损失,模型采用Focal Loss [47]来解决前景-背景类别不平衡问题。由于3D目标的形状相似性很强,使用目标域伪标签进行分类损失可能会引入额外的噪声。因此,模型不对目标域数据的伪标签计算分类损失。对于角度分类损失,模型采用交叉熵损失。至于回归损失,作者采用Smooth L1损失来计算回归损失。回归目标表示为,并进行归一化编码如下:
其中、和表示中心点坐标,、和表示高度、宽度和长度,表示绕z轴的旋转角度。下标、和分别对应编码值、 Anchor 点值和 GT 标注值。表示 Anchor 框宽度和高度的对角线长度。
图6:有无SFM的检测结果视觉对比。
当使用源域数据预测目标框大小时,缺乏域间一致性可能会导致严重过拟合。然而,目标框定位和角度预测表现出域间一致性。因此,如图5所示,作者过滤掉了目标框大小的回归偏差,只使用作为回归目标。尽管这种规模过滤设计相对简单,但发现它非常有效。如图6所示,SFM可以有效缓解源域大小偏差问题。基于此,模型的整体优化目标函数可以表示为:
其中、、、和分别表示Focal Loss分类损失、过滤后的回归损失、IoU预测损失、框方向分类损失和基于区域的对抗损失,带有背景抑制。上标和分别表示源域和目标域。
IV Experiments
Experimental Setup
数据集。 作者的实验是在四个广泛使用的激光雷达(LiDAR)3D目标检测数据集上进行的:KITTI [9],Waymo [10],nuScenes [11] 和 Lyft [12]。因此,作者在以下五个适应任务上评估域自适应3D目标检测模型:Waymo KITTI,Waymo Lyft,Waymo nuScenes,nuScenes KITTI 和 Lyft KITTI。
作者通过在KITTI数据集上使用基于物理的激光雷达天气模拟算法[48]模拟雨来处理由恶劣天气条件引起的域偏移。通过从到的雨量范围进行采样,以模拟现实中的恶劣天气条件,每个样本都通过在雨天捕获的激光雷达数据中常见的伪迹进行增强。雨天可能导致点云数据质量的显著下降,尤其是在车辆上。因此,作者增加了两个额外的域偏移任务,即Waymo KITTI-rain和Lyft KITTI-rain。
比较方法。 源域模型 :直接在目标域上评估源域预训练的模型; SN [13]:3D目标检测的先驱性弱监督域适应方法,它结合了目标域中的统计目标大小信息; ST3D [14]和ST3D++ [15]:基于自训练的最新方法; Oracle :仅在目标域上进行训练的全监督模型。
评估指标。 作者遵循官方的KITTI指标,并在鸟瞰图(BEV)和3D的40个召回位置上呈现平均精度(AP)。对于_car_的IoU阈值设置为,对于_pedestrian_和_cyclist_的IoU阈值设置为来评估平均平均精度(mAP)。此外,作者量化了从源域模型到Oracle模型的性能差距的闭合程度,表示为 。
实现细节。 作者使用SECOND-IoU [32]验证作者的STAL3D方法。在源域上预训练检测器遵循广泛使用的点云检测代码库OpenPCDet [50]中概述的训练设置。在后续的目标域自训练阶段,作者使用学习率为的Adam,并使用一个周期调度器来微调检测器30个周期。在生成伪标签时,超参数设置为0.2。在Focal损失中,设置为0.25,设置为2。在区域抑制中,设置为20%。对于模型优化目标,设置为1.0,设置为2.0,设置为1.0,设置为0.2,设置为1.0。所有实验都是在4个NVIDIA Tesla V100 GPU上完成的。
Main Results
定量结果。 如表1所示,作者将STAL3D与Source Only、SN [13]、ST3D [14]、ST3D++ [15]和Oracle在五个适应任务上的性能进行了比较。作者可以清楚地观察到,STAL3D在Waymo KITTI、Waymo Lyft、Waymo nuScenes、nuScenes KITTI和Lyft KITTI上的mAP性能一致地提升了23.14%、5.84%、5.01%、24.17%和15.47%,很大程度上缩小了Source Only与Oracle之间的性能差距。与最新的SOTA方法ST3D++相比,作者的STAL3D在所有五个适应任务的mAP上都表现出更优越的性能,分别提升了3.64%、1.42%、1.77%、1.94%和2.58%。作者将这些性能改进归功于作者的方法,它将自训练和对抗学习的范式统一到一个框架中,释放了伪标签和特征分布对齐的潜在互补优势。此外,专为3D跨领域场景设计的BS-AL和SFM,有效地缓解了背景干扰比例大和源领域大小偏差的问题。
由恶劣天气引起的环境偏移在3D跨领域设置中是一个相对困难的基准,因为特殊天气不仅影响LiDAR采集设备的数据生成模式,还会产生大量的噪声点。如表2所示,值得注意的是,提出的STAL3D在Waymo KITTI-rain和Lyft KITTI-rain上的性能显著提高(甚至超过了Oracle),这表明STAL3D在适应环境差距较大的3D场景方面更为有效。总的来说,提出的STAL3D在所有3D适应任务场景下的mAP和mAP上都优于所有 Baseline 。作者认为,在存在显著的领域差距时,基于伪标签的自训练范式由于其固有的无法对齐特征空间的能力,倾向于生成低质量的伪标签,从而陷入源领域偏差的陷阱。作者的STAL3D结合自训练与对抗学习,实现了源领域和目标领域之间的特征分布对齐,因此它能更好地应对这一挑战。
定性结果。 作者还比较了在nuScenes KITTI和Waymo KITTI-rain上,与仅源网络相比的结果视觉质量。如图7和图8所示,作者的STAL3D可以从以下三个方面改善跨领域3D目标检测的性能:(1)减轻源领域大小偏差问题;(2)减少漏检;(3)减少误报。仅源训练的模型经常遭受严重的误报。作者的STAL3D结合自训练和对抗学习,通过对抗学习对齐大领域差距的特征分布,并使用自训练生成高质量的伪标签。并为源领域大小偏差定制了一个简洁而有效的尺度过滤模块。得益于上述优势,STAL3D实现了出色的跨领域检测结果。
Ablation Study
图8:作者提出的STAL3D在Waymo KITTI-rain上的定性结果,其中上/下线分别代表跨领域检测的前/后结果,蓝色/红色框指示预测/真实边界框。减轻了源域大小偏见的问题;减少了漏检;减少了误报。
各组件的有效性。 为了验证每个模块的有效性,作者首先在提出的STAL3D上进行组件消融实验。作者将自训练、带有背景抑制的对抗学习和规模过滤模块分别简称为ST、BS-AL和SFM。如表3所示,以增强ROS的源仅作为原始 Baseline ,应用ST可以使mAP提高7.93%。这表明充分利用源域信息并进行ST比直接模型转移显著优越得多。在此基础上,添加作者的BS-AL模块后,mAP性能提高了2.85%,通过结合作者的SFM进一步提高了4.33%。作者将此改进归因于对抗学习的特征分布校正能力和进一步解决源域大小偏见。最后,带上所有这些组件后,mAP和mAP分别提升到82.26%和69.78%,验证了其有效性。
对BS-AL的消融研究。 为了验证BS-AL模块的有效性,作者使用了一个简单的对抗学习方法作为 Baseline ,该方法去除了背景抑制操作。如表4所示,作者基于特征丰富度得分(FRS)和通道注意力(CA)比较了两种不同的提取和加权前景-背景的方法,并对超参数进行消融研究。对于CA方法,作者通过计算像素级的通道值的绝对平均值来获得注意力图,然后用对注意力图进行加权。结果证明,FRS是更合适的选择,并且随着参数的增加,模型的检测性能呈现先增加后减少的趋势。作者推测FRS可能与前景-背景不完全对齐。因此,较低的可能导致注意力忽视某些前景区域,而较高的在对抗学习期间可能会受到来自背景像素的一些干扰。最后,当=0.2时,可以在mAP上带来3.52%的性能提升。
对AL和ST的详细分析。 如表5所示,作者首先去除了自训练(ST)框架,仅使用标记的源领域数据和 未标注 的目标领域数据进行对抗性训练。此外,作者设计了特征分布对齐(F_AL)和基于回归器的分布对齐(RG_AL)技术。RG_AL是指由[51]引入的方法,该方法使用广义交并比(GIOU)[52]作为距离度量,用于在回归器背景下对边界框的分布进行对齐。可以看出,直接使用这两种对齐方法并不能改善结果。这是由于在对抗性学习中,由于缺乏来自目标领域的伪标签监督信号,形成了不对称的损失,导致了源领域大小偏差问题。ROS是一种有效的数据增强方法,可以在一定程度上减轻源领域大小偏差,但与ST(带ROS)相比,在mAP上仍存在7.93%的差距。此外,直接将源标签信息添加到ST(带ROS)也会导致10.26%的性能下降。上述结果表明,AL和ST都容易受到源领域大小偏差问题的影响。另外,仅依赖ROS不足以有效解决这一问题。
对SFM的消融研究。 为了充分验证SFM的有效性,作者对损失项进行了详细的组合分析。如表6所示,在没有规模过滤的情况下,移除源领域中的回归监督信号可以使mAP提高1.42%。此外,比较规模过滤前后的mAP,增加了4.07%。这证明了过滤规模回归项的必要性。另外,可以观察到,无论是否在回归项中过滤规模,移除目标领域的分类损失都会使检测结果得到改善,mAP分别提高了1.93%和0.74%。作者认为,尽管在伪标签生成过程中进行了去噪处理,但噪声是不可避免的。利用源领域的准确类别标签可以使自训练过程获得高质量的分类标签。上述特殊设计的最终组合形成了作者最终的SFM模块,带来了4.81%的性能提升。
对不同检测器架构的鲁棒性。 所有先前的实验都是在SECOND-IoU检测器上进行的。为了进一步验证作者的方法在不同检测器上的鲁棒性,作者在Waymo KITTI任务上使用PV-RCNN[40]框架进行了额外的实验。如图9所示,作者的方法在所有三个类别上始终优于先前的SOTA方法,这表明了它对检测器架构的鲁棒性。
V 结论
本文分析了现有三维无监督域自适应范式的优缺点,并指出自训练(ST)与对抗学习(AL)之间具有强烈的互补性。为了释放伪标签和特征分布对齐的潜在优势,提出了一种通过结合ST和AL协作的新颖跨域三维目标检测框架,称为STAL3D。
此外,考虑到三维跨域场景的特点,提出了背景抑制对抗学习(BS-AL)模块和尺度过滤模块(SFM),有效缓解了背景干扰比例过大和源域大小偏差的问题。
在多个跨域任务上进行了大量实验,STAL3D达到了新的先进水平。