点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
半监督学习领域的显著进展促使研究行人探索其在计算机视觉中目标检测任务中的潜力。半监督目标检测(SSOD)结合了小规模标记数据集和更大规模的 未标注 数据集。
这种方法有效地减少了对大规模标记数据集的依赖,这些数据集往往获取成本高昂且耗时。最初,SSDO模型在有效利用 未标注 数据和管理工作生成伪标签中的噪声方面遇到了挑战。
然而,近期许多进展解决了这些问题,使得SSOD性能得到了显著提升。本文全面回顾了27项在SSOD方法上的前沿发展,从卷积神经网络(CNNs)到Transformers。
作者深入探讨了半监督学习的核心组成部分及其与目标检测框架的融合,包括数据增强技术、伪标签策略、一致性正则化和对抗性训练方法。此外,作者还对各种SSOD模型进行了比较分析,评估了它们的性能和架构差异。
作者旨在激发进一步的研究兴趣,以克服现有挑战并在目标检测的半监督学习中探索新方向。
1 Introduction
深度学习已成为研究的热点领域,在诸如模式识别、数据挖掘、统计学习、计算机视觉[52, 53]和自然语言处理等各个领域都有众多应用。特别是在监督学习环境下,通过有效地利用大量高质量的标注数据,取得了重大成就。然而,这些监督学习方法依赖于成本高昂且耗时的标注数据进行训练。半监督目标检测(SSOD)[59]通过结合标注数据和未标注数据[60],弥补了这一差距。它在计算机视觉领域[52, 53]取得了显著进展,特别是对于获取广泛标注数据[59]具有挑战性或成本高昂的行业。SSOD被应用于包括自动驾驶车辆[61, 62]以及医学成像[63, 64]在内的多个领域。在农业[65][66]和制造业[67]等拥有大量数据但标注耗时的工作中,SSOD提高了效率。
半监督方法[68, 69]通过使用标注和未标注数据,提高了模型性能并减少了标注需求。此外,先前的目标检测[72, 73]方法主要涉及手动特征工程[74, 75]和使用简单模型。这些方法在准确识别具有不同形状和大小的目标时遇到了困难[76]。后来,卷积神经网络(CNNs)[77, 78]的引入通过直接从原始数据中提取分层特征[79],实现了端到端学习[80],极大地提高了准确性和有效性。近年来,半监督目标检测在深度学习架构[81, 82]、优化技术[83]和数据集增强策略的推动下取得了重大进步。研究行人针对目标检测开发了各种半监督学习方法(SSL),每种方法都有其独特的优势和局限性[88, 89, 90]。这些方法主要分为伪标签[91, 92, 93]和一致性正则化[94]两类,都有效地在训练过程中利用了标注和未标注数据。此外,将SSL方法与最先进的目标检测架构(如FCOS[95]、Faster R-CNN[96]和YOLO[97])相结合,显著提高了半监督目标检测系统的性能和可扩展性。这种组合不仅提高了检测精度,还帮助模型能够很好地适应新的和未见过的数据集。
目标检测随着DEtection TRansformer(DETR)的出现取得了显著进展。最初为自然语言处理开发的Transformers,在捕捉长距离依赖[101]和上下文信息[102, 103]方面表现出色,这使得它们非常适合目标检测中的复杂空间布局[104, 105]。与基于local的卷积并需要非最大值抑制(NMS)[106]来过滤掉冗余检测的CNNs[78, 79, 80]不同,DETR使用自注意力机制[107, 108]并且不需要NMS。它将目标检测任务视为一个直接的集合预测问题,消除了传统的NMS[106]和 Anchor 点生成[109]过程。尽管DETR有其优势,但也存在局限性,如训练过程中收敛速度慢以及小目标检测的挑战。为了解决这些问题,对DETR的改进通过增强注意力机制和优化技术[110]提高了性能和效率。在DETR成功的基础上,研究行人现在正在半监督目标检测方法[1, 2, 3]中采用基于DETR的网络。这结合了DETR的优势与半监督学习,利用 未标注 数据[88, 94],减少对大型标记数据集的需求。
由于基于Transformer的半监督目标检测(SSOD)[60, 111]方法的迅速发展,跟上最新的进展变得越来越具有挑战性。因此,从基于CNN到基于Transformer的SSOD方法的发展回顾是必要的,这对该领域的研究行人将大有裨益。本文全面概述了从基于CNN到基于Transformer的半监督目标检测(SSOD)方法的转变。如图1所示,该调查将SSOD方法分为基于CNN的(单阶段和双阶段)和基于Transformer的方法[1, 2, 3],突出了诸如伪标签和基于一致性的标签技术。它还提供了关于数据增强策略的详细信息,包括强、弱和混合技术。
图2展示了一种为半监督目标检测量身定制的教师-学生架构。利用预训练的教师模型为 未标注 数据生成伪标签。这些伪标签连同标记数据一起,用于联合训练学生模型。通过结合伪标记数据,学生模型从更广泛和更多样的数据集中学习,提高了其准确检测目标的能力。此外,数据增强方法应用于标记和伪标记数据集。这种协作学习方法有效地利用了标记和 未标注 数据,提高了目标检测系统的整体性能。
本文的其余部分组织如下:第2节回顾了关于SSOD的前期调查。第3节讨论了该领域的相关工作。第8节探讨了SSOD在各种视觉任务中的作用。第4节,即本文的核心,提供了对SSOD方法的全面概述。第5节检查了在SSOD中使用的不同损失函数。第6节对SSOD方法进行了比较分析。第7节讨论了开放挑战和未来方向。最后,第9节总结了本文。
2 Related Previous Reviews and Surveys
表1提供了对目标检测领域中先前研究的概述,突出了半监督学习的关键研究。它涵盖了从理论进展[28, 33]到实际应用[35]等多个领域的话题。这些研究调查了不同的方法及其有效性,包括在推文情感分析[30]和医疗环境[29]中的特定应用。近期的工作在机器学习框架内[32]探索了改进,应对小数据量和带有噪声或不完整标签的工业应用所带来的挑战[35]。值得注意的是,一些研究专注于使用半监督[34, 116]、自监督[29, 37]和无监督方法[36]的深度视觉学习和图像分类,为它们的有效性和挑战提供了宝贵的见解。总体而言,这些研究为半监督目标检测领域的进展、挑战和实际应用提供了详细的理解。尽管先前的调查关注基于CNN的半监督目标检测方法,但基于Transformer的半监督目标检测的兴起需要彻底的评估以理解其有效性和趋势。
3 Related Work
半监督目标检测(SSOD)通过利用既有标签数据和为无标签数据生成标签的多种方法,已经取得了显著进展,以提高模型性能。本节提供了SSOD中关键贡献和方法论概览。
早期的半监督方法
早期的半监督学习方法旨在将图像分类[121, 122]中的自我训练技术[119, 120]适应于目标检测。STAC[6](一致性自我训练)采用两阶段过程:首先,它从无标签图像生成高置信度的伪标签[123];然后,它使用强增强[86, 112]的标签数据和伪标签数据训练模型,以确保一致性[124, 125]。另一个例子是Unbiased Teacher[10],它使用教师-学生框架,其中教师模型为学生模型生成伪标签。然后学生模型使用这些伪标签[91, 92, 93]以及标签数据进行训练,同时教师模型使用学生权重的指数移动平均进行更新,以提高稳定性和鲁棒性。
Teacher-Student Frameworks
近期的发展引入了复杂的教学-学习框架[126, 127, 128],这些框架包括额外的机制以增强自监督目标检测(SSOD)。在这些框架中,教师模型从无标签数据生成伪标签[91, 92, 93],然后用于训练学生模型,从而迭代地提高学生的性能。例如,Consistent-Teacher框架[22]通过自适应 Anchor 点分配[129, 130],特征对齐[131]来最小化不一致的伪目标。同样,Dense Teacher指导框架[24]通过利用教师模型的密集预测来提高伪标签[91, 92, 93]的质量。
Consistency Regularization
一致性正则化[124, 125, 132]在半监督目标检测(SSOD)中确保模型对不同增强视图下的同一图像产生一致的预测,从而提高鲁棒性和泛化能力。均值教师[133]框架采用教师-学生范式,已被适应用于半监督目标检测(SSOD)。如交互式自训练与均值教师[14]等技术在此基础上通过迭代精化伪标签[91, 92, 93],并提升学生模型的表现。此外,采用一致性正则化[124, 125, 132],即训练模型在变化增强下生成一致的预测,也证明在提高SSOD性能方面是有效的。
Pseudo-Labeling Methods
伪标签化[91, 92, 93]是一种模型为 未标注 数据生成标签的方法,它是SSOD(半监督目标检测)另一个基本方面。像“重新思考伪标签”[19]这样的技术对传统的伪标签化[92, 93]进行了改进,通过解决标签噪声和置信度阈值等挑战。此外,标签匹配[17]和密集伪标签化进一步细化了这一过程,确保生成的标签更加精确和可靠。
Self-Training
自训练 [119, 120] 在半监督学习中涉及迭代地为 未标注 数据生成伪标签 [91, 92, 93],并将它们与标记数据一起整合到训练过程中,帮助模型在迭代中改进。对自训练框架 [119, 120] 的改进,例如结合主动学习策略,其中模型主动选择最有信息量的样本进行标记,已经显示出前景。Active Teacher框架 [20] 就是一个例子,其中教师模型指导选择可能改进学生模型学习的样本。
Transformer-Based Approaches
基于Transformer的方法利用Transformer架构(因其捕捉长距离依赖关系的能力而闻名)通过有效地建模视觉数据中的空间关系和上下文信息来提高检测性能。随着基于Transformer的架构的兴起,研究行人开始将这些模型整合到半监督目标检测(SSOD)中。例如,Semi-DETR[1]将检测Transformer(DETR)[98, 99, 100]模型适配到半监督环境,展示了Transformer在提高SSOD任务中的检测性能的潜力。
4 Semi Supervised Strategies
作者介绍了四种半监督学习策略,这些策略结合了监督学习和无监督学习的优势。这些策略旨在当只有有限数量的标注数据可用时,提高深度学习模型的性能。这四种策略分别是: (1)伪标签法, (2)熵最小化, (3)平均教师, (4)混合匹配。
伪标签法是一种简单的方法,它使用模型在未标注数据上的预测来创建额外的训练标签。熵最小化通过最小化输出分布的熵,鼓励模型对其在未标注数据上的预测充满信心。
平均教师采用了一种教师-学生框架,使用模型权重的移动平均来为未标注数据生成标签。混合匹配将几种半监督学习技术结合成单一算法,包括伪标签法、熵最小化和一致性正则化。
STAC
STAC [6]是一个半监督[60, 111]框架,旨在利用 未标注 数据增强用于视觉目标识别的检测模型,如图3所示。所提出架构中采用的 Baseline 检测器是Faster R-CNN [96]。该框架遵循两步程序,首先在第一阶段使用训练过的检测器从 未标注 图像生成高置信度的伪标签[123]。为确保一致性和鲁棒性,模型在第二阶段使用标记数据和伪标签数据以及重要的数据增强[86, 112]进行进一步训练。STAC结合了增强驱动的一致性正则化[132]和自训练[124, 125],将半监督学习(SSL)的最新技术从图像分类[116][34]扩展到目标检测。
谦逊的教师
谦逊的教师[7]提出了一种针对当代目标检测器的半监督方法,使用了教师-学生双模型框架,如图4所示。该方法通过指数移动平均(EMA)[137]动态更新教师模型,采用软伪标签和多个区域 Proposal 作为学生的训练目标,并利用一种针对检测特定的数据集成生成更可靠的伪标签。与依赖对稀疏选择的伪样本进行硬标签的现有方法(如STAC [6])不同,该方法利用教师模型在多个 Proposal 上的软标签,使学生能够从教师那里提炼更丰富的信息[138]。
Instant-Teaching
Instant-Teaching [8] 利用即时伪标记 [91, 92, 93] 和扩展的强弱数据增强 [115, 139, 140] 方法,在每次训练迭代中克服了典型监督目标检测框架中手动标注的限制。该系统实施了Instant-Teaching,一种协同校正方法 [15],以提高伪标注质量并减少确认偏差 [137],如图5所示。
Soft Teacher
与早期的多阶段方法相比,Soft Teacher [141] 提出了一种端到端的半监督目标检测解决方案。这个新框架通过在训练过程中[6, 142]逐步提升伪标签[91, 92, 93]的属性,提高了目标检测训练的效率。如图6所示,该框架提出了两种简单而高效的方法:一种用于选择用于盒回归学习的健壮伪 Box 的框抖动方法[143],以及一种软教师机制,其中分类损失由教师网络的分类得分平衡。
Unbiased Teacher
无偏教师[10]框架解决了伪标签[91, 92, 93]中的偏见问题,在SSOD中由于类别不平衡[145, 146, 147]而普遍存在,如图7所示。通过协作训练一个学生和一个学习速度较慢的教师,无偏教师利用指数移动平均(EMA)[148]和差异数据增强[113, 149, 141]来提高伪标签的质量并减轻过拟合[150]。
这种方法解决了SSOD中的关键挑战,包括类别不平衡和过拟合,从而显著提高了目标检测的性能。
Acrst
自适应类别平衡自训练(ACRST[11]),如图8所示,引入了一个名为CropBank的新记忆模块,以解决SSOD中的类别不平衡[145, 146]这一主要问题。在SSOD中,类别不平衡[151, 152],尤其是前景-背景和前景-前景不平衡,会对伪标签[91, 92, 93]的质量以及生成模型的性能产生严重影响。通过结合CropBank中的前景示例,ACRST动态地重新平衡训练数据,从而减少类别不平衡的影响。### 对抗噪声
在《对抗噪声》[12]中提出的方案,通过测量区域不确定性来减少噪声伪标签[153, 154]的负面影响,这种方法对噪声具有鲁棒性。通过这种方法,仔细检查了噪声伪标签的影响,并最终开发了一个用于测量区域不确定性的度量标准。将这个度量标准整合到学习框架[157]中,可以形成一个考虑不确定性的软目标,以防止由噪声伪标签化[154]引起的性能下降,如图9所示。此外,它通过允许多峰概率分布和消除类别间的竞争,减轻了过拟合[150]的问题。
Mum
MUM [13],一种数据增强方法[113, 149, 14],被引入来解决在SSOD中有效利用强烈数据增强策略的挑战,因为这对边界框定位可能产生不利影响[115]。
如图10所示,MUM通过混合并重构来自混合图像块的特性块,利用插值正则化(IR)[158]生成有意义的弱-强样本对[159, 160]。与传统的自监督学习方法不同,MUM允许保留对精确目标定位至关重要的空间信息。
Istm
一种名为交互式自训练平均教师(ISTM)[161]的半监督目标检测技术,提出了一种方法来纠正在多个训练迭代中同一图像的检测结果之间不一致性的忽略,如图11所示。通过利用非最大抑制[106]来组合不同迭代中的检测结果,并采用多个检测Head提供补充信息,这种方法提高了伪标签的稳定性和质量。此外,结合平均教师模型[133]防止过拟合[150],并有助于在检测Head之间传递知识。
CrossRectify
图12:Cross Rectify框架[15]
CrossRectify [15]是一个旨在提高伪标签准确性的检测框架,通过同时训练两个具有不同初始参数的检测器,如图12所示。通过利用检测器之间的差异,CrossRectify实现了一种交叉校正机制[15]来识别并改进伪标签,从而解决了自标注技术的固有限制。在2D[100]和3D[163]检测数据集上进行的广泛实验验证了CrossRectify在超越现有半监督目标检测方法方面的有效性。
标签匹配
通过图14所示的Label Match [17]架构,从分布 Level 和实例 Level 解决标签不匹配问题。重新分布的均值教师[133]采用自适应的标签分布感知[167]置信度标准,以创建无偏见的伪标签[168],解决分布 Level 的兼容性问题。通过将学生的建议纳入教师的指导中,一个 Proposal 自分配技术解决了由于标签分配不确定性引起的实例 Level 不匹配问题。此外,利用可靠的伪标签挖掘技术[172]提高了效率,将模糊的伪标签转换为可靠的标签。
Dtg-Ssod
采用“密集到密集”的方法论,密集教师指导的半监督目标检测(DTG-SSOD)[18]直接利用密集的教师预测来指导学生训练。如图15所示,该方法通过逆NMS聚类(INC)和排序匹配(RM)[18]等技术,使得学生模型能够在非极大值抑制(NMS)[173]期间模仿教师的行为,从而在不依赖稀疏伪标签的情况下接受密集监督。INC将候选框聚类为与教师的NMS过程相似,而RM则在教师和学生之间对聚类候选的分数排名进行对齐。
Rethinking Pse
重新思考Pse [19],如图16所示,引入了确定性感知的伪标签,这些伪标签是专门为目标检测设计的。这些标签准确评估了分类和定位[174]的质量,为生成伪标签提供了一种更精细的方法。通过根据这些确定性度量动态调整阈值和重新加权损失函数[175],这减轻了由类别不平衡带来的挑战。
Csd
图13:SED [16]的框架
CSD 5,该方法利用一致性约束最大化使用可访问的无标签数据,并提高检测性能,如图17所示。这种方法不仅扩展到目标分类,还包括定位,确保模型的全面训练。此外,这引入了背景消除(BE)以减少背景噪声对检测精度的不利影响。
PseCo
半监督目标检测(SSOD)中的两种基本策略,伪标签和一致性训练(PseCo)[4],突显了这些方法在有效利用无标签数据进行学习方面的不足。
具体来说,尽管现有的伪标签[91, 92, 93]方法只关注分类得分,忽视了伪边界框定位的精度[174, 177],而通常采用的一致性训练方法忽视了对于尺度不变性至关重要的特征级一致性。为了解决这些限制,提出了噪声伪边界框学习(NPL)[153, 154]以生成鲁棒的伪标签,并引入多视角尺度不变学习(MSL)[178]以确保标签一致性和特征级一致性,如图18所示。
Active Teacher
迭代地扩展教师-学生结构,作者在半监督目标检测(SSOD)中使用了活动教师(Active Teacher)[20]方法,如图19所示。活动教师通过逐步增加[85, 86, 87]标签集,采用主动采样策略来应对SSOD中数据初始化的挑战,同时考虑了 未标注 样本的难度、信息和多样性等因素。活动教师通过最大化有限标签信息的效用以及提高伪标签[91, 92, 93]的准确性,显著提升了SSOD的性能。
Scmt
自校正均值教师(SCMT)[21]的目标是通过动态调整框候选的损失权重,减少伪标签[91, 92, 93]中存在的噪声的负面影响。如图20所示,SCMT通过利用来自定位准确性[174]和分类分数的置信度得分,有效地在训练中优先考虑更可靠的框候选。这种新颖的方法优于现有方法[7, 179, 6],展示了其在提高现实世界中目标检测模型性能方面的潜力。
Semi-DETR
Semi-DETR [1] 采用分阶段的混合匹配策略 [180] 来结合一对一 [2] 和一对多 [181] 分配策略,提高了训练效率并为一致性学习提供了高质量的伪标签。[91, 92, 93]。如图21所示,跨视图 Query 一致性方法 [182] 消除了对确定性 Query 对应关系的需要,促进了语义特征不变性的学习。此外,基于代价的伪标签挖掘 [172] 模块动态地识别出一致性学习中的可靠伪框。
稀疏Semi-DETR
稀疏Semi-DETR [2] 是一种基于 Transformer 的端到端半监督目标检测系统。这个解决方案特别解决了目标 Query 质量的问题,并解决它们。不准确伪标签 [3] 和冗余预测会降低训练效率并使模型性能恶化,尤其是对于小或被遮挡的目标。为了提高目标 Query 质量并显著提升对小和部分遮挡目标的检测能力,稀疏Semi-DETR 包含一个 Query 细化模块 [183],如图22所示。强大的伪标签过滤模块通过只筛选高质量的伪标签 [8, 9] 进一步提高了检测精度和一致性。
Omni-DETR
为了在降低标注成本的同时提高检测准确度,图23展示了Omni-DETR [3]框架,它包含了多种弱标注[184],如图片标签、物品计数和点。通过整合基于端到端 Transformer 的检测架构的最新发展[185, 186]以及基于学生-教师机制的半监督目标检测[6, 10],Omni-DETR使得可以利用未标注和标注质量差的数据生成精确的伪标签[91, 92, 93]。
One Teacher
专注于先进的Yolov5模型[187, 188],One Teacher[27]提出了一种新颖的师生学习策略,特别为单阶段半监督目标检测(SSOD)设计,如图24所示。通过解决单阶段SSOD的基本问题,如低效的伪标签生成[91, 92, 93]和多任务优化中的冲突[189],One Teacher旨在缩小这一差距。One Teacher通过创造性的技术,如多视角伪标签细化(MPR)[190]和分离的半监督优化(DSO)[191],优化了一阶段SSOD的师生学习。
Dsl
DenSe Learning(DSL)[23]算法提出了一种针对 Anchor-Free 点单阶段目标检测(SSOD)的方法。如图25所示,它是为了一阶段 Anchor-Free 点检测器而设计的,例如FCOS [192],与目前主要关注两阶段基于 Anchor 点的检测器的方法形成对比,后者对于实际应用更为实用。DSL通过引入创新技术,如自适应滤波(AF)[19, 193]以精确分配伪标签,聚集教师(AT)[194]以提高标签稳定性,以及不确定性一致性正则化[165]以增强模型泛化能力,来解决关键挑战。
Dense Teacher
密集教师(Dense Teacher)[24]框架为半监督目标检测(Semi-Supervised Object Detection,SSOD)引入了一种创新的方法,通过用密集预测的密集伪标签(Dense Pseudo-Labels,DPL)[196, 197]替换稀疏伪框,如图26所示。
对于这种统一的伪标签[91],后处理程序,如非极大值抑制(Non-Maximum Suppression)[106],是不必要的。
无偏教师v2(Unbiased Teacher v2)
无偏教师v2[26]引入了一种创新方法,将SSOD技术[141, 6, 7, 15]的范围扩展到 Anchor-Free 点检测器,同时引入了听学生(Listen2Student)机制到无监督回归损失[141, 6],如图27所示。主要贡献包括将SSOD的适用性扩展到基于 Anchor 点和 Anchor-Free 点的检测器[200],开发了一种机制来解决回归伪标签中的误导性实例[92, 199, 91],并减少了半监督领域中 Anchor-Free 点和基于 Anchor 点检测器之间的性能差异[200]。
S4OD
S4OD [25]是一种专为一级检测器量身定制的半监督方法,解决了与两阶段SSOD [141, 6, 7]相比,这些检测器固有的极端类别不平衡[147]的挑战。如图28所示,S4OD引入了动态自我适应阈值(DSAT)策略[201]。S4OD动态地确定伪标签选择[92, 93, 93],在分类分支中平衡标签的质量和数量。此外,NMS-UNC模块通过非最大抑制[106]计算框的不确定性来评估回归标签的质量,提升了回归目标[179, 9]。
Consistent-Teacher
在半监督目标检测(SSOD)中,不一致的伪标签[92, 93, 91]提出了一个挑战,Consistent-Teacher [22]方法试图解决这一问题。这些伪标签将噪声引入到学生的训练过程中,导致严重的过拟合[150]问题,并损害准确检测器的构建。如图29所示,Consistent-Teacher引入了一个3D特征对齐模块(FAM-3D)[131],高斯混合模型(GMM)以及自适应 Anchor 点分配(ASA)[129, 130]作为一种减少此问题的策略。这些组成部分提高了伪框的质量,动态地修改阈值,并稳定伪框与 Anchor 点的匹配。
5 Loss Function
损失函数在学习算法设计中具有几个关键原因。首先,它定量地衡量了模型预测的质量,这对于指导学习过程至关重要。其次,损失函数用于计算目标函数关于模型参数的梯度,这对于在学习过程中更新模型是必要的。最后,损失函数的选择可以影响学习算法的收敛速度和最终性能。
Smooth L1 Loss
平滑L1损失[202, 203, 17]通常用于目标检测任务中,它对模型误差提供了温和的惩罚,在噪声或稀疏数据场景中非常有效。它减少了对异常值的敏感性,有助于训练更加稳定,并提升模型性能[204]。
Focal Loss
Focal Loss[205, 206]通过根据样本的分类难度[63, 64]动态调整不同样本的重要性,来解决类别不平衡问题。这个损失函数通常被整合到利用 未标注 数据提升模型鲁棒性的策略中。
Distillation Loss
知识迁移[207]通过利用无标签样本,将基于标签数据的教学模型中的知识传递给学生模型,这一过程由蒸馏损失[120, 7]促进。它经常被融入到半监督框架[68, 111, 68]中,以提高较小学生模型的泛化能力。
KL Divergence
在半监督场景中[60, 68, 111]使用,以对标记和 未标注 数据上的预测进行对齐,KL散度损失[120, 7, 209, 210]最小化概率分布之间的差异。它通常用于旨在利用 未标注 数据以提高模型一致性和性能的策略中。
质量 Focal Loss
质量Focal Loss[24, 211]根据实例的难度 Level 为它们分配不同的权重,优先从具有挑战性的实例中学习。这个损失函数通常用于专注于最大化利用标记和 未标注 数据的策略中。
Consistency Regularization Loss
一致性正则化损失[5, 16]确保了对同一输入数据不同视角的预测一致性,这增强了在SSOD中的模型鲁棒性和泛化能力。它对不一致性进行惩罚,促使模型学习不变特征[178],从而提高了在不同数据集上的性能。
Jensen-Shannon Divergence
Jensen-Shannon散度[212, 213]通过将预测分布与真实标签对齐,规范了集成方法,提高了预测的一致性。
Pseudo-Labeling Loss
伪标签损失[214]是一种技术,它通过基于模型预测对 未标注 数据进行标注,并惩罚预期标签与实际标签之间的差异,从而促进半监督方法[60, 68, 111]的发展。它利用 未标注 的数据,通过鼓励对无标签样本进行自信的预测来提升模型性能。
Cross-Entropy Loss
通过计算估计概率分布与标签的实际分布之间的差异,交叉熵损失对此进行衡量。通过激励模型减小真实概率与预测概率之间的差距,这个损失函数提高了分类[]的准确度。
6 Datasets and Comparison
在目标检测中,拥有具有挑战性的数据集对于确保不同算法的公平和准确的评估至关重要。
Datasets
微软创建了MS-COCO(Microsoft Common Objects in COntext)数据集[216],该数据集包含了一系列标注了多种标注任务(如分割和关键点识别)的图像。大约包含328,000张照片和2.5百万个分类目标实例,覆盖了91个类别,MS-COCO是最广泛和大规模的数据集之一。半监督目标检测技术可以通过将COCO中的标注示例与未标注数据相结合,提高模型的性能和泛化能力,从而消除繁琐的手动标注工作。
起源于PASCAL视觉目标类别挑战赛的PASCAL VOC 数据集[217]包含了一系列标注了边界框和目标标签的照片,涵盖了诸如家居用品、汽车和动物等多个类别。从2005年到2012年,每年的发布包含大约11,000张用于训练和验证的图像,以及额外的10,000张用于测试的图像。带有超过27,000个目标实例的标注,跨越20个类别,PASCAL VOC为评估目标检测算法提供了一个全面的基准。
Comparison
目标检测方法的性能已经在COCO和PASCAL等基准数据集上进行了广泛评估。这些评估显示了在多个训练时期内,一阶段和两阶段检测方法以及端到端方法在提高检测精度方面的进展和有效性。
表2提供了在COCO数据集[216]上各种方法的性能比较。一阶段方法,包括One Teacher[27],DSL[220],Dense Teacher[24],随着训练时期的增加,显示出逐步改进。两阶段方法,如Rethinking pse[19],STAC[6],和Combating Noise[12],在各个时期均表现出性能指标的一致性提升。值得注意的是,基于DETR的模型,如Omnibert[3]和Semi-DETR[1],在图30中显示出显著的性能提升,突显了半监督目标检测策略的有效性。
图31:在VOC PASCAL数据集上,基于CNN(一阶段,两阶段)和基于Transformer(端到端)的半监督目标检测策略的比较。
表3显示了在PASCAL数据集[217]上,不同阶段的各类目标检测方法的性能指标。在一阶段中,像S4OD[25],Dense Teacher[24],DSL[220]等方法在AP50,AP50.95和AP75得分方面表现出具有竞争力的性能。两阶段方法,如Soft Teacher[141],Combating Noise[12]和Instant-Teaching[8],在不同指标上的性能表现有显著差异。最后,像Semi-DETR[1]和Sparse Semi-DETR[2]这样的端到端方法显示了显著的性能,表明了半监督目标检测方法的效力,如图31所示。
7 Open Challenges & Future Directions
半监督目标检测(SSOD)已显示出显著进展,从传统的卷积神经网络(CNN)转变为先进的基于Transformer的模型。本文全面概述了SSOD方法,突出了它们的优点并讨论了它们所面临的挑战。半监督目标检测(SSOD)领域提出了许多方法,以利用 未标注 数据和提升检测性能。这些方法具有某些优点和缺点。表4详细总结了它们的好处和缺点。尽管本文对半监督目标检测方法进行了彻底的审查,但其广泛的关注点可能会导致忽略某些具体方法或该领域最近的进展。调查的范围可能限制了每个半监督方法的深度分析,可能会牺牲对其底层原理、优点和局限性的深入了解。
鉴于针对目标检测任务定制的半监督算法种类繁多,对每种方法进行更深入的检查可以为不同领域的有效性及应用提供更丰富的理解。虽然这些方法代表了SSOD一些最直观的方法,但它们仍有许多障碍。展望未来,有一些潜在的可能性可以改进。
领域适应与迁移学习: 提高半监督目标检测模型的泛化能力需要探索领域适应以及迁移学习技术。将训练于合成或标记数据集上的模型适应到具有有限标记数据的真实世界领域,对于实际部署至关重要。
混合方法与模型压缩: 调查将半监督目标检测与迁移学习、自监督学习或模型压缩结合的混合方法可以提高目标检测系统的效率和效果。新的混合架构和训练策略可以导致资源高效和可伸缩的解决方案。
8 Applications
Image Classification
半监督学习在图像分类方面取得了显著进展,特别是在那些标签数据有限的领域。在医学成像中,它能够从少量的标签样本中精确地对X射线和MRI进行疾病分类。遥感通过改善从卫星图像中土地覆盖和环境影响分类,辅助城市规划和灾害管理。对于自动驾驶车辆,半监督学习提高了对物体和行人的分类,促进更安全的导航。一致性正则化和伪标签等技术对于改进这些模型,提高它们的鲁棒性和准确性至关重要。
Document Analysis
半监督目标检测越来越多地应用于文档分析[228, 229],以高效地识别和分类文档中的文本块、表格和图像等元素。这种方法特别适用于法律、金融和学术领域,这些领域需要处理大量文档。通过利用标注数据和未标注数据,半监督方法提高了检测诸如条款、日期、金额和参考文献等关键信息的准确性和效率。诸如一致性正则化[165]和自训练[244]等技术增强了模型的鲁棒性,使得即使标注数据有限,也能使文档分析更加自动化和可靠。
3D Object Detection
半监督目标检测通过利用标注数据和未标注数据,显著提高了3D检测[245, 246]应用的准确性和鲁棒性。在自动驾驶[61, 62]领域,它使得车辆能够更好地利用激光雷达[LIDAR][247, 248]和摄像头数据[249][250]识别和分类行人及障碍物,提升安全和导航能力。在机器人学中,它帮助精确地进行物体操作和避障。此外,在增强现实和虚拟现实[253]中,它通过将数字元素与真实世界准确融合,实现了更加沉浸式的体验。这些进步使得半监督目标检测成为各种3D检测任务中至关重要的技术。
Network traffic Classification
半监督目标检测也有效地应用于网络流量分类[254, 255, 256]中,它可以帮助识别和分类各种类型的网络流量[257],尤其是在有限标注数据的情况下。通过利用标注和未标注的流量数据,这些模型可以更准确地检测网络活动中的模式、异常和潜在的安全威胁。这种方法增强了管理和保护网络的能力,提高了对恶意活动[258]的检测能力,例如入侵[259]和数据泄露,同时确保了网络的高效性能。因此,半监督学习在维护健壮和安全的网络基础设施中起着至关重要的作用。
Speech Recognition
在语音识别[260, 261, 262, 263]中,半监督域自适应(SSOD)有助于在音频数据中识别和分类语音模式和语音元素,即使在有限的标注样本情况下也能够做到。通过利用标注和未标注的语音数据,这些模型能够更好地从背景噪声中区分语音信号,并将口语词汇准确转录成文本。这种方法提高了语音识别系统的性能和效率[264, 265],使得在各种应用[266, 267](如虚拟助手、语音识别软件和语音控制设备)中能够实现更准确和可靠的转录。此外,SSOD技术有助于提高语音识别系统的可扩展性和适应性,使其能够以更高的准确度处理不同的语言环境和声学环境。
Drug Discovery and Bioinformatics
在药物发现[268, 269]和生物信息学[270, 271]领域,半监督目标检测(SSOD)优化了分子结构[272, 273]和生物实体[274, 275]的识别和分类。通过利用既有标签数据也有未标签数据,SSOD 加速了对潜在药物候选物的筛选过程,并有助于目标验证。这种方法提高了分子分析的效率,使人们能够更深入地了解疾病机制,并促进精准医学策略的发展,以改善患者的治疗效果。
9 Conclusion
半监督目标检测(SSOD)吸引了众多方法利用 未标注 数据提高检测性能,从传统的卷积神经网络(CNNs)发展到现代基于Transformer的模型。
作者对这些策略在基准数据集(如COCO和VOC)上的性能进行了分析,强调了检测准确性和效率的显著提升。本综述全面概述了SSOD方法,突出了它们的优点,同时解决了常见的挑战。
基于Transformer的模型的转变代表了SSOD能力的实质性飞跃,为处理复杂的检测场景提供了新的见解和方法。这项调查旨在激励SSOD领域的持续研究和创新,鼓励研究行人发展和完善将进一步推动计算机视觉及其应用领域发展的策略。
参考
[1].Semi-Supervised Object Detection: A Survey on Progress from CNN to Transformer.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」