点击下方卡片,关注「集智书童」公众号
导读
无模态实例分割旨在检测和分割图像中物体的可见和不可见部分,在自动驾驶、机器人操作和场景理解等众多应用中扮演着关键角色。尽管现有方法需要联合训练前端检测器和 Mask 解码器,但这种方法缺乏灵活性,未能充分利用现有模态检测器的优势。
为了解决这一局限性,作者提出了SAMEO,这是一种新颖的框架,它将SAM作为一款通用的 Mask 解码器进行适配,能够与各种前端检测器接口,从而实现对部分遮挡物体的 Mask 预测。鉴于有限的模态分割数据集的约束,作者引入了Amodal-LVIS,这是一个大规模合成数据集,包含从模态LVIS和LVVIS数据集派生出的30万张图像。该数据集显著扩大了模态分割研究可用的训练数据。
实验结果表明,当在包括Amodal-LVIS在内的扩展数据集上训练时,SAMEO在COCOA-cls和D2SA基准测试中实现了显著的零样本性能,突显了其推广到未见场景的潜力。
- 引言
人类视觉感知超越了场景中直接可见的内容。作者可以通过物体识别和关于物体类别的先验知识,自然地想象和理解部分遮挡物体的完整形状。即使正确分类物体困难,作者通常也能通过分析可见部分并对常见遮挡模式进行推理,推理出部分可见物体的完整形状[9, 20, 24]。无模态实例分割旨在通过检测和定位图像中的物体,并预测它们的完整形状(包括可见和遮挡部分)来复制这种非凡的人类能力(图1)。
有效解决无模态实例分割的方法是将任务分为两个主要组件:目标检测和 Mask 分割。近年来,在目标检测领域取得了显著进展,如RTMDet 和ConvNeXt-V2 等最先进的模型实现了令人印象深刻的性能。然而,当前的模态分割方法通常需要联合训练检测器和 Mask 解码器,这限制了它们充分利用这些强大的预训练模态检测器。这一局限性激励作者开发一个更灵活的框架,能够在利用现有模态检测器的同时,仍保持强大的无模态分割能力。视觉理解基础模型的兴起为分割任务开辟了新的可能性。其中,SAM及其高效的变体EfficientSAM [29] 在基于 Prompt 的模态分割中展示了非凡的能力。作者利用EfficientSAM的架构,其特点是一个轻量级的编码器以实现更快的推理,并通过专门的训练将其应用于无模态分割。SAMEO使模型能够处理无模态和模态 Prompt ,以生成无模态 Mask 预测,同时保持零样本能力。
除了算法和架构的改进外,数据集对于基于学习的方法也至关重要,但当前的无模态分割数据集面临着几个挑战:
- • 有限规模:现有数据集包含的图像相对较少,阻碍了鲁棒模型的开发。
- • 标注质量:一些依赖自动生成方法的数据库,若未经适当验证,可能会导致实例标注不一致,有时甚至错误。
- • 无关物体:大量标注物体,如墙壁和地板,对有意义场景理解贡献甚微。
为了解决这些局限性,作者提出了Amodal-LVIS,这是一个从LVIS [6] 和 LVVIS [26] 中衍生出来的大规模数据集。作者的数据集包含30万张精心挑选的图像,每张图像包含一个实例标注。这些标注形成了合成遮挡实例与其原始未遮挡版本之间的配对示例。此外,作者还对现有数据集进行了处理和精炼,创建了一个包含约100万张图像和200万个实例标注的全面训练集合。
实验结果表明,SAMEO采用EfficientSAM架构,在训练于作者的联合数据集后,实现了超越先前监督无模态分割方法的显著零样本性能。这些结果验证了SAMEO,即利用高效现有架构和高质量、大规模训练数据执行无模态分割任务。
作者的主要贡献可以概括如下:
-
- 弹性无模态框架:所SAMEOSAMEO,通过专门训练,将EfficientSAM适应于无模态实例分割,该分割方法适用于模态和无模态检测 Prompt 。
-
- 大规模数据集:一个新的Amodal-LVIS数据集,包含30万张图像,形成合成遮挡实例与其原始未遮挡版本之间的成对示例。
-
- 数据集收集:通过结合和精炼现有的无模态数据集与AmodalLVIS,创建了一个包含100万张图像和200万个实例的全面训练数据集。
-
- 零样本性能:在COCOA-cls和D2SA基准测试中均取得了最先进的零样本性能,超越了之前的监督学习方法。
-
相关工作
2.1 实例分割
实例分割是一项基本的计算机视觉任务,它同时解决目标检测和分割问题,旨在同时定位场景中的目标并为每个检测到的实例生成精确的 Mask 预测。最初关注目标的可见部分(模态实例分割),随着深度学习架构的出现,这一领域不断进化。最先进的方法通过基于Transformer的特征提取[27]、现代化的卷积[21, 28]和优化速度[16]实现了改进。基于DETR架构[1]构建的进一步检测模型通过专门的 Query 选择机制和训练方案[33, 35]取得了额外的进步。
基于模态实例分割,无模态实例分割将任务扩展到预测完整目标形状,包括遮挡区域。这一扩展首先由Li和Malik [12] 正式化,进而导致了各种架构创新 [5, 30, 31]。值得注意的是,包括ORCNN [4]、ASN [22] 等方法,它们通过引入遮挡推理能力增强了Mask RCNN [7],以及BCNet [10] 通过其双边层处理目标重叠。目前,AISFormer [25] 通过引入Transformer以有效建模长距离依赖,代表了无模态实例分割的最新技术水平。
2.2 段落任何模型
段任何模型(SAM)[11]在基础计算机视觉模型方面取得了重大进展,能够根据各种 Prompt (包括点或框)对任何视觉目标进行分割。该模型在包含1100万张图像的数据集上训练,展示了在众多目标类别和领域中的卓越零样本泛化能力。
原始的SAM模型尽管性能强大,但由于计算需求高,包括显著的内存需求和较慢的推理速度,在实际应用中存在局限性。EfficientSAM [29]通过使用 Mask 自编码器(MAE)[8]预训练方法来从SAM的原始ViT-H编码器中学习特征嵌入,从而在保持可比较的分割性能的同时,实现了更快的推理速度和更小的模型尺寸。
2.3 非模态数据集
已引入多个数据集用于无模态分割。COCOA [34] 是第一个无模态数据集,为COCO图像提供了语义 Level 的无模态标注。D2SA/COCOA-cls [4] 通过实例 Level 的标注扩展了这一数据集。DYCE [3] 提供了具有准确地面真相的合成室内场景。KINS数据集 [22] 专注于交通场景,包含14K张车辆和行人的图像。最近,MUVA [13] 引入了一个多视角购物场景数据集,而MP3D-Amodal [32] 提供了来自Matterport3D的真实室内场景。WALT [23] 独特地利用延时摄影图像来获取无模态地面真相,KITTI-360-APS [18] 通过无模态全景标注扩展了KITTI360 [14]。此外,来自相关无模态补全工作(如pix2gestalt [19])的数据集也为该领域的发展做出了贡献。
- SAMEO
3.1. 使能无模态 Mask 预测
EfficientSAM。SAM是一种图像分割的基础模型,可以根据任何 Prompt 生成高质量的物体 Mask 。原始SAM架构主要由三个主要组件组成:
-
- 一个图像编码器,将输入图像转换为图像嵌入;
-
- 一个轻量级的基于transformer的 Prompt 编码器,将 Prompt (点、框)转换为统一的嵌入;
-
- 一个 Mask 解码器,利用具有两个交叉注意力层的transformer架构来处理图像和 Prompt 嵌入,以生成最终的分割 Mask 。
在SAMEO中,作者主要使用EfficientSAM [29],这是原始SAM模型的紧凑型适配。EfficientSAM用轻量级的ViT变体 [2] 替换了SAM的图像编码器,同时保留了原始的 Prompt 编码器和 Mask 解码器。
模型架构。作者为无模态实例分割提出了SAMEO,保留了EfficientSAM原始架构中的轻量级图像编码器
,一个基于transformer的 Prompt 编码器
,以及一个具有双交叉注意力层的 Mask 解码器
。给定一个输入图像
和一个边界框 Prompt
,所提出的SAMEO流程如下预测无模态 Mask
和估计的IoU
:
训练策略。在训练过程中,作者仅微调EfficientSAM的 Mask 解码器,同时保持图像编码器和 Prompt 编码器的原始权重不变。模型接收两个输入:一张图像和从真实标注中提取的边界框 Prompt 。边界框 Prompt 以等概率从模态和非模态真实边界框中随机选择。训练目标结合Dice损失[17]、Focal损失[15]和L1损失进行IoU估计:
在此,
表示真实无模态 Mask ,
是预测的目标类别概率,
在实验中设置为2,
经验设置为0.05。
推理流程。对于推理任务,SAMEO可以灵活地与各种目标检测器集成,包括无模态检测器(例如,AISFormer)和传统模态检测器(例如,RTMDet)。检测输出作为模型的框 Prompt ,然后生成相应的无模态 Mask (图2)。这种模块化设计使得SAMEO能够在增强现有检测系统的无模态分割能力的同时,实现最先进的性能。
3.2 无模态数据集收集
现有无模态数据集的局限性。现有的无模态数据集在人工和合成标注机制上均存在固有局限性。虽然人工标注的数据集与真实世界场景密切相关,但其生产成本高昂,且在遮挡区域估计中容易出错。合成数据集虽然生成效率高,但缺乏可靠的物体完整性验证机制,可能无法准确反映自然遮挡模式(图3)。
数据集收集与质量控制。为了利用两种机制的优势,作者收集并筛选了两种标注类型的数据集。作者的清洗过程针对每个数据集的具体问题进行处理,以确保数据质量同时保持现实中的遮挡表示(表1)。
对于使用3D家具网格生成的合成数据集DYCE和MP3D-amodal,作者识别并解决了两个主要的质量问题:占据图像空间大部分的无意义建筑元素(墙壁、地板、天花板)和可见面积极小的物体。作者实现了过滤器来移除以下情况:可见部分小于整个物体10%的情况、占据图像面积超过90%的物体以及建筑元素标注。
WALT数据集利用道路监控延时摄影来生成合成数据。它使用预训练的检测器获取汽车和行人的边界框,然后通过分析这些边界框的交集来识别完整物体。这些发现的完整物体随后被合成为同一场景,以生成合成训练数据。然而,它们逐层放置可能会产生不真实的遮挡。作者通过实现遮挡阈值过滤器来解决这一问题,以确保自然遮挡模式。
对于其他带有类别标注的数据集,如COCOA,语义标签的可用性使得质量控制变得简单直接。作者过滤掉这些数据集中的“stuff”类别标注,以聚焦于与无模态实例分割目标相一致的有意义目标。
3.3 非模态-LVIS
作者提出了一种通过精确物体遮挡生成进行无模态分割的合成数据集,该数据集结合了完整的物体收集、合成遮挡生成以及双重标注机制以防止模型偏差。结合现有数据集,作者的数据集总数达到100万张图像和200万个实例标注。
完整物体收集。为了获取用于合成遮挡的完整物体,作者利用在之前提到的无模态数据集上预训练的SAMEO,为LVIS和LVVIS数据集中的实例生成伪标签。SAMEO预测每个实例的无模态 Mask ,然后将其与 GT 可见 Mask 标注进行比较。这种比较有助于作者识别完整、未被遮挡的物体。
合成遮挡生成。遮挡生成过程涉及从作者收集的池中随机选择完整的目标进行配对。为确保遮挡看起来逼真,作者在保持其宽高比的同时,将配对的目标归一化到相似的大小。通过边界框标注来控制目标的位置和遮挡率,这允许精确管理目标之间的遮挡关系。
双重标注机制。作者在第4节中的实验表明,仅使用遮挡 Mask 进行训练会导致模型混淆,即使在 Prompt 旨在针对前景实例时,也会导致对遮挡目标的过度预测。为了解决这个问题,作者将实例的遮挡和原始非遮挡版本都包含在作者的数据集中(图4)。这种双重标注机制防止了遮挡偏差,同时为两种状态提供了全面的训练示例。
- 实验
4.1. 设置
实现细节。SAMEO分别在COCOA-cls、D2SA和MUVA数据集上使用NVIDIA Tesla V100/A100 GPU进行1,440/2,340/22,500次迭代训练。对于零样本SAMEO,作者将批大小增加到32,并训练40,000次迭代。作者使用学习率为
的Adam优化器,没有使用任何学习率调度器。在训练过程中,对于每个实例,作者以相等的概率随机选择模态或非模态真实边界框作为 Prompt 。
数据集与 Baseline 。在训练过程中,作者使用了数据集集合以及提出的Amodal-LVIS数据集。至于评估,作者使用了COCOA-cls、D2SA和MUVA数据集。作者主要将SAMEO与AISFormer进行比较,AISFormer是目前模态实例分割领域最先进的模型。与传统的实例分割模型不同,这些模型结合了目标检测和 Mask 解码组件,SAMEO仅作为 Mask 解码器运行。这使得SAMEO能够灵活地与现有的模态和无模态实例分割模型集成,使用它们的目标框预测作为 Prompt 来生成精细的无模态 Mask 。为了全面评估,作者将作者的结果与这些前端模型的原始 Mask 预测进行了比较。
为了评估作者的零样本性能,作者将比较范围扩展到AISFormer之外,包括既包含模态又包含非模态前端模型,这些模型配备原始EfficientSAM作为其 Mask 解码器。这种比较展示了作者成功将EfficientSAM应用于非模态 Mask 分割,同时保持了零样本能力。
评估指标。作者使用两个标准指标来评估SAMEO:平均平均精度(AP)和平均平均召回率(AR)。由于SAMEO是类别无关的,因此作者在计算这两个指标时没有考虑类别标签。为了进行公平的比较,作者重现了 Baseline 方法,并使用相同的类别无关AP和AR来评估它们。对于使用SAMEO作为 Mask 解码器的方法,作者在计算这些指标时,使用SAMEO预测的估计IoU
来细化前端模型的置信度分数
。这些情况中细化后的置信度分数
的计算如下:
4.2 结果
定量结果 。作者对所提出的SAMEO在三个广泛使用的数据集上进行了评估:COCOA-cls、D2SA和MUVA。对于每个数据集,作者在各自的训练集上训练SAMEO,并在相应的测试集上进行评估(表2)。为了展示SAMEO的有效性和通用性,作者将它附加到各种预训练的前端模型上,其中模态前端使用模态标注进行训练,而非模态前端使用这些数据集的非模态标注进行训练。
实验结果表明,SAMEO在所有数据集上都显著优于当前最先进的方法AISFormer,实现了更高的AP和AR。值得注意的是,SAMEO在 Mask 细化方面表现出鲁棒性,不受前端模型原始 Mask 类型的影响。无论前端模型产生的是模态还是非模态 Mask 预测,SAMEO都能成功对其进行细化,以实现相当高的性能,这展示了其利用这两种类型 Prompt 的强大能力。
定性结果 。为了进行定性评估,作者将SAMEO预测结果与AISFormer在COCOA-cls和MUVA数据集上进行了比较(见图5)。SAMEO在各种具有挑战性的场景中表现出优异的性能,包括包含多个重叠物体(例如,瓶子和容器)的复杂静物布置、具有复杂遮挡(例如,障碍物后面的人)的场景以及多样化的物体类别和姿态。结果显示,SAMEO生成的无模态 Mask 精度更高,边界更清晰,同时对于遮挡部分提供了更合理的预测。定性的比较清楚地展示了SAMEO在 Mask 质量和遮挡推理能力方面相对于 Baseline 方法的改进,验证了SAMEO在现实世界无模态分割任务中的有效性。
4.3 零样本性能
为了评估SAMEO的零样本泛化能力,作者在作者的数据集集合和提出的Amodal-LVIS数据集上训练SAMEO,排除了COCOA-cls和D2SA。在训练过程中,对于每个批次,根据数据集大小与其余所有数据集对数大小之和的比例,以对数形式采样一个数据集。然后,作者测试这两个预留的数据集以展示零样本性能(表3)。为了比较,作者包括了AISFormer和RTMDet(两者均在目标数据集上训练)与原始EfficientSAM的结合,这表明SAMEO成功地将EfficientSAM适应于无模态分割,同时保留了其零样本能力。此外,作者尝试了各种预训练的模态前端检测器,以展示SAMEO在无论前端选择如何的情况下均具有鲁棒的零样本性能。
结果表明SAMEO在性能上优于AISFormer,在COCOA-cls数据集上使用RTMDet实现了高达13.8 AP的提升,在D2SA数据集上使用CO-DETR实现了8.7 AP的提升,达到了最先进的结果,并验证了其作为鲁棒的零样本无模态分割解决方案的强大能力。
4.4 消融研究
IoU预测效果。为了验证模型中IoU预测分支的有效性,作者进行了实验,比较了使用SAMEO预测的IoU进行置信度分数细化前后的性能指标。以AISFormer作为前端模型,并在COCOA-cls数据集上评估此设置,实验结果表明SAMEO的精确IoU预测对提高分割结果的排名有显著贡献(表4)。具体来说,作者发现将预测的IoU用于置信度分数细化导致AP指标显著提升,这证实了IoU预测分支在提升模型整体性能中扮演着关键角色。
训练 Prompt 类型的影响。作者研究了训练SAMEO以实现跨模态和无模态前端 Prompt 的平衡性能的最佳 Prompt 类型策略。作者使用真实无模态框、模态框以及两者等概率随机混合的三种变体来训练SAMEO。为了评估,作者将每个训练好的模型变体与无模态和模态前端检测器相结合,并分别评估其性能。最终性能指标是通过平均两种前端场景下的AP和AR分数来计算的(表5)。作者的发现表明,使用等概率随机框进行训练,在处理各种前端 Prompt 类型时可以获得最平衡的性能,这证明了模型在不同输入场景中泛化的能力。
数据集组成分析。为了理解不同实例类型在训练数据中的重要性,作者进行了一项实验,仅使用仅包含遮挡实例的数据集(例如,pix2gestalt)来训练SAMEO。可视化结果显示一个显著的局限性:即使在输入框 Prompt 明确指示前景目标的情况下,模型也表现出对背景实例的过度预测(图6)。这一观察结果促使作者设计了Amodal-LVIS数据集,该数据集保持了遮挡和非遮挡标注的均衡分布。这种平衡的组成避免了偏差,并确保了在各种场景下的鲁棒性。
- 结论
作者提出了一种灵活的模态无关实例分割方法,通过将基础分割模型适应于处理物体的可见和遮挡部分。SAMEO成功利用了预训练的模态检测器,同时保持了强大的模态无关分割能力。引入包含30万精心挑选图像的Amodal-LVIS,以及作者收集的100万图像和200万实例标注的全面集合,解决了现有数据集中的关键限制,并为鲁棒模型开发提供了必要的规模。
作者广泛进行的实验表明,SAMEO在COCOA-cls、D2SA和MUVA数据集上始终优于最先进的方法。最值得注意的是,当在包括Amodal-LVIS在内的作者自己的数据集集合上训练时,SAMEO在未见过的数据集上实现了强大的零样本性能。该模型的鲁棒泛化能力在各种前端检测器上持续存在,验证了作者在不牺牲性能的情况下,对基础模型进行无模态分割适配的方法。作者还在附录中进一步讨论了SAMEO的局限性和可能的研究方向。
参考
[1]. Segment Anything, Even Occluded
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)