前景检测大突破 | Class-Aided助力OCCAM,HQES分割碾压传统槽位OCL,分类准确率飞跃

火山方舟向量数据库大模型

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

精简阅读版本

本文主要解决了什么问题

目标发现的局限性 :评估传统基于槽位的OCL方法在无监督目标发现任务中的表现,并探讨这些方法是否能够满足面向目标学习的核心需求。

虚假背景相关性的挑战 :研究如何利用以目标为中心的表示来减轻分类任务中虚假背景相关性的影响,特别是在分布外(OOD)泛化场景下。

前景检测与目标选择 :探索在众多候选目标中识别相关前景目标的挑战,并提出有效的前景检测方法。

本文的核心创新是什么

HQES与OCL方法的对比 :通过实验验证高质量实体分割(HQES)等类无关分割模型在获取孤立目标表示方面远超基于槽位的OCL方法。

OCCAM流程的设计 :提出了一种简单、无需训练的Prob——面向目标分类与应用Mask(OCCAM),用于鲁棒的零样本图像分类,显著优于基于槽位的方法。

前景检测器的改进 :引入Class-Aided前景检测器,结合分割模型生成的Mask,显著提升在具有虚假背景线索的数据集上的分类性能。

结果相较于以前的方法有哪些提升

目标发现任务 :HQES在Movi-C和Movi-E数据集上的FG-ARI和mBO指标分别提升了数十个百分点,远超当前最先进的OCL方法(如SlotDiffusion、FT-Dinosaur)。

鲁棒分类任务 :OCCAM流程在多个基准测试(如UrbanCars、ImageNet-D、Waterbirds)中实现了接近完美的准确率,尤其在消除虚假背景相关性方面表现出色。

前景检测性能 :Class-Aided前景检测器在AUROC指标上达到90.1%,显著优于其他基线方法,为下游任务提供了更可靠的前景目标选择。

局限性总结

前景目标选择仍具挑战 :尽管分割模型能够生成高质量的Mask,但在众多候选者中识别相关前景目标仍然是一个未完全解决的问题。

依赖高质量分割模型 :OCCAM流程的效果高度依赖于分割模型的质量,这可能限制其在低质量或复杂场景中的应用。

理论基础尚需完善 :虽然实验结果表明基于分割的OCL方法在实际应用中具有优势,但其理论基础和潜在机制仍需进一步研究。

多模态线索的利用不足 :当前方法主要基于静态图像,未能充分利用动态信息(如运动和深度线索),这可能限制其在模拟人类认知方面的表现。

深入阅读版本

导读

面向目标学习(OCL)旨在学习仅编码目标本身的表征,使其在场景中与其他目标或背景线索隔离。该方法支撑了多种目标,包括分布外(OOD)泛化、样本高效的组合以及结构化环境的建模。大多数研究集中于开发无监督机制,将目标在表征空间中分离到离散的槽位中,并通过无监督目标发现进行评估。然而,随着样本高效的分割模型的兴起,作者可以在像素空间中分离目标并独立编码它们。这在对OOD目标发现基准测试中实现了卓越的零样本性能,可扩展到基础模型,并能原生处理可变数量的槽位。因此,OCL方法获得面向目标表征的目标已基本实现。

尽管取得了这些进展,但一个关键问题仍然存在:

在场景中分离目标的能力如何促进更广泛的OCL目标,例如OOD泛化?

作者通过OCL的视角来研究由虚假背景线索引起的OOD泛化挑战,并提出了一种新颖的无训练 Prob ——面向目标分类与应用 Mask (OCCAM),证明基于分割的独立目标编码显著优于基于槽位的OCL方法。然而,实际应用中仍存在挑战。作者为OCL社区提供了可扩展的面向目标表征的工具箱,并专注于实际应用和基本问题,例如理解人类认知中的目标感知。作者的代码在此提供。

  1. 引言

面向目标学习(OCL)旨在发展对复杂场景的表征,这些表征能够独立地编码每个前景目标,同时将其与背景线索分离,确保一个目标的表征不受其他目标或背景的影响[7, 17]。这构成了许多目标的基础要素:它支持对结构化环境进行建模[61],实现鲁棒的小样本泛化[1, 12, 26, 43, 75],促进对复杂场景的组合感知[18],并加深作者对人类认知中目标感知的理解[63, 69, 70]。然而,尽管存在这些广泛的目标,大多数OCL研究都集中在推进“槽位中心”(slot-centric)方法上,这些方法将目标分离并编码到槽位中,并使用无监督目标发现作为主要评估指标[11, 15, 17, 25, 28, 41, 62]。在本文中,作者挑战在OCL中继续强调开发将目标在表征空间中分离的机制作为主要待解决的问题。

作者首先证明,样本高效的类无关分割模型,如高质量实体分割(HQES)[42],远优于最新的以槽位为中心的OCL方法,已经实现了令人印象深刻的零样本目标发现。此外,这些模型具有良好的可扩展性,例如Segment Anything(SAM)[30, 54]等基础模型展示了卓越的零样本分割能力,解决了许多通常由以槽位为中心的方法处理的问题。然而,OCL的更广泛潜力仍远未得到充分探索。作者提出了一个关键问题:在场景中分离目标的能力如何有助于其他OCL目标,例如OOD泛化?

作者通过直接将OCL与OOD泛化相连接来弥补这一差距,特别是在存在虚假背景线索的已知困难设置中。作者引入了面向目标的分类方法——应用 Mask (OCCAM),这是一种简单、面向目标的 Prob ,用于鲁棒的零样本图像分类。OCCAM包含两个阶段:(1)通过目标 Level 的 Mask 生成来生成面向目标的表示;(2)通过选择性地关注相关目标特征并丢弃误导性的背景线索,将OCL表示应用于下游应用,例如存在虚假背景时的图像分类。

从实证角度出发,作者发现,在第一阶段,样本高效的分割模型在无需额外训练的情况下,获取以目标为中心的表征方面优于当前的OCL方法。然而,在第二阶段——即从众多可能的 Mask 中识别相关目标线索的任务仍然是一个挑战。尽管如此,当第二阶段执行正确时,简单的OCL Prob 如OCCAM已经具备实现鲁棒OOD泛化的潜力。

作者建议未来的OCL研究更加关注创建基准测试、针对现实世界应用测试的方法论,其中目标中心表示能带来明确的实际效益,鼓励基于特定现实任务的理论研究,并探索基本问题,例如人类认知中目标感知是如何运作的。

  1. 相关工作

作者从动机、评估和方法三个不同角度概述了面向目标学习(OCL)领域的先前工作。

OCL的动机。OCL社区从不同角度激发了研究。从一方面来看,学习面向目标的表征有助于发现数据生成过程的潜在变量,例如目标位置和颜色[16],甚至通过编码允许干预和变化的结构知识来识别其因果机制[40, 61]。从另一方面来看,OCL旨在通过神经网络模拟人类认知[63, 69, 70]。例如,婴儿通过跟踪随时间表现出一致行为的目标来直观地理解物理学[12],他们后来会重用这些知识来快速学习新任务。OCL的进展可以帮助神经网络发展这种能力。除此之外,一些研究通过为不同元素(例如,人、帽子、床、桌子)及其相互作用(例如,戴着帽子的猫或引导幼崽的熊)提供单独的表征来理解场景的组合性质[18]。一些论文声称存在提高样本效率[26]和泛化能力[26, 28, 41, 43, 62, 75]的潜力,或者面向目标的方法。

picture.image

OCL评估。衡量以目标为中心的学习(object-centric learning)主要动机的进展是一个难题,且长期缺乏可扩展的基准测试。因此,对于常见声称的益处,如参数/学习效率[26, 28]和改进泛化能力[1, 12, 26, 43, 75]或对表征的更好理解,其实证支持仍然有限。部分研究探讨了以目标为中心的学习与下游应用之间的联系,包括强化学习[4, 33, 65, 73, 79]、场景表征与生成[7, 14, 33, 44]、推理[74, 77]以及规划[45]。作者强调这些研究为基准测试OCL领域的进展做出了宝贵贡献。然而,大多数研究并未聚焦于这些任务。大部分进展通过无监督目标发现基准测试进行追踪,本质上属于实体分割[11, 15, 17, 25, 28, 41, 62]。模型性能通常使用前景调整随机指数(FG-ARI)[23, 28, 53]或平均最佳重叠(mBO)[50, 62]进行量化,前者是一种置换不变的聚类指标,后者是平均最佳重叠。这些评估主要衡量插槽是否可靠地隔离单个目标——作者认为这一标准在以目标为中心学习的更广泛背景下过于局限。在作者的论文中,作者呼吁更多研究额外评估下游应用,特别是鉴于基础分割模型的出现,这些模型在标准目标发现任务上显著优于以目标为中心的方法(参见表1和图3)。

picture.image

OCL方法论。SlotAttention [41]的引入使OCL获得了广泛关注,该技术能够对图像中每个目标进行迭代学习,生成独立的潜在表示。这些潜在的"槽位"可以解码回像素空间。后续扩展包括SlotAttention与扩散解码器[25]的结合,以及基于DINO [11, 62]特征的SlotAttention架构。Dinosaur [62]使用预训练的DINO [8]自监督特征作为重建损失的目标。该损失用于在ResNet [21]编码器基础上训练带有Slot Attention [41]的解码器。FT-Dinosaur [11]通过用独立的DINO-ViT [13]编码器替换ResNet编码器(该编码器用于计算目标特征)来改进Dinosaur,并联合微调编码器和解码器。SlotDiffusion [25]使用来自Stable Diffusion编码器[56]的预训练特征,并在其上训练带有Slot Attention [41]的基于扩散的解码器。在视频场景中,顺序适应利用时间依赖性[28]和深度信息[15]。一些研究还提出了OCL的理论基础[5, 75]。还有一条研究线在分割[12]、组合泛化[26, 43, 75]和分类的分布外泛化(OOD)背景下研究以目标为中心的表示,例如CoBalT [1]采用模型蒸馏和槽位聚类为概念来优化特征质量。在作者的实验中,作者在鲁棒分类基准上与最新方法——SlotDiffusion [25]、(FT-)Dinosaur [11, 62](用于目标发现)和CoBalT [1]进行了比较。

  1. 方法

本节概述了作者所HQES。第

节定义了第

节中方法描述所需的符号。

3.1. 符号表示

作者将图像表示为

,将标签表示为

,其中

是类别数量。作者将图像编码器或特征提取器表示为

,将图像嵌入或特征向量表示为

,其中

是特征维度。作者定义分类器的预softmax logits为

,softmax概率为

。为简化,作者将使用

互替。作者还用上标表示张量最后两个维度的索引(例如,

的最后两个维度大小为 H, W),用下标表示其他所有维度(例如,

中第一个维度的大小为 3)。作者将“FG”和“BG”分别用作前景和背景的简称。

3.2. 方法

picture.image

作者的以目标为中心的分类与应用 Mask (OCCAM)流程如图2所示。作者使用以目标为中心的表示来减少图像分类中的虚假关联。它由两个主要部分组成:

    1. 生成以目标为中心的表示
    1. 通过仅使用前景目标的表示来执行鲁棒的分类

在以下小节中,作者将更详细地解释这些部分。

3.2.1. 生成以目标为中心的表征

为了生成以目标为中心的表征,作者首先使用 Mask 生成器为图像中的所有目标和背景生成 Mask 。然后,作者将生成的 Mask 与图像结合,将 Mask 应用于图像。接下来,每个目标都使用图像编码器进行编码。

生成 Mask 。给定原始图像

,作者为所有前景目标和背景生成一组 Mask 。这是通过 Mask 生成器

A 完成的,该生成器以

为输入,并将

中的每个像素分配到

个 Mask 中的一个。该模型的输出是

个二进制 Mask 的堆叠,每个 Mask

对应于不同的目标:

。可以使用 FT-Dinosaur [11] 或 High-Quality Entity Segmentation (HQES) [42] 等外部分割模型作为此流程中的 Mask 生成器。作者将该 Mask 生成器称为 Mask 模型或 Mask 方法。

应用 Mask 。在为每个目标生成二值 Mask 后,作者通过将 Mask 应用于输入图像来隔离每个 Mask 的像素内容。在整个论文中,作者将 Mask 应用操作交替称为 Mask 方法。将 Mask 应用于图像的一种方法是将灰色背景添加到所有非选定像素,沿着 Mask 轮廓裁剪图像,并将结果调整到原始图像的大小。在这种情况下,作者称该操作为"灰色

+裁剪"。然而, Mask 方法可以是涉及图像

和 Mask

的任何操作...

。作者进一步展示了如何方便地整合最新的 Mask 技术,如AlphaCLIP,它通过将 Mask 作为附加的

通道追加到图像张量中,将 Mask 与原始图像结合,生成RGB-A四维张量。这使得 Mask 可以作为焦点来源,而不是完全移除背景,这对于某些实际应用很有用。作者将此类操作称为"3

通道"。

应用 Mask 编码。为了获得最终的面向目标的表示,作者通过图像编码器

(例如 ViT [13])对应用 Mask 进行编码。

3.2.2. 鲁棒分类器

作者假设通过从背景和其他物体的表征中分离前景物体表征,可以消除虚假相关性的来源,从而实现更鲁棒的分类。为此,作者首先使用前一阶段获得的以物体为中心的表征集来选择与前景对应的单个表征。然后作者将选定的前景表征提供给分类器以进行最终预测。

前景检测器。在将 Mask 应用于图像后,作者通过以下过程选择与前景目标对应的 Mask 。首先,作者计算前景分数,该分数反映了给定应用 Mask 与前景目标对应的可能性。然后,作者选取当前图像所有 Mask 中前景分数最高的 Mask ,并使用它进行鲁棒的分类。

目前,作者使用两种类型的背景分数,均由分类器的输出计算得出:

    1. 集合熵

..

集合熵(详见

)。这里,

是集合的大小,

表示熵。 2. 2. 类别辅助:

1 预测真实标签的概率。作者将此前景分数视为衡量以目标为中心的表示有效性的指标,而不是将其作为实际应用中的最终方法。虽然现实中作者无法获取真实标签,但它提供了关键信号,以判断性能不足是否由于目标表示或前景选择和分类器所致。

关于不同前景分数的比较,参见

图像分类使用FG目标表示。最后,一旦作者确定了与前景目标匹配的 Mask ,作者就将其应用于原始图像并对该操作的结果进行分类。HQES最终输出为:

其中

是由前景检测器选择的 Mask 。

  1. 实验

在本节中,作者首先在无监督目标发现任务上评估以槽位为中心的OCL方法和基础分割模型。然后,作者通过将OCL方法与采用基础分割模型生成的 Mask 预测的OCCAM流程(§3)中的强 Baseline 进行基准测试,评估OCL方法是否提供鲁棒的目标分类。

4.1. 完成目标发现了吗?

OCL方法通常通过其在无监督目标发现方面的表现进行评估,该表现通过场景中每个目标的实例分割来衡量。作者探讨了强零样本分割模型(类无关)的出现,例如HQES [42]和SAM [30],是否允许可靠地将场景分解为目标。作者将这些基础分割器与最先进的OCL方法[11, 25, 62]进行了比较。

设置。作者首先描述作者的实验设置,包括数据集、指标和对比 Baseline 。遵循先前工作[11, 15, 28, 62],作者使用来自[19]的两个合成图像数据集:Movi-C和Movi-E。这两个数据集均包含约1,000个放置在高清背景上的真实3D扫描物体。Movi-C每个场景包含3-10个物体,而Movi-E包含11-23个。作者使用两个标准指标(表1)量化模型性能:前景调整兰德指数(FG-ARI)[23, 28, 53]和平均最佳重叠(mBO)[50, 62],具体见第

节。与FG-ARI不同,mBO也考虑背景像素。它还衡量 Mask 与物体拟合的程度。作者将HQES和SAM与具有实际应用价值的OCL方法(所有方法均描述于第

节)进行对比:SlotDiffusion [25]、Dinosaur [62]和FT-Dinosaur [11]。

结果。表1和图3展示了定量和定性结果。在Movi-C和Movi-E等分布外基准上,HQES在FG-ARI和mBO两个指标上的表现均远超OCL Baseline 。在Movi-E上的mBO提升尤为显著,从29.9%提高到63.8%。从定性上看,HQES生成的 Mask 比OCL方法预测的 Mask 与物体拟合得更好(图3)。HQES还展示了其样本效率,仅使用151k个样本进行训练,而SAM则使用了11M个样本。

结论。样本高效的分割模型,即使在零样本设置下,在目标发现方面表现出色,大幅超越了OCL方法。这表明OCL的一个关键方面——将场景分解为目标——可以通过强大的预训练分割模型得到有效解决,从而在很大程度上替代基于槽位的OCL方法。基于这种分解,作者在下一节将探讨OCL方法可以在下游应用中带来大量实际价值的领域。

4.2. 应用:具有虚假背景相关性的分类

作为基础分割模型在将场景分解为构成目标方面优于OCL方法,作者进一步推进,在利用解耦表示进行不同目标区分的下游任务上评估OCL方法:在虚假背景线索下的鲁棒分类。本小节展示了目标 Mask 是一种简单但有效的策略,以减轻分类任务中与背景的虚假关联影响(表2)。

picture.image

设置。作者首先描述作者的实验设置,包括数据集、指标和对比 Baseline 。作者使用多个具有虚假背景或共存目标的标准数据集——UrbanCars [35]、ImageNet-D(背景子集)[81]、ImageNet-9(混合随机子集)[76]、Waterbirds [59] 和 CounterAnimals [72],具体细节详见

。作者使用各自基准中使用的标准指标来衡量模型性能:准确率和最差组准确率(WGA)。作者提供按基准的比较结果作为参考,包括其他相关方法的测试结果,并在表中同时引用其名称。作者在训练自由探头 OCCAM 中使用基础分割模型 HQES [42](O-H)和最先进的 OCL 方法 FTDinosaur [11](O-D)进行 Mask 预测。作者根据图像编码器主干网络的可比性对方法进行分类,以确保公平性。

结果。使用 Mask 显著提升了所有数据集的性能,有时甚至达到100%的准确率(例如在UrbanCars上;表2(b)),或在Waterbirds和ImageNet-9(混合随机)子集上接近该性能。这表明像OCCAM这样的简单、无需训练的以目标为中心的方法,在能够稳健地识别出感兴趣的前景目标的情况下,具有解决其他具有挑战性的下游问题的潜力。在ImageNet-D(背景子集)等更难的基准上,基于HQES的 Mask 与SigLip模型相比,性能远超近期模型如LLAVA 1.5 [37](73.3%),并且在使用FT-Dinosaur时优于其基于槽的最佳对应模型(71.5%)(表2(a))。在整个过程中,HQES始终提供比FT-Dinosaur更有效的 Mask 。

结论。这些实验表明,基于 Mask 的无训练目标中心 Prob 在具有挑战性的鲁棒分类任务中能够提供实用价值,前提是前景检测任务得到充分解决(s3.2.2)。在所有测试基准上,该方法在处理虚假关联方面比现有最佳方法取得了显著提升。作者希望这能鼓励社区开发基于分割的目标中心学习方法,并在各种下游应用中展示其实用价值。接下来,作者利用作者的目标中心学习 Pipeline 的特性进行数据中心分析。

4.2.1. CounterAnimals:虚假的还是仅仅困难?

作者的以目标为中心的分类流程能够将目标的影响与其背景分离。OCL的这种特性可用于分析最近提出的CounterAnimals数据集[72]。

设置。CounterAnimals突显了模型对虚假背景的依赖。它由iNaturalist的两个数据集分割组成,每个数据集包含ImageNet1k [58]中45个类别的动物。Common数据集包含典型背景(例如,雪地上的北极熊),而Counter数据集包含不常见背景(例如,泥土上的北极熊)。它主要展示了模型在Common数据集上始终比在Counter数据集上表现更好,这是由于虚假背景线索的影响。

虚假关联的贡献是什么?作者使用OCCAM进行简单检查——如果从Common到Counter的下降是由虚假的背景关联引起的,那么使用OCCAM作者可以消除除前景目标之外的所有贡献。理想情况下,消除背景应该导致在Common和Counter集上大致相同的性能(差距应为0%)。

picture.image

然而,作者从表3、表4和图5中看到,即使在完全消除背景后,Common和Counter子集之间仍然存在巨大的差距。例如,当使用AlphaCLIP时,差距从17.0%减少到15.2%。同样,使用HQES Mask 和灰色背景,作者仍然观察到8.5%的差距。这提供了有趣的证据,表明Common子集中的图像可能比Counter子集中的图像容易大约8%。OCL方法允许分析数据集,并分析单个目标的贡献。在CounterAnimals的情况下,作者发现虚假背景可能不是Counter子集更难的主要原因,尽管它们是一个因素。一个显著的(10%)差距可能是由Counter子集比Common子集更难分类,由于其他各种因素。总的来说,作者展示了OCL方法在数据归因等数据驱动领域的潜力。

picture.image

4.2.2. 消融实验:识别OCCAM中的 Bottleneck

作者现在消融OCCAM流程中不同组件的贡献。首先,作者测试了两个CLIP模型(CLIP和AlphaCLIP),以验证作者的结果是否能够推广到不仅仅是去除背景的最新技术,例如AlphaCLIP,后者使用

-通道来专注于 Mask 而不是消除背景。其次,作者研究了 Mask 生成器的影响,测试了HQES与当前的SOTA OCL方法FT-Dinosaur。最后,作者研究了不同前景检测方法的影响。作者在表4中展示了作者的分析。

Mask 应用方法的影响。使用ClassAided FG检测器 Mask 可以提高所有数据集上Gray

-通道 Mask 方法的性能,但前者通常具有更高的准确率。例如,在Waterbirds(表4)数据集上,Gray

Crop Mask 方法的准确率为

,而AlphaCLIP的准确率为

。这表明背景存在强烈的虚假相关性,这些相关性仍然对

-CLIP产生一定影响。

Mask 生成器的影响。将 Mask 模型的行与原始CLIP模型进行比较,作者发现,在使用Class-Aided FG检测器的情况下,FTDinosaur和HQES均提升了性能,在CLIP和AlphaCLIP上均有改善。在此情况下,HQES的准确率提升幅度大于FT-Dinosaur。例如,对于GrayBG+CrOrop Mask 方法,其在ImageNet-D上的准确率达到68.0%,而FT-Dinosaur仅达到57.7%。这表明基于分割的OCL在下游OCL应用中始终表现更优。

选择前景 Mask 。使用Ens.

获得的精度提升始终小于使用分类辅助前景检测器获得的精度提升,有时甚至为负值(表4)。例如,对于Gray

Crop Mask 方法和HQES Mask 生成器,当使用Ens.

前景检测器时,ImageNet-9上的精度从

下降到

,而使用分类辅助前景检测器时则跃升至

。鉴于HQES结合分类辅助前景检测器非常接近于对真实前景物体进行分类(详见

),这样的结果并不令人意外。同时,这也揭示了其他 Baseline 前景检测方法的弱点,为改进和未来研究留下了空间。

结论。实证结果表明,分割模型在获取以目标为中心的表示方面优于当前的OCL方法,从而实现更好的分类。简单的Gray

Mask 方法通常比更High-Level的

-通道 Mask 方法表现更好。同时,在众多候选者中识别前景 Mask 仍然是一个挑战。

4.3. 前景检测器比较

为论证在S 3.2.2中选择gclass_aided和

的合理性,作者比较了多种前景检测方法。可以注意到,前景检测是分布外(OOD)检测的一个应用,这是一个研究较为深入的问题[20, 47, 68]——其中前景目标被视为分布内(ID)样本,背景目标被视为分布外样本。因此,作者在图4中评估了用于该任务的各种OOD检测方法。

picture.image

设置。作者利用ImageNet-1k [58]验证集构建一个OOD检测数据集,通过利用真实边界框来推导精确的前景 Mask (详见

)。性能通过ROC曲线下面积(AUROC)进行衡量,与标准的OOD检测框架[20, 46, 47, 57, 68]保持一致。作者使用以下强 Baseline :

  • • 基于类的辅助(单模型)[22]:
  • • 集成熵 [49]:
  • • 集成置信度 [34]:
  • • 置信度(单模型)[22]:

:熵(单模型)[9]:

在此处,

表示真实标签,

表示模型对相应样本

的概率向量预测,

是集成模型的数量,

表示熵。作者使用OpenAI预训练的ViT-L-14 CLIP模型[52]作为单模型,并使用5个在不同数据集上预训练的ViT-L-14 CLIP模型[13]的视觉编码器作为集成模型。请注意,OpenAI ViT-L-14在集成模型中AUROC指标最强,因此被用作单模型。更多细节请参考

结果。如图E所示,Class-Aided实现了最高的AUROC 90.1%,而集成熵方法得到89.6%。其他方法表现明显较差。然而,所有方法均获得超过80%的AUROC。

结论。Class-Aided和Ens.

前景检测器的AUROC性能彼此之间只有轻微差异,均得分约为90%,在所比较的方法中表现最佳;然而,在虚假关联任务中,ClassAided结果与Ens.

前景检测器之间存在显著的性能差距(表4),这一可能原因在

中讨论。这种差异凸显了两个关键启示。当前评估指标可能存在较大的研究差距,以更好地反映实际应用情况。反之,虚假关联前景检测可能是一个有前景的 Agent 任务,用于识别更优的OOD检测模型。

  1. 讨论

为当前OCL基准测试辩护。需要澄清的一个重要方面是OCL研究行人选择使用目标发现基准测试评估其模型背后的理由,这可能并未得到明确的阐述。传统上,OCL工作依赖于构建合成场景,其中人们了解以目标为中心的潜在变量的真实情况,例如目标位置、目标颜色等,从而可以直接评估学习到的表示是否在表示中分别编码每个目标[5, 6, 31]。一个核心方面是将其扩展到真实世界场景,在这些场景中作者没有关于数据生成过程的知识。因此,传统文献采用(a)检测表示以获取目标属性,例如目标位置、目标颜色等[1, 40],以及(b)解码槽表示以观察它们是否确实仅包含给定目标[11, 15, 17, 25, 28, 41, 62]。

OCL是否应严格采用无监督学习?传统上,人们认为在没有辅助信息或数据生成过程的情况下,目标中心表示无法获得真实标签的监督。因此,无需标签的无监督学习成为OCL的标准方法。然而,随着能够利用分割 Mask 或文本与图像结合并泛化到广泛输入的无监督基础模型的诞生,严格的无监督约束的需求受到了挑战[43]。作者相信OCL能从使用所有可用数据中获益良多。

为什么不在OCL中融入发展上合理的多模态线索?在模拟类行人体感知时,作者应该关注发展上合理的监督。然而,作者也注意到婴儿视觉学习是无监督的这一假设同样值得重新审视。婴儿并非仅通过静态图像学习;相反,他们会整合丰富的感官线索(参见Ayzenberg和Behrmann [3]的详细综述)。例如,Spelke的里程碑式综述[64]强调了动态信息,如运动和深度线索,在早期发展中对有效物体分割的重要性。一些以物体为中心的工作(例如Didolkar等人[10])对此提出质疑,主要基于可行性问题,指出多模态数据的不可得。然而,已有几项计算研究,其模型包含了运动或深度信息(例如Elsayed等人[15]、Karazija等人[27]),这些研究同样表明这些额外线索实际上可以被有效利用。因此,当实践中往往可以获取更丰富、多模态的数据时,并没有内在理由将OCL局限于严格的无监督、仅图像的范式。

  1. 结论与开放问题

面向目标学习(OCL)的动机源于多种目标,包括分布外泛化、样本高效组合以及人类认知目标感知的洞察。尽管范围广泛,但进展主要通过目标发现基准进行衡量。随着高质量实体分割(HQES)[42]等强大分割方法的涌现,作者证实了类无关分割模型在获取孤立目标表示方面远超基于槽位的OCL方法,有效满足了OCL的初始目标。

然而,其相关性超越了目标发现。作者主张将OCL评估转向更现实的下游任务,这些任务利用以目标为中心的表示,例如减轻虚假背景相关性。作者设计了一个简单的无训练 Prob OCCAM,以展示以目标为中心的方法的有效性,帮助分类器即使在存在虚假相关性时也能泛化(§4.2),并在许多基准测试中实现了接近完美的准确率(表2)。通过将目标表示(由HQES很好地解决)与目标选择(仍然是一个关键挑战)分离,OCCAM揭示了进一步改进的必要性。

展望未来,作者希望基于OCL的方法能够通过场景图构建来评估视觉理解能力,生成更具解释性的中间表示,并通过人机交互反馈进行线索选择。作者希望多样化的应用场景和相应基准测试能够推动该领域的发展。除了即时的应用场景外,OCL还可能为关于物体和因果关系如何在真实世界中涌现,以及婴儿如何在没有明确监督的情况下理解物体等基本认知问题提供启示[63, 69]。实现这一更广泛的愿景将需要优化OCL目标,并将其分解为更明确的子问题,从而进一步阐明这些更深层次的探究。

参考

[1]. Are We Done with Object-Centric Learning?

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
从 ClickHouse 到 ByteHouse
《从ClickHouse到ByteHouse》白皮书客观分析了当前 ClickHouse 作为一款优秀的开源 OLAP 数据库所展示出来的技术性能特点与其典型的应用场景。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论