麻省理工再出新作 ,不确定性感知下的物体实例分割 !

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

作者提出了“不确定性感知的物体实例分割”(Uncos)并展示了其对实体交互分割的有效性。

为了解决机器人在感知中面临的不确定性,作者提出了一种生成物体分割假设分布的方法。

通过多次 Query 大型预训练模型,作者可以获得一组具有置信度估计的区域因素分割假设。这一过程可以生成在未见过的物体分割问题上实现最先进性能的分割结果。

输出也可以作为输入到由信念驱动的过程,用于选择机器人动作来扰动场景以降低歧义。

作者在实际机器人实验中证明了这种方法的有效性。

网站:https://sites.google.com/view/embodied-uncertain-seg。

I Introduction

作者的目标是构建可以在包含先前未知物体的环境中运行的长期视野操作系统。对这些系统的一个关键步骤是,将RGB或RGB-d图像分割成待操作的目标候选体。这一步骤通常被称为“未知目标实例分割”(UOIS),已经出现了许多现有的深度学习模型来实现这一任务[1,2,3]。然而,这些模型的输出不可避免地不完善,因为存在模型的局限性,例如数据或计算能力的限制,或者存在图像的挑战,例如遮挡或照明,或者存在根本的歧义,例如一个玩具积木堆。在“实体化”操作环境中,有机器人可用,作者可以与场景互动,以获取额外的信息,例如推动某些目标并跟踪它们如何移动。此外,随着“提示性”分割模型的出现[4],作者也可以与模型互动,以获取额外的信息,例如从不同的提示中获取多个分割。在本文中,作者将这两种方法都用于改进分割结果:对分割模型的多次提示和对物体的主动机器人互动。特别地,作者通过对分割模型进行多次提示构建出分割的不确定性描述,并使用这个表示来指导物理交互。

图像分割,在最一般的形式下,根本上是受约束的。瓶盖是瓶子的一个部分,还是一个独立的物体?衣服是否是人体的一个部分?在这篇文章中,作者限制自己只考虑离散刚性物体的分割,这些问题答案通常是:如果物质块总是以刚性的方式一起移动,那么它们就是一个物体,否则就不是。通常,从杂乱场景的图像中找不到这样的真实分割,一般来说,为了实现特定的机器人操作目标,可能不需要找到它。

作者定义作者的任务为“不确定性敏感的物体实例分割”。给定一张图像,问题的解决方法将场景分割成离散不相交的区域,并为每个区域提供具有足够低的不确定性且具有多个解释的单一解释。这与典型实例分割任务不同,目标是提供给场景一个单一的分割 Mask 。通过明确描述区域不确定性,作者希望实现对下游任务的改进,例如改善收集额外信息以消除歧义的选择。

在这种方法中,一个关键问题是如何描述提出的分割的不确定性。作者开发了一种不确定性估计和假设生成方法,该方法基于对大型预训练的“提示性”模型[4,5]的多次 Query 。在图像的区域内,作者发出随机的点提示,并使用返回 Mask 的一致性作为不确定性的指示。

得到物体假设后,使用机器人进行有针对性的探索,以减小不确定性。作者使用最大不确定性减少驱动的动作选择启发式,轻推候选物体。建立一个状态估计器跟踪并更新物体假设。从得到的信念状态中可以计算出最可能分割假设,作者证明状态估计导致更好的动作选择,最终导致更好的最大可能性分割假设。

这项工作的关键贡献是:

  • UnCOS:一种有active提示策略,用于将提示性自上而下和自下而上的预训练目标实例分割方法结合在一起,以获得图像分段假设分布;
  • EOS:一种方法,将分割分布转换为世界模型分布,并使用该分布选择机器人扰动动作以消除歧义。作者首先展示了UnCOS图像分割策略的有效性,然后将其作为一个单独的方法进行,显示其最大可能性假设比最新的UOIS方法更好。此外,作者显示UnCOS产生的假设分布可以用于EOS生成针对场景的目标物理互动,以收集信息比不太有用的方法更有效地进行。

II Related work

本文与先前的无见过物实例分割(UOIS)工作有关,使用大型预训练模型进行图像分割,估计分割的不确定性,以及具有身体感知的图像分割。

无见过物实例分割(UOIS) UOIS在机器人领域的目标是为了找到前景中物体的实例分割,通常为桌面场景。最近的工作利用了在模拟中生成的数据集,其中包含大量物体[1,2,3,6]。与常见的全视觉、语义分割和实例分割场景的不同之处在于,深度图像被假定为可用。这些方法基于强度线索和几何线索做出预测。作者最终的目标是获得物体分割,但关键是作者的方法估计了逐个分割的概率分布,然后通过与场景互动改进该分布,最后确定特定分割假设。

分割 Anything 模型(SAM) 最近的大型视觉模型在各种任务上取得了令人印象深刻的结果。SAM是一种图像分割模型,已在1100 万图像的数据集上进行了预训练。它可以通过点 Query 或箱体 Query 产生分割 Mask 。由于具有灵活的提示接口和强大的性能,它已用于改进不同任务,例如3D场景分割[7,8]和跟踪[9,10],也与其他大型预训练模型如groundingDINO[11]结合以分割具有文本提示的目标[12]。在作者的工作中,作者利用提示接口进行不确定性估计。

分割不确定性估计 许多分割不确定性估计方法产生了像素级不确定性的热力图[3,13,14]。然而,作者关心的不确定性是目标级不确定性,而不是像素 Level 不确定性。一些以前的方法产生了相对较小的图像块的概率分布[15,16]。UOIS的现代常见失败模式是目标的过度和不足分割,因此通过将不确定性表示为逐个分割 Mask 分组的方式更为适合作者的设置。

具有实体的分割 用机器人动作来补充和增强视觉感知在机器人技术和各种交互式感知中有着悠久的历史。Bohg等人[17]的调查回顾了这一领域的研究成果,其中包括交互式/具有实体的分割。

交互式分割的常见策略是从场景的过度分割开始,并根据运动的一致性识别分组。选择动作,可以通过贪心策略选择。在某些情况下,显式目标是“突出”(isolate)物体[20]。另一方面,Pajarinen等人将动作选择问题表述为POMDP,并试图选择能最大化长期奖励的动作。Qian等人[21]最近的工作寻求基于少量机器人交互的改进分割。动作根据从MSMFormer[3]的像素级不确定性图启发式地选择,与作者利用来自提示大型预训练模型的不确定性表示的方法不同。另一项工作旨在使用机器人交互收集数据来自我监督分割模型的训练[22,23,24]。与作者的目标相反的是,只消歧当前场景。

III Problem setting

作者的最终目标是获得可能非常混乱的桌面场景的准确解释,这形式为一个对应场景中单个物体的部分点云集合。作者假设场景中的所有物体都是刚性的,并且不解决完全遮挡物体的显露问题。

场景分割是一个本质上具有歧义的问题:既可能很难,也可能是不必要的获取一个单一的、完全正确的解释。因此,作者专注于构建一个分割假设的分布,并在给出新观察到一些物体移动的情况下,随着时间的推移更新这个分布。

机器人实体包括一个能够观察整个场景并捕获注册RGB和深度图像的摄像头,以及一个能够到达观察到物体并通过戳物体对它们进行小扰动的机器人手臂。作者的目标是使用最小的物品干扰产生良好的场景解释。

假设机器人能够对场景中的物体进行精确、局部接触。推力行动由选择初始端效应目标位置、方向和运动距离确定。在执行每种动作后,机器人会收缩到使场景不屏蔽的位置。

虽然作者的目标是为了保持对分割状态的分布估计,但为了与现有的分割方法最直接地进行比较,作者将根据2D图像 Mask 上的实例分割指标评估作者的分割结果,如[6]。对于假设的分割{s_{1},\ldots,s_{N_{s}}},其中s_{i}是由分配给物体i的像素集组成,以及真实的分割{g_{1},\ldots,g_{N_{g}}},作者将找到一个映射,将每个假设分割映射到一个真实的分割(或没有){g_{i}},即最大化每个个体F分数之和,并报告总目标大小归一化(osn)精度、召回率和F分数,

其中,,。目标大小归一化指标与标准P/R/F指标[1]有所不同,前者明确地将分数平均压过_分割_,而不是_像素_.这确保了在处理问题时,仅获得少数几个物体正确并不能淹没坏分割的小物体分数,这是重要的。

作者还希望尽可能地减少对场景的干扰。作者不明确测物体之间的运动量,但测量完成动作数增加的分割质量改进。

IV Embodied Uncertainty-Aware Segmentation

提出了一种名为“嵌入不确定性感知目标分割”(EOS)的方法,图1给出了该方法的具体实现。EOS由三个主要组件构成:一个“不确定性感知目标分割模型”(UnCOS),一个信念状态估计器,以及一个动作规划器,它们与场景以闭环交互的方式协同工作。初始的RGB-D图像使用UnCOS处理,该模型基于可提示的图像分割模型构建了分割假设集。这个分割假设集用于初始化一个“信念状态”,该状态表示对3D场景结构的假设集。根据信念状态,选择并执行一个动作,捕捉新的RGB-D观察并用其更新信念。最后,作者生成一组针对最可能假设的图像 Mask 。

picture.image

Uncertainty-aware Object Segmentation Model

作者提出的 不确定意识物体分割模型 (UnCOS),为将多个预训练的2D RGB图像分割方法与从深度图像生成的3D点云进行一些操作结合起来,生成一组可能的分割假设,并附带置信度估计,提供了一种全新的策略。

UnCOS 从两个方面解决问题:

  • 一种“自下而上”的方法,当 Query 时,可以返回覆盖图像中感兴趣区域的 Mask 。这样可以确保图像中的每个区域都能得到考虑。这种方法需要有 高召回率 ,因此多次 Query 该方法很可能返回大多数正确的实例 Mask 。作者称这种方法为 BUHighRecSeg。作者对使用密集的 Query 点,形成全图像的初始高召回 Mask 。作者称其为 BUSeed。
  • 一种“自上而下”的方法,返回一组具有高精确度 的图像 Mask 。这些 Mask 很可能对应于正确的分割,但它们可能不包含所有正确的分割。作者称这种方法为 TDHighPrecSeg。

通用策略可以使用满足这些要求的任何方法。在作者的实现中,作者使用了 分割任何事物模型 (sam) [4]。对于图像,它可以使用像素位置或边界框进行 Query 。

作者使用 像素启发式分割 作为作者的 BUHighRecSeg 模块和其密集发行的版本 (自动 Mask 生成) 作为作者的 BUSeed 模块。作者的实验证实这两种确实具有非常高的召回率。

作者使用 GroundedSAM [11, 12],它使用具有自然语言提示的 _边界框启发式分割_,作为作者的 TDHighPrecSeg 模块。GroundedSAM 将文本作为输入,使用 GroundingDINO [11] 为文本生成检测边界框,然后提示 sam 为每个检测框生成二进制 Mask 。作者使用固定提示 "A rigid object." Query GroundedSAM。作者的实验证实这种方法确实具有非常高的精确度。

算法1:UnCOS

picture.image

算法1 的Alg. 1描述了UnCOS的整体操作。主要启示是划分不确定性与图像区域高度相关。在某些图像区域,解释具有唯一性,只有一个合理假设。然而,对于其他区域,比如包含桌子上堆叠物体的区域, Query 模型可能会返回多种过分割和欠分割。但是这种歧义通常局限于局部区域,一般不会与另一堆物体解释产生交互。

这个启示使作者通过对图像区域进行划分并生成每个区域的假设分布来对分割分布进行因子分解。然后,通过每个区域假设分布的笛卡尔积可以构造整个图像的分割假设分布(图1)。如果场景以无法利用局部性质的方式构建,那么UnCOS会将整个场景视为一个区域。

算法2:分区

picture.image

算法从下往上使用分区方法将图像分为非重叠区域。集合中的区域被认为包含一个物体,集合中的区域被认为存在分割不确定性。Alg. 2详细地描述了这一过程。初始调用BUSeed产生大量重叠区域。作者通过深度信息过滤表和背景,通过RANSAC进行平面估计。然后将剩余区域构建为节点,任意两个具有大量重叠的区域之间有一条边。对于假设单一的区域,通过在区域内多个随机选定点处调用BUHighRecSeg进行验证:如果这个过程生成显著不同的分割结果,那么该区域将不会包含在 confident set_中。所有剩余区域都返回在uncertain set_中。

在将图像划分为不连续的确定性和不确定性区域后,作者开始为每个不确定性区域构建分割假设。为了帮助理解不确定性区域,作者 Query TDHighPrecSeg以生成整个图像的一组候选物mask。作者将与不确定性区域重叠的那些mask,,视为构成候选假设的种子mask。在作者进行这个过程中,作者的目标是生成一组由这些候选假设启动的可能区域的分割。Alg. 3 说明了这个过程:首先从每个种子mask(然后在没有种子mask的情况下继续超过该数字)开始,从整个区域中减去种子mask,然后随机选择剩余区域中一个点来 Query BUHighRecSeg。如果BUHighRecSeg返回一个新的mask,它与未被考虑的区域的平均交点效用(IoU)较高,作者就接受它进入假设,从中移除其区域,并继续,直到作者得到一个近似构成目标区域的假设的mask集合。值得注意的是,作者还使用点云来确定建议的mask对应的3D体积是否退化。如果是平面的建议mask(例如标签),将被拒绝。

一旦为这个区域生成了个完整的分割假设,作者需要检查近似重叠。如果两个假设和具有相同数量的分割,并且和中的最佳匹配块的平均IoU大于阈值,那么作者考虑和为近似重叠。使用这个测试,作者找到等价类假设,并返回每个类的一个代表性;另外,作者计算并返回每个假设类的“bootstrap”信心度量,等于其类内元素的总数除以所有样本的总数。作者使用这个分数在无可用物理交互证据时确定最可能的图像分割假设。

最后,在Alg. 1中,作者返回确信区域,以及每个不确定性区域的因子假设空间,并对其上的分割假设进行分布。

3D Belief representation

作者的基于身体的分割过程从初始信念开始,该信念来自UncOS的结果。这个信念可以集成到一个通用目标导向操作规划流程中,根据给定的任务,决定是否调用信息收集操作。规划器根据剩余的不确定性选择动作,这些动作会导致在任意假设下(例如,决定推翻某个可能是由物体堆组成的物体,而不是从顶部捡起,用于清理桌子任务)的计划成功。

为了测试不确定的分割和信念更新过程,作者将它嵌入一个循环中,其中机器人以降低分割不确定性的目标采取行动。它选择一个基于初始信念的假设,在机器人上执行动作,并在交互后获得场景的新RGB-d图像。作者更新信念以跟踪假定物体的运动并获取每个假设的新的置信度评分。这个过程重复几次。在这个过程中的任何一点,作者可以获取具有最高置信度的假设进行与其他策略的评估。

作者的3D信念表示保留了2D分割输出的因式结构,但提升到3D并在时间上汇聚。现在,是一个包含一组3D目标的集合,表示为全局帧中的点云。每个区域包含的区域假设集:,其中每个区域假设都是对区域的解释。为了简便表示,作者将从现在开始省略。它现在应该在1到之间变化。每个区域假设包含一组3D目标。每个目标包括一个点云和一个表示是单一物体或大型整体且未过度分割的可能性的置信度得分。

随着获得更多观察,作者将调整的置信度值。作者定义每个区域假设的一个分数,它是平均“整体”置信度得分,并与具有额外物体的惩罚相结合,从而偏好于保持刚性假设的最简单的假设:

由于3D信念的结构与UncOS的2D输出相同,作者使用原点云从原图像中提取分割。作者将所有设置为固定的初始值。由于每个区域中的假设与其他区域中的假设独立,作者将整个场景的最可能假设确定为和每个不确定的区域的最可能假设的并集。

Action selection

为了证明信念表示的实用价值,作者使用一个机器人在一个场景中使用简单的贪心策略选择性地戳物体,该策略试图选择一个能最大增加信息增益的较小扰动。作者利用乘性不确定性表示选择场景中不确定性最高的区域,然后选择一个应用于该区域的动作,当应用于该区域时,它诱导出的观测分布对其假设最大化区分。

作者将一个区域的不确定性定义为其具有的高分假设的数量:

选择目标区域后,作者需要选择一个有信息作用的动作。例如,对于一个区域,它的两个假设是关于两个水平对齐的部分是否 rigidly attached,那么沿着连接部件中心线的推力不会像垂直于那个推力那么有帮助。作者使用具有重建世界假设的物理仿真运动结果作为潜在信息增益的启发式。

为了评估动作的有信息作用,作者构造了所有高概率完整假设对应的模拟世界模型。这些世界是由每个区域的可能假设集的笛卡尔积获得的:。

每个世界 都由一组由部分点云定义的目标。为了进行模拟,作者需要生成这些目标的补全,表示为网格。作者遵循相同的目标重建流程,如Curtis等人 _[25]_:作者使用形状补全网络和垂直投影完成部分点云,过滤与当前深度图像的不一致性,并重建一个凹网格。

接下来,作者采样 个动作,,如下所示:在所选目标区域内,作者随机采样所有假设的目标区域中的一个物体。然后,作者在假设物体的质心附近随机采样一个推力方向。然后,作者在每个世界中模拟每个动作的影响,获得新的深度图像 。作者选择诱导假设之间的差异最大的动作:

其中是在下所有世界 的平均深度。给定,作者进行动作规划和实际执行。

Belief update

在执行一个动作后,作者根据机器人的观察更新信仰。由于机器人手臂通常会遮挡目标物体,作者不能在动作执行期间充分利用密集观测。相反,在动作执行终止后捕获一个新的RGB-d图像。

为了跟踪每个假设的 Mask ,作者使用XMem [26]作为两个相邻帧的多目标跟踪器。具体来说,在每个时间步上,对于每个假定的物体,作者初始化XMem为和在时刻的2D Mask 。作者将新图像和更新后的 Mask 传递给XMem以获取更新的 Mask 。与基于光学流的方法(如RAFT [27])相比,XMem对遮挡更具鲁棒性,并可以处理更大的运动。

利用跟踪的 Mask ,作者根据作者的刚性假设更新物体点云和置信度。作者使用RANSAC将注册到跟踪的masked区域,得到刚性转换。作者使用注册点云中的内点百分比作为点云运动遵循刚性假设的程度的测量。这是作者当前时间步得分。作者假设点云足够良好地注册,因此可以将它们仅以 union 形式作为更新:。最终置信度得分是的加权和,其中权重由每个步骤中的位置确定。

V Evaluation

作者对两个主要问题感兴趣:

  • 将不确定性的物体分割模型应用于单个输入RGB-D图像并生成其最可能假设作为输出结果,是否会导致与其他SOTA方法相当的图像分割结果?
  • 通过不确定性感知的物体分割模型初始化信念状态,然后通过具身不确定性感知的物体分割模型更新,这对于选择与世界的交互动作提供良好的基础吗?

作者将在以下部分回答这两个问题。

Segmentation from single images

作者将UncOS与几种方法进行比较。前两个是最先进的全景图像分割方法,它们直接从RGB-D图像预测一组目标分割 Mask :(1) UOIS-Net-3D [1] (2) UCN [2]。下一组方法用sam以某种方式使用,但是不像UncOS那样进行重复 Query 。

  • sam: 返回sam对sam自动生成 Mask 的输出,而不进行进一步处理。
  • sam-cluster: 根据观察到sam倾向于过度分割目标,作者构建了如算法2中描述的连通图,并将每个连接集群视为分割目标。
  • sam-per-pixel-ML: 将同时包含最高sam-{}conf. Mask 的多个 Mask 中的最高值分配给像素,{}conf. 是指sam输出中每个预测 Mask 的预测置信度。
  • GroundedSAM: GroundedSAM中固定提示符“一个刚体物体”。

作者考虑作者的方法UncOS以及几个ablation:

  • BootstrapScore: 返回UncOS具有最高平均sam-conf.值的假设,而不是bootstrap置信度分数。
  • TDHighPrecSeg: 没有使用GroundedSAM的TDHighPrecSeg Mask 。
  • D: 进一步删除退化区域的深度过滤。
  • UncOS + UCN: 将UCN [2]的 Mask 作为额外的TDHighPrecSeg Mask 添加到假设生成过程中。

具有最高的召回率(下划线)。这些结果确认了它们作为TDHighPrecSeg和BUHighRecSeg方法的使用资格。此外,作者还发现将UCN的 Mask 添加到假设生成过程中会稍微降低性能,这可能是因为UCN的 Mask 精度比GroundedSAM中的 Mask 要低。

存在实际最佳假设的得分和UncOS认为最佳的之间的差距。这些值和UncOS的值之间的差距揭示了至少在某些情况下,由于图像歧义,还有尚未识别为正确的好假设。

Improving segmentation through interaction

当UncOS产生了关于可能分割的分布后,作者将其用于选择与场景的物理交互以减少任何剩余的不确定性。作者在弗兰克埃米卡机器人手臂上使用作者实现的采用信念初始的具身不确定知觉物体分割(EOS)系统。要将物体精确地推动,弗兰克抓起一个棍子,如图1所示。作者使用双向RRT进行运动规划,并使用观察得到的点云检查手臂和物体之间的碰撞。来自夹爪上的RealSense D435i相机的RGB和深度图像用于捕获。作者希望通过实际实验回答以下两个问题:

  1. 不确定性是否提高了具有身分的分割效率;2. 构建局部记忆并执行信念更新是否有助于图像分割。

作者的主要方法EOS使用基于从UncOS结果中初始的信念的行动选择方法,并使用来自IV-D节的更新方法。为了评估,在每个时间步,作者将与人类标记的真实 Mask 相比最高的评分假设与三维信念状态。作者与两个剪裁方法进行了比较:

  • 随机:保留EOS中的信念状态初始化和更新方法,但代替最不确定的区域的选择行动,作者随机选择一个假定的物体进行交互,随机选择一个推动方向。与EOS相比,这种方法之间的性能差异可以归因于信念表示中不确定性的使用以集中行动选择。
  • finalFrame:作者使用随机的动作,如上所述,但是而不是维持一个信念状态并每行动一次更新它,作者简单地取每个互动步骤之后物体的配置图像,将其应用UncOS处理,并从UncOS结果中返回最可能假设。与随机相比,这种方法之间的性能差异可以归因于信念更新的机制中观察信息的时间汇总。如果这种方法从第一个到最后一个帧的分割质量都有所提高,可以归因于物理隔离造成的随机运动使物体彼此分离,从而使分割问题更容易。

作者设置了20个场景,包含74种多样化的物体,如图2所示。作者在每个场景上将EOS和随机方法运行一遍(finalFrame方法使用与随机相同的图像,但生成的预测分割不同)。尽管两个运行的场景复制并不完全相同,作者将它们设置为尽可能相似的,如开始时所做的那样比较初始图片。机器人在每个场景中执行3个动作。

picture.image

结果 在机器人互动K步后,表2列出了像素化F分数()和物体大小归一化的F分数()。作者的行动选择策略和随机策略与finalFrame Baseline 表现一致。随着互动步数的增加,具有记忆的方法获得了逐渐改善的分割质量,并高于finalFrame。这说明具有信念更新的具身分割程序可以帮助机器人解决场景中的歧义并提高分割质量。为了说明信念更新以及行动选择在具身分割中的指导作用,作者在图3中还包括了EOS的定性结果。

picture.image

picture.image

将作者的方法与随机戳击 Baseline 进行比较,相同数量的互动步骤下,分割质量(对于两个指标)的提高更大。这表明具有UncOS和信念更新,在具身分割中可以对行动选择提供强大指导,具有更大的受益。同时,有趣的是,finalFrame方法并没有随着物体的移动而改进,这意味着信念跟踪在整体系统性能中发挥着重要作用,并且物体的物理隔离并不是导致改进的唯一原因。

在UncOS产生关于可能分割的分布之后,作者利用它选择与场景的物理交互以减少任何剩余的不确定性。作者在Franka Emika机器人臂上使用实现了的实体不确定感知的物体分割(EOS)系统进行评估。为了精确地推动物体,Franka握住一根棍子,如图1所示。作者使用双向RRT进行运动规划,并使用观察得到的点云检查手臂和物体之间的碰撞。来自夹爪上的RealSense D435i相机的RGB和深度图像用于捕获。在作者通过实际实验回答以下两个问题:1)不确定性是否提高了具有身分的分割效率;2)构建局部记忆并执行信念更新是否有助于图像分割。

作者的主要方法EOS使用基于从UncOS结果中初始的信念的行动选择方法,并使用来自IV-D节的更新方法。为了评估,在每个时间步,作者将与人类标记的真实 Mask 相比最高的评分假设与三维信念状态。作者与两个剪裁方法进行了比较:

  • 随机:保留EOS中的信念状态初始化和更新方法,但代替最不确定的区域的选择行动,作者随机选择一个假定的物体进行交互,随机选择一个推动方向。与EOS相比,这种方法之间的性能差异可以归因于信念表示中不确定性的使用以集中行动选择。
  • finalFrame:作者使用随机的动作,如上所述,但是而不是维持一个信念状态并每行动一次更新它,作者简单地取每个互动步骤之后物体的配置图像,将其应用UncOS处理,并从UncOS结果中返回最可能假设。与随机相比,这种方法之间的性能差异可以归因于信念更新的机制中观察信息的时间汇总。如果这种方法从第一个到最后一个帧的分割质量都有所提高,可以归因于物理隔离造成的随机运动使物体彼此分离,从而使分割问题更容易。

作者设置了20个场景,包含74种多样化的物体,如图2所示。作者在每个场景上将EOS和随机方法运行一遍(finalFrame方法使用与随机相同的图像,但生成的预测分割不同)。尽管两个运行的场景复制并不完全相同,作者将它们设置为尽可能相似的,如开始时所做的那样比较初始图片。机器人在每个场景中执行3个动作。

结果 在机器人互动K步后,表2列出了像素化F分数()和物体大小归一化的F分数()。作者的行动选择策略和随机策略与finalFrame Baseline 表现一致。随着互动步数的增加,具有记忆的方法获得了逐渐改善的分割质量,并高于finalFrame。这说明具有信念更新的具身分割程序可以帮助机器人解决场景中的歧义并提高分割质量。为了说明信念更新以及行动选择在具身分割中的指导作用,作者在图3中还包括了EOS的定性结果。

将作者的方法与随机戳击 Baseline 进行比较,相同数量的互动步骤下,分割质量(对于两个指标)的提高更大。这表明具有UncOS和信念更新,在具身分割中可以对行动选择提供强大指导,具有更大的受益。同时,有趣的是,finalFrame方法并没有随着物体的移动而改进,这意味着信念跟踪在整体系统性能中发挥着重要作用,并且物体的物理隔离并不是导致改进的唯一原因。

VI Discussion

局限性和未来工作 。首先,作者的方法并未利用多视角图像来降低不确定性。作者正在寻找将主动感知策略纳入以降低不确定性的方法。

结论 。作者将不确定性感知的物体实例分割问题作为身临其境分割的基础。UncOS 生成了可能的分割假设分布。从 UncOS 得出的最可能假设已在 UOIS 任务上实现了最先进的性能。通过 real-world 实验,作者证明了 UncOS 可以引导身临其境的互动以实现有效的针对性消除歧义。

参考

[1].Embodied Uncertainty-Aware Object Segmentation.

0
0
0
0
评论
未登录
暂无评论