感知很重要: 用具有不确定性的语义分割增强具身 AI ！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

实体AI在从事未探索的环境中取得了显著的进步。然而，诸如目标搜索等任务主要侧重于有效的策略学习。

在本研究中，作者发现了现有搜索方法中的一些问题：它们主要关注过时的感知模型，忽视了时间聚合，并在测试时直接从真实感知的噪声中转移，而不考虑由此产生的感知状态的过度自信。

作者通过校准的聚合和决策概率以及不确定性来解决这些问题，从而调整了模型以适应连续任务。

所得到的方法可以直接与现有的许多搜索方法的预训练模型进行集成，且无需额外的训练成本。

作者对聚合方法进行了广泛评估，涵盖不同的语义感知模型和策略，证实了校准的不确定性在聚合和找到决策中都至关重要。

作者将代码和训练好的模型在 http://semantic-search.cs.uni-freiburg.de。

1 Introduction

近年来，具有身体感知的AI已引起巨大关注，新的模拟器使基于实际扫描的光真实性、公寓规模的场景进行快速迭代成为可能 [15, 36]。这进一步通过目标的搜索等制度化的基准和挑战得到推进 [40, 1, 7]。然而，这一进步的主要重点是学习导航和探索策略。作者分析了当前的物体搜索工作，见表1，包括并不仅限于最近三年的MultiOn、Habitat ObjectNav 和图像Net挑战赛中的所有顶级方法，它们都发布了足以说明的细节。由于大多数这些方法需要大量的步骤，大多数方法使用地面的真值感知训练，然后用预训练的出厂语义感知模型进行评估。这种零样本转换到学习的模型可以显著降低训练成本。作为交换，作者发现这导致了真实感知和语义感知模型的巨大差距，平均达到25ppt，错误往往与到最优化策略的差距一样大。鉴于它们在文献中的重要性以及感知差距的重要性，这项工作专注于有效整合这些预训练模型。

作者发现文献中存在几个未解决的问题：（i）许多方法已经指出假检测是主要失败原因 [6, 17, 46]。然而，由于他们的使用方便，物体搜索的大部分文献只评估相对较旧的感知模型。（ii）目标搜索不同于纯感知任务，因为它需要在观察序列中做出决策。（这个时间维度）通常被忽视，选择最新或最可能的预测，而不做任何时间汇总 [42, 46, 5]。（iii）从完美的真实感知完美感知模型到不完全的感知模型的零样本转移表示策略不意识到它们的行为涉及不完全的感知，由于预训练感知模型通常对其预测非常自信，所以这得到了恶化。

图1：随着时间推移，一个强化学习代理在Habitat ObjectNav任务上的成功率。与 GT 语义 Mask 相比，不同语义感知模型的感知差距往往更大，间隙可能达到最优化策略的间隙。作者提出基于不确定性的聚合来减少感知差距，并找到通过聚合决策来解决问题。真实:真实语义 Mask ，一步:最新语义预测，聚合:模型最佳评估聚合方法(见第4节)。

picture.image

为了量化和解决这些问题，作者首先评估了不同的语义感知模型和聚合方法对于顺序决策任务的影响。这与基于IoU（交点与联合）或精确度的纯单步感知评估不同。作者衡量了观察和动作序列全景的结果，其中早期的错误可能影响或阻止后的决定。图1显示了感知至真实语义的巨大差距。虽然新型模型可以减少这一差距，但作者在感知 Level 上定时聚合被认为是缩小差距的关键。为了进行有意义的比较，作者将关注的系统结构中最常用的一种，模块化的感知-映射-策略 Pipeline ，在一个最探索的任务中，ObjectNav中引入不确定性聚合。虽然之前的策略发展出复杂的启发式映射聚合策略来应对强预测和未校准的概率 [17, 35]，但作者将具有不确定性估计能力的校准感知模型集成到智能体的地图聚合和决策中，从而缩小感知差距。

总之，这项工作做出以下主要贡献：

（i）作者确定并量化了在顺序具身AI任务中感知和聚合方法整合的当前差距。

（ii）作者将校准感知概率和不确定性引入代理人的地图集合并决策，从而减小到真实感知的差距。

（iii）作者进行了深入的实验评估，并演示了作者的方法可以轻松整合到现有的方法中。

作者的方法也直接与现有的广泛模型集成，无需任何额外的训练成本。

在总结之前，作者需要确保作者的研究重点是真实的感知。作者在各种不同的搜索策略和语义模型下，验证了作者的结论。作者发现，作者的结论对不同的搜索策略和语义感知模型都有意义。（见第二部分）

总之，作者所做的工作为感知和聚合的集成方法在顺序具身AI任务中提供了新的视角，并且通过不确定性估计能力的集成，有效的缩小区间。

2 Related Work

目标搜索已经采用诸多方法，包括经典方法如前沿探索[41]，视觉强化学习[4]，或听觉信号[43]。近年来，在公共挑战[1]上利用语义信息的基础映射方法取得了巨大成功[5,25,47,35]。（在表1中，作者将近几年的ObjectNav[40]，ImageNet[40]和MultiOn[38]挑战中表现最出色的方法进行了概括。）除了地图表示外，强化学习（RL）[22,28,5]和非学习性策略[46,17]也取得了成功。这种模块化网络结构在ObjectNav[3,12]等任务之外也得到了使用。（在表1中，作者将近几年的ObjectNav[40]，ImageNet[40]和MultiOn[38]挑战中表现最出色的方法进行了概括。）

作者观察到几个方面：

（i）由于感知模型的大小，基于学习的方法倾向于在训练时使用真实感知值，然后在测试时将此模块替换为预训练的感知模型。有时，感知模型首先在数据集[18]上进行微调。

（ii）由于它们的易用性，大多数方法依赖于相对较旧的感受模型如Mask-RCNN[11]或Rednet[14]。只有少数工作能够阻止使用最新的状态最先进模型[46,44,35]进行集成。

（iii）虽然策略网络通常通过RNN[3]集成先前的信息，但这些顺序决策过程的时间维度对于感知水平而言大多被忽略，通常只使用最后一个预测。虽然独立的工作整合了聚合方法[35,17]，但排序决策任务内部的全面比较仍然缺失。

（iv）因此，作者发现在实际模型与学习模型之间的测试时错误率巨大，平均值为25.8 ppt。

《不确定性感知的感知》: 感知的不确定性估计技术可以分为基于采样和基于采样无方法二类。基于采样方法需要多次前向传递或多个网络[16]来估计不确定性。因此，它们需要大量的时间和内存，从而不适用于实时应用。所以，采样无方法在最近的研究中获得了更多的关注。Sensoy等人[30]提出了用于分类任务的贝叶斯学习，以学习高阶分布的参数，从而可以推理分类的不确定性。其他的工作已将贝叶斯学习应用于目标检测[21]和不同模态的分割任务[32,33]。Sirohi等人[31]进一步利用[33]的贝叶斯输出并提出了不确定性感知的映射方法。但依赖贝叶斯学习的方法需要从头训练。可以在概率对数软max映射[48]中直接使用分割网络的软max概率。然而，产生的地图也会导致过度确定的不确定性估计[31]。Guo等人[10]提出温度标度来校准网络中获得的软max概率，从而可以无需昂贵的再训练来使用任何预训练网络。因此，作者利用温度标度来获得校准的软max概率和不确定性。

3 Technical Approach

Problem Statement

在ObjectNav中，智能体从一个未探索的环境开始，必须使用RGB-D相机和定位来寻找并导航至目标类别的实例。作者遵循Habitat 2023目标导航挑战[40]在HM3D数据集[23]中的定义。一节被视为成功，如果智能体在目标物体附近米范围内发出一个停止动作，并且 Oracle 从停止位置可以看到该目标。如果在一千步内没有做出任何决策，则一节被视为不成功。作者使用连续动作参数化，并做了一些调整：

（i）作者将相机分辨率从垂直切换到更为常见的景观分辨率，即，并将相机俯仰角设置为度。

（ii）作者只使用了所有预训练感知模型覆盖的所有目标类，即省略了_植物_类。

（iii）作者将连续动作的步长从米/秒调整到米/秒，最大线性速度为米/秒。这确保智能体可以在允许的时间内沿着连续动作参数化时达到的最大距离。

（iv）作者修复了一个导致碰撞检测和低级速度积分无反应的错误，当速度较大时会进行多步。

Model Structure

如图2所示，模块化目标搜索流水线的概述。首先，语义分割模型对当前图像进行分类。接着，映射模块将此信息融合为语义点云并将其集成到全局地图中。从该地图中，可以提取出以自我为中心的地图供强化学习代理使用，或者全地图供规划器使用。代理然后确定针对给定目标类的导航和找到决定。作者开发了一般的方法，将校准的不确定性集成到这个系统中，以进行语义感知的时间聚合和一致的找到决定。

picture.image

在本工作中，作者专注于模块化方法，这些方法已在广泛使用中取得了最新的成果，如图2所示。这些方法首先获取当前摄像头图像的语义信息。然后，通过将此数据映射到顶部视图并将其集成到全局地图，使用映射模块得到明确表示。最后，代理使用此表示进行导航和找到决定，通常通过使用以自我为中心的地图进行强化学习代理，或者通过使用全局地图进行规划器。这种流水线的模块化允许使用具有不同分割模型的不同策略。作者将不确定性和校准的概率集成到这些系统，并利用它们进行高效的时序聚合和找到决定。

Uncertainty-Aware Perception

作者假设已获得了一个预训练的语义分割网络，该网络将RGB和/或深度图像作为输入，并预测一个语义分割输出作为对数似然向量，其中是类别数。然而，这些语义分割模型通常使用交叉熵损失进行训练[14, 29, 39]，其中包含对对数似然值使用softmax操作，这会放大某个类别的预测概率。因此，作者采用提出的温度缩放技术[10]，它们在验证集上调整缩放因子，以获得更好的概率估计。然而，由于这些网络是预先在不同的数据集上进行训练的，作者在来自HM3D数据集[23]的标记集中调整缩放因子。请注意，这个图像集与任何策略训练都无关。最后，作者利用缩放的对数似然向量来获得概率向量。其中，包括像素在图像中的每类分类概率。最后，作者利用归一化熵来计算相应的每像素分类不确定性，定义为。

Perception Uncertainty Weighted Map Aggregation

作者使用一个鸟瞰视角（BEV）网格地图表示，网格单元尺寸为3×3 cm^2。作者将感知预测根据深度图像和机器人真实姿态投影到相应的单元中，使用最上层的 Voxel 。作者利用校准的概率向量 p^{pred} 以及感知不确定性 u，进行映射。对于地图上的每个单元 k 和 N 个测量值，作者计算一组概率向量（p^{pred,k}）的加权平均，该平均值由感知不确定性 u 的倒数加权，得到聚合概率向量 p_{k}=1/U * \sum_{n=1}^{N} \frac{1}{u_{n,k}}p^{pred,k}，其大小为 C×1，其中 U= \∑_{n=1}^{N} \frac{1}{u_{n,k}}。类似于感知，作者对每个网格单元 k 计算映射不确定性 u_{k}^{map} 作为来自概率向量 p_{k} 的标准化熵。因此，作者为地图上传来的每个单元 k 维护了一个大小为 C+3 的向量 m_{k}，其中 m_{k}=[p_{k},height,occupancy,u_{k}^{map}]。高度记录每个单元内遇到的最高高度，如果是大于 0.1 米，则 occupancy 设置为1，否则设置为0。

Map Uncertainty-based Found Decision

在满足以下两个条件时，作者做出一个确定的决策：（i）目标物体距离机器人不超过1米；（ii）目标物体所占据的地图单元的地图不确定性，即，小于阈值。作者将阈值的经验值设置为基于超参数优化的训练集。这个想法是，感知在较远的距离上容易出错。因此，距离约束确保在做出决策时机器人离目标物体很近。地图不确定性对于过滤由感知预测变化引起的假阳性至关重要。如果感知在预测中出现变化，不确定性将会很高。因此，在作者只有在感知为目标物体提供多个低不确定性的观测时，才会将物体标记为找到。

Policies

虽然感知文献已经发展了可靠的评价指标来评估单个图像，但作者关注的是感知模型在顺序决策问题上的性能。因此，感知和策略的表现紧密交织，感知状态将影响策略的下一行动，从而改变下一状态。因此，某些错误可能在早期的代理中造成更大的影响，或过早地结束一个子集。因此，作者评估两种设置：

首先，作者提出使用一个与感知状态无关的最短路径真实状态地面短路径策略来评估所有方法在相同的观测序列上，以隔离感知和聚合组件的影响。作者利用Habitat的最短路径实现[36]来在真实状态导航网格中以目标物体为目标。为了可比性，作者在目标之前收集完整的轨迹metric，即使一个错误的发现可能导致子集过早结束。

其次，作者评估这些结果如何转化为不同的策略，并影响决策环的整体性能。为此，作者实现了一个最近基于强化学习的目标搜索策略[27]，如图2所示，并采用模块化模型结构。给定目标类别，代理将完整的语义映射转变为局部和全局以自我为中心的映射，将任务相关的目标映射到_target-object_颜色，将不相关的物体映射到_occupied_颜色。其策略网络然后预测针对目标物体的最可能的方向以及导航命令。代理使用PPO进行训练，使用真实语义感知，然后使用学习的感知模型和聚合策略进行部署。

4 Experimental Evaluations

作者在HM3D数据集[23]的Habitat 2023目标导航挑战赛[40]的验证分片中，评估了作者的方法在广泛的语义感知模型和多个策略上的性能。

指标：作者计算了以下评估指标：

成功率（SR）： 在代理人找到目标并且正确提升决策在时限内的成功 episode 的比例。

找到/误识别率（FPR）： 含有错误找到决策的 episode 的比例。

Found/False Negative Rate (FNR):

每个情节中智能代理未能调用找到决定的份额。

Detection/False Positives (#FP): 每个情节中目标物体被错误地映射并展示给智能代理的次数。注意，在单个情节中可能会发生多次错误检测。为了计算目标检测（而不是像素）的数量，作者需要将地图上所有目标类预测的外界框进行膨胀，并计算每个连通分量作为一个错误检测。

Detection/False Negatives (#FN): 每个情节中，在具有真实语义相机的地图中，目标物体存在，但未在目标物体的真实框内显示给智能代理的次数。

Success weighted by Path Length (SPL): 智能代理路径的长度加权成功率。

Baseline：作者将与各种聚合和决策方法进行比较：

Ground Truth: 使用来自模拟器的真实语义相机图像构建地图。如果智能代理足够接近映射的目标，始终触发找到决策。

Latest: 在每个时间步依次预测概率最高的类，覆盖之前的所有值。如果智能代理在包含目标物体的网格单元内，且距离满足一定条件，那么就生成找到决策。

Hits/Views: 依据分类和观察的聚合方法 [37]，维持额外的地图通道来跟踪每个单元的目标类 hits（检测）数量以及从距离以下观察的较近距离。如果智能代理距离至少个视野的单元的距离阈值（1 m）在1 m以内，且 hits/view 比值大于，则生成找到决策。否则，将其分类为误检，停止在该单元内映射目标。

Skillfusion [35]： 在本地地图中使用4 cm×4 cm Kernel 侵蚀目标物，以去除异常值。然后维持一个网格地图，用连续的值表示目标的存在的网格单元，该值会在目标物体投影到单元时加1。否则，网格单元的值会乘以一个衰减系数。如果智能代理距离这样一张网格单元的值大于一个阈值，则生成找到决策。如果智能代理在找到距离如此的网格单元内，则生成找到决策。

Stubborn [17]： 维护额外的地图通道，包括总视野，累积信心，最大信心和最大非目标信心。将这些特征输入到能输出二元找到决策的朴素贝叶斯分类器中。由于训练好的分类器未被释放，作者在使用最短路径策略的独特训练场景中收集的64个episodes中训练它。

Latest Filtered: 与最新方法相同，但只映射目标类别，如果映射目标物体的地图不确定性低于一个阈值。否则，映射为“占用”类别。

Log Odds: 对网格单元进行贝叶斯更新，但对每个单元使用多类对数几率，但使用作者校准的概率。智能代理在每个步骤显示最可能的类。如果目标物体在找到距离内，且后验的不确定性小于一个阈值，就将该物体标记为找到。

作者使用树状的参数搜索 [2] 对所有方法进行超参数搜索。对于每个方法，作者都设置了20个实验，并将每个配置的平均成功率作为使用最短路径策略独特训练场景的30个episodes的训练场景的平均值。作者发现优化过程收敛到稳定的参数值。

感知模型：为了评估聚合方法的泛化性，作者在不同的语义模型上评估所有方法。

Mask-RCNN [11]： 物体导航文献中最常用的感知模型（见表1），代表着简单的即用型模型。在MS-COCO上进行预训练。由于Mask-RCNN是一个实例分割模型，因此并不为每个像素提供类概率，因此并非所有的聚合方法都适用。

Segformer [39]： 最近物

Evaluation of Uncertainty Estimation

作者通过预期校准误差（ECE）[20]和不确定性预期校准误差（uECE）[33]来评估感知模型的概率和不确定性估计质量。网络的校准定义了预测置信度如何与实际预测准确性匹配。ECE量化最大类别概率和准确度之间的误差，而uECE衡量网络置信度和实际准确性之间的误差，其中置信度定义为1-不确定性。由于（第3.4节）中定义的地图聚合使用了不确定性和概率，因此希望两者都具有较低的ECE和uECE以获得更好的性能。

图3：不同语义感知模型在验证集上的预期校准误差（左）和不确定性预期校准误差（右）。

picture.image

在图3中，作者给出了Segformer和温度调整版本的EMSNet的校准图。完美的校准对应于图中的固黑色线。作者可以看到，两个网络在应用温度调整后，ECE和uECE都降低了。尽管EMSNet的ECE在温度调整后（TS）从26%降至5%，但Segformer只降了1个百分点。因此，与Segformer相比，EMSNet的置信度在温度调整后变得更好校准。因此，作者预计在对比较Segformer时，EMSNet在平均概率聚合方面表现良好。然而，EMSNet和Segformer的不确定性校准都显着提高了uECE的17和10%，因此不确定性的权重对Segformer和EMSNet应该有相同的影响。然而，由于EMSNet具有更好的校准置信度和不确定性，作者发现它更适合物体搜索任务。

Perception's Impact on Sequential Navigation

picture.image

为了探究顺序导航任务中感知的影响，作者首先比较了基于最短路径策略的相同序列上的感知聚合策略。表2报告了最佳性能语义模型EMSANet的结果。作者发现，使用启发式知识地从短路径策略实现的近似完美的性能。这意味着成功率下降可归因于感知差距。请注意，由于目标缺失或错误，作者找到了极少数无法解决的事件。作者发现时间聚合是必要的，因为仅使用最近的预测结果导致了一个高数量的假阳性决定，这将成功率降低到30%，而聚合方法可以弥补这一差距。其次，作者发现校准概率和基于不确定性地进行决策也是必要的，这优于使用计数或侵蚀来消除假阳性。最终，作者认为作者提出的平均值提供了最可靠的更新。定性示例在图4中展示。作者可以看到，当底层地图不确定性高时，智能体能够过滤掉假阳性（以圆圈表示），从而提供了可靠的学习。

感知的对顺序决策的影响

picture.image

然后，作者研究了聚合方法和策略之间的相互依赖性，并使用学习到的强化学习代理评估这些方法。该代理使用真实感知的训练和所学感知的部署方法，如3.6节中所述。结果如表3所示。代理使用真实感知达到成功率为75%，表示策略差距为25%。在聚合方法中，作者发现作者的结果适用于不同的策略，证实了最短路径策略的先前结论。校准感知概率和不确定性是必要的，与作者提出的聚合方法相结合可显著减少感知差距，无论是成功率还是路径效率，均为在SPL上的度量。

picture.image

Generalizability Across Perception Models

图1比较了不同感知模型上的结果。作者发现校准聚合的重要性得到了证实。虽然 Mask-RCNN 在单图像预测中的物体分割表现良好，但使用 newer 模型可以通过准确聚合在感知差异上缩小超过10个百分点的差距。所有聚合方法的所有结果（报告在附录A中）确认了聚合方法之间的相对结果，方法之间的相对排名非常稳定。作者发现加权平均性能在模型和方法之间保持最佳或相仿。唯一的例外是与作者开发的 Segformer 结合的 Skillfusion 聚合，它在该设置下的成功率比 SPL 高1.4%。然而，正如作者从图3的结果中可以看到，即使经过温度缩放，Segformer 模型的概率没有很好地校准。然而，利用校准的不确定性有助于作者的方法实现接近 Skillfusion 的性能。这个结果进一步加强了作者的观点，即校准网络有助于更好的导航任务。

5 Conclusion

在这项工作中，作者发现了物体搜索文献中的空白，并表明感知差距的部分可以由预训练语义感知模型的无效使用来解释。

作者提出了在映射聚合和决策制定中使用校准的概率和不确定性，并证明了它们在不同感知模型和策略上的有效性。所得到的方法可以很容易地纳入，并使一系列模型在不进行额外训练的情况下进一步减少差距。

因此，它们使研究行人可以进一步缩小差距。此外，作者已将代码公开以帮助未来的研究。

参考

[1].Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号