SAM-E | 利用视觉基础模型和序列预测提升3D操作的多任务性能与泛化能力！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

在3D操作中获取多任务模仿策略在场景理解和动作预测方面提出了挑战。当前方法同时采用3D表示和多视图2D表示来预测机器人末端执行器的姿态。

然而，它们仍然需要大量高质量机器人轨迹，并且在未见任务中的泛化能力有限，在长视野推理中的执行效率也不高。

在本文中，作者提出了SAM-E，一种通过利用视觉基础模型进行可泛化的场景理解和序列模仿以进行长期动作推理的机器人操作新型架构。

具体来说，作者采用了在大量图像上预训练的Segment Anything（SAM）以及即时可用的 Mask 作为提取任务相关特征的基础模型，并在机器人数据上进行参数高效的微调以更好地理解具身情境。

为了解决长视野推理问题，作者开发了一种新颖的多通道 Heatmap ，可以在单次传递中预测动作序列，显著提高了执行效率。

来自各种遵循指令任务的实验结果表明，与 Baseline 相比，SAM-E在执行效率上有更优越的性能，并且在少样本适应新任务时显著提高了泛化能力。

1 Introduction

机器人操作已经取得了显著进展，得益于实体化数据集、模仿学习（IL）或强化学习以及先进的 Transformer 或扩散基础网络。为了在3D物理世界中执行复杂多样的操作任务，理解包含物体位置、方向、形状、遮挡以及物体与环境之间关系的3D场景结构至关重要。各种方法利用3D表示，如 Voxel 块、点云，为预测末端执行器的姿态提供3D定位。然而，学习3D表示可能计算成本高昂。例如，基于 Voxel 的方法在 Voxel 数量与分辨率成三次方增长的情况下达到最先进性能，这使得在更大的数据集上应用变得不切实际。

为了应对这些挑战，最近的研究探讨了从单视图图像中提取特征和利用多视图 Transformer 进行信息聚合（Guhur et al., 2022），由于图像块与输入分辨率对齐，这提供了更高的效率。例如，最近提出的RVT（Goyal et al., 2023）比基于 Voxel 的方法快36倍，并且性能更好。然而，学习多视图策略仍然需要相当数量高质量机器人轨迹进行模仿，且由此产生的策略在未见任务上的泛化能力有限，在长视距推理中的执行效率也较低。受到近期关于视觉基础模型的研究启发，这些模型利用网络规模的数据集，并展示了强大的零样本和少样本泛化能力，作者进一步研究多视图架构，以增强语言跟随任务中3D操作策略的泛化能力和执行效率。

在本文中，作者提出了一种新颖的机器人操作架构，该架构利用视觉基础模型进行图像理解以及序列模仿进行长视距推理。作者将作者的方法命名为SAM-E，因为作者使用SAM（Segment Anything Model）（Kirillov et al., 2023）作为实体操作的基础模型。SAM是一个提示条件下的图像分割模型，在大规模图像和 Mask 数据集上进行训练。利用SAM作为基础感知模型有利于在各种操作场景中的场景理解和泛化。此外，提示条件下的SAM编码器适合于语言指导的操作，通过根据任务描述提取任务相关的视觉特征。此外，作者对SAM进行参数效率高的微调，以增强对实体场景的理解。在提示引导的特征下，作者采用多视图注意力将视图表示与坐标信息整合起来进行动作预测。

为了提高长视距动作预测的效率，作者提出了一种新颖的预测头，用于生成动作序列的多通道姿态 Heatmap 。随后，来自不同视图的 Heatmap 反投影到3D空间，为离散化的3D点集生成分数，最终确定动作的3D位置和旋转。在推理过程中，动作序列可以通过单次传递预测并顺序执行，与之前的逐步骤预测方法相比，显著提高了执行效率。作者在RLBench上进行了各种3D指令跟随任务的实验，包括18个任务，共249个变体（James et al., 2020）。结果显示，SAM-E相对于 Baseline 方法实现了更优的性能和更高的推理效率。此外，视觉基础模型大大增强了学习策略在新任务上的泛化能力，这些新任务通过少量示范进行适应。

2 Preliminaries

LC-POMDP. 语言条件下的机器人操作问题可以建模为一个语言条件部分可观测马尔可夫决策过程（LC-POMDP），形式化为一个增强的POMDP ，其中和分别表示状态空间和动作空间，表示观察空间，表示转移概率或环境动态，表示初始状态分布，表示所有语言指令的集合，是观察函数，表示剧集时间范围。作者采用模仿学习，而无需考虑用于强化学习的奖励函数。对于每个剧集，机器人被赋予一个语言指令，代表当前任务的目标。在每一步时间，机器人需要根据给定的观察和策略采取行动。由于作者专注于3D操作，观察包含来自不同视角相机的多视角图像。

模仿学习。为了解决语言条件下的操作任务，模仿学习（Goyal等人，2023；Li等人，2024）允许智能体模仿一组专家演示，表示为，其中是专家轨迹，表示语言指令。对于策略的常见模仿学习目标是在语言和当前状态下最大化动作的对数似然。形式上，损失函数是

关键帧提取。为了提高专家演示的利用率，作者与3D操作算法的共识保持一致（James和Davison，2022；James等人，2022；Shridhar等人，2022；Goyal等人，2023），通过整合关键帧提取来选择关键帧动作。关键帧提取包括一个布尔函数，它决定是否应将一个动作识别为关键帧。对于每个演示，通过函数生成一系列关键帧动作，遵循两个简单条件：(i) 关节速度接近零（在进入预抓握姿态或任务的新阶段时发生），(ii) 机械爪状态发生变化（在抓取或释放物体时发生）。基于函数，式(1)中的模仿目标变为预测演示中的“下一个关键帧动作”。以下，作者稍微滥用来表示的下一个关键帧动作，因为作者对SAM-E和 Baseline 采用相同的关键帧提取过程。

3 Method

提出的SAM-E是一个多视角模仿框架，它利用预训练的视觉基础模型和动作序列模仿来进行多任务3D操作。SAM-E的关键思想包含两个层面：一是利用具有提示驱动架构的视觉基础模型SAM及其强大的泛化能力，处理实体场景中的语言提示（指导）任务；二是利用动作的时间平滑特性进行动作序列建模，以提高连贯规划和执行效率。作者在SS3.1中介绍了用于实体感知的视觉基础模型，并在SS3.2中介绍了多视角架构。然后，在SS3.3中给出了序列模仿的动机，并在SS3.4中介绍了多通道预测架构。

作者在图1中展示了SAM-E的架构。总体上，作者采用SAM编码器（Kirillov等人，2023年）生成提示引导和面向目标的表示，并使用实体数据和低秩适配（LoRA）（Hu等人，2022年）技术对操作场景进行微调，这导致计算需求的最小增加。接着，使用多视角 Transformer 整合跨视角视觉信息，结合坐标信息和语言指令进行多视角对应和视觉语言对齐。为了解决长视距动作预测问题，SAM-E使用一种新颖的动作序列策略头，在一次传递中预测连贯的动作序列。

picture.image

Perception Foundation and LoRA Finetune

用于可提示感知的SAM。 SAM（Kirillov等人，2023年）由一个强大的图像编码器和一个轻量级的 Mask 解码器组成，形成了一种以提示驱动的结构，专为现实世界的图像分割而设计。为了实现可提示的分割和有效的歧义感知，SAM的图像编码器通过与下游 Mask 解码器灵活的提示进行训练。因此，经过多样化的分割任务训练后，SAM编码器能够提取富含语义信息的强大目标中心图像嵌入。这也使得SAM能够处理来自机器人交互中各种分割要求产生的未知提示，包括复杂的与目标相关的场景。

在3D操作中，期望场景感知是面向目标的，并且具有适应性，能够容纳一系列意图，并在任务进行时转移焦点。例如，给定任务指令“_将苹果放入篮子中_”，智能体首先应该找到并关注苹果以拿起它，然后找到篮子以放置。感知模块应该能够基于任务指令灵活地进行目标中心注意力，并允许在任务进行时将注意力调整到其他目标（以SSC为例）。从这个角度来看，经过丰富任务变化的SAM编码器适合作为语言指导操作的感知基础模型。SAM编码器是一个预训练了MAE（He等人，2022年）的Vision Transformer（ViT）（Dosovitskiy等人，2021年），它将RGB图像处理成图像嵌入。在实践中，作者在图像编码器中使用ViT-B架构，以在操作任务中展示预训练分割表示的低计算成本优势。图像编码器包含12层 Transformer 块，并输出视觉输入的图像嵌入。作者提出的SAM-E利用SAM编码器作为基础，从视觉观察中生成提示引导和面向目标的表示，这对于语言指导的操作至关重要。

具有身体化数据的LoRA。为了在可承受的计算成本下有效地将SAM编码器适应到身体化场景，作者在策略训练期间使用LoRA对编码器进行微调。如LoRA所示，作者在图像编码器中冻结了参数，并在每个 Transformer 编码器块中添加了一个可训练的低秩旁路：

其中是训练期间冻结的预训练权重矩阵，和是可训练的矩阵，且秩。表示在适应期间累积的梯度更新，通过高斯初始化，通过零初始化。作者默认将秩设置为4。在实践中，作者将LoRA应用于具有 Query 和值投影层的自注意力模块：

其中, 和是从SAM编码器继承的冻结投影权重，, , 和是可训练的LoRA参数。

Multi-View Transformer

在提取了视图级的表示之后，作者采用了一种多视图 Transformer 来通过注意力机制整合多视图视觉观测、深度信息和坐标以及与任务相关的语言指令，实现了对多种模态输入的综合融合。

picture.image

该架构如图2所示。视觉观测通过前面提到的SAM编码器处理成图像嵌入，而深度和坐标信息通过Conv2D层处理以获得3D空间特征。作者将图像嵌入与沿 Patch 标记的通道维度上的空间特征进行拼接，得到作者称之为'视图标记'的融合表示。

此外，作者还使用预训练的CLIP文本编码器生成语言嵌入，从中导出语言标记。首先，来自同一视图的视图标记通过类似ViT的视图级注意力块来保持单视图信息。随后，来自不同视图的视觉标记和语言标记在跨视图注意力块中进行关注，以整合跨视图场景信息与语言指令。现在，这些富含跨视图信息和语言信息的视觉标记被用作动作序列预测的输入。

Motivation for Action-Sequence Modeling

在接下来的一部分，作者旨在提供行动序列建模的直观感受，试图证实这种技术的实用性。作者从机器人操作中行动的时间平滑属性的一个假设开始。

直观地说，如果行动是末端执行器的位置和旋转，那么这个假设在大多数具体操作任务中是成立的。例如，在常见的捡取和放置任务中，最优行动序列是欧几里得空间中的一系列点，引导末端执行器接近物体和期望目标。同时，夹爪会平滑旋转以与物体的抓握点对齐。在图3中，作者展示了RLBench（James et al., 2020）中一个名为“关闭罐子”的操作任务末端执行器的位置移动和四元数旋转角度的变化，这进一步证明了作者的假设。作者观察到，在某些操作任务中，末端执行器的旋转经历相对快速的变化，特别是当关键帧间隔较大时，这削弱了平滑旋转的假设。然而，末端执行器的位置在欧几里得空间保持了较高的平滑性，这对于作者方法中的行动序列建模更为关键。

picture.image

典型的训练方法是训练策略预测给定多视角图像和任务指令的行动，即

这种逐步的过程只关注预测当前情况下的行动，这可能导致停滞和矛盾的顺序行动，如实验中观察到的。基于假设3.1，作者可以通过考虑长视距决策过程而不是单一行动来改进行动预测过程，即

其中是行动序列的视距。

然后作者基于该假设来激励序列预测过程。序列建模过程试图在观察条件下预测最优行动序列。直观地说，的学习目标比的更为困难。然而，当作者仔细观察序列中的行动预测（例如，）时，训练预测这一行动伴随着预测之前的行动（即，）和之后的行动（即，）。

回到最优行动序列是平滑的这一假设，作者认为预测前后行动可以提供在预测时的_隐含先验_和_约束_。因此，行动序列的平滑性质提供了一个通过整体预测相邻行动来执行长视距推理的机会，从而反映了机器人的末端执行器在完成任务时的运动轨迹。相比之下，传统策略的行动预测仅依赖于观察，没有来自先前行动的任何“提示”，使得传统策略在这些任务中不如行动序列建模。在2D操作任务中的这种技术也被称为行动分块（Bharadhwaj et al., 2023; Zhao et al., 2023a），而作者通过一个经验验证的假设给出了清晰的动机，并将其扩展到3D场景，使用多通道 Heatmap 。

Architecture for Action-Sequence Prediction

作者介绍了一种新颖的多通道策略头，用于动作序列预测，如图4所示。策略头接收来自多视角 Transformer （如图2所示）的视图标记作为输入，独立处理来自不同视图的视图标记，并在单个视图图像内的并行通道中输出动作序列预测。

picture.image

在3D操作中，序列中的每个动作由一个8维向量组成，指示下一步的运动。这个向量包括一个6自由度目标末端执行器姿态（3自由度用于位置和3自由度用于旋转），一个表示夹爪状态（打开或关闭）的二进制值，以及另一个决定低级运动规划器是否允许碰撞的二进制值。

(i) 对于位置预测，策略头从对应于每个视图的视图标记生成一个 Heatmap 。这些 Heatmap 表示从每个视图的角度看，期望的位置分布。然后，来自不同视图的 Heatmap 被重新投影到3D空间中，为离散化的3D点集生成分数，以确定3D位置。对于动作序列预测，作者在 Heatmap 上增加了时间维度的通道，以从演示中学习时间信息，这导致了在时间维度上连贯的动作预测。

(ii) 对于旋转预测，作者遵循以前的方法（Goyal等人，2023年）将欧拉角离散化为分辨率的区间，从而将旋转预测转化为分类，就像夹爪状态和碰撞指示的二进制一样。作者使用 Heatmap 作为权重，从视图标记中提取视图 Level 的特征，这些特征在视图图像中靠近期望目标位置时提供更高的权重，然后使用全连接网络输出旋转、夹爪状态和碰撞指示的动作序列。

4 Related Works

视觉机器人操作。早期在机器人操作领域的研究采用了机器人手臂的关节状态和物体的几何信息，在强化学习（RL）或模仿学习（IL）框架中进行，假设获取预感知信息和物体的坐标。在实际的操作任务中，视觉感知提供了更通用的输入，无需额外的假设（Yuan等人，2023）。各种方法采用了视觉预训练模型来进行可供性、表示学习，以及目标生成（Gao等人，2023；Jia等人，2023）以促进策略学习。其他研究结合了语言编码器和跨模态 Transformer 进行遵循指令的操作。然而，这些方法从自上而下的2D图像中学习操作策略，仅限于拾取和放置的基本操作。相比之下，通过利用3D感知，机器人能够考虑复杂操作任务中的物体方向、遮挡和碰撞。最近的方法利用3D表示，如 Voxel 块、点云和特征场（Gervet等人，2023），实现了对动作预测的准确3D定位。另一项研究利用多视角图像来表示3D环境在图像平面上的投影，显著降低了计算要求。作者的方法在于多视角架构，并利用预训练的基础模型来增强各种视觉场景和任务描述的泛化能力。动作分块技术也应用于2D操作，而作者将其扩展到使用多通道 Heatmap 的三维场景中。

针对具身代理的基础模型。大型语言模型（LLM），视觉语言模型以及视觉基础模型（Radford等人，2021年）已经展示了卓越的能力，并为解决复杂的具身体验任务带来了巨大希望。LLM的链式思维能力（Wei等人，2022年）已经被有效地应用于具身代理的任务规划中，包括EmbodiedGPT、ReAct、SayCan（Ahn等人，2022年）和DoReMi（Guo等人，2023年）。LLM中的常识知识可以作为基于文本环境中的世界模型。此外，它还可以作为奖励设计者，正如VoxPoser、Text2Reward（Xie等人，2024年）和Eureka（Ma等人，2024年）所展示的。GenSim（Wang等人，2024年）和RoboGen 利用LLM生成任务课程和模拟环境以增强机器人数据。VLM通常被用作具身策略的基础模型，将视觉观察和语言指令作为输入，并生成语言计划（Driess等人，2023年）或标记化动作（Brohan等人，2023年；Wu等人，2023年）作为输出。其他方法在RL框架中利用VLM进行奖励生成以及任务规划的自我反思（Hu等人，2023b年）。RoboFlamingo（Li等人，2024年）与作者的方法相关，因为它采用OpenFlamingo作为基础策略，并使用具身数据集对此策略进行微调。然而，它仅限于2D操作，并且没有明确考虑3D几何，这阻碍了它在机器人技术中发展高精度的空间操作技能。

分割任何模型是一种可提示的分割模型，通过接收各种提示（包括点、边界框和语言提示）来生成 Mask 。后续研究探讨了将SAM应用于目标定位、跟踪（Rajic等人，2023；Cheng等人，2023）和语义分析（Mazurowski等人，2023）。对于具身智能体，SAM-G（Wang等人，2023b）是一项并行工作，它使用点提示建立对应关系，并采用SAM为智能体生成 Mask 图像。然而，SAM-G专注于提取与智能体相关的 Mask ，以增强视觉表示的鲁棒性，并在2D操作和运动任务中减轻噪声（例如，颜色、背景）的影响。相比之下，作者的方法采用SAM在多视图框架内增强3D操作，并提取与任务相关的特征，以促进在各种操作场景和语言指令之间的泛化。

5 Experiments

在本节中，作者在RLBench（James等人，2020年）中评估了SAM-E，这是一个具有挑战性的多任务3D操作基准。为了与 Baseline 方法进行公平的比较，作者采用了与最新方法（Goyal等人，2023年）相同的设置，在实验中使用了18个任务共249种变体。

此外，作者通过在6个新任务中的少样本适应来评估SAM-E的泛化能力。

视频可在以下链接获取：https://sam-embodied.github.io/。

Experiment Setup

Baseline模型作者将SAM-E与已经在多视角3D操作中证明有效的现成算法进行了比较，包括

：(i) RVT（Goyal等人，2023年），这是通过将视觉观察重新渲染成立方体视图的正交投影，并基于这些投影预测下一步操作的多视角3D操作的最先进的多视角架构；

(ii) PerAct，这是一种以动作为中心的方法，将RGB-D图像编码成 Voxel 网格 Patch 以进行3D表示，并在3D Voxel 空间内预测动作；

(iii) 作者在架构中包含了R3M，这是为机器人操作设计的视觉表示，作为作者架构中的替代编码器；

(iv) 作者在架构中包含了两种更通用的视觉表示CLIP（Radford等人，2021年）、DINO；

(v) 作者包含了一个名为SAMRVT的变体，它用RVT的视觉编码器替换了SAM编码器，并且是从零开始训练的；

(vi) 由于RVT已经被证明明显优于其他行为克隆（BC） Baseline ，包括CNN-BC、ViT-BC和从粗到细的BC，作者不包含这些方法的分数，具体细节请参考Goyal等人（2023年）；

(vii) 此外，作者将在相同任务上与Hiveformer进行比较（作者参考SSE的结果）。

模拟环境作者在RL-Bench（James等人，2020年）中进行实验，该环境由CoppeliaSim（Rohmer等人，2013年）模拟，控制一个装备有平行夹爪的Franka Panda机器人。视觉观察由四个RGB-D相机（左肩、右肩、前方和手腕）以128×128的分辨率捕获，通过基于样本的运动规划器实现目标夹爪姿态。在这个精心设计的模拟器中，测试代理在有限的时间步内完成任务，实验中为25步。任务包括挑选和放置物品，执行工具使用的分阶段动作，以及理解场景以解决谜题（关于任务更详细的描述请见SSA）。算法在多任务和多模态设置下进行评估，其特点是高度变化，这需要代理展示场景理解、指令理解和精确的动作预测。

训练数据集。作者利用与RVT和PerAct相同的训练数据集，每个任务包含100个专家演示。与RVT和PerAct不同，它们将演示片段切成关键帧转换，并且对重要转换进行经验上至关重要的复制，作者无缝地将演示分解为多个关键帧子片段，以促进动作序列预测。作者训练SAM-E 60K步，并选择最后一个模型进行评估，这与RVT相同。作者在2K步热启动后使用余弦学习率衰减（更多细节请见SSB）。

Main Experiments

多任务学习。作者在18个任务上训练了所有方法，并在表2中给出了成功率对比。在18个任务中，SAM-E在14个任务上超过了PerAct和RVT。在18个任务中，SAM-E的平均成功率比PerAct和RVT分别高出21.2%和7.7%个百分点，相对改善了43.0%和12.2%，同时显著降低了模型推理成本。此外，在多个任务中，它的改进超过了30个百分点。在SAM-E中移除预训练的SAM编码器会导致性能下降，但仍然优于RVT，这得益于动作序列策略头。在此基础上，加入R3M的冻结表示带来了边缘性能的提升，但仍然比SAM-E差。同样，与SAM-E相比，CLIP和DINO表示的性能也平平。

picture.image

值得注意的是，如表1所示，SAM-E与RVT具有相当的训练时间，甚至可训练参数更少。

picture.image

此外，图5显示，SAM-E及其变体比RVT具有更高的训练效率，这主要归功于动作序列模仿。进一步地，利用SAM作为可扩展的视觉基础，SAM-E不仅在当前的设置上取得了最佳性能，还显示出在更多具身数据或更新步骤下进一步增强其优势的潜力。

picture.image

与那些在每一步预测下一个关键点抓握姿态的 Baseline 方法不同，SAM-E生成一系列动作进行长期规划和顺序执行，从而从更高层次考虑任务完成，并且具有更少的推理步骤。根据表2，SAM-E的执行效率平均比RVT快5倍以上。在诸如_meat_off_grill_（取下烤肉）、_push_buttons_（按按钮）和_put_money_in_safe_（放钱进保险箱）等任务中（见SSA以获取任务描述），SAM-E仅在初始状态一瞥后就能完成任务，如图6所示。

picture.image

相比之下，RVT在其成功的案例中平均需要5.5、3.8和6.0步才能完成。对于_reach_and_drag_（到达并拖动）任务，SAM-E仅用两次推理就全部完成，而RVT平均需要执行6.4次。

少样本适应。作者通过将训练好的模型适应到RLBench的6个新任务来评估SAM-E的泛化能力。作者在策略适应中使用比多任务实验少10倍的演示和少15倍的更新步骤，以展示SAM-E在少样本适应中的泛化能力。结果如表3所示。作者在适应时用多任务训练的权重初始化模型，并引入从零开始训练的随机初始化变体。作者发现，在适应过程中，RVT在将知识从先前的任务转移到新任务时遇到困难，其性能通常比从零开始训练时要低。相比之下，SAM-E在适应时明显优于从零开始训练。具体来说，当从零开始训练时，SAM-E比RVT高出3.1个百分点（相对增加了7.9%）。然而，在适应新任务的时，性能差距显著扩大，SAM-E比RVT高出26.1个百分点，相对提高了70.4%。这表明SAM-E具有卓越的泛化能力。

picture.image

当从零开始训练时，_SAM-E（SAM R3M）_ 的性能略优于没有预训练编码器的 _SAM-E（SAM RVT）_，但在适应性方面表现更差，这表明R3M在少量样本泛化能力上有限。虽然在从零开始训练时的表现不如 SAM-E（SAM R3M）_，但 SAM-E（SAM CLIP） 和 SAM-E（SAM DINO） 在适应性方面有更好的表现，显示出在更一般的图像数据中预训练的表示具有更大的泛化能力。_SAM-E（SAM RVT）在适应性上也显著优于从零开始训练的RVT，这证明了从动作序列预测中获得增强的泛化能力。在适应新任务方面，配备了SAM编码器的SAM-E显著优于上述提到的方法。这突显了SAM-E在新任务描述中的卓越泛化能力。

Ablations

首先，作者在多任务实验中进行消融实验，以验证SAM-E中各组件的必要性。作者包括了以下几种变体：(i) _SAM-E (SAM RVT)_； (ii) _SAM-E (LoRA, QKV)_，这是LoRA模块的一个变体，额外包括了注意力块中的矩阵；(iii) _SAM-E (w/o LoRA)_，一个冻结的SAM编码器，没有使用LoRA微调；(iv) _SAM-E (full finetune)_，对SAM编码器进行全参数训练。作者在表4中给出了简要结果。作者发现SAM是一个关键的视觉基础，并且需要合适的微调方法来适应具体情境。使用LoRA进行参数有效的微调，比训练所有参数的变体表现更好，后者可能由于演示数量有限而失败。对于LoRA，为和添加可训练矩阵比所有、和都要好，这与先前的观察结果（Hu et al., 2022）一致。（完整结果见SSF）

picture.image

此外，为了说明动作序列长度的影响（具体细节见SSB.2），作者对动作范围进行了消融研究，考察的值为{1,3,5,7}。在多任务实验的训练和评估执行过程中，作者在保持其他实验设置一致的同时，修改动作范围。表5展示了结果（完整结果见SSF），显示了18个任务上的平均成功率以及每个模型推理在作者同一设备上的计算时间。作者观察到在平均成功率上表现最好，但可能并不适合某些任务。作者还可以发现导致性能下降，作者认为这是由于驱动SAM基础训练的时序信息不足，以及对于重要转换经验上重要的重复缺乏。此外，作者可以观察到SAM-E的推理时间略长于RVT。尽管如此，考虑到预测一个动作序列（5个动作）仅需要152ms，而RVT需要5*103ms来预测5个动作，SAM-E在推理方面实际上更快。

picture.image

Real-World Experiment

为了展示SAM-E在实际场景中的有效性，作者在真实的Franka Panda机器人手臂上训练并测试了该模型。如图14所示，作者从第三人称视角在左侧前方和右侧前方安装了两个静态的RGB-D摄像头，以捕获多视角观察。作者使用机器人基座校准摄像头，并在数据收集期间同时记录摄像头的RGB-D流和机器人关节姿态。作者在5个任务中训练SAM-E，每个任务10个情节，包括 将毛巾放在柜子上_、_堆叠积木_、_关闭抽屉_、_拿起香蕉 和 _将橙子放入抽屉中_。所有的情节都是由人类演示者收集的。结果显示，SAM-E能够在实际场景中进行实时预测并有效完成任务，验证了SAM-E在实际场景中的能力。有关更多详细信息及模型性能，请参见SG和视频。

picture.image

6 Conclusion

作者引入了Segment Anything Model for Emboled 3D manipulation（SAM-E），这是一种新颖的多视角架构，采用SAM作为视觉基础模型，并通过参数高效的微调，使感知能够适应具体场景，同时还引入了一种新的动作序列预测头，用于高效规划和连贯执行。作者在RLBench的各种3D遵循指令任务上对SAM-E进行了多任务实验和少样本适应实验。

作者发现，SAM-E在多任务操作上超越了先前最先进的模型，并在执行效率和少样本适应方面取得了显著提升，具有很好的泛化能力。作者的工作突显了利用视觉基础模型和序列预测来增强3D操作中泛化和效率的可行性。

参考

[1].SAM-E: Leveraging Visual Foundation Model with Sequence Imitation.

点击上方卡片，关注「AI视界引擎」公众号

SAM-E | 利用视觉基础模型和序列预测提升3D操作的多任务性能与泛化能力 ！

1 Introduction

2 Preliminaries

3 Method

Perception Foundation and LoRA Finetune

Multi-View Transformer

Motivation for Action-Sequence Modeling

Architecture for Action-Sequence Prediction

4 Related Works

5 Experiments

Experiment Setup

Main Experiments

Ablations

Real-World Experiment

6 Conclusion

参考

SAM-E | 利用视觉基础模型和序列预测提升3D操作的多任务性能与泛化能力！