InteractVLM:利用大型视觉语言模型结合“渲染-定位-提升”模块实现自然场景图像精确三维人物联合重建 !

大模型向量数据库数据中台

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

作者介绍了InteractVLM,这是一种从单张自然场景图像中估计人体和物体三维接触点的新方法,能够实现精确的三维人-物联合重建。这项任务具有挑战性,因为存在遮挡、深度模糊以及物体形状的广泛变化。现有方法依赖于通过昂贵的运动捕捉系统或繁琐的手动标注收集的三维接触标注,限制了其可扩展性和泛化能力。

为了克服这一挑战,InteractVLM利用大型视觉语言模型(VLMs)的广泛视觉知识,并结合有限的3D接触数据进行微调。然而,直接应用这些模型并不简单,因为它们仅在二维空间中进行推理,而人-物接触本质上具有三维特性。

因此,作者引入了一个新颖的“渲染-定位-提升”模块,该模块包括:

(1)通过多视角渲染将三维人体和物体表面嵌入二维空间;

(2)训练一个新型的多视角定位模型(MV-Loc)来推理二维空间中的接触点;

(3)将这些接触点提升到三维空间。此外,作者提出了一项新的任务——语义人-物接触估计,其中人-物接触预测明确依赖于物体语义,从而实现更丰富的交互建模。InteractVLM在接触点估计方面优于现有工作,并且能够从自然场景图像中进行三维重建。

为了估计三维人体和物体姿态,作者首先推理初始人体和物体网格,然后通过InteractVLM推理这些网格上的接触点,最后利用这些接触点将网格拟合到图像证据中。结果表明,llm-InteractVLM_2504在自然场景中表现良好。

代码和模型可在https://interactvlm.is.tue.mpg.de获取。

  1. 引言

人们日常与物体进行交互。在三维空间中重建人-物交互(HOI)对于许多应用至关重要,从机器人到混合现实。然而,仅从单张图像中完成这一任务具有挑战性,原因在于深度模糊、遮挡以及物体形状和外观的多样性。

存在估计三维人体和估计三维物体的方法,但将两者结合的方法较少。了解这些接触点可以显著提高关节重建。作者的目标是根据单张自然场景图像推理人体和物体上的接触点,然后使用这些接触点进行人体和物体的联合重建。然而,目前缺乏与三维人体和物体接触真值标签配对的自然场景训练图像。获取此类数据具有挑战性,现有方法无法扩展。

由于现实世界交互的复杂性,该问题变得更加具有挑战性。人类通常同时接触多个物体;例如,坐在俱乐部椅子上使用笔记本电脑。然而,当前方法将接触预测视为简单的二元分类,即检测身体部位是否与“任何”物体接触。这种简化的假设无法捕捉多物体交互的丰富语义关系。为此,作者引入了一个新的“语义人体接触”估计任务。该任务涉及在给定一张自然场景图像的情况下,预测与特定物体相关的身体接触点。

为应对这一问题,并克服数据稀缺性,作者提出了一种新的自然场景下扩展和推理范式。具体而言,作者观察到大型视觉语言模型(VLMs)能够对自然场景图像进行"推理",因为它们在互联网规模数据上进行了训练,并拥有关于人类及其与世界交互的广泛视觉知识。作者还观察到,通过在小数据集上微调这些大型模型,这些知识可以被重新用于新任务。因此,作者利用VLMs开发了一个名为InteractVLM的新框架。

InteractVLM的核心是一个基于VLM的推理模块,如图2所示。作者通过为VLM添加LoRA[28]适配层,增强了该模块在3D人-物体"理解"方面的能力。因此,给定一张彩色图像,该模块可以被"要求"生成"推理 Token ",以促进3D接触定位。

picture.image

然而,利用这些 Token 来定位接触并非易事。一个自然的选择是采用一个基础性的"定位"模型[33],将这些 Token 作为"指导",并突出3D接触。但存在一个关键的实践问题。现有的基础模型本质上仅在2D空间中运行,而作者却需要它们在3D空间中运行。为了解决这个问题,作者需要重新构建作者的问题,使其适合2D基础模型。

为此,作者开发了一个新颖的"渲染-局部化-提升"(RLL)框架,该框架包含三个主要步骤;见图2:

(1)作者将标准

[55]物体和目标物体的三维形状渲染为二维图像,从多个视角进行渲染。对于目标物体,通过OpenShape [44]从大规模三维数据库 [13]中高效检索三维网格。

(2)作者将上述图像输入基础模型,以预测物体和目标物体的二维接触 Mask 。

(3)作者通过反向投影将预测的二维接触点提升为三维点,即执行第一步的逆操作。

然而,即使通过渲染多视角图像将问题重新建模为二维问题,现有的基础模型仍然缺乏三维感知能力,即它们独立处理每个视角,忽略了多视角一致性。这意味着在一个视角中的接触检测结果不一定与相邻视角的结果一致。为了解决这个问题,仅仅将相机参数附加到多视角渲染结果中是不够的。相反,作者构建了一个新的“多视角定位”模型,作者称之为

MV-Loc包含两个步骤:(1) 它将VLM提供的"推理 Token "与用于渲染多视图图像的相机参数相结合。(2) 它通过将每个视图中的推理2D接触点提升到3D并计算3D损失,来确保多视图1致性。

picture.image

llm-InteractVLM_2504InteractVLM,结合了VLM和作者的新型多视角定位模型MV-Loc,用于对人类和物体进行3D接触预测。参见图1中的示例。作者使用DAMON [60]和PIAD [67]数据集,分别对InteractVLM在自然场景下对人类和物体进行3D接触预测的有效性进行了定量评估。

对于人类,作者评估了传统的"二元接触"估计,以及作者提出的新任务"语义接触"估计。对于所有任务,作者发现InteractVLM的性能优于先前的工作。

最后,作者展示了InteractVLM估计的接触如何改进从自然场景图像中恢复3D HOI;由于深度模糊和遮挡,这是一个高度不适定的问题。为此,作者开发了一种基于优化的方法,该方法将SMPL-X人体网格和OpenShape检索得到的物体网格拟合到图像中,使用InteractVLM推理的接触作为约束来 Anchor 定人体和物体网格之间的相对位置。据作者所知,这是首次使用推理接触来估计自然场景图像的3D HOI的方法。

总之,作者做出以下四项主要贡献:

  1. 作者构建了InteractVLM,一种新颖的方法,通过检测物体和人体上的三维接触点,从而实现从自然场景图像中进行HOI重建。
  2. 作者展示了一种通过利用视觉语言模型广泛的视觉知识来减少对3D接触标注依赖的方法。
  3. 作者构建了一个新颖的“多视图定位”模型,该模型通过将基础模型中的推理从2D转换为3D,来帮助估计3D中的接触点。
  4. 作者提出了一个名为“语义人体接触”的新任务,用于在物体标签的条件下推理身体接触。

作者的代码和训练好的模型可在 https://interactvlm.is.tue.mpg.de 用于研究。

  1. 相关工作

2.1. 大型视觉语言模型

大语言模型(LLMs)的最新进展推动了视觉与语言推理的多模态模型的开发。Flamingo [2] 和 BLIP-2 [38] 等模型采用交叉注意力机制和视觉编码器来对齐图像特征与文本,支持多种视觉语言任务。近期的研究,如 VisionLLM [62] 和 Kosmos-2 [52],使用基于图像文本的数据来增强空间理解,而 GPT4RoI [70] 引入空间框输入以实现更精细的对齐。然而,这些模型通常缺乏端到端的分割能力。为解决这一限制,LISA [36] 结合了视觉基础分割模型(如 SAM [33])与多模态嵌入,实现了语言引导的分割。PARIS3D [15] 将此方法扩展到指代性三维分割,通过处理多视角目标渲染,利用 SAM 和 LLaVA 进行空间感知分割。

受这些方法的启发,作者利用一种语言引导分割模型来预测3D中的人与物体接触。然而,与PARIS3D不同,作者使用LLaVA处理单张RGB图像,并使用SAM对人体的网格和物体的网格进行多视图渲染。此外,作者引入了一种特征提升技术,该技术利用相机参数将LLaVA的2D特征扩展到3D,从而指导SAM的多视图分割。这种方法确保了多视图1致性,并能高效地预测接触可供性,扩展了多模态模型在以人-物交互为焦点的3D推理任务中的应用。

2.2. 从单张图像中获取3D人体和物体

从单张图像估计三维人体姿态和形状已从基于优化的方法发展到基于学习的方法。基于优化的方法将SMPL [47]、SMPL-X [51] 或 GHUM [66] 等参数化人体模型拟合到二维线索,如关键点 [9]、轮廓 [50] 或分割 Mask [50]。基于学习的方法从图像或视频中回归人体参数,或估计非参数化人体为顶点 [37, 42]、隐式表面 [48, 56] 或密集点 [58]。基于Transformer的方法进一步提高了鲁棒性。

从单张图像进行三维物体重建时,基于回归的方法使用网格、 Voxel 或点云来预测几何形状。基于扩散的模型[27]利用大型三维数据集如Objaverse[13]或二维扩散模型[40,45,46,53]来指导重建过程。优化方法[4]通过渲染和比较进行操作。检索方法(如OpenShape[44]和Uni3D[71])在存在遮挡的情况下已展现出一定的鲁棒性。

2.3. 人体与物体交互的3D模型

理解三维人-物体交互对于构建逼真场景至关重要。早期研究主要关注手-物体交互,如ObMan[26]和FPHA[22],而近期研究如ARCTIC[19]和HOLD[20]则提供了更详细的手部数据与重建。对于全身交互,初始研究涉及与场景的交互(如PROX[24])以及与物体的交互(如BEHAVE[7]、GRAB[59]和InterCap[30])。BEHAVE和GRAB采用精确但不可扩展的动作捕捉技术,而InterCap采用多摄像机设置,具有更高的可扩展性但精度较低。这两种方法在捕捉多样化和逼真交互方面均存在局限性。

作为三维重建的替代方法,DECO [60] 和 HOT [11] 等近期方法分别通过身体网格和图像像素推理接触,这些接触标注是通过众包获取的。由于物体形状各异,预测物体上的接触更具挑战性,同时目前尚无用于自然场景图像的物体接触数据集。因此,作者估计三维物体可供性作为接触的替代方法。3D-AffordanceNet [14] 引入了并非基于图像的可供性,捕捉人类与物体特定部分交互的可能性,针对给定的可供性(例如,“坐在椅子上”)。PIAD [67] 筛选描绘物体可供性的RGB图像,并训练网络进行估计。LEMON [68] 将PIAD的物体可供性预测扩展到包含人体接触估计。然而,这些方法需要配对的人体接触顶点和物体可供性进行训练,限制了它们处理的类别数量为21个。相比之下,作者从无配对的人体与物体交互数据中学习,实现80个类别的交互推理和32个类别的物体可供性预测。

2.4. 联合3D人体-物体重建

三维人体与物体联合重建问题已通过回归和优化方法得到解决。基于回归的方法直接预测三维人体-物体网格,例如HDM [64] 和 CONTHO [49],而其他方法首先预测接触点,然后使用测试时优化来拟合人体和物体网格,例如CHORE [63] 和 PHOSA [69]。由于回归方法依赖于有限的训练数据,优化方法更适用于自然场景,例如PHOSA [69]。基于优化的方法要么假设已知接触点,要么推理接触点以将网格拟合到图像中,但其成功高度依赖于接触点的质量。

llm-InteractVLM_2504通过提供更准确的接触预测来改进这些方法,从而促进人体和物体网格与图像证据的更好拟合,提高从单张图像中进行三维人-物重建的真实性和准确性。

  1. 方法

3.1. 输入表示

给定图像

,InteractVLM 估计人体和物体之间的三维接触。

人类由一个

[55] 3D人体网格表示,

具有顶点

。人体处于一个标准的"星形"姿态(详见第3.4节)。人体接触是每个顶点的二值标签,

。物体由一个3D点云(或网格)表示,

,包含

个点。由于没有自然图像与物体3D接触配对的数据集,作者使用一个大规模的3D可供性数据集[67]作为替代,因为可供性与接触密切相关。具体来说,它们表示3D物体区域在多种用途下的接触可能性。因此,对于物体,作者交替使用"可供性"和"接触"这两个术语。物体接触是每个点的连续值,

。在推理过程中,作者通过OpenShape [44]以图像

为条件,从大型数据库[13]中检索一个3D物体形状。

3.2. InteractVLM概述

在野外学习3D接触预测面临的最大挑战是人类和物体3D接触数据的有限性。为了超越现有的有限数据集,作者引入了一种名为InteractVLM的新方法,该方法利用了大型视觉语言模型的常识知识。

具体而言,InteractVLM(图3)包含两个主要组件:一个视觉语言模型(VLM)和一个新型多视图接触定位模型(MV-Loc)。MV-Loc在VLM的指导下,突出显示人与物体接触的部分。VLM的输入(第3.3节)是一幅图像

和一个 Prompt

, Prompt VLM检测接触。MV-Loc的输入(第3.4节)分别是人和物体的三维几何形状

picture.image

3.3. 通过VLM进行交互推理

VLM模块,

,负责核心交互推理。它接收输入图像,

,和 Prompt 文本,

,输出 Prompt 文本,

。受近期LISA [36]模型的启发,作者通过两个专门 Token ${\tt{/{

}}}

{\tt

}$扩展了VLM的词汇,分别用于人类的联系信息和物体的联系信息。

为了表示接触,

生成一个包含上述 Token 的 Prompt 。为了帮助 MV-Loc 定位接触,作者提取与这些 Token 对应的 VLM 的最后一层嵌入,并将它们通过投影层

4,以获得特征嵌入

。设

为真实文本,

为预测文本。然后,作者的 Token 预测损失定义为交叉熵损失:

\begin{array}{r}{\mathcal{L}_{t o k e n}=-\sum_{i=1}^{N}(T_{\mathrm{gt}}^{(i)}\cdot\log(T_{\mathrm{pred}}^{(i)})).}

3.4. 通过MV-Loc进行交互定位

作者开发了一种新型MV-Loc模块,该模块包含一个共享的图像编码器

,以及分别用于人类和物体的独立解码器

。MV-Loc通过一种新颖的"渲染-定位-提升(RLL)框架"执行接触定位。为此,它分为三个步骤:(1)在二维中渲染人类和物体的三维形状,(2)预测这两种情况的二维接触图,以及(3)将二维接触图提升到三维。

RLL步骤#1:渲染

。输入为人体和物体几何信息,分别记为

。两者均作为在各自表面上绘制检测到的接触的"画布"。在渲染时,身体采用默认的

形状,以经典星形姿态最小化自遮挡。物体几何信息(在3.1节初始化)被归一化到单位球面上。每个几何体从

个固定视角,使用相机参数

进行渲染,形成多视角渲染结果

,从而完整捕捉3D几何体。由于作者的几何体没有纹理,作者使用NOCS地图[61]对网格进行着色,使用法线和点云进行渲染。这增强了跨视角对应关系,使渲染结果对图像编码器

更接近真实图像。

RLL步骤#2:在2D中进行定位。渲染后的几何体

首先被送入图像编码器

,然后传递给解码器,以便最终接触 Mask

在渲染结果上被突出显示。然而,MV-Loc需要空间和上下文线索来突出接触区域。为此,作者使用特征嵌入(3.3节),即

来指导接触定位。

然而,由于视觉语言模型在二维空间中推理,这些特征不具备三维感知能力。这是一个问题,因为多视图定位需要三维感知能力来在多视图渲染中一致地定位接触点。因此,作者将特征转换为“提升”它们到“三维”,以更好地指导多视图定位。

详细地,作者设计了一个提升网络

,该网络接收相机参数

和 2D

,并将后者提升到 3D,表示为

下面为简洁起见,省略了

的上标。作者仅在"有效"区域计算损失,即渲染几何轮廓内的区域;作者将其表示为

。为鼓励预测 Mask

与真实 Mask

之间的重叠,特别是在Sparse接触区域,作者使用具有焦点权重的BCE损失和Dice损失:

其中

是预测的 Mask 概率,

控制类别平衡,

调整对困难样本的关注度,

是一个残差项,用于防止除零错误。

RLL步骤#3:将

提升至三维

为将推理出的二维接触点提升至三维点,作者遵循步骤#1的逆过程。通常情况下,由于深度模糊性,二维点会反向投影至三维线。在作者的案例中,这些线与已知的三维几何结构相交,该结构产生了多视图渲染。因此,二维点被提升至三维点,进而二维接触 Mask

被提升至三维接触区域

。作者采用人类接触损失

,该损失结合了Focal Loss与Sparse正则化,旨在鼓励在“有效”接触区域内进行精确的真阳性预测,同时抑制非接触区域的假阳性预测:

其中

是接触概率,

是标量权重。作者还使用一个物体接触损失

,它结合了Dice损失和均方误差(MSE)损失:

其中

是一个权重因子,

表示物体的真实 3D 接触。

3.5. 实现细节

架构。作者使用LLaVA [43] 作为作者的视觉语言模型(VLM),使用SAM [33] 作为作者的多视图定位(MV-Loc),其权重由LISA [36] 预训练用于分割 [36]。特征提升网络

包含一个空间理解网络(两个大小为128的ReLU激活全连接层),随后是视图特定(256维)变换和一个sigmoid激活。对于3D接触预测,作者的MV-Loc模型通过在MV-Loc的渲染步骤中预先计算的2D到3D像素到顶点的映射,将2D Mask 转换为3D接触点。详情请参见补充材料。

训练。为了高效地微调作者的视觉语言模型(VLM),作者采用秩为8的LoRA [28]。人类和物体接触预测的独立解码器在不使用LoRA的情况下进行训练,同时保持图像编码器冻结。在训练过程中,作者使用DeepSpeed [3]进行混合精度训练(bfloat16),批大小为8。作者在4块Nvidia-A100 GPU上训练30个epoch。更多细节请参考补充材料。

数据集。作者专注于两个任务,即3D人体接触和3D物体可供性预测,分别使用两个自然场景数据集,即DAMON [60] 和 PIAD [67]。对于人体接触任务,作者在DAMON [60] 上进行训练和评估。对于3D物体可供性任务,作者在PIAD [67] 上进行训练和评估。作者发现,利用接触部位的文字描述以及接触物体的类型有助于训练。类似地,为训练图像添加由GPT4o生成的视觉问答(VQA)数据也有帮助。详情请参见补充材料。

与 LEMON [68] 不同,后者在使用 3DIR 数据集 [68] 进行训练时需要配对的人体-物体几何数据,作者使用的是无配对数据。这使得作者能够扩展到先前工作未涵盖的许多人体和物体类别。对于最终的联合人体-物体重建任务,作者将 DAMON [60]、PIAD [67]、3DIR [68] 以及所有关于身体部位、接触类型和 HOI 的文本描述结合起来。

评估指标。对于人类接触预测,遵循Tripathi等人[60]的方法,作者使用0.5的阈值报告F1分数、精确率和召回率,并使用地距来衡量空间精度。对于物体接触预测,遵循Yang等人[67]的方法,作者报告相似度(SIM)、平均绝对误差(MAE)、ROC曲线下面积(AUC)和平均交并比(IOU)。

  1. 实验

4.1. “二进制人类接触”估计

这项任务涉及通过对其顶点进行二分类来估计身体上的接触区域,而忽略所涉及的目标数量或类型。作者在DAMON [60]数据集上进行训练和评估,并在表1中报告结果。

picture.image

InteractVLM显著优于所有先前方法,在F1分数上实现了

的提升。尽管在此处,InteractVLM与DECO使用相同的数据进行训练,但它通过利用大型基础模型的常识知识超越了这一方法。

在补充材料中,作者还评估了3DIR [68]数据集,并与LEMON方法 [68]进行了比较。尽管LEMON使用配对的人体-物体数据,但InteractVLM在仅使用人体数据的情况下仍表现出与LEMON相当的性能。作者还评估了InteractVLM在不同身体部位进行二分类人体接触预测的性能;更多细节请参考补充材料。

4.2. “语义人类接触”估计

在现实生活中,多个物体可以同时被身体的不同部位接触。因此,作者引入一个名为“语义人体接触”预测的新任务。作者在DAMON [60]上进行了评估,并在表2中报告了结果;对于该表的更细粒度版本,请参见补充材料。

picture.image

为建立 Baseline ,作者改编了用于检测二进制接触的DECO模型[60],将其转化为一个多类预测模型,称为Semantic-DECO。由于DAMON的训练数据有限,该模型的表现较差。相反,如第4.1节所述,InteractVLM能够有效利用这些数据,并借助基础模型所蕴含的常识知识。因此,它在性能上显著优于SemanticDECO。定性结果反映了这一发现;参见图4。llm-InteractVLM_2504能够捕捉到详细、准确的接触区域,而Semantic-DECO往往高亮与实际接触区域不同的误报区域。

picture.image

4.3. 物体可供性预测

作者评估了InteractVLM模型在预测物体可供性方面的性能。这包括识别物体上可能接触的区域,以实现特定的交互意图,例如“坐在椅子上”或“移动它”。作者在PIAD [67]数据集上进行训练和评估。作者与SotA方法进行比较,并在表3中报告结果。

picture.image

请注意,作者在训练过程中所见("PIAD-Seen"列)和未见("PIAD-Unseen"列)的目标实例上进行了评估。llm-InteractVLM_2504在相似度(SIM)、曲线下面积(AUC)和平均绝对误差(MAE)方面均显著优于现有最优方法,这适用于所见和未见目标。因此,llm-InteractVLM_2504不仅适用于估计人体接触(第4.1节和第4.2节),也适用于物体可供性。

4.4. 对3D标注的依赖

为分析InteractVLM在3D监督方面的效率,作者使用DAMON数据集的不同数量的训练数据训练了多个版本的InteractVLM,并在图5中报告了性能表现。值得注意的是,InteractVLM仅使用1%的数据即可达到0.53的F1分数,几乎与使用100%数据的DECO的0.55 F1分数相当。仅使用5%的数据,InteractVLM就超越了DECO,达到了0.58的F1分数。随着训练数据的增加,性能差距逐渐扩大,最终使用100%的数据实现了0.75的F1分数。这是一个引人注目的发现,突出了InteractVLM通过利用基础模型丰富的视觉理解能力,高效利用3D监督的能力。需要注意的是,在有限训练数据下取得的优异性能具有很高的实际价值,因为获取3D标注成本很高。

picture.image

消融实验。关于InteractVLM组件影响的研究,包括 Mask 分辨率、MV-Loc变体、损失函数、训练数据、VLM的影响以及文本 Prompt 的效果,请参考补充材料。

  1. 人与物体联合重建

作者展示了InteractVLM推理的3D接触信息在从单张自然场景图像

中重建交互中的3D人体和物体方面的有效性。首先初始化3D人体姿态与形状、物体形状。作者使用OSX [41]来估计3D SMPL-X人体网格

,并使用OpenShape [44]从Objaverse [13]数据库中检索与图像最匹配的3D物体网格

初始化三维物体姿态。作者对图像

应用 InteractVLM 来预测三维人体和物体接触顶点

。然后,通过将三维物体接触点

通过 ICP [6] 算法对准到人体接触点

来求解物体姿态

。为了避免错误的对应关系,接触点的三维法线必须兼容,即应该具有相似的角度但方向相反。

优化三维物体姿态。基于上述初始化,作者通过渲染并比较来优化物体旋转

、平移

和缩放

,通过最小化以下目标函数进行优化:

其中

是 Mask 损失,

是接触损失,

是交并比,

分别是假设和真实 Mask ,

是相应的 Mask 像素均值,

是人体和物体上的接触顶点数,

是网格顶点数,

分别是人体和物体的第

个和第

个顶点,而

表示顶点是否接触。根据图像,作者通过 SAM [33] 提取物体 Mask

,并通过 Depth Pro [8] 提取深度图

直观上,作者使用

1loss将3D物体对齐到图像上,而在

中,预测的3D接触点" Anchor 点"将3D物体固定在身体上,以便它们进行逼真的交互。作者通过Adam [32]进行迭代优化。OsX生成合理的身体,因此作者保持这些固定。物体在每次迭代中都会更新——作者通过PyTorch3D [54]的可微分渲染器渲染深度

和 Mask

定性结果。作者从图像中重建了三维人-物体交互。作者在图6中展示了结果,并与最相关的SotA方法PHOSA [69]进行了比较。InteractVLM的重建结果看起来更加逼真。请注意,PHOSA使用手工制作的接触点来 Token 人和物体。相反,InteractVLM从单个自然场景图像中推理出人身体和物体上的三维接触点。这些接触点在遮挡和深度模糊的情况下指导三维重建中起着关键作用。

picture.image

感知研究。由于目前不存在包含3D真实标注的HOI(物体间关系)野外数据集,作者通过亚马逊机械土耳其平台进行感知研究以进行评估。具体而言,作者对比了作者的重建结果与PHOSA的重建结果的真实感。作者随机选取了55张PHOSA具有手工接触标注的图像。对于每张图像,参与者会看到(通过随机交换)由llm-InteractVLM_2504和PHOSA生成的重建结果,并被要求选择最能代表该图像的重建结果。作者的重建结果在62%的情况下被更优先选择。

  1. 结论

作者开发了InteractVLM,这是一种从单张自然图像中估计人类和物体3D接触的新型方法。InteractVLM通过利用视觉语言模型(Vision-Language Models)的广泛知识,减少了对昂贵3D接触标注的依赖。具体而言,作者引入了一种新型"渲染-定位-提升"(Render-Localize-Lift,RLL)框架和一种新型多视图定位模型(MV-Loc),以适应2D基础模型进行3D接触估计。

作者在接触估计方面超越了现有工作,并引入了一种新的"语义人体接触"(Semantic Human Contact)估计任务,该任务基于物体标签推理身体接触。这超越了传统的二元接触估计,后者无法捕捉多物体交互的丰富语义关系。

最后,作者开发了首个利用身体和物体上推理的接触点进行单张自然图像联合3D重建的方法。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论