YouRefIt 作证：Attention-Dynamic DINO 手势理解性能超越人类创纪录！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

实体参考理解对于智能 Agent 通过手势信号和语言描述预测参照物至关重要。本文介绍了Attention-Dynamic DINO，一种旨在减轻各种交互情境下手势误解的新颖框架。

作者的方法将视觉和文本特征相结合，同时预测目标目标的边界框和手势中的注意来源。

利用视觉视角 Taking 的非语言交流的距离感知性质，作者扩展了虚拟触摸线机制，并提出了基于交互距离的注意动态触摸线来表示参照手势。将这种距离感知的方法和独立预测注意来源相结合，增强了目标和表示线的对齐。

在YouRefIt数据集上的广泛实验表明，作者的手势信息理解方法在显著提高任务性能方面具有有效性。

该模型在0.25 IoU阈值处达到76.4%的准确性，值得注意的是，在0.75 IoU阈值处，它的性能超过了人类，这是该领域的首次突破。

与之前研究的距离无关理解方法进行比较实验，进一步验证了Attention-Dynamic Touch Line在各种背景下的优越性。

unset

unsetI Introductionunset

unset

参考理解（RU）是人际和人与机器人通信的基础，特别是在涉及共同空间内的共享目标时。在计算机视觉领域，指代表达理解（REC），作为RU中的一个关键任务，通过将视觉和语言线索相结合，促进图像中的视觉定位。然而，仅基于口头描述准确确定指代目标仍然具有挑战性。非言语性指代，如由描述者同步的具身指 gestures，通常比单独的口头描述提供更精确的空间指示。为了增强语言和视觉线索的综合解释，Chen等人 [15] 提出了具身参考理解（ERU）任务，并包括YouRefIt数据集和基准。然而，指 gestures的解释仍然显著限制了它们在ERU应用中的有效性。

有趣的是，最近的研究揭示，这条手指臂线代表了一种系统性的空间误解。当参照目标远离指尖时，观察者可以利用眼指线（通过将眼睛、手指和参照目标对齐形成）来减轻对指向手势的误解。在这个概念的基础上，O'Madagain等人[20]提出了虚拟触摸线（VTL）机制，随后李等人[21]将其应用于将眼睛与指尖连接，显著提高了ERU性能。

然而，由于指称是一种情境交互活动[22]，VTL机制在近距离互动中可能被误读。图1说明了这一局限性：一个女孩指向附近的一支口红，但VTL及其延伸并未与物体相交。在这种情景下，之前使用的参考线（如手腕-肘部线或手臂-手指线）并不清晰可见。指称者的肢体可能会在保持伸展的食指的同时弯曲，使手指线（FL）可以通过物体的空间位置通过，从而提供一个明确的身体参考。

picture.image

实体参考理解依赖于视觉视角转换（VPT），其中相互参与需要双方调整他们的认知和感知状态以达到对齐。作者认为，以前的研究在机械地解释手势外观方面过于注重，而忽视了从手势指向观察者的指针-参照物互动环境。具体而言，指针始终旨在通过将手指指向目标目标来提供明确的动作。在远程互动中，指针在空间上对眼睛、手指和物体进行对齐，准确地指示出参照物的位置，遵循VTL机制。然而，在近距离互动中，指针忽视了VTL强加的对齐限制，允许在目光监督下进行更为随意的但准确的指指。虽然O'Madagain等人关于触摸起源的手势理论仍然有效，但这些场景下VTL机制不再适用。

从多项研究[25, 26, 27]和常识中汲取灵感，这些研究注意到，人类在指指动作中调整手臂位置，基于物体位置和距离进行复杂运动规划，作者引入了距离感知的VPT（DA-VPT）概念。这种方法将手势表示从VTL扩展到注意力-动态触摸线（ADTL）。在ADTL框架中，尽管终点仍然固定在指尖，但注意力源（起点）变得动态，适应互动距离。对于远程互动，注意力源设置为眼睛，与VTL对齐。然而，在近距离互动中，考虑到DA-VPT，作者将注意力源转移到指数手指的甲骨指节（MCP），对应于FL，从而在相比之下使手势表示更为清晰。

为了克服之前研究的局限性并融入ADTL概念，作者提出了一种增强视觉定位准确性的方法：注意-动态DINO（AD-DINO）。作者的系统通过初始特征提取、跨模态特征融合和语言引导的 Query 选择，对视觉和自然语言输入进行处理。同时，语言和视觉特征被并行输入到跨模态解码器中，直接输出目标的边界框位置和注意力来源。

此外，作者还集成一个指纹检测器来确定指纹的位置，通过将注意力来源和指纹位置相结合，构建出与人体姿态对应的ADTL。注意力来源的选择基于指针和目标之间的交互距离。当这个距离超过手臂的长度时，作者将注意力来源定位在眼睛上。否则，作者将注意力来源从眼睛转移到MCP。独立预测注意力来源也可以降低模型训练成本和错误 Level ，与注意力来源-指尖对预测相比。

通过作者设计的AD-DINO和ADTL，所提出的方法在0.25 IoU阈值下实现了76.3%的准确率。值得注意的是，在0.75 IoU阈值下，AD-DINO实现了55.4%的准确率，首次在具身参考理解任务中超过了人类表现，这标志着在缩小计算模型与人类能力之间的差距方面取得了重要的里程碑。

本论文的主要贡献有四点：

（一）作者强调了视觉体感共享机制的距离 Aware 方面，并将其纳入了具身参考理解任务中。

（二）作者基于指针-参照距离和距离感知的视觉体感共享，开发了一种注意力-动态触摸线，从而提高了具身参考理解性能。

（三）作者提出了一种新颖的模型，该模型将图像与手势信息、口头指令相结合，优化了指向手势关键点检测机制。

（四）作者在ERU上实现了最先进的（SOTA）性能，作者的方法在YouRefIt数据集的0.75 IoU阈值处，相较于之前的SOTA方法提高了16.4%，首次超过了人类表现。

unset

unsetII Related Workunset

unset

Interpretation of Pointing Gesture

指尖动作作为一种非语言交流方式，可以表示方向、物体或吸引注意。传统上，这些动作是通过将指尖延长至手臂手指线的延伸来从观察者的角度进行解释的[28]。然而，最近的研究将这种方法描述为一种实证和系统的空间误解[18, 19]。最近的研究表明，指尖表示物体使用眼睛-手指-物体对齐的虚拟触摸线[19]。Herbort & Kunde [19] 证明，使用虚拟触摸线的延伸可以提高参照物定位的准确性。O'Madagain et al. [20] 提出，指尖动作起源于触摸，推导出虚拟触摸线机制，并强调手势理解中眼睛-手指位置联系的重要性。值得注意的是，Li et al. [21] 提出了一种基于虚拟触摸线机制的触摸线 Transformer ，这改进了参照物检测性能，验证了虚拟触摸线在减轻指尖动作误解方面的有效性。

然而，这些研究主要关注的是远距离目标。在近距离互动中，在无对齐的注视下，指针会根据空间约束调整其手臂姿势，使得VTL和手臂手指线条机制都变得无效。为了克服这些局限性，作者引入了注意力-动态触线用于动态手势表示，并验证了其有效性，以提高视觉稳定性能。

Referring expression comprehension

参考表达式理解在计算机视觉中起着至关重要的作用，其目标是根据自然语言描述在图像中准确地定位目标 [29, 30]。为了实现这一目标，已经开发了许多数据集，包括基于短语 Level 的和基于句子的语言描述。研究行人已经提出了各种方法来解决REC。毛等人 [34] 首先提出了基于深度学习的解决方案，通过开发 MMI，创新地将一个 CNN 用于视觉特征提取与一个 LSTM 用于表达生成相结合。Kamath 等人 [35] 提出了 MDETR，这是一种基于 Transformer 的架构，通过视觉-文本模态融合在文本条件图像中检测目标。此外，一阶段方法，基于图的模型 [40, 41, 42, 43]，以及语言预训练模型 [44, 45] 也取得了显著的改进。

自从2021年CLIP [46, 47]的开创性研究以来，视觉语言模型取得了显著的进步。出现了许多具有REC能力的模型，例如GLIP [48, 49]，Grounding DINO [50]，以及DetCLIP [51, 52, 53]。虽然这些方法推动了该领域的发展，但它们主要依赖语言线索，而将非语言的、具身的额外线索有限地作为辅助线索。

Gesture-based Visual Grounding

非语言和语言信息的融合可以显著提高REC性能。类人的非语言线索，如注视或指尖动作，通过视觉理解向特定目标提供更明确的指示。基于注视的方法确定人类对目标目标的视觉焦点。方等人[54]将注视目标检测扩展到3D环境，提出了一种三阶段方法，该方法预测注视方向，确定视野范围，并在视野内定位目标。钱等人[55]利用基于文本表达、场景图像和注视热力图的多模态信息融合方法来定位和分割目标目标。虽然仅利用注视可能无法提供最佳的物体指示精度，但与人类姿态结合时，它显示出巨大的潜力。

手指动作是人类最直观的交流方式之一。Chen等人[15]开发了YouRefIt数据集，并在图像和视频中对ERU任务进行了基准测试，使用显著热力图和Part Affinity Field热力图来提取手势特征。Oyama等人[56]将预先构建的环境模型与方向词、物体类别和基于骨架的手势数据相结合，在机器人的视野之外定位目标物体。Lorentz等人[57]提出了一种基于手指动作和双向对话的人机交互过程，以指导人形机器人定位、抓取和放置目标物体。在作者研究中，作者利用手指动作和注视信息来优化近目标视场，从而根据文本线索提高视觉定位的准确性。

unset

unsetIII Methodunset

unset

这一节介绍了AD-DINO的主要设计，包括三个关键组件：

模型架构：使用语言和图像以及嵌入式手势线索描述实现目标视觉定位。

动态触控线标注：基于不同的指针-参考距离定义指向手势的表示。

模型训练：详细阐述模型训练过程的具体细节。

Network Architecture

如图2所示，所提出的AD-DINO模型包含五个主要组件：一个视觉编码器，一个文本编码器，一个跨模态融合模块，一个 Query 选择模块，以及一个跨模态解码器。以下子节详细介绍每个组件：

picture.image

Iii-A1 Feature encoder and cross-modality fusion module

对于每个（图像，文本）对，作者使用 Swin Transformer 作为视觉编码器 backbone 来提取初始图像特征。BERT 作为文本编码器 backbone 来提取初始文本特征。作者实现了一个跨模态融合模块，以增强提取的初始多模态特征，促进单一模态特征之间的信息交换。这个模块由多个相同的特征增强层组成，每个层都遵循双重输入和双重输出结构，如图3 所示。在每个层中：文本特征通过普通的 self-attention 处理，视觉特征通过可变形 self-attention 处理。遵循 GLIP 和 Grounding-DINO，作者使用顺序图像到文本和文本到图像的交叉注意力模块进行跨模态信息融合。增强的特征通过 feedforward 网络（FFN）输出。

picture.image

Iii-A2 Decoder Query selection module

为了选择与输入文本相关的视觉特征作为编码器 Query ，作者实现了一个 Query 选择模块。该模块通过输入文本特征与视觉特征之间的点积运算来评估它们的相似性。相似性较高的视觉特征被选择为语言引导的 Query 。解码器 Query 将位置和内容组件结合，以更好地适应多种视觉特征，并理解和表达输入文本的语言特征。

Iii-A3 Cross-Modality Decoder Module and Finger Detector

交叉模态解码器（cross-modality decoder）在结构上类似于融合模块（fusion module），它包含多个相同的解码层。如图4所示，每个层都包括自注意力层、视觉交叉注意力层、文本交叉注意力层和FFN层。

picture.image

对于注意力-动态触摸线预测，作者将过程分为两部分：注意源点预测和端点检测。在最终解码层中，分别使用两个独立的FFN进行目标框预测和注意源点预测。注意力-动态触摸线的端点（对应指尖）直接使用MediaPipe的Handmarker模块进行检测。在整个训练过程中，Handmarker模型参数保持固定。然后，预测的ADTL被构建为连接预测的注意源点和检测到的端点的线。

Division of Attention Source of Attention-Dynamic Touch-Line

在作者提出的方案中，作者定义了ADTL，其端点在指尖。注意源在指针和参考目标之间的距离发生变化时在眼睛和MCP之间交替。具体来说，当物体距离指针约为手臂长度时，作者将眼睛指定为注意源。相反，对于更接近的物体，MCP作为注意源。考虑到从单张图像准确确定指针-参考距离的挑战，作者利用自然人类交互模式来估计这个距离。作者的方法使用上肢的三个关键部分：食指（IF）、前臂（FA）和上臂（UA）来评估空间关系。作者将这些部分作为三个向量：, , ，其中, , , , 分别代表指尖、MCP、手腕、肘部和肩部的坐标。作者使用MediaPipe作为人体骨骼检测模型，来检测这些关节。

为了评估三个向量的整体方向一致性水平，如公式（1）所示，作者考虑两个与最大余弦相似性对应的段向量，分别表示为和。

picture.image

其中 cos_sim 表示两个向量的余弦相似度。

总向量。剩余段向量表示。然后计算和之间的余弦相似度。如方程（2）所示，当大于阈值时，作者认为指针已经伸出手臂，指针与物体之间的距离超过了手臂的长度，注意力源位于眼睛；相反，作者认为指针已经弯曲手臂，指针与物体之间的距离小于手臂的长度，注意力源位于MCP。

picture.image

其中_AS_表示注意力来源，表示阈值，=0.95。

Model Training

Iii-C1 Explicit Learning of Pointing Gesture

总的来说，为了给观察者提供清晰的参照目标指示，指针的注意来源通常与指纹和目标高度共线。作者使用余弦相似度来评估这些点之间的对齐：

picture.image

其中，表示三个点对对齐程度的评估。和分别表示注意源的坐标和目标边界框的中心坐标。

为了在ERU任务中实现参考本地化和与指向手势表示线对齐的统一，对齐评估损失函数被定义为方程（4）所示：

picture.image

其中，是根据真实边界框计算的，是根据预测边界框计算的。在这两种计算中，注意力的来源都来自真实值。

Iii-C2 Loss Function

在训练过程中的总损失函数的具体表达式如下方程（5）：

picture.image

其中，和分别是边界框回归的L1损失和GIOU损失。是区域视觉特征与文本 Token 之间的对比性Focal Loss，如[50]中所述。对于ADTL，是注意力源回归的L1损失。在III-B部分详细说明。

Iii-C3 Implicit Learning of Pointing Gesture

为了评估模型从图像中隐式学习手势信息的能力，作者进行了一项消融实验。这项实验涉及修改输入图像和模型架构。在图像修改方面，作者从图像中移除了人类图像，并根据周围的背景对移除区域进行修复，使用了MAT [60]。

同时，作者通过移除负责预测人类注意力来源的FFN，仅保留物体预测输出来调整模型。这种实验设置使作者能够隔离出明确的人体姿态信息对作者模型的影响程度。通过将修改后的设置与原始模型进行比较，作者可以评估出作者的模型在多大程度上依赖隐式手势线索而不是明确的人体姿态信息。

unset

unsetIV Experimentsunset

unset

Dataset and Evaluation Metrics

本研究利用了YouRefIt数据集，这是一个具有体感的参考数据集，其中智能体利用语言和手势在共享物理环境中指代其他智能体。尽管该数据集包括视频和图像，但作者的研究仅关注图像数据。

训练集包含2950个样本，其中1245个样本在测试集。作者保留了YouRefIt数据集中的原始文本标注，并将其与FL标注相结合。VTL标注遵循[21]，而ADTL标注则从FL和VTL参考中选择，具体选择方法在III-B节中详细说明。

为了便于与先前的方法进行比较，作者采用了[15]和[21]中的实验设置，使用三个交并集（IoU）阈值进行精确度报告：0.25，0.5和0.75。如果预测的边界框与真实值之间的计算IoU超过设置阈值，则认为预测正确。此外，作者还报告了广义交并集（GIoU）结果，以提供更广泛的评估视角，如在第四部分C中讨论的那样。

Comparison of ERU Performance with State-of-the-art Methods

TABLE I表明，基于ADTL的模型在所有三个IoU阈值上都实现了新的SOTA性能，分别达到了76.3%，72.4%和55.4%。值得注意的是，在0.75 IoU阈值下，作者的模型与YouRefIt基准相比提高了41.4%，与之前的SOTA方法相比提高了16.4%。显著的是，ADTL和VTL方法首次在0.5 IoU阈值下超过了人类表现。在0.5 IoU阈值下，作者的模型分别使用ADTL和VTL分别比SOTA模型提高了7.4%和8.1%。

作为参考，作者还评估了最先进的视觉定位模型 [36, 49, 50, 58]，在Grounding-DINO和GLIP中使用Swin-T和Swin-L Backbone 网络。这些模型被应用于YouRefIt作为参考表达式理解任务，并未在图像中明确利用非语言信号。

GloU Performance and DA-VPT Effectiveness Evaluation

为了验证作者模型的视觉定位能力和DA-VPT的重要性，作者在TABLE II中提出了GIoU性能指标，这些指标与IoU相一致。通过比较TABLE I和TABLE II，作者可以明显看出ADTL方法在距离不知情VPT手势理解方面的优势。在所有评估指标和阈值下，ADTL始终优于VTL和FL，其中VTL超过了FL。在0.25 IoU阈值下，ADTL分别相对于VTL和FL取得了0.9%和2.2%的改进。

在近距离相互作用中，当距离小于手臂长度时，VTL相对于ADTL的略微较差性能可以归因于不必要的眼指物体对齐要求。在注视监督下，指针可以操纵ADTL以准确在FL形式 intersect预测目标的时空位置。肘关节、手腕和MCP关节的灵活性允许在进行任意FL手势调整的同时保持目标目标。

在这种情况下，VTL可能会显著偏离目标的质心或完全错过目标边界框，阻碍模型利用手势信息进行视觉定位。图5（a）说明了这个问题，其中VTL未能 intersect目标水壶的边界框，可能在中预测过程中造成具身参照和语言线索的混淆。

picture.image

相反，在长程相互作用中，当距离超过手臂的长度时，指针通常会伸出手臂以实现眼-手指-目标对齐，从而允许ADTL以VTL的形式与目标目标相交。图5(b)证明了VTL在匹配语言线索方面的成功，而FL则失败。在这两种场景中，身体参考与语言线索之间的更高对齐增强了模型的预测准确性。ADTL对具有身体参考的动态理解，摆脱了单一机制的限制，显著减少了指手势的误解释。

为了进一步验证基于DA-VPT的ADTL方法在点手势理解方面的有效性，作者将该方法应用于最先进的TOUCH-IN-LINE模型。表1的结果表明，与使用VTL的TOUCH-IN-LINE相比，ADTL方法在0.25、0.5和0.75 IoU阈值处分别提高了1.1%、1.5%和0.3%。

picture.image

Explicit Learning of Pointing Gesture

为了评估显式手势学习对模型性能的影响，作者将带有显式手势信息（ADTL、VTL和FL）的模型与没有显式手势关键点（NEGKP）的模型进行比较。表3显示，在所有IoU阈值下，ADTL和VTL模型始终优于NEGKP模型。这种性能优势可能归因于与第IV-C节中讨论的因素相似。添加高度对齐的具身参考增强了模型相对于语言线索的预测准确性，这一点从ADTL和VTL的结果以及0.25和0.5 IoU阈值下的FL表现中得到证实。

picture.image

然而，在0.75 IoU阈值下，FL模型相对于没有明确手势关键点的模型的优势变得几乎不可察觉。这一观察可能是因为：

（1）严格的评估阈值和FL在方向指示上的不可靠性。

（2）在较低的阈值（0.25和0.5）下，FL提供的近似方向足以定义物体位置的空间范围。图6说明了明确手势学习性能。

picture.image

Implicit Learning of Pointing Gesture

作者通过两组比较测试来探索模型的隐式学习能力。第一组测试使用没有手势标注的原图像（眼睛、MCP、手腕、肘部、肩部）。第二组测试使用根据周围背景去除人类并上色的图像。在这两组中，都消除了注意力来源预测，而IoU阈值与前实验保持一致。表4呈现了具体结果。尽管缺乏人工手势标注，但图像中缺乏视觉身体参考信息导致所有IoU阈值上的性能程度不同。这一观察与TOUCH-IN-LINE中报告的发现相符。

picture.image

人类动作去除导致的性能下降表明，人类动作在视觉特征中包含有重要的方向信息。在修复后的图像中进行的视觉定位任务，与一般的REC任务相似。图像中存在具有参考动作的人类，暗示了额外的视觉线索，当多个物体与口头 Prompt 描述相匹配时，可以提供更准确的方向信息。图7(b)说明了这种场景，图像中存在多个球。如果没有额外的位置线索，右侧较大的、更清晰的球更有可能成功定位，尽管目标球在中间较小。因此，动作信息有助于视觉参照识别，减少了需要复杂补充语言描述的需求。

有趣的是，在0.75 IoU阈值处，修复后的图像性能超过了原始图像。这一现象可能归因于人类存在作为视觉干扰，尤其是在需要精确定位时。人类图形的复杂特征可能导致模型在人和目标区域之间产生混淆，影响精确定位。相反，修复后图像的更一致背景减少了干扰，使模型能够更有效地专注于精确的目标定位。

Effects of Object Sizes

TABLE V 呈现了作者对物体大小对视觉定位成功率的影响的分析。遵循 [15] 的方法，作者将物体大小分为三组。与其他最先进的方法和人类表现一致，作者的方法在物体较大时显示出较高的成功率。当物体大小减小时，模型性能下降可能有以下两个因素：(1) 触控线与较小物体相交的概率降低，与物体中心相对偏移被放大。 (2) 图像中的较小物体区域受图像质量和分辨率限制，导致成功率降低。

unset

unsetV Conclusionunset

unset

这项研究介绍了一种新颖的实体参考理解框架，该框架利用注意力-动态触摸线方法来提高手势解释性能。作者的框架针对指向性手势在视觉视角获取中的指代距离感知这一关键方面进行了优化。这种方法在各种交互场景中显著减少了对指向性手势的误解释。作者基于虚拟触摸线概念开发了一种新的动态注意力源预测机制，该机制适应了指针和参照目标之间的不同交互距离。这项创新在提高手势解释准确性的同时，降低了模型训练成本。作者的实验结果表明，在实体参考条件下，指向性表达理解任务的视觉 Anchor 定性能得到了显著提升。

提出的框架在涉及人际交流和人与机器人交互的各种领域中具有应用前景。然而，作者承认在当前工作中存在某些局限性，主要集中在将手势作为非语言交流的唯一形式。未来的研究将扩展该框架，以包括其他非语言线索，如注视方向和手势。作者还计划研究多模态集成技术，以将各种非语言信号结合在一起，实现更强大的实体参考理解。

参考文献

[0]. AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding.

点击上方卡片，关注「AI视界引擎」公众号

YouRefIt 作证：Attention-Dynamic DINO 手势理解性能超越人类创纪录 ！

unset

unset

unset

unset

unset