天大、华盛顿大学、哥本哈根大学提出 YOSS 方法，结合视觉与听觉进行物体识别！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

利用视觉线索将物体定位在图像中的方法在计算机视觉领域得到了广泛应用，但音频作为一种模态在物体识别和定位方面的潜力仍待挖掘。

作者提出YOSS（You Only Speak Once to See）方法，利用音频进行视觉场景中物体的定位，称为音频定位。

通过对比学习结合多模态对齐，将预训练音频模型与视觉模型集成，作者的方法可以捕获语音指令或描述，并直接将其映射到图像中的相应目标。

实验结果显示，音频指导可以有效地应用于物体定位，表明将音频指导纳入当前物体定位方法可能提高其精度和鲁棒性，并提升机器人系统和计算机视觉应用的性能。

这一发现为高级物体识别、场景理解和开发更具直观性和功能的机器人系统开辟了新的可能性。

I Introduction

视觉定位旨在根据人类提供的描述，在图像中找到最相关的目标或区域。这一任务在将视觉感知与语言理解相联系方面至关重要，并为增强机器人及人工智能（AI）系统的交互能力提供支持[1,2]。传统上，视觉定位主要依赖于文本和图像模态。随着预训练大型语言和图像模型的出现，文本图像模型能够从广泛的语言语料库中学习丰富的语义信息。然而，利用口头语言进行目标定位仍被广泛忽视。

将语音纳入视觉定位任务为人类与计算机交互提供了新的发展机遇，尤其是在机器人学和AI系统领域。语音是人类自然和直观的交流方式，使机器能够理解和执行口头指令，可以显著提高其可用性和易用性。例如，在机器人学中，用户可能会口头指示机器人“绕到前面”，这需要机器人通过准确识别和定位其视觉环境中的指定目标来对这一口头指令进行定位。这种能力在辅助机器人、自主系统和交互式AI Agent 等应用中具有巨大价值，在这些应用中，无缝、自然的交互方式至关重要。

尽管潜力巨大，但将语音应用于目标定位的应用仍属未探领域。目前的研究主要集中在基于文本的定位，而忽略了利用听觉信息进行视觉任务的重要性[7, 8, 9]。填补这一空缺对于开发更灵活、更直观的AI系统至关重要，这些系统可以通过多种模式与用户互动。因此，有必要开展研究，探讨将口语语言整合到视觉定位框架中，从而扩展机器人和AI系统在实际应用中的能力和效果。

作者的工作利用语音作为视觉定位的线索，提出了音频定位任务。作者进一步探索了适应于开放式词汇设置的基于音频的目标检测，如图1所示，推动了场景理解并增强了机器人系统的功能。人类的听觉系统可以将语音处理为提取社交互动所需的信息。在人类与计算机的交互中，文本以外的模态，如语音和身体语言，起着关键作用。在这些中，基于音频的对话交互提供了一种更用户友好、更便捷的参与方式。

picture.image

为了实现语言-视觉 grounded，通过对比学习利用配对文本和图像，多模态模型现在可以有效地学习文本-图像表示，为语言-视觉 grounded 任务提供了基础应用。一个有影响力的模型是 CLIP[14]，由于其广泛的视觉概念覆盖，足够语义丰富，可以应用于零样本设置的下游任务，如图像分类[17]，目标检测[18]和分割[19]。随着 grounded 任务的出现，开放集（开放词汇）目标检测已成为现代计算机视觉中的新趋势。最近利用预训练方案开发了许多检测模型。

例如，DetCLIP[20]和GLIP[7]提出了基于短语 grounded 的开放词汇检测框架。Grounding DINO[8]将基于 Transformer 的检测器 DINO[21]与 grounded 预训练相结合。YOLO-World[9]使用预训练的 CLIP 进行语言-图像表示，并采用 YOLO[22]作为其检测 Backbone 。

近年来，语音处理技术的进步显著提高了机器准确理解语音输入的能力。类似于文本图像领域的CLIP模型，语音与文本图像模态的方法如SpeechCLIP [23]和AudioCLIP [24]通过对比学习跨语音和文本图像模态进行对齐。这些方法将音频表示与视觉和文本对应，实现跨模态检索和理解。因此，将音频和图像模态统一起来到一个任务中变得越来越有前途和实用性。

在这个背景下，作者提出的框架YOSS（You Only Speak Once to See）展示了利用音频追踪和理解场景的巨大潜力。通过利用口语直接进行目标定位，YOSS在听觉和视觉模态之间架起桥梁，促进了更直观的人机交互，并提高了多模态AI系统的功能。

总的来说，在本文中，作者在这个基础研究的基础上提出了音频定位（Audio Grounding）任务。作者的主要贡献如下：

提出音频-图像关联（Audio-Image Grounding）任务，该任务使用音频 Prompt 进行开放目标检测。

开发一个音频-图像关联框架，该框架整合多模态信息进行图像和音频对齐。

证明作者框架的有效性，通过在COCO、Flickr和GQA数据集上的实验以及进一步评估。

II Related Work

Visual Grounding and Open-Vocabulary Object Detection

视觉定位在将文本描述与视觉内容对齐的背景下得到了广泛的关注。早期的工作主要关注使用注意力机制将短语映射到图像区域。随着大规模数据集和强大模型的出现，如CLIP[14]，方法在联合学习文本-图像嵌入方面展示了强大的能力，实现了零样本迁移到各种任务，如图像分类[17]，目标检测[26]，和分割[19]。

最近，如Grounding DINO[8]和GLIP[7]等模型通过将定位预训练与基于 Transformer 的架构相结合，推动了开放词汇目标检测的进步。这些方法利用大规模预训练学习丰富的语义表示，这对需要理解复杂视觉场景和多样化词汇的任务至关重要。

Speech and Audio-Visual Alignment

尽管在利用文本输入进行视觉定位方面取得了显著的进展，但使用口语进行定位的研究还相对不成熟。已有几项研究调查了音频-视觉对齐，主要关注音频-视觉识别任务，如音频-视觉语音识别[27]，该任务通过分析视频中的唇部动作来学习识别语音，以及声音源定位[28]，该任务旨在在视觉场景中识别声音的时空起源。

跨模态检索是另一个将音频和视觉模态整合的领域。如AVLNets[29]已经探索了学习音频和视觉数据的联合表示，以便在跨模态检索任务中促进表示对齐。方法如SpeechCLIP[30]和AudioCLIP[24]已经将对比学习框架扩展到将语音和音频与文本和图像嵌入对齐。通过在音频、文本和图像数据上进行联合训练，这些模型学习共享表示，从而实现跨模态检索和理解。

Self-Supervised Speech Models and Multimodal Integration

近年来，自监督语音模型在自动语音识别（ASR）和其他下游音频任务上的进步显著提升了性能。例如，wav2vec 2.0 [31]，HuBERT [32]，data2vec [33]，和Whisper [34]等模型通过预测输入的 Mask 片段或利用对比学习目标从大规模无标签音频数据中学习丰富的表示。

这些模型利用大量无标注的语音数据来捕捉声学和语言特征，无需庞大的标注数据集。这些模型的成功为将语音表示集成到多模态框架中开辟了新的途径。通过将自监督语音模型与视觉编码器相结合，可以实现系统在图像中理解和定位口头语言的能力。

例如，将HuBERT表示与视觉定位模型相结合，可以基于口头描述在图像中定位目标，从而增强辅助技术和人机交互的应用。这一进步对于开发更自然和直观的人机交互至关重要，尤其是在需要语音命令的场景中。

III Methodology

在这篇论文中，作者将实例文本标注改革为音频标注对（region-audio annotation pairs）用于音频定位。具体来说，音频段对应音频字幕数据集中的目标描述。因此，作者将图像和音频输入到编码器中，以获得相应的目标嵌入。图像和音频特征被嵌入到语义相似度空间。接下来，将多尺度图像特征与音频特征相结合，输入到音频引导的 Query 选择网络中。YOSS框架的总体实现如图2所示。

picture.image

Audio-Visual Feature Extraction

作者利用了之前研究的图像编码器，包括CLIP。音频编码器，特别是HuBERT，作为音频嵌入提取器，运行在类似于SpeechCLIP [23]的并行分支中。最初，作者使用对比损失预训练音频-图像对，以对齐音频和图像嵌入。此外，尽管CLIP中的文本编码器可以省略，作者还试图明确对齐音频和文本内容。

CLIP 中的 Vision Transformer 被用作跨模态对比学习的预训练图像编码器。在对比学习过程中，这个图像编码器保持冻结，不会被更新。

HuBERT with Aggregation Branch

HuBERT [32] 是一种用于语音任务的自我监督学习（SSL）模型，采用 Mask 预测预训练。它包括一个CNN特征提取器，以及transform器层。聚合分支包括一个聚合层和一个具有线性投影的transform器层，可以将嵌入映射到一个共享的图像-音频空间。聚合层使用语音编码器输出的加权求和将一系列帧级特征池化为固定维度的嵌入：

随后的，高维嵌入通过transform器层和密集层处理，产生一个较低维度的句子级表示。

picture.image

隐藏状态对应HuBERT层的隐藏状态，代表音频嵌入。

对比损失被用于音频-图像对比学习。在图像和语音编码器的作用下，将多模态输入投影到低维空间中，这些样本之间的相似关系得以学习，从而将音频字幕与其对应的图像对齐。

这个过程类似于图像-音频检索[23]。对比损失可以表示为：

picture.image

当音频和图像对的数量为和时，音频和图像的嵌入和的顺序为批处理大小。

首先，作者将音频和图像嵌入对齐到CLIP嵌入空间。具体来说，作者使用对比学习将多模态嵌入映射到CLIP（ViT-B/32）模型的空间。

尽管使用了对比学习方案，但音频、文本和图像嵌入都被映射到高度对齐的公共空间。作者提出使用嵌入对齐和关联对齐进行进一步优化：

picture.image

其中，表示文本嵌入。值得注意的是，音频-图像对比学习可以通过文本-模态信息得到显著提升。

由于大型文本-图像模型是利用大量文本 Token 和图像进行训练的，从头开始训练一个类似的音频模型将会既费时又费钱。

Audio-Visual Cross-Modal Query

YOLO-v8 使用了 YOLOv8CSPDarknet 作为 Backbone 网络 [35]。该网络输出具有多种分辨率和尺寸的特征图。在这里，作者使用最后三级特征图的输出作为 Query 。

与之前的Grounding工作[9]类似，作者在YOLO-v8中使用基于NAS-FPN[36]的检测Head进行 Query ，这是一种使用 Backbone 网络从金字塔特征中定位物体的神经架构。

在此过程中，将图像 Backbone 网络的多尺度特征和音频嵌入相结合，用于预测类别的边界框和置信度得分。 Query 包括对比分类，使用标准CrossEntropy损失：

picture.image

并且使用了分布Focal Loss（Distribution Focal loss）[37]和IOU损失（IOU loss）[38]。

picture.image

Unified Framework

音频定位的整体框架分为两个阶段。首先，作者预训练一个音频-视觉对比嵌入模型，使得音频-语言概念通过嵌入相似性学习与图像概念对齐。

预训练损失可以表示为：

picture.image

然后，作者使用YOLOv8为基础的多模态 Query 进行音频定位。

对于带有音频片段和本地化的音频图像对，地面 Query 模块采用以下损失进行训练：

picture.image

IV Experiment

Settings

Iv-A1 Dataset

作者利用多个多模态图像数据集来预训练YOSS模型：

Flickr 8K[39] 包含8,000张图片和40,000个带有音频的文本标注，这些标注由183位不同的发言者朗读。

Flickr 30K[40] 包含 31,783 张日常活动、事件和场景的照片以及 158,915 条文本描述。

GQA[41]是一个包含实际视觉推理和组合性问题回答的数据集。它包括133K张图像和22M个各种类型和不同组合复杂度的问句等。

COCO & SpokenCOCO[42, 43] SpokenCOCO 基于 MSCOCO 描述符数据集 [42, 44]。这个语料库是通过在 Amazon Mechanical Turk 上显示文本并让不同的人大声朗读而收集的，总共收集了 605,495 个描述符。该语料库由 2,352 名不同说话者录制。

音频定位标注GQA和Flickr 30k的来源是图像文本数据的伪标签。用于音频定位数据合成的伪标签来自预训练的开放式词汇检测器（GLIP）[7]，它为每张图像和描述生成伪框。

Iv-A2 Implement Details

作者在研究中使用了SpeechT5 [45]模型进行语音合成。为了控制合成的语音质量，这些语音被输入到ASR模型（Whisper [34]）中，以删除不需要的语音。这些数据集的详细信息列在表1中。对于语音文本对齐，音频字幕也被标注并对齐，与基于Whisper的时戳模型（如图4所示）的文本对齐。在评估中，语音段来自互联网上收集的人类语音。

picture.image

训练设置

在Flickr 8k和COCO上进行语音图像对比学习预训练。遵循SpeechCLIP [23]中的设置，使用Adam优化器，学习率1e-4，权重衰减1e-6。语音嵌入的维度为512。使用预训练的Speech-Image模型，作者在Flickr 30k，COCO和GQA上进行微调，以进行进一步的对齐和检测。固定Speech Encoder和Image backbone，并对Audio-Visual Query层进行微调。在Audio-Visual上应用AdamW优化器，学习率1e-5，权重衰减0.025。

作者的框架中使用了HuBERT-base模型（94.7M参数）。而YOSS-base模型（114.9M参数）则使用了YOLOv8-s作为基础，YOLOv8-m则用于YOSS-large（130.6M参数）。

Results

作者报告了在LVIS基准测试和COCO目标检测上的迁移性能。

零样本评估在预训练之后，作者以零样本的方式直接在LVIS数据集上评估所提出的YOSS。LVIS数据集中的图像源自COCO数据集，但被标注为1,203个目标类别。作者在LVIS minival [46]上进行评估，并报告了作者的结果，如表2所示。最大预测数量设置为1,000。YOSS模型在有限数据的情况下，对于开放词汇音频目标检测取得了可接受的结果。然而，与基于文本的定位相比，其结果落后于文本。

picture.image

音频目标检测此外，作者在COCO2017数据集上评估了提出的YOSS在音频目标检测方面的性能。作者从包含相应类名的包含人类语音的音频编码器中生成类嵌入，覆盖80个目标类别。作者在COCO2017验证集上进行评估，并报告了作者的结果在表3中。YOSS模型在COCO音频目标检测方面的表现似乎优于开放词汇音频目标检测。然而，由于口语语言理解相对较难，结果仍落后于基于文本的Grounding。

picture.image

总之，音频目标检测实现了相对令人满意的结果，表明音频定位具有进一步研究的潜力。此外，对齐嵌入层通过额外的文本信息增强了音频定位，进一步微调提高了迁移结果，使得将音频集成到多模态目标定位并增强现有定位方法成为可能。

Ablation Studies

Iv-C1 Alignment

作者进行了文本和音频对齐的消融研究，以实现音频视觉基础任务。结果如表4所示。在Flickr 8k验证集上，作者进行了音频图像检索任务。结果表明，对于跨模型学习的监督对齐和珊瑚对齐的有效性得到了验证。对于回忆率（R@10），几乎可以看到10%的绝对增长。这还超过了SpeechCLIP的 Baseline 。

picture.image

Iv-C2 Size of Image Backbone

表2和III展示了图像backbone的消融研究结果。在额外参数的情况下，YOLOv8-m比YOLOv8-s为更好的Audio-Image Grounding模型，从而提高了检测结果的迁移性能。

V Conclusion

在本文中，作者提出了一种名为音频定位（Audio Grounding）的全新基础任务，用于开放词汇音频目标检测。

作者提出了YOSS，利用了基础任务领域的最新进展。

通过音频-图像对比学习以及多模态对齐，作者将音频和图像嵌入映射到共享语义空间，从而促进下游任务。

在流行的检测器YOLO基础上，作者的音频-视觉定位框架使得口语内容能够立即进行视觉定位。

点击上方卡片，关注「AI视界引擎」公众号

天大、华盛顿大学、哥本哈根大学提出 YOSS 方法，结合视觉与听觉进行物体识别 ！

I Introduction

II Related Work

III Methodology

IV Experiment

V Conclusion