香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa，利用大型语言模型实现视频推理分割！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )
picture.image

picture.image

尽管视频感知模型在近年来取得了显著进展，但它们仍然在很大程度上依赖于明确的文本描述或预先定义的类别，以在执行视频感知任务之前识别目标实例。然而，这些模型未能通过文本输入主动理解和推理用户的意图。

尽管以往的研究尝试探索在图像分割中结合推理的解决方案，但由于视频在物体运动上的复杂性，它们未能对视频进行推理。为了弥合图像与视频之间的差距，在这项工作中，作者提出了一种新的视频分割任务——视频推理分割。

该任务旨在给定一个复杂的输入文本 Query 时，输出分割 Mask 的轨迹片段。更重要的是，为了推动这一未探索领域的研究，作者构建了一个推理视频分割基准。最后，作者介绍了ViLLa：Video reasoning segmentation with Large Language Model，它结合了多模态大型语言模型（LLM）的语言生成能力，同时保留了检测、分割和跟踪多个实例的能力。

作者使用了一个时间感知的上下文聚合模块来将上下文视觉线索融入到文本嵌入中，并提出了一个视频帧解码器来构建分割 Token 之间的时间相关性。值得注意的是，作者的ViLLa在处理复杂推理和指代视频分割方面表现出色。

此外，作者的模型在不同的时间理解基准测试中也显示出令人印象深刻的性能。定性和定量实验都表明，作者的方法有效地为多模态LLM解锁了新的视频推理分割能力。

代码和数据集可在https://github.com/rkzheng99/ViLLa获取。

1 Introduction

利用大型语言模型（LLM）的成果，大型多模态模型（LMM）的发展显著提升了视觉感知能力和用户体验至新的高度。然而，在缺乏明确指导指定目标物体或类别的情况下，大多数模型，包括感知模型和LMM，在生成详细和细粒度的响应（如实例 Mask ）方面存在不足，而仅能为图像或视频生成一般性的文本描述。不幸的是，这种失败阻碍了多模态系统在自动驾驶、图像/视频编辑、机器人和增强现实等实质性工业和生活场景中的实际应用。

近期研究探索了将LLM应用于新型推理分割任务以生成目标 Mask ，这增强了现实世界应用的可适用性。与明确指定目标物体的传统分割方法（例如“橙子”）不同，推理分割需要复杂的推理来解释更复杂的指导（例如“富含维生素C的水果”）。这些新方法提出了能够生成多个开放集目标并保持多样化推理复杂度的有效LMM。尽管这些方法取得了成功，但它们仍然仅关注图像级推理和理解，未能将细粒度推理能力扩展到时间维度。从图像到视频的适应看似直观，但仍面临一个主要障碍：视频帧中固有的复杂关系对使用单一分割标记或固定分割码本的图像基础推理方法有效建模时间关系提出了挑战。然而，专注于建模时间关系将牺牲每帧的空间理解。

考虑到在图像级推理分割中使用LLM的成功，作者直觉地产生了这样一个问题：当作者将LLM适应于视频场景时，如何高效利用跨帧的时间关系同时保持帧 Level 的理解？

在本文中，作者介绍了ViLLa，这是一个有效且高效的视频推理分割和理解LMM，能够在不丢失图像空间细节的情况下熟练地感知和推理视频（如图1所示）。作者的核心思想是使用既具有时间相关性又保持上下文保留的标记来表示视频。具体来说，作者提出了一个上下文注意力模块，从视觉特征到文本嵌入聚合帧上下文信息，以生成上下文丰富的文本嵌入。为了将时间关系整合到分割标记中，作者设计了一个视频帧解码器，以通信单一帧的分割嵌入与表示整个视频帧的嵌入。值得注意的是，ViLLa在所有视频理解基准测试中展示了竞争性性能，证明了作者模型的鲁棒性。如图1所示，作者的模型在涉及复杂推理和多目标跟踪的视频分割的各种复杂视频场景中表现出能力。在Refer-Youtube-VOS和Youtube-VIS上进行测试，作者的模型在和AP上分别超过了先前最先进的方法3.6和2.8。

picture.image 此外，为了验证其有效性，作者建立了一个名为VideoReasonSeg的视频推理分割评估基准。这个基准包含了一千多个视频-指令对，为这项任务提供了有说服力的评估指标。利用GPT-4V[31]辅助的数据整理流程，作者生成了1934个视频样例，用于视频推理分割，形式为多选QA或视频-指令- Mask 数据样本。

总结而言，作者的贡献如下：

作者引入了推理视频分割任务，该任务需要基于隐含用户指令进行像素级视频推理。开发这种能力是构建全能视频感知模型的有意义飞跃。
作者开发了VideoReasonSeg，这是一个全面的视频推理分割基准，包含1934个视频-指令- Mask 数据样本。这个基准在评估和促进研究界在基于视频的模型中对推理能力的探索方面发挥着关键作用。
作者介绍了作者的模型ViLLa，它作为一个新型的LMM，用于视频推理分割。它处理具有多样化推理复杂度的任务，在各个视频理解基准测试和作者提出的基准上均取得了最先进的结果。

2 Related Works

大型多模态模型。大型多模态模型（LMMs）在需要理解多种模态的任务上取得了重大进展。这些模型可以根据它们对大型语言模型（LLM）的使用情况被大致分为两类。

第一类模型[27; 43; 60]，要么从零开始训练，要么利用像BERT这样的小型语言模型进行文本处理。这些模型通常采用对比和生成目标的组合来处理一系列多模态任务（例如，Coca [60]）。然而，它们有限的语文理解能力常常限制了在需要巨大常识推理能力的任务中的表现。

近年来，LLM的出现为LMM开发提供了一种新的范式，其中LLM被赋予了多模态理解能力。这种方法通常包括使用 Adapter 在LLM内对齐视觉和文本表示，例如Flamingo [1]，BLIP-2 [19]，MiniGPT-4 [65]，Ilamadaapter [11]，LLaVA [24]，InstructBLIP [10]，InternGPT [26]，QwenVL [3]，InternVideo2 [45]等模型所示。一些与视频相关的多模态大型语言模型（VideoLLM）如VideoChatGPT [29]和Valley [28]利用ChatGPT [30]生成视频指令调整数据，旨在增强现实世界视频理解的指令遵循能力。尽管这些模型通过指令调整在视觉-语言任务上展示了改进的性能，但它们的主要局限性在于仅能生成关于整个图像或视频的文字输出，从而限制了在需要更细粒度、区域 Level 或像素 Level 理解的任务中的应用。

视频分割。视频实例分割（VIS）[55]是一项基础但具有挑战性的视觉任务，旨在同时基于一组预定义的目标类别，在视频中检测、分割并跟踪目标实例。随着视频媒体的繁荣，由于其在视频理解、视频编辑、自动驾驶等领域的重要应用，VIS受到了广泛关注。众多研究[2; 22; 49; 46; 7; 14; 51; 13; 21; 20; 64]提出了各种设计（如通过检测跟踪、 Mask 注意力、目标标记关联、对比记忆等）以有效地建模时间关系同时分类实例。举几个例子，基于Deformable-DETR [66]的IDOL [52]通过整合对比学习头获取独特的嵌入以进行关联[12]。随后，CTVIS [58]通过建立一个用于训练和推理的统一框架来改进IDOL。另一方面，DVIS [63]提出了一种分解策略，将VIS分为三个独立的子任务：分割、跟踪和细化。

指代视频目标分割（RVOS）任务旨在分割给定视频中由给定文本指代的目标实例。早期工作[15; 37]使用了空间-时间记忆机制来加强时间上的指代关系。研究行人随后开始构建离线参考模型[41; 40; 47; 54]，这些模型将整个视频片段作为输入。目前，基于 Query 的Transformer模型[4; 50]开始占据主导地位。MTTR [4]利用实例级分割 Pipeline 预测所有实例的序列，并确定与所指目标最匹配的序列。ReferFormer [50]将文本表达式转换为 Query ，以关注视频中相关的区域。

推理分割。在众多实际应用中，理解视觉输入到更细粒度的水平是至关重要的，例如特定区域甚至单个像素。为了满足这一需求，已经提出了几种方法来赋予大型语言模型（LLM）细粒度理解能力。Kosmos-2 [33]、InternGPT [26] 和 Ferret [59] 为指定的图像区域提供定位能力，通常将位置坐标编码为与LLM集成的标记。然而，这些方法仍未能提供像素级的输出。为了弥补这一差距，LISA [17] 将 SAM [16] 与 LLM 结合起来，以处理分割任务。此外，LISA 首次使用大型多模态模型（LMM）进行复杂的指令推理，这标志着从传统任务的范式转变，后者依赖于显式的人类指令进行目标或类别识别。这种创新方法使LMM能够推理复杂指令，而不仅仅是简单的目标识别。为了生成涉及多个目标的推理任务的面罩，PixelLM [36] 提出了一种新颖的像素解码器和全面的分割代码书来执行多目标推理分割。然而，这些方法主要关注推理图像分割，并未能在时间维度上进行像素级的推理和推理。当它们被转移到视频领域时，分割标记无法很好地建模多个目标以及它们的移动轨迹。为了弥补这一差距，作者提出了具有上下文聚合和视频帧解码器的ViLLa，以解决视频推理分割的问题。

3 Related Works

大型多模态模型。大型多模态模型（LMMs）在需要理解多种模态的任务上取得了显著进展。这些模型可以根据它们对大型语言模型（LLM）的使用情况分为两大类。

第一类模型[27; 43; 60]，要么从零开始训练，要么利用像BERT这样的小型语言模型进行文本处理。这些模型通常结合对比和生成目标来处理一系列多模态任务（例如，Coca [60]）。然而，它们有限的语言理解能力常常限制了在需要大量常识推理能力的任务中的表现。

近年来，LLM的出现为LMM开发开辟了新的范式，其中LLM被赋予了多模态理解能力[62; 39; 38; 32]。这种方法通常包括使用 Adapter 在LLM中对齐视觉和文本表示，如Flamingo [1]，BLIP-2 [19]，MiniGPT-4 [65]，Ilamadaapter [11]，LLaVA [24]，InstructBLIP [10]，InternGPT [26]，QwenVL [3]，InternVideo2 [45]等模型所示。一些与视频相关的多模态语言模型（VideoLLM）如VideoChatGPT [29]和Valley [28]使用ChatGPT [30]生成视频指令调整数据，旨在增强现实世界视频理解的指令遵循能力。尽管这些模型通过指令调整在视觉-语言任务上展示了性能的改善，但它们的主要局限在于仅生成关于整个图像或视频的文本输出，从而限制了在需要更细粒度、区域 Level 或像素 Level 理解的任务中的应用。

视频分割。视频实例分割（VIS）[55]是一项基础但具有挑战性的视觉任务，旨在基于一组预定义的目标类别同时检测、分割并跟踪视频内的目标实例。随着视频媒体的繁荣，由于其在视频理解、视频编辑、自动驾驶等领域的大量重要应用，VIS引起了广泛关注。众多研究提出了不同的设计（例如通过检测跟踪、 Mask 注意力、目标标记关联、对比记忆等）来有效地建模时间关系同时分类实例。举几个例子，基于Deformable-DETR [66]的IDOL [52]采用对比学习头来获取用于关联的独特嵌入[12]。随后，CTVIS [58]通过建立一个用于训练和推理的统一框架来改进IDOL。另一方面，DVIS [63]提出了一种分解策略，将VIS分为三个独立子任务：分割、跟踪和细化。

指代视频目标分割（RVOS）任务旨在分割给定视频中由给定文本指代的目标实例。早期工作[15；37]使用了空间-时间记忆机制来加强时间上的指代关系。研究行人随后开始构建离线参考模型，这些模型将整个视频片段作为输入。目前，基于 Query 的Transformer模型[4；50]已开始占据主导地位。MTTR [4]利用实例级分割 Pipeline 预测所有实例的序列，并确定与所指目标最匹配的序列。ReferFormer [50]将文本表达式转换为 Query ，以关注视频中相关的区域。

推理分割。在许多实际应用中，理解视觉输入到更细粒度的水平是至关重要的，比如特定的区域甚至单个像素。为了满足这一需求，已经提出了几种方法来赋予大型语言模型（LLM）细粒度理解能力。Kosmos-2 [33]、InternGPT [26] 和 Ferret [59] 为指定的图像区域提供定位能力，通常将位置坐标编码为 Token 以便与LLM集成。然而，这些方法仍未能提供像素级的输出。为了弥补这一差距，LISA [17] 将 SAM [16] 与 LLM 集成，以处理分割任务。此外，LISA 首次使用大型多模态模型（LMM）进行复杂的指令推理，这是从依赖显式人工指令进行目标或类别识别的传统任务向范式转变。这种创新方法使LMM能够推理复杂指令，而不仅仅是简单的目标识别。为了生成涉及多个目标的推理任务的面具，PixelLM [36] 提出了一种新颖的像素解码器和全面的分割代码书，以进行多目标推理分割。然而，这些方法主要关注图像分割的推理，并未能在时间维度上进行像素级的推理和推理。当它们被应用于视频领域时，分割 Token 既不能很好地建模多个目标，也不能追踪它们的移动轨迹。为了填补这一空白，作者提出了 ViLLa，通过上下文聚合和视频帧解码器来解决视频推理分割的问题。

4 Video Reasoning Segmentation

本文节旨在探讨视频推理分割的相关技术。作者将首先介绍该领域的基础概念和方法，随后分析当前最先进的技术及其在不同应用场景中的表现。通过对这些方法的深入理解，作者旨在揭示视频推理分割的潜在发展趋势，并为未来的研究提供启发。

Problem Definition

视频推理分割任务旨在给定一个由帧组成的输入视频片段和一个隐含的文本指导 Query 时，输出一个二进制的分割 Mask 序列。该任务与参考视频目标分割在公式上有相似之处，但存在一个主要差异，使得视频推理分割更具挑战性：输入 Query 文本的复杂性。除了直接的文本描述，如“左边的斑马”，视频推理分割的 Query 文本还包括对实例更复杂和微妙的描述（例如，“一种非洲哺乳动物，以其独特的黑白条纹毛皮图案在群体末端行走”），这涉及到复杂的推理以及世界知识。与图像推理分割不同，视频推理分割的 Query 文本还包括更多的运动信息，如“穿着白衬衫的人在冲浪板上乘风破浪”，这要求模型捕捉“乘风破浪的人”的运动轨迹。因此，这个课题具有挑战性且值得探索，尤其是在视频输入变得无处不在的时代。

Benchmark

鉴于缺乏定量评估，有必要为视频推理分割任务建立一个基准。为了确保可靠的评估，作者从Youtube-VIS [55]，OVIS [35]和LV-VIS [42]收集了一系列多样化的视频，并用隐含的文本指令和高质量的目标 Mask 对它们进行标注。为了全面评估推理能力，作者设计了两种评估

标准：1）多选题问答；2）指令与答案。考虑到所选数据集中并非所有的标注都遵循多选题问答格式，作者使用LLMs自动将这些视频标注转换为这种格式。这主要是因为开放式答案必须通过LLMs或用户研究来评分，这可能会引入评估偏差或人工干预。最终，作者为每个视频片段生成了2个多选题问答对。至于答案，作者主要关注分割 Mask 的质量。

该数据集进一步分为三个分割：训练集、验证集和测试集，分别包含1000、400和534个视频样本。数据标注的详细信息在附录材料中给出。

数据集生成流程。受到PixelLM的启发，作者使用GPT-4V和Qwen-VL来生成问题和多选题选项，因为它们在理解视觉内容方面具有优势。这些模型在生成更细微、情境化和自然主义的问题方面发挥了重要作用。具体来说，作者将视频中所有实例类别名称和相应的 Mask 信息输入到GPT-4V中。在精心设计的提示下，GPT-4V根据视频内容自主选择实例来构建问答对。这类提示的例子在附录文件中有说明。

5 Method

Model Design

模型概述。如图2所示，ViLLa具有一种简化的架构，主要包括以下几个部分：1）一个与文本编码器对齐的预训练视觉编码器；2）一个大型的语言模型；3）一个上下文注意力模块；4）一个视频帧交互解码器。

picture.image 在确保兼容性的同时，1）和2）组件遵循已确立的大型语言模型（LLM）架构。上下文聚合模块（CAM）和视频帧解码器对于使LLM具备在时间维度上生成 Mask 的能力至关重要。作者利用上下文聚合模块将当前帧中与目标文本相关的视觉特征聚合并输入到用户文本嵌入中。携带最重要视觉线索的输出文本嵌入随后与大语言模型以及视觉特征一起输入。在视频帧解码器中，作者使用视频级分割标记与帧级标记进行交互，以生成最终精细的完整分割标记，这些标记包含视频级和帧级信息。最后，分割标记结合多尺度视频特征生成预测 Mask 。

编码器。对于输入帧，视觉编码器从中提取多尺度视觉特征，包括在的选定层输出的个视觉特征。同时，用户指令被输入到带有视觉嵌入（其中，分别表示帧块数量和嵌入通道数）的文本编码器，并生成，其中表示 Query 数量。在这一部分，作者选择QFormer作为文本编码器以保持跨模态的对齐和交互。通过这种方法，文本嵌入现在捕捉到与用户指令高度相关的视觉线索。最后层的输出编码全局图像信息，并通过视觉到语言的投影层转换以与LLM的语言空间对齐。

上下文聚合模块。在这个模块中，作者旨在聚合与文本相关的视觉特征，并将它们注入以生成能代表当前帧的文本嵌入。结合文本嵌入和视觉特征，作者将基于上下文的聚合形式化为：

其中'CrossAttn'指的是跨注意力操作，是 Query ，而是值和键。通过进行跨注意力，作者进一步将视觉线索融入到精炼的文本嵌入中。然而，作者认为并非所有 Query 对于精炼文本嵌入都是必需的。与QFormer采用32个输入 Query 作为输入LLM标记不同，作者 Proposal 将这些嵌入压缩成更集中的标记。在从文本嵌入和视觉特征之间的上下文聚合中获得之后，作者从注意力矩阵中选择响应得分最高的个输出嵌入。即，最终的浓缩输入嵌入保留了与用户输入最相关的视觉信息。

多级分割标记。为了丰富目标特定信息的编码，从而促进在时间维度上生成高质量的 Mask 轨迹，作者设计了一种多尺度分割标记，既代表帧 Level 也代表视频 Level 的概念，以适应需要建模多个目标移动的视频分割任务的特点。正式地，作者定义，其中表示帧 Level 或视频 Level 的标记，表示每个尺度的标记数，指的是LLM的隐藏维度。多级分割标记，结合视觉特征和浓缩文本嵌入，随后被LLM处理以自回归地生成响应：

视频帧解码器。作者设计了一个新颖的视频帧解码器，用于从多尺度视觉特征和分割标记生成 Mask 轨迹。基于 Mask2Former 中 Transformer 解码器的设计，由个解码层组成，其中第层级联了一个 Mask 交叉注意力、一个自注意力和一个前馈网络。现在，作者有了两个尺度的分割嵌入，分别关注每一帧，而与整个视频特征交互。

因此，帧级和视频级的分割嵌入都通过了 Transformer 解码器。在每一步中，这两个嵌入按以下方式更新：

其中，表示带有 Query 嵌入和参考嵌入的交叉注意力。然后，作者将帧级和视频级嵌入进行聚合，以便交换视频级和帧级信息，这个过程可以表述为：

举例说明。使用一个例子可以更生动地解释大型语言模型如何生成响应。当用户输入“在视频中分割最左边的斑马”时，输出不仅包括文本答案，还包括分割标记。: “斑马是 ”（考虑中的最简单情况）。在解码器之前，使用额外的投影层来调整分割标记的维度，形式为（）。从导出的多尺度分割嵌入作为像素解码器的输入，与视觉特征一起用于生成 Mask 轨迹。

在其中，是第层的视频 Level 分割嵌入的调制形式。在这种聚合过程中，作者以一种基于动量的方式，将响应更高的帧 Level 嵌入与作者的视频 Level 分割嵌入进行聚合。动量因子经验性地设置为 0.03，它控制着视频 Level 嵌入的更新。这一选择基于这样的假设：帧 Level 嵌入的聚合不应该对整体视频 Level 表示造成实质性变化。

训练目标。模型通过端到端训练使用文本生成损失和分割 Mask 损失。总目标是这些损失的有加权求和，由和确定：

其中， Mask 损失可以进一步划分为视频 Level 和帧 Level 的二进制交叉熵损失和骰子损失：（），而是文本生成的自回归交叉熵损失。

6 Experiment

在本节中，作者首先介绍实施细节、评估基准以及 Baseline 模型，然后展示在不同视频感知任务及作者提出推理基准上的比较结果。最后，作者对ViLLa中的关键组成部分进行消融研究。

Implementation Details

作者采用了来自InternVideo2-1B [45]和InternVideo2-6B的预训练多模态模型，并使用LoRA进行高效的微调。对于视觉编码器和大型语言模型（LLM），作者应用了InternVideo2阶段1模型中的预训练UMT-L作为视觉编码器，以及Vicuna-7B v0。借鉴BLIP2，作者使用预训练的部署QFormer。为了生成多尺度视觉特征，作者采用ViT-Adapter来为视频帧解码器生成必要的多尺度特征。需要注意的是，视频分割与图像分割的不同之处在于，视频分割在训练过程中需要捕捉跨多个帧的帧间关系。这种增加的复杂性导致与图像分割相比，视频分割对GPU内存有更高的要求。为了应对这一挑战，作者应用了ViT-Adapter的高效版本，通过移除所有注入器来帮助降低视频分割模型的内存消耗。

作者使用8个A100 GPU进行50个周期的训练（大约需要1.5天）。作者使用AdamW优化器，将学习率和权重衰减分别设置为和。每个设备的批处理大小设置为4，输入帧数为8，输入分辨率为224，梯度累积步数设置为10。更多细节将在附录中呈现。

Benchmarks and Baselines

基准测试。作者在带有视频分割和问答评估的基准测试上评估ViLLA：VideoReasonSeg、指代视频分割（Refer-Youtube-VOS, Ref-DAVIS17）、传统视频分割（Youtube-VIS系列）以及补充文件中的VQA数据集（FunQA、感知测试、CLEVRER）。通过这一评估，作者验证了ViLLA在多种分割任务和问答任务中的通用性。对于VideoReasonSeg基准测试，作者使用视频分割中定义的平均精度（AP）以及多选题来评估模型的视频推理能力。在视频分割中，作者按照数据集标注的格式制定 Query ，格式为“请分割<描述>”，其中<描述>对应实例类别的描述。在指代视频分割中，作者遵循先前的方法来衡量。训练包括从VideoReasonSeg、VQA数据、视频实例分割和指代视频分割数据集中进行随机采样。该模型还遵循PixelLM [36]的训练设置，在图像数据集上进行预训练，以为分割 Token 提供初始值。

表1：在VideoReasonSeg基准测试中，ViLLA与先前相关工作的推理视频分割结果比较。“Segm”指的是‘分割’，而“MC”表示“多选题”。

picture.image ** Baseline 模型。** 据作者所知，ViLLA是首个处理视频推理分割的模型。为了证明ViLLA的有效性，作者在提到的基准测试上建立了强大的 Baseline 模型以进行对比分析。这些 Baseline 模型源自先前的推理分割方法（LISA, PixelLM）、指代视频分割方法（ReferFormer, MTTR）以及视频分割模型（VITA, Mask2Former）。

主要结果

视频推理分割。表1将ViLLA与适应竞争方法在作者视频推理分割任务上的表现进行了比较。对于图像推理分割方法，为了适应视频分割场景，作者基于SAM-Track [8]增加了一个额外的追踪器。由于原始LISA只有一个分割 Token ，作者计算预测的一个轨迹与 GT 轨迹之间的AP。至于VIS方法，作者增加了LLM以保持它们进行复杂推理的能力。

如表1所示，作者的方法大幅超越了之前的图像推理分割方法，这表明作者的模型能够完成涉及跨时间复杂推理的任务。由于视频推理与参照视频分割和图像推理分割不同，它要求模型具备基于整个视频的推理能力。因此，如果没有对整个视频的全面了解，模型的表现就不会很好。同时，作者将作者的方法与使用LLM生成文本的两阶段方法进行了比较，这些方法还使用视频分割模型来生成轨迹片段。结果也表明，作者的方法显著优于这些两阶段方法。作者认为这是因为作者是端到端训练的，而这些方法将视频建模和推理分离开了。此外，作者的模型通过作者特别设计的上下文聚合策略和解码器结构，提高了视频与帧之间的关联性，这使作者的方法与之前的工作区分开来。

参照视频分割。表2展示了在参照视频分割数据集上的结果。Refer-YouTube-VOS [37] 通过文本描述扩展了 Youtube-VOS [53]。它包含3,975个视频和27,899个表达。Refer-DAVIS [15] 扩展了DAVIS17 [34]，拥有90个视频和超过1,500个表达。如表所示，作者的ViLLa在这两个数据集上展示了更好的性能，分别超越了之前的参照分割模型和基于图像推理的方法在Ref-YouTube-VOS数据集上的 3.6和1.5。

picture.image 视频实例分割。表3展示了在视频实例分割数据集上的结果。YouTube-VIS 2019 [55] 包含了2.9k个视频。该数据集更新为YouTube-VIS 2021，包含更长的视频。OVIS数据集是另一个用于视频实例分割的资源，特别关注目标间严重遮挡的情况[35]。它包括25个目标类别和607个训练视频。作者的ViLLa分别超越了之前的SOTA VIS方法2.8、3.4和3.6个百分点。这些结果表明，作者的模型在建模时间关系和分割高质量轨迹片段方面表现出色。

picture.image 在视频推理分割数据集上的表现。这表明视觉 Backbone 网络的设计选择是灵活的，不仅限于视频基础模型。

关键组件设计。表5展示了基于视觉 Backbone 网络和Transformer解码器在Mask2Former中的组件设计效果。通过采用作者的算法，作者显著提高了 Baseline 模型，通过加强视频帧之间的关系并将上下文信息融合到文本嵌入中。在VideoReasonSeg上的测试表明，作者的上下文聚合将多选题的准确性提高了1.3个百分点，这表明将上下文信息添加到文本嵌入并保持文本输入的上下文化对于视频理解是有益的。此外，视频帧解码器的设计在分割性能上提高了2.7个AP点，表明通过应用多尺度标记改善视频建模并加强它们之间的关系是至关重要的。

picture.image 视频帧解码器。表6显示了在视频帧解码器中使用多尺度标记和视频帧聚合的影响。仅使用多尺度标记， Baseline 模型的AP提高了0.9点，而应用聚合则带来了1.9个AP点。这证明了使用多尺度标记并将它们关联起来对于视频分割任务是有益的。

在表7中，作者探讨了在解码器中增加尺度数量的效果。最初添加层将带来显著的增益，但随着解码器层数的增加，增益将逐渐减小。

Qualitative Results

图3：ViLLa、LISA与PixelLM之间的比较。

picture.image 在图3中，作者提供了与现有相关工作的视觉比较。作者展示出作者的ViLLa能够同时对多个实例（骑行者的头盔）进行分割并跟踪它们。另一方面，尽管LISA和PixelLM与跟踪器相结合，但它们既不能分割多个实例，也不能正确跟踪所有实例（如红色圆圈所示，它们都跟踪了错误的手盔）。这些定性结果证明了作者ViLLa的推理和分割能力。

结论

在本研究中，作者提出了一个新的任务，即视频推理分割。作者还介绍了包含大约2k样本的基准测试VideoReasonSeg。

最后，作者介绍了ViLLa，这是一个旨在为这一任务提供早期探索的有效且高效的模型。

得益于作者精巧的设计，ViLLa在各种视频分割任务中展示出生成时间上连贯的高质量 Mask 的令人信服的能力。

参考

[1].ViLLa: Video Reasoning Segmentation with Large Language Model.

点击上方卡片，关注「AI视界引擎」公众号

本文未经授权，禁止商业使用

香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa，利用大型语言模型实现视频推理分割 ！