中科院提出 DTLLM-VLT | 利用连贯提示框架和大语言模型为视觉语言跟踪提供多粒度语义增强 ! - 文章 - 开发者社区

picture.image

视觉语言跟踪（VLT）通过整合视频中自然语言描述，增强了单一目标跟踪（SOT），以精确跟踪指定目标。通过利用高级语义信息，VLT指导目标跟踪，减轻了依赖视觉模态的限制。

然而，大多数VLT基准数据集仅以单一粒度进行标注，并且缺乏一个连贯的语义框架以提供科学指导。此外，协调人类标注者为高质量标注工作是劳动密集型和耗时的。

为了解决这些挑战，作者引入了DTLLM-VLT ，它自动生成广泛的、多粒度的文本，以增强环境多样性。

(1) DTLLM-VLT使用一个连贯的提示框架生成科学性的、多粒度的文本描述。

其简洁且高度可适应的设计允许无缝集成到各种视觉跟踪基准中。

(2) 作者选择了三个著名的基准来部署作者的方法：短期跟踪、长期跟踪和全局实例跟踪。作者为这些基准提供了四种粒度组合，考虑到语义信息的范围和密度，从而展示了DTLLM-VLT的实际性和多用途性。

(3) 作者在不同的文本粒度下的VLT基准上进行了比较实验，评估并分析了不同文本对跟踪性能的影响。综上所述，这项工作利用LLM从有效和多角度的视角为VLT任务提供多粒度语义信息，使多模态跟踪器的细粒度评估成为可能。

1 Introduction

单目标跟踪（SOT）是计算机视觉任务中的关键，专注于在视频序列中跟踪移动目标。研究行人一致观察到，在内容更复杂的长时间视频中，大多数跟踪器的性能有限。此外，仅依赖视觉模态大大限制了这种系统的多功能性。因此，一些研究开始为SOT任务提供语义标注，导致了视觉语言跟踪（VLT）任务的产生。VLT任务的提出帮助SOT研究更接近人类方式，并拓宽了其应用前景。与边界框（BBox）相比，自然语言提供了更用户友好和直观的目标描述方式，允许从空间位置到高级语义细节的精确描述，以提高跟踪性能。在定义VLT任务时，研究行人从两个主要观点整合文本标注：

(1) 短文本标注. 代表性的VLT基准测试如OTB99_Lang [13]，TNL2K [12]，和LaSOT [10, 11]主要使用短文本。这种简洁的描述风格清晰且不复杂，有助于学习和理解VLT跟踪器。使用短文本的优势在于简单性和增强VLT跟踪器的理解能力。然而，这些方法容易受到不精确的语义描述和潜在的歧义影响。

picture.image

如图1（a）和（b）所示，描述只捕捉了序列开始时目标的状态。随着目标的移动，语义信息中的位置约束变得具有误导性。原因在于基准测试主要关注目标的初始状态，忽略了整个视频目标运动的变化。因此，在序列后期，语义描述可能变得具有限制性。

(2) _长文本标注_。MGIT [8] 从更精确的语义描述角度采用了多粒度语义标注策略，提供了一种在长视频中标注复杂的时空因果关系的途径。与其他基准测试相比，这种风格表现出两个特点：文本更长和周期性更新，从简单描述演变为密集、详细的描述。然而，这种方法面临着耗时的文本标注挑战，需要具有强大文本处理能力和多模态对齐能力的算法才能有效利用这些信息。如图1 (c)所示，MGIT中的文本过于冗长和复杂。显然，尽管这些工作的动机是将SOT任务扩展到多模态任务以增强跟踪性能，但大多数研究中的不同风格和单一粒度不仅阻碍了算法实现预期成果，也增加了对VLT任务研究的复杂性。

总之，现有研究中不同的动机导致整合文本信息的方法各异。在图1 (c)中，三个突出的基准测试在序列长度、文本风格和标注粒度上各不相同。鉴于人类在对多模态信息进行理解和处理时固有的灵活性和变异性，为VLT研究强加单一的标准机制似乎是不切实际的。人类能够熟练地利用各种类型的多元信息。理想的设计不应该是强制执行严格的任务格式，而应该为算法提供全面的环境数据，以探索它们的能力和局限性。

通过提供涵盖短、长、稀疏和密集格式的环境多样化文本描述，并评估算法在这些描述下的性能，作者可以有效地分辨现有方法在不同语义粒度下的优缺点，从而指导多模态算法的改进。让作者感到兴奋的是，大型语言模型（LLM）可以促进这一目标的实现。通过将LLM无缝地集成到文本生成过程中，作者可以为VLT研究提供一个多样化的多模态环境。

作者的工作聚焦于上述动机，设计了DTLLM-VLT以实现对跟踪数据集的多样化文本生成。具体来说，作者将文本长度和生成密度结合起来形成四种统一风格的粒度。基于此，作者选择了MMTrack [23]，一种最先进的（SOTA）VLT跟踪器，用于实验分析，以验证多样化文本对算法性能的影响。实验结果不仅表明这种多样化的环境可以帮助对算法能力进行细粒度的评估和分析，也暗示了未来使用生成数据可能进一步增强算法的多模态学习能力。

本文的贡献可以总结为以下三个方面：

作者开发了基于LLM的DTLLM-VLT模型，旨在大规模高效地为跟踪数据集生成高质量的科技文本。DTLLM-VLT可以无缝地应用于各种跟踪任务。
作者为三个著名的VLT基准生成了多样化的文本，涵盖了四个粒度 Level 。这种方法克服了以往基准仅关注单一粒度且缺乏统一语义框架的局限性。
作者进行了实验分析，以评估多样化文本对算法性能的影响。结果显示了多样化环境的好处，并指出了通过生成的文本数据增强多模态学习的潜力。

2 Related Work

Single Object Tracking Benchmark

SOT任务包括在视频序列中初始化并跟踪一个特定的目标。它从在第一帧中通过其BBox识别目标开始，然后在后续帧中定位并跟踪目标。自2013年以来，已经推出了几个基准测试，如OTB [14, 15]和VOT [3, 7]，它们提供了标准化的数据集和科学评估机制以支持SOT研究。然而，随着深度学习技术的进步，这些短期和小规模的基准测试在充分适应数据驱动的跟踪器方面面临挑战。

因此，研究行人开始设计更大规模的数据集，如GOT-10K [16]和TrackingNet [6]。此外，人们还努力收集包含长视频的数据，这导致了长期跟踪基准测试如OxUvA [17]和VOT_LT [4, 5]的创建。一些工作还专注于无人机场景中的SOT，例如基于仿生无人机视觉基准的BioDrone [19]。

最近，研究行人认识到，短期和长期跟踪的传统方法都是基于持续运动的假设，这一因素限制了测试仅限于涉及单一摄像机视角和静态场景的情况。为了超越这些限制，他们引入了全局实例跟踪任务以及一个名为VideoCube [18]的新基准，这使得可以在各种类型的视频中跟踪任意移动的目标。

为了在不同挑战因素下科学评估跟踪器的性能，研究行人引入了SOTVerse [9]，这是SOT任务的用户定义空间。

Visual Language Tracking Benchmark

尽管视觉基准测试在过去的几十年里经历了显著的演变，但融合视觉和语义信息的基准测试，即视觉语言跟踪（VLT）基准，只是最近才开始受到关注。OTB99.Lang [13] 作为首个VLT基准，通过添加额外的自然语言描述来增强OTB100 [15] 基准中的序列。

然而，数据集规模的有限性阻碍了VLT任务的广泛应用。随后，LaSOT [10, 11] 的发布，这是一个带有自然语言标注的长期跟踪基准，标志着了一个重要的进展。

同时，研究行人在同一年推出了TNL2K [12] 基准，旨在通过文本描述提高目标跟踪的灵活性和准确性。在这些努力之后，研究行人提出了一个新的多模态基准，名为MGIT [8]，它通过多粒度标注策略完全表示长叙事内容中复杂的时空和因果关系。这三种基准丰富了可用数据的资源，促进了各种VLT跟踪器的发展。

Algorithms for Visual Language Tracking

VLT作为一个新兴的多模态任务，旨在通过利用语言描述和初始模板 Patch 来实现跟踪。遵循相似性匹配的原则，大多数现有的VLT方法使用语言描述和模板 Patch 作为参考，在搜索帧中识别最相似的物体。

在这些方法中，SNLT[21]提出了一种适应性的基于语言的区域 Proposal 网络，通过采用动态聚合机制提高了跟踪的准确性。

同时，MMTrack[23]引入了一种简化和有效的跟踪方法，将VLT任务视为一系列 Token 生成的序列。然而，这些方法常常无法捕捉到物体的动态属性，当物体外观发生重大变化时，这成为一个健壮跟踪的关键问题。为了克服这一缺点，一些VLT跟踪器开始整合时间数据以建立更动态的参考。

例如，GTI 和AdaSwitcher 通过在每段时间间隔合并跟踪和定位结果来识别物体。JointNLT 也在预测阶段通过将时间信息作为 Query 来朝这个方向迈出了一步。

大多数VLT的基准数据集每个视频只提供一个自然语言描述。此外，现有的基准数据集在文本标注风格上不一致，导致整合文本信息的方式各异。这些差异阻碍了算法评估和对视频内容的理解。

此外，这些工作都提供了以手动标注数据形式的语义信息，这是一个耗时且劳动密集型的过程。

3 LLM的文本生成

为了在统一的提示框架下为VLT数据集提供多样化的文本生成，并为算法提供更多科学性的文本以进行评估和理解视频内容，作者实现了DTLLM-VLT来提供大规模自动生成的多样化文本。

Generation Strategy

VLT数据集的体积和语言标注决定了学习的视觉语言表示的质量和普遍性。

picture.image

表1显示，该数据集仅包含3,649个视频，具体来说，来自LSOT [10]的1,400个，来自TNL2K [12]的2,000个，来自OTB99_Lang 的99个，以及来自MGIT [8]的150个，这些视频用于训练和测试。这些视频配有5,252个官方文本描述。然而，这种数据量被认为对于算法有效学习是不够的。

这些官方标注在风格上存在不一致性，并且只能描述目标的短期变化。文本描述的标注风格不一，使得跟踪器难以学习一般的视觉语言信息，导致在推理具有非官方标注或不同语言描述风格的新视频时，性能显著下降。此外，不准确的文本描述阻碍了目标跟踪，使自然语言标注成为一种阻碍而非支持。

图2：手动标注与自动生成及DTLLM-VLT框架的比较。(a) 手动标注依赖于人力，每个视频段仅提供一个文本标注，且无法保证风格统一。大规模标注的成本过高。(b) 自动生成可以在统一风格下大规模生成多样化的文本。(c) DTLLM-VLT可以根据给定的视频帧和目标的BBox提供密集的简洁/详细文本生成。

picture.image

为了提高准确性和普遍性，作者提出了DTLLM-VLT，它为四个数据集生成风格一致的文本，为VLT建立了坚实的基础。这种生成方法可以扩展到其他VLT数据集，甚至可以应用于SOT数据集中的文本生成。

初始和密集的文本描述。 遵循OTB99_Lang [13]和TNL2K [12]中的文本标注方法，作者为每个视频的初始帧生成文本。此外，鉴于4秒钟是人类瞬间记忆和短期记忆的阈值[35, 36, 37]，作者认为最糟糕的情况是算法缺乏有效的记忆系统。因此，在25 FPS，即每4秒100帧的情况下，作者向算法提供相关的生成文本。作者认为这种更新频率可以最佳地维持算法的记忆状态并提高跟踪性能。

简洁和详细的文本描述。 对于算法来说，如果BBox已经足够描述目标的时空调变化，文本描述应专注于提供目标的基本语义细节，如类别和位置。在BBox缺乏足够信息，无法使跟踪器有效学习的情况下，需要更详尽的文本来弥补缺失的时空调关系。因此，作者生成了两种类型的文本描述：简洁和详细。如图2所示，简洁文本传达了目标的必要信息，如类别（熊）和位置（在水里），而详细文本包括额外的时空细节，如颜色、相对位置和动作。

Dtlm-Vlt

传统的VLT数据集依赖于人工文本标注，如图2（a）所示，为每个视频提供相应的自然语言描述。这种方法产生了高昂的标注成本，风格上缺乏一致性，单一的标注粒度，且无法用于大规模数据标注。为了解决这些问题，作者基于SAM [31]和Osprey [32]设计了DTLLM-VLT，它可以提供如图2（b）所示的大规模和多样化的文本生成。

图4：四种生成文本类型的示例。作者为每个视频提供了四种不同的自然语言描述。要在第一帧中确定要跟踪的目标，并且在整个视频序列中不会改变。

picture.image

DTLLM-VLT的框架如图2（c）所示。输入视频帧和相应的目标BBox，SAM [31]利用图像编码器、提示编码器和 Mask 解码器获得相应目标的 Mask ，然后将视频帧和 Mask 输入Osprey [32]。Osprey编码图像和 Mask ，结合预设提示，通过LLM [33, 34]生成相应目标的简洁和详细描述。通过这种方式，作者可以以极低的成本为SOT和VLT数据集生成大规模、多样粒度和统一风格的文本。### 生成分析

结合上述策略，作者为每个视频提供四种粒度的自然语言描述，即初始简洁描述、初始详细描述、密集简洁描述和密集详细描述，如图4所示。作者的目标是融入多粒度的文本，丰富算法学习和评估的环境，同时为算法设计和模型优化提供指导。

利用DTLLM-VLT，作者生成了包含7,238个初始描述（每个简洁和详细描述各3,619个）和128.4K密集描述（每个简洁和详细描述各64.3K个）的文本描述。作者的密集文本是官方标注数量的24.4倍。关于语义描述数量的更多细节在表1中呈现。这些语义描述包含1.9M个单词，其中14.8K个是非重复的。词汇丰富，能够全面描述跟踪过程中目标的变化。

picture.image

词云和更详细的分析已展示在图3中。

Speed and Memory Usage

作者在RTX-3090显卡上为视觉语言跟踪数据集生成多样化的文本，大约使用16GB的显存。大约需要2秒时间为每一帧生成一个文本条目。

与手动标注相比，DTLLM-VLT能够在短时间内为大规模跟踪数据集生成各种粒度的文本，并且可以无缝应用于各种跟踪任务。

4 Experimental Results

Datasets and Evaluation Methods

数据集。 作者选择了三个具有代表性的数据集，OTB99_Lang [13]，LaSOT [10] 和 MGIT [8]，用于评估短期跟踪、长期跟踪和全局实例跟踪任务。OTB99_Lang [13] 和 LaSOT [10] 通过增加语言标注，从传统的单目标跟踪基准扩展而来。OTB99_Lang 作为短期跟踪任务的代表性数据集，为每个视频序列的初始帧提供文本描述。LaSOT 是长期跟踪任务的代表性数据集。其文本标注只描述目标的外观，省略了相对位置。MGIT [8] 是一个专门为全局实例跟踪任务设计的新型大规模基准。每个序列的文本标注包含了复杂的多粒度标注策略下的时空因果关系。

评估方法。 如图4所示，作者遵循生成粒度来设计各种机制。作者选择了一个最先进的视觉语言跟踪器 MMTrack [23] 作为 Baseline 模型，并在三个基准上进行评估（如表2和表3所示）。与其他算法相比，MMTrack [23] 不限制文本的长度，并且不会过度截断过长的文本。此外，它将视觉语言跟踪任务统一为一种标记生成形式，这更有利于学习视觉语言信息。

为了公平比较三个数据集上的跟踪性能，作者直接使用官方提供的权重，使用官方标注、初始简洁文本、初始详细文本、密集简洁文本和密集详细文本进行测试。作者还根据相应的设置重新训练和测试模型，以评估曲线下面积（AUC）、跟踪精度（P）和归一化精度（PNorm）。

Tracking Results

作者评估了MMTrack [23]在三个基准测试上的表现，包括OTB99_Lang [13]、MGIT [8]和LaSOT [10]，并使用了五种文本粒度来评估不同生成的文本对跟踪性能的影响。所有实验都采用了联合语言和BBox初始化。

4.2.1 Testing Directly

作者直接使用官方提供的模型进行测试

picture.image

测试结果如表2所示。

短期跟踪。 在表2中，当在OTB99_Lang [13]上进行比较时，该数据集只提供了初始帧的文本描述，并且会在后期阶段干扰目标的跟踪，作者的初始简洁文本在曲线下面积、归一化精确度和精确度分数上分别实现了1.6 %、2.2 %和1.6 %的提升。同时，作者发现密集简洁文本也有助于提高跟踪性能，例如，作者生成的文本在曲线下面积上实现了1.2 %的提升。作者认为，以OTB99_Lang [13]为代表的短期跟踪数据集，它们的BBox可以有效地描述视觉模态中的时空调度关系。如果只使用初始帧的文本，并且不能描述后续帧中目标的时空调度关系，将会造成显著的干扰。在作者详细的初始简洁/密集文本描述测试中也出现了同样的问题。在这种情况下，文本只需要尽可能简洁以协助提高跟踪性能。

长期跟踪。 LaSOT [10]的官方文本标注只描述了目标的外观，忽略了相对位置。与OTB99_Lang [13]相比，目标的文本描述更准确。与MGIT [8]相比，没有相对位置信息的过度干扰。它代表了两者之间的平衡，最符合当前算法学习方法。因此，使用官方标注的测试性能最佳。然而，作者认为对于长期跟踪，只提供单句文本不利于算法学习。目标的空间关系至关重要。当有大规模和多样化的VLT数据集以及更好的增强算法视频理解能力的方法时，LaSOT [10]中观察到的这种情况将很快改变。

全局实例跟踪。 在MGIT [8]上出现了与OTB99_Lang [13]相同的情形，即在初始/密集简洁文本标注下测试时性能有所提升。特别是，密集简洁标注优于官方文本，分别在曲线下面积、归一化精确度和精确度分数上超出0.7 %、0.7 %和0.7 %。MGIT [8]提供了包含复杂时空调度关系的高质量、多粒度长文本。从测试结果来看，作者认为当前算法在处理长文本和多模态对齐方面需要改进，因为它未能充分利用时空调度关系。因此，简洁文本实际上可以帮助提高性能。然而，对于长期跟踪和全局实例跟踪，时空调信息至关重要。当BBox的时空调信息不能稳定地确定目标时，需要详细文本提供额外的更高层次语义信息以识别目标。

通过对不同文本下的跟踪性能进行直接测试和比较，观察到文本的变化对跟踪性能有显著影响。在OTB99_Lang数据集上，归一化精确度上的性能差异最大达到了2.2%。

4.2.2 Retraining and Testing Respectively

正如前面提到的，当数据集文本变得更加密集和准确时，它可以弥补BBox的不足。算法通过文本更新获得额外的知识，这可能会提高性能。

picture.image

因此，作者使用不同生成的文本重新训练并测试了MMTrack [23]，跟踪结果如表3所示。

短期跟踪。 如表所见，在OTB99_Lang [13]基准上，使用密集简洁文本重新训练后的测试结果进一步得到了提升。与官方文本相比，它在曲线下面积、归一化精确度和精确度分数上分别提高了2.3 %、4.0 %和3.0 %。这表明在短期数据集上提供密集简洁的文本可以进一步提高跟踪性能。这也反映了当前算法在没有匹配学习方法的情况下，即使提供更准确的文本也能实现更好跟踪的能力。然而，作者认为当前训练算法记忆高频文本以增强记忆能力的方法仍需要改进，文本的潜力尚未完全发掘。

长期跟踪。 在LaSOT [10]基准上的结果表明，官方标注对跟踪仍然更有优势。然而，在重新训练后，基于密集详细文本的结果仅比最优结果低0.1 %，这表明与直接测试相比，算法对密集文本的理解有所提升，但仍然无法完全学习所有时间和空间信息。

全局实例跟踪。 基于不同文本重新训练后的测试结果表明，算法可以通过学习密集详细文本来提高在MGIT [8]基准上的跟踪能力，这与直接测试的结果不同。对于全局实例跟踪任务，如果算法能够学习更全面的时间和空间关系，将有利于跟踪。

比较以上结果，作者可以得出以下洞察：

(1) 现有算法倾向于学习和理解短文本。 直接测试的结果显示，简洁文本对于OTB99_Lang [13]和MGIT [8]基准上的性能提升更有利。对于OTB99_Lang [13]，官方标注中的不准确自然语言描述对跟踪产生了干扰，而简洁文本为已经很好地表达了时间和空间关系的BBox提供了进一步保障，减少了干扰。对于MGIT [8]，算法无法理解复杂的时间关系，只能从简洁文本中提取语义信息。LaSOT [10]的官方文本标注介于两者之间，最有利于当前算法，因此性能最佳。

(2) 对于短期跟踪任务，密集简洁文本将带来更大的收益。而密集详细文本更适合另外两个任务。 查看基于不同文本重新训练后的测试结果，密集简洁文本对OTB99_Lang [13]的影响最大。作者认为这是因为文本提供了精确的目标描述，进一步弥补了BBox的不足。算法可以通过学习密集详细文本来进一步提高在MGIT [8]上的性能，因为它们可以提供BBox无法展现的高级语义信息，如时间和空间关系。通过最适合算法记忆系统的文本更新，作者为算法提供了精确及时的高级语义信息，这对于理解长视频更有帮助。

(3) 文本处理方法和多模态对齐能力需要调整和改进。 当前算法无法完全理解和学习复杂的时间和空间关系。当算法的文本处理和多模态对齐能力得到调整和改进时，含有更多信息文本将展现出更大的潜力。

Visualization

如图5所示，作者用官方和密集简洁文本重新训练的模型，在OTB99_Lang [13]中的三个具有挑战性的序列上可视化了跟踪结果。在这些序列中，官方文本标注只能覆盖目标变化的一小段时间。场景中包含干扰物，且目标的外观发生了显著变化。与官方文本相比，重新训练的模型在使用密集简洁文本时表现出更强的鲁棒性。这验证了作者生成的文本有助于跟踪器应对这些挑战。

picture.image

5 Conclusions

在本文中，作者提出了DTLLM-VLT，一个统一的提示框架，生成不同粒度的多样化文本描述。作者针对三种代表性的基准测试，在不同自然语言描述下分析结果，旨在为不同跟踪任务的评估提供新的见解。

从作者的角度来看，提高算法性能需要对数据集的性质有全面的理解。作者探索如何利用LLM的生成能力来帮助改进VLT数据集，并从多模态视角为视频理解领域提供一种新的分析途径。作者希望这项工作能够扩展到包含更多数据集，从而增强对视觉数据集理解研究的支持。

参考

[1].DTLLM-VLT: Diverse Text Generation for Visual Language Tracking.