中科大提出 ShareGPT4Video ，突破视频标注挑战，推动 LVLMs和 T2VMs 的发展! - 文章 - 开发者社区

picture.image

作者推出了ShareGPT4Video系列，旨在通过密集且精确的标题，促进大型视频语言模型（LVLMs）的视频理解和文本到视频模型（T2VMs）的视频生成。该系列包括：

1) ShareGPT4Video ，标注了40K个各种长度和来源的视频的GPT4V密集标题，通过精心设计的数据过滤和标注策略开发而成。

2) ShareCaptioner-Video ，一个高效且强大的任意视频字幕生成模型，由它标注的480万个高质量审美视频组成。

3) ShareGPT4Video-8B ，一个简单但卓越的LVLM，在三个先进视频基准测试中达到了SOTA性能。为此，除了非可扩展的高成本人工标注者之外，作者发现使用GPT4V通过简单的多帧或帧拼接输入策略对视频进行标注，会导致结果不够详细，有时还会产生时间上的混淆。

作者认为设计高质量视频标注策略的挑战在于三个方面：1) 帧间精确的时间变化理解。2) 帧内详细的内容描述。3) 对于任意长度视频的帧数可扩展性。

为此，作者精心设计了一种差异化的视频标注策略，该策略对于任意分辨率、长宽比和长度的视频生成标题是稳定、可扩展和高效的。基于此，作者构建了ShareGPT4Video，其中包含了跨越广泛类别的40K个高质量视频，生成的标题涵盖丰富的世界知识、目标属性、摄像机移动，以及关键的是，事件详细且精确的时间描述。基于ShareGPT4Video，作者进一步开发了ShareCaptioner-Video，这是一个优秀的字幕生成器，能够为任意视频高效生成高质量标题。

作者用它标注了480万个审美吸引的视频，并在10秒文本到视频生成任务上验证了它们的有效性。对于视频理解，作者在几个当前的LVLM架构上验证了ShareGPT4Video的有效性，并展示了作者卓越的新LVLM ShareGPT4Video-8B。

所有的模型、策略和标注都将开源，作者希望这个项目能够为推进LVLMs和T2VMs社区提供一个关键资源。

1 引言

多模态学习近期在大型语言模型的推动下，已经在图像文本对话和文本到图像生成任务上取得了进展。这激发了向视频理解和生成任务的转向，允许用户在视频和语言模态间进行交互。因此，桥接前述模态的详细且高保真的视频标题对于推进该领域的发展至关重要。

尽管视频具有丰富的语义和时间内容，但在现有数据中，它们常常与简短标题配对。这些简短的描述限制了视频理解的详细程度和视频生成的可控性。虽然在图像文本对话[10; 7; 55]和文本到图像生成任务[8; 22]中已经认识到详细标题的重要性，但在视频理解和生成方面的类似努力尚显不足。

然而，创建大规模、高质量的视频标题是一项具有挑战性的任务。即使是人类，对长视频进行详细的标注也并非易事且耗时，这阻碍了大规模标注。当前的开放源代码LVLMs缺乏这种能力，而封闭源代码API尚不支持视频输入。

另一方面，如果作者粗略地将输入从视频降低到多个帧，即使是GPT4V也难以用满意的画质描述视频。例如，一个直观的想法是向GPT4V提供带有时间戳的多个帧并生成标题，但作者发现GPT4V并不稳定，有时会误解帧之间的时间关系，而且随着视频帧数的增加，其性能进一步下降。其他解决方案，比如将所有帧拼接成一个大图像，对时间问题没有帮助，而且随着帧数的增加，标题会丢失细节。作者在图11-12中展示了这些问题。

picture.image

作者认为，设计有效的视频标题策略的挑战源于三个基本方面：

1)帧间精确的时间变化理解：时间维度将视频与图像区分开来。不精确的时间描述可以显著降低视频标题的质量，并导致训练模型中的混淆。

2)帧内详细内容描述：详细描述[10]对于在图像和文本之间对齐模态至关重要，这对于视频文本对齐也很重要。

3)任意长度视频的帧数可扩展性：在野外遇到的视频长度可能会有很大差异。一个理想的标题策略应该能够抵抗这种变异性，并生成任何长度的视频的适当标题。

为此，作者提出了差分滑动窗口标题策略 （DiffSW），它是_稳定、可扩展且高效生成任意视频标题_的策略。DiffSW的核心概念是将所有帧到标题的任务转化为差分描述任务。

具体来说，作者为第一帧生成了一个详细的标题，并按时间顺序将长度为二的滑动窗口应用于后续帧。强大的图像多模态模型GPT4V[46]负责根据三个输入识别帧之间的变化：

前一个帧、其差分标题和当前帧。这包括摄像机移动、物体移动、角色动作和场景转换的变化。获得所有差分标题后，这些标题被输入到GPT4[45]中以构建整个视频的综合标题。差分概念允许DiffSW专注于帧之间的变化，即时间变化。其滑动设计确保了时间顺序的正确性，并且对于总帧数具有不变性。恒定的输入帧数确保GPT4V不会忽略细节，并高效利用API，从而使得DiffSW具有稳定、可扩展和高效的标题质量。此外，差分设计使得可以通过重复使用其差分标题来重新标注已标注视频的任何子剪辑。

基于DiffSW，作者构建了ShareGPT4Video ，其中包含4万个高质量的视频标题对 ，涵盖广泛的类别，生成的标题包括丰富的世界知识、物体属性、摄像机移动，以及关键的是，事件详细且精确的时间描述。ShareGPT4Video的视频是从各种来源[12; 66; 48; 18; 49; 43]收集的，采用基于语义的数据筛选策略以减轻这些视频之间的内容同质性。然后对视频应用了基于语义的关键帧提取策略，以减少时间冗余。将DiffSW应用于关键帧以生成高质量的标题，并通过分层提示设计进一步提高了其稳定性和质量。通过人工质量检查确保视频标题的质量。

基于ShareGPT4Video，作者推出了ShareCaptionor-Video，一个卓越的视频标题生成器，能够高效地为各种分辨率、宽高比和时长的视频生成高质量的标题。它使得可以以很小的成本和质量满意地进一步扩展高质量视频标题数据，通过它作者为4.8M美观的视频生成了高质量的标题（总计约3000小时）。

作者进行了大量的视频理解与生成任务实验，以展示作者高质量视频描述数据集的价值和作者卓越的视频描述生成器。在视频生成方面，基于DiT的[47]文本到视频模型在4.8M视频描述对上进行训练，能够生成10秒的高分辨率视频，并在内容生成上实现细致的控制。对于视频理解，通过用少量比例的训练数据替换，ShareGPT4Video为多个当前的LVLMs在多个基准测试上带来了一致性的性能提升。作者进一步推出了ShareGPT4Video-8B，这是一个简单但出色的LVLM，在三个先进且全面视频基准测试上达到了SOTA性能。该模型、策略和标注将公开发布，作者希望这个项目能够为推进LVLMs和T2VMs社区的发展提供一个关键资源。

2 ShareGPT4Video Dataset

本节详细介绍了作者构建ShareGPT4Video数据集的方法。作者在图2中详细展示了整个流程。在2.1节中，作者描述了收集和筛选视频数据的方法。在2.2节中，作者解释了如何对视频进行高效的稀疏采样。在2.3节中，作者详细说明了如何利用多模态图像模型GPT-4V为视频生成高质量的标题。

picture.image

Data Collection

数据源的选择。 为了服务于视频理解和视频生成任务，作者在收集过程中考虑了视频的美观质量和内容复杂性。作者首先考虑了Panda-70M [12]，这是一个来自YouTube的高分辨率视频数据集，包含一到分钟不等长度的剪辑。这个开放领域的资源涵盖了诸如野生动物、烹饪、体育、新闻和电视节目、游戏和3D渲染等多种领域。它通常包含复杂的内容和过渡，为理解各种现实世界场景提供了坚实的基础。然而，这些内容和过渡的复杂性对视频生成领域提出了重大挑战。为了解决这个问题，作者还从一些用户上传视频网站[48, 49, 43]获取了大量美观的视频。这些视频主要由风景和美观的人类活动组成，涉及的过渡较少，事件较简单。最后，作者通过补充来自Ego4D [18]和BDD100K [66]的选定视频，来填补第一人称人类活动和自动驾驶场景的空白，确保作者的视频源尽可能涵盖更多的现实世界场景。

基于语义的数据过滤。 尽管作者的字幕方法可以支持更长时间的视频，但由于视频时长和数量的权衡，作者的收集主要关注两分钟以下的视频。作者首先从作者选择的数据源中过滤掉超过两分钟的视频，将两分钟的视频作为候选。然后，作者引入了一种基于语义的数据过滤策略，以减轻这些候选视频之间的内容同质性，并保持最终视频数据集的多样性。这种方法旨在从候选视频池中选择主题差异显著的视频，以组成作者的最终视频收集。具体来说，作者首先使用Panda-Student [12]模型为每个候选视频生成一句简短的字幕，然后维护一个最终的候选视频池。每当处理一个新视频时，作者使用Bert-Base-Uncased [15]语言模型对相应的简短字幕进行编码，以获得CLS标记，它捕捉到高级语义表达。然后，作者计算这个CLS标记与已在最终候选池中的视频的CLS标记之间的相似度。如果新视频的最大相似度低于预定义的阈值，它才会被添加到池中。作者在图14中提供了伪代码。

Video Processing

视频在时间维度上通常具有冗余性，关键帧采样是一种将视频紧凑表示的通用思想。然而，传统的关键帧提取方法[74、5]常常难以确保语义连贯性，导致遗漏覆盖关键变化和过渡的关键帧。因此，作者开发了一种语义感知的关键帧提取方法，在减少时间冗余和保持语义连贯性之间取得平衡。

语义感知的关键帧提取。 作者将表示为一个从视频中按固定2秒间隔采样的帧集合。作者计算关键帧集合，该集合足够稀疏，同时全面覆盖视频中事件的发展，使得 $T^{\prime}<t$ 。作者将 clip-large="" 图像编码器[50]的输出="" $\mathsf{cls}$ ="" token="" 视为每帧的全局语义，并移除具有高语义相似性的相邻帧。在实践中，作者从="" $v$ ="" 的第一帧初始化关键帧集合="" $v^{\prime}$ 。对于="" 中的每个帧，作者计算它与="" $v^{\prime}$ ="" 中最新关键帧的语义相似性="" $d$ 。如果="" $d$ ="" 低于预定义的阈值，作者将该帧视为关键帧并将其添加到="" 中。如果不是，则将该帧视为冗余并跳过。为了完整性， $v$ ="" 的最后一帧总是被添加到="" 中。作者提供的伪代码如图15所示。<="" p="">

Captioning Pipeline

正如作者在第1节中提到的，如果作者直接将所有帧输入到GPT4V中，GPT4V将难以稳定地生成具有帧间正确时间关系的标题，而且随着帧数的增加，其性能进一步恶化。另一方面，如果作者把所有帧拼接成一个大图像，随着帧数的增加，GPT4V会丢失更多细节，如图11-12所示。

差分滑动窗口标题生成。 为此，作者开发了一个差分滑动窗口标题生成 Pipeline ，以生成具有详细时间描述的高质量视频标题。具体来说，每次输入到图像多模态模型的输入包括当前关键帧、前一个关键帧及其差分标题。然后，作者引入差分提示来指导GPT4V关注当前帧与前一帧之间的变化，如姿态、位置、摄像机角度等。此外，将前一帧的差分标题作为补充上下文，可以提高响应质量和减少虚构现象。这是因为图像嵌入和文本标题分别提供了图像的显式和隐式表示。差分标题不仅添加了额外的上下文，还整合了两帧之前的时间信息，进一步提高了模型的时间理解能力。需要注意的是，对于第一个关键帧，由于缺乏前一个帧，其差分标题直接替换为标准标题。最后，作者将所有差分标题及其对应的时间戳输入到GPT4中。设计了一个特定的摘要提示，指导LLM生成具有精确时间动态和详细空间信息的高质量视频标题。在实践中，作者使用GPT-4-Turbo-04-09进行所有标注。

在提示的设计中，作者发现明确的分层提示设计显著帮助了GPT4V理解其角色、预期的格式和操作边界。这种方法有助于稳定输出格式，并提高结果的总体质量。更多细节请参考A.2节。

3 ShareCaptioner-Video

Model design

作者使用收集的视频标题数据对IXC2-4KHD [17] 进行了微调，得到了作者的ShareCaptioner-Video。为了灵活使用，作者根据以下功能重新组织了数据：

1. 快速标题生成 模型采用图像网格格式直接进行视频标题生成，为短视频提供了快速生成速度。在实践中，作者将视频的所有关键帧连接成一个垂直拉长的图像，并在标题任务上训练模型。

2. 滑动标题生成 模型支持差异滑动窗口格式的流式标题生成，为长视频产生高质量的标题。与2.3节中使用的标题 Pipeline 类似，作者取两个相邻的关键帧和之前的差异标题作为输入，训练模型描述它们之间发生的事件。

3. 视频片段总结 模型可以迅速总结ShareGPT4Video中的任何片段或经过差异滑动窗口标题处理过程的视频，无需重新处理帧。作者使用所有的差异描述作为输入，输出为视频标题。

4. 提示重新标题生成： 模型可以重新表述偏好特定视频生成区域的用户输入的提示，确保在推理过程中，基于高质量视频标题数据训练的T2VMs与训练时保持格式对齐。在实践中，作者使用GPT-4为作者的密集标题生成Sora风格的提示，并反转训练重新标题任务，即使用生成的提示作为输入，密集标题作为训练目标。

在实际操作中，作者端到端地对模型进行了单个周期的微调。作者遵循默认的高分辨率策略，快速标题生成使用'HD-55'，其他使用'HD-25'。所有模型组件的学习率统一，并在前1%的步骤中从0升温到。批量大小设置为，作者均匀地采样数据。

Scaling-up Captions

为了验证作者的ShareCaptioner-Video在视频字幕任务中的有效性，并进一步支持视频生成领域的发展，作者使用它对大量具有美学吸引力的视频进行标注。具体来说，作者从MixKit [43]、Pexels [48] 和 Pixabay [49] 三个来源精心收集和处理了480万个视频片段，总时长约3000小时。随后，作者使用ShareCaptioner-Video的滑动字幕模式为这些视频生成高质量的字幕。整个字幕生成过程大约需要4000个H100 GPU小时。作者在图8中提供了一些关于生成字幕的统计数据。

picture.image

4 Experiments

作者进行了大量实验来评估作者方法的性能。首先，在4.1节和4.2节分别描述了数据集和实现细节。然后，在4.3节中，作者将作者的方法与最先进的方法进行了比较。最后，在4.4节中，作者提供了一个消融研究和讨论，以深入了解作者方法中不同组件的效果。

Video Understanding

数据集和基准测试。 为了彻底探索作者高质量视频字幕数据为LVLM（大规模视频语言模型）带来的好处，作者在三个多模态视频基准测试上对模型进行了全面评估。VideoBench [44] 从13个现有数据源（如MSVD-QA [62]，MSRVTT-QA [62]，Activitynet-QA [67]等）精选了大约15,000个QA对，跨越10个评估维度。MVBench [30]旨在挑战LVLMs，其视频任务无法通过单帧依赖有效解决，包含来自11个公共视频基准的4,000个QA对。TempCompass [38]特别评估了LVLMs在速度、方向和属性变化等不同时间方面的细微性能表现，包括410个视频和7,540条精心收集的指令，强调时间理解和互动。

用ShareGPT4Video改进当前的LVLMs。 作者验证了ShareGPT4Video收集的高质量视频字幕数据对改进当前LVLMs性能的有效性。为了公平和简单起见，作者将与复杂场景相关的28K高质量视频字幕数据（Panda-70M [12]，Ego4D [18]和BDD100K [66]）整合到ShareGPT4Video中，替换VideoChatGPT-100K [42]对话数据中同等数量的字幕数据。然后，作者使用它们的默认训练设置和超参数训练VideoLLaVA [34]和LLaMA-VID [32]。如表1所示，ShareGPT4Video在不同LVLM架构和规模上始终能提高视频和语言模态之间的对齐度。具体而言，在整合了高质量字幕后，VideoLLaVA-7B [34]在三个全面的多模态视频基准上平均性能提高了1.1，而LLaMA-VID-7B和LLaMA-VID-13B分别实现了平均2.0和2.3的增益。作者的高质量视频字幕数据特别有助于LVLMs在需要复杂时间理解的基准测试（如TempCompass [38]）上实现显著的性能提升。

picture.image

ShareGPT4Video-8B。 为了获得作者的最终ShareGPT4Video-8B模型，作者从LLaVA-Next-8B [26]图像多模态模型开始。与之前的LVLM方法[34, 42]一致，作者从每个视频中统一采样16帧，并把这些帧安排成4x4的图像网格，以形成用于训练和推理的输入，遵循IG-VLM [24]策略。对于训练数据，作者首先从各种教学视频到文本数据集中收集了153K个VQA数据来构建作者的 Baseline 。这个收集包括来自VideoChatGPT [42]的13K对话数据以及140K个问题-答案对，其中45K个数据点来自CLEVRER [64]，8K个来自EGO-QA [18]，34K个来自NextQA [61]，以及53K个来自TGIF-Transition [31]。然后，这些VQA数据与28K个视频-标题数据结合，形成了一个包含181K样本的整合训练数据集。有关更多训练详情，请参阅附录A.1。

正如表3、4、5所示，作者展示了作者的ShareGPT4Video-8B模型与现有最先进的LVLMs之间的定量比较，该模型由作者的ShareGPT4Video数据集增强。值得注意的是，与之前的LVLMs相比，作者的ShareGPT4Video-8B在所有三个综合基准测试中均取得了最卓越的性能。特别是，得益于ShareGPT4Video提供的丰富时间信息，作者的ShareGPT4Video-8B模型在TempCompass基准上取得了令人印象深刻的平均准确率61.5%。这比之前表现最佳的LVLM，VideoLLaVA-7B，提高了11.6%。此外，尽管VideoBench和MVBench基准从各种现有视频数据集中收集了多样化的QA数据，作者在这些基准上取得了扎实的表现，平均准确率分别超过了之前的最先进技术2.7%和8.2%。

picture.image

关于标题质量和ViT的消融研究。 在ShareGPT4Video-8B的基础上，作者研究了标题质量和可学习的视觉编码器如何影响模态对齐。如表2所示，在VQA数据上引入简短标题可能不会带来实质性的性能提升，甚至可能由于次优的模态对齐而在某些基准测试中降低性能。通过比较表2的第一、第二和第四行，可以明显看出，由于作者高质量标题数据的帮助，理解时间序列的显著性能提升。此外，在使用详细标题进行训练时解锁视觉编码器，有助于更好地实现LVLMs模态对齐。

picture.image

Video Captioning

为了验证ShareCapitoner-Video的能力，作者通过量化比较ShareCapitoner-Video与GPT4V的视频字幕质量，并进行了人类偏好评测。如表7所示，它的表现与GPT4V相当。作者在图9中也展示了定性结果。更多细节请参考附录A.4部分。

picture.image

Video Generation

模型设置。 为了验证高质量字幕在T2VMs领域的有效性，作者分别使用ShareCaptioner-Video和Panda-Student [12]为450万个65帧的视频和30万个221帧的视频生成高质量且简短的视频字幕。按照Open-Sora-Plan [25]中概述的过程，作者对预训练的T2VM进行了微调，使其能够生成高保真的10秒视频。为了进行比较，作者使用相同数量的视频-简短字幕对微调了一个 Baseline 模型。更多训练细节，请参考附录A.1。

定性分析。 如图5所示，当T2VM借助由ShareCaptioner-Video生成的高质量和详细字幕时，它可以准确遵循详细的提示，并在语义内容和摄像机移动方面展现出卓越的控制能力。生成的视频展示了复杂而生动的内容。相比之下，当提供简短字幕时，T2VM难以遵循复杂的生成提示，导致结果不佳。

picture.image

5 Limitations and Social Impacts

局限性。 尽管作者当前的生成高质量视频标题的流水线充分利用了视觉和文本信息，但受限于GPT4V无法同时融合音频信息的能力。在涉及日常人类活动的对话场景中，音频信息是有益的。作者计划在未来的工作中引入音频信息，一旦GPT4o支持音频输入，以进一步提升作者标题的质量。

社会影响。 1)由于大型语言模型涉及到大规模标题生成的过程，作者并未手动验证每个标题是否包含社会偏见内容；2)尽管作者利用了现有公共数据集中的视频数据，但作者不能确保所选视频不包含人类面部。因此，尽管在使用作者生成的标题方面没有限制，用户在使用视频时必须遵守原始视频来源的许可协议。

6 Conclusion

在这项研究中，作者旨在解决大型视频-语言模型（LVLM）和文本到视频模型（T2VM）缺乏高质量视频-字幕数据的问题。作者开发了ShareGPT4Video，一个高质量的视频-字幕数据集，以及ShareCaptioner-Video，一个在视频-语言多模态领域先进且多功能的模型。

通过采用一系列策略和设计，作者从先进的图像多模态模型GPT4V生成了4万条详细字幕，以及从作者的ShareCaptioner-Video生成了480万条高质量字幕。这些字幕包括丰富的世界知识、物体属性、摄像机移动以及对事件的详细时间描述。

作者的大量实验验证了作者的数据集和字幕生成器在提升视频理解和生成任务方面的有效性。

参考

[1].ShareGPT4Video: Improving Video Understanding and Generation with Better Captions.