Chapter-Llama 框架：基于大语言模型与语音引导帧选择策略，高效实现长视频章节自动划分 ! - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

作者研究了视频章节划分任务，即如何将长视频时间线划分为语义单元并生成相应的章节标题。尽管该领域相对较少探索，自动章节划分有潜力实现长视频的高效导航和内容检索。

在本文中，作者通过在文本域中高效解决该问题，利用作者的'Chapter-Llama'框架在长达一小时的视频上实现了强大的章节划分性能。具体而言，作者利用具有大上下文窗口的预训练大语言模型（LLM），将语音转录文本和描述视频帧的标题（及其对应的时戳）作为输入。

鉴于穷尽式地标注所有帧的低效性，作者提出了一种基于语音转录内容的小型语音引导帧选择策略，并通过实验验证了其显著优势。作者训练LLM输出章节边界的时戳以及自由形式的章节标题。

这种简单而强大的方法能够在单次前向传递中处理长达一小时的视频。作者的结果在最近的VidChapters-7M基准测试上显著优于现有技术（例如，F1分数从45.3提升至26.7）。

引言

根据文献[47]的研究，热门在线视频分享平台YouTube上传的视频时长近年来呈现稳步增长的趋势。自2005年首次视频上传以来[20, 48]，视频时长逐渐变长。2020年，据估计有25%的视频时长超过15分钟，5%的视频时长超过3小时[47]。新闻、体育、教育和Vlog等长视频通常时长较长，并涵盖多个主题[100]。在视频时长和数量不断增加的背景下，高效的内容导航变得比以往任何时候都更加重要。

然而，传统视频分析研究大多集中于处理几秒钟的短视频。与此同时，过去十年中"长视频"的定义发生了变化。早期研究认为处理100帧（即几秒钟）就是长视频[63, 96]，而相比之下，处理多达16帧的视频[86, 95]则被视为短视频。随着包含1-5分钟视频的数据集[30, 38, 45, 58, 85, 129]的出现，几分钟的视频被认为非常长。仅在电影描述[32]、视频字幕[41]或场景关联[33, 87]的背景下，研究长达一小时的视频才最近引起兴趣。

最近，文献[112]收集了VidChapters-7M数据集，其中包含从分钟到几小时不等时长的视频及其用户定义的视频章节，并提出了视频章节生成任务，该任务能自动将视频划分为主题部分（即章节），并附上描述性的简短章节标题。如果视频章节生成能够成功实现，将能为长内容索引提供极具吸引力的解决方案，从而绕过当前视频所有者耗时的人工标注需求[112]。

在本文中，作者针对自动视频章节划分的挑战，提出了一种简单而有效的框架，旨在处理时长为一小时的视频。现有的章节划分工作[112]依赖于密集视频字幕模型Vid2Seq[113]，该模型结合了视频帧的多模态输入和基于语音识别的语音转录文本。然而，Vid2Seq在固定数量的等间隔采样帧（即100帧）上运行，可能遗漏重要的视觉信息。

此外，基于Transformer架构的方法直接使用视频帧特征，这需要学习从视觉模态到文本模态的映射。相比之下，llm-Chapter-Llama_2504通过（i）根据语音内容动态采样视频中的关键帧，以及（ii）设计一个纯文本模型，利用图像字幕技术将RGB帧转换为文本，旨在解决这些局限性。

llm-Chapter-Llama_2504利用了一个预训练的大语言模型（LLM），专门针对视频章节划分任务进行微调，以联合预测章节边界时间戳和章节标题（均以文本形式呈现）。llm-Chapter-Llama_2504的优势在于仅处理文本数据作为输入，使作者能够有效利用LLM的长期上下文理解能力，从而扩展到长视频。具体而言，作者结合了自动语音识别（ASR）生成的语音转录文本和自动帧标题。在近期的研究工作中，标题已被用作视频理解的中间表示，但在检索或针对较短视频（最长3分钟）[60, 98, 119, 124]的问题回答（QA）的上下文中。对于长视频，由于逐帧生成标题在计算上不可行，作者采用基于语音的帧选择策略，该策略能够高效扩展并保留重要内容。与[44]的精神相似，作者主要利用音频来确定关键帧，具体是通过一个仅使用语音输入训练的LLM进行引导。然而，即使将视频转换为文本，LLM的上下文窗口也是有限的，允许在单次前向传递中输入的最大 Token 数量。为了缓解非常长视频输入的上下文窗口限制，作者简单地执行迭代预测，顺序处理视频，其中每次迭代通常处理约一个小时的窗口长度。作者在VidChapters-7M数据集[112]上的“短”（0.15分钟）、“中等”（15-30分钟）和“长”（30-60分钟）视频上评估了llm-Chapter-Llama_2504，并在多个指标上显著优于当前最佳水平，包括时间边界准确性和章节标题的语义相关性。作者的实验表明，微调LLM、作者的基于语音的帧选择策略以及结合语音和标题的模态集成对于实现高质量的视频章节划分结果至关重要。

作者的贡献如下：

（i）作者引入了Chapter-Llama：该框架利用预训练的大语言模型，通过语音识别和字幕生成将视频输入转换为文本形式，对视频章节划分这一尚未充分探索的任务进行微调。

（ii）作者通过采用基于语音的帧采样策略，仅对视频帧的子集进行字幕生成，实现了对长达一小时的视频的高效扩展。

（iii）作者简单而有效的方法在最近的VidChapters-7M基准测试中大幅超越了当前最佳水平（例如，F1分数为45.3与26.7）。这些结果得到了一套全面实验的支持，分析了作者的各个组件。

相关工作

作者概述了与视频章节划分相关的视频任务，如时间分割和字幕生成，并讨论了专注于长视频和基于大语言模型（LLM）的视频理解的研究工作。

时序视频分割。虽然视频章节划分是一项新任务[112]，但已有大量文献研究如何在各种形式下对视频进行时序分割。一项任务是镜头检测[75, 79, 84]，其中任何视觉变化（例如，在两个摄像机之间切换）都需要时序边界，而不一定需要建模语义变化。视频场景分割通常在电影上研究[39]，主要关注将内容相似的场景进行分组。另一条研究线考虑时序动作分割的边界检测，或定位[19, 56, 121, 123]。与自由形式文本的章节划分不同，动作分割从预定义的类别集合中分配标签，并通常将短原子动作定义为基本单元。与这些任务相比，章节边界根据视频的类型和粒度可以有多种不同形式（例如，体育视频中的每个练习、讲座中的每张幻灯片、教学视频中的每一步、播客视频中的每个主题）。因此，镜头、场景或动作边界可能与复杂的章节边界定义相对应或不对应。此外，这些任务大多仅使用视觉输入[84, 116, 123]来处理，而没有利用语音。虽然文本和音频分割也已分别被研究[29, 76]，但视频章节划分基于音频和视觉输入[112]。

视频字幕生成。生成章节标题[112]与旨在用文本描述视频内容的字幕生成任务相关。关于单视频字幕生成的文献[17, 52, 81, 83]非常丰富，通常关注短视频片段。典型的训练数据集如MSR-VTT[110]、WebVid[5]、HowTo100M[59]、Video-CC[62]包含持续几秒钟（平均5-15秒）的视频字幕。在通用事件边界字幕生成[103]中，事件间隔同样较短，通常为2秒量级。另一方面，视频摘要方法处理的是较长的视频；但其目标是将整个视频缩减为单一摘要描述[1, 2, 34, 41, 53, 120, 126, 127]，不一定包含时间分割组件。密集视频字幕生成[38, 45, 102, 113, 130, 131]在问题定义上与视频章节生成最为接近，旨在对不同的时间事件进行时空定位和字幕生成。事实上，先前的视频章节生成工作在VidChapters-7M数据集[112]上训练了Vid2Seq[113]的密集字幕生成方法，但依赖于固定数量的等间隔采样帧。在本文中，作者利用该数据集的部分标注来训练基于LLM的章节生成模型，该模型显著优于先前方法[112, 113]。

长视频理解。长视频的定义随着涵盖秒级[109, 111]、几分钟[23, 30, 58, 89]、10-30分钟[2, 128]或一小时[25, 41, 87, 107, 112]等不同数据集的发布而演变。MLVU[128]为评估摘要和问答等多种长视频理解任务引入了基准，但由于缺乏标注，该数据不适用于章节划分。Video-MME[25]也包含用于问答的一小时视频。

MAD[32, 87]为长电影提供音频描述，但每段描述仅涵盖几秒钟，且视频上的Sparse覆盖与连续章节不同。最近，Ego4D-HCap[41]被提出用于分层视频摘要。然而，该数据集仅涉及带视觉输入的密集字幕，而作者的研究聚焦于带视觉和语音输入的视频章节划分。据作者所知，VidChapters7M[112]是唯一开源的训练和评估章节生成的数据集，本文采用该数据集。其他非公开相关数据集包括包含层级时间分割标注的NewsNet[107]、文献[31]中使用的电视新闻章节划分数据集，以及ChapterGen数据集[11]。

视频长度的增加促使了一系列研究工作集中于高效的时序建模策略。处理长视频的常用技术是使用预提取的视觉特征[32, 87, 118]。在基于transformer的端到端学习方面，一些研究探索了分解的时空注意力机制[3, 5, 9]。其他研究则关注了多种将记忆机制[43, 106]、分块注意力[54, 55]或帧描述引入LLM[104, 124]的方法。鉴于连续视频帧中的冗余性，帧选择方法在短视频字幕生成和动作识别[18, 108]以及3分钟时长的“长”视频问答[66, 91, 117]场景中被广泛探索。当前大型视频模型最常用的方法是进行等间隔的Sparse采样[13, 46, 113]。SCSampler[44]利用低维音频模态高效地选择显著视频片段用于动作识别。在llm-Chapter-Llama_2504中，作者也利用了音频，但形式为语音识别，并且仅在基于基于语音的帧选择模块预测的关键帧上执行昂贵的帧描述步骤。

LLM在视频理解中的应用。GPT [10, 71]、Llama [21, 93, 94]和Gemini [28, 92]等LLM已被以不同方式用于提升视频理解能力。一种流行的方法是训练预训练视觉 Backbone 网络[72]与LLM之间的桥梁模块，构建视觉语言模型（VLMs），使其能够处理视频（例如，Video-Llama [125]、Video-LLaVa [50]）。其他研究则利用LLM进行视频数据集的自动构建[2, 41, 83, 99]、工具使用[60]、视频问答中的记忆存储[43]以及时间定位[37]。

类似于作者，VideoTree [104]和VideoAgent [22]在将关键帧传递给LLM并附带问题以生成答案之前对其进行描述，解决了[124]的局限性，后者在处理较短视频时采用了类似的方法但没有进行关键帧选择。在本研究中，作者发现仅进行描述是不够的，需要结合语音识别（ASR）以获得具有竞争力的章节划分性能。与作者的研究接近的是，[2]利用ASR处理长视频，并使用LLM进行总结，以生成伪标签用于视频总结训练。在作者的工作中，作者利用LLM，特别是通过语音转录和帧描述 Prompt 来微调Llama模型[21]，用于章节划分。作者证明，微调对于适应任务至关重要，使得LLM能够在大型上下文输入中提取相关内容[82]。

章节Llama：基于LLM的视频章节划分

作者在图2中概述了作者的视频章节划分框架，称为Chapter-Llama。给定视频帧和语音转录文本，作者的目标是预测相关的章节边界和标题。为此，作者首先使用基于语音的帧选择模块选择要处理的视频帧。然后，作者使用现成的视觉描述器将选定的帧映射到文本空间。作者将生成的描述文本以及语音转录文本输入到大语言模型（LLM）中，该模型将章节边界和标题联合输出为单个 Token 序列。最后，作者设计了一种迭代预测程序，以防输入文本序列过长而无法被LLM处理。接下来，作者将更详细地描述每个组件。

任务公式化。视频章节划分[112]旨在将视频分割成具有语义意义的章节，并为每个片段生成标题。章节是连续的，彼此之间没有间隔，并且共同覆盖了从开始到结束的整个视频时长。形式上，给定视频帧序列

和时间上对齐的语音转录文本

，其中每个语音转录文本包含一个话语及其相关的开始和结束时间戳，任务是输出一个章节序列

，其中每个章节

是一个元组

，包含一个开始时间戳

和一个描述性标题

。章节

的结束时间由后续章节的开始时间

隐式定义，或者如果

则由总视频时长定义。

基于语音的帧选择。视频章节划分涉及处理长达一小时的视频。因此，由于需要通过视觉模型（例如视觉描述器）进行大量推理过程，并且超出了标准LLM上下文长度，密集采样帧在计算上是不可行的。通过检查作者的数据，作者发现虽然语音转录平均每分钟有257个token，但一个标题平均有66个token，因此在以1 FPS的速率采样视频时，标题将需要每分钟3,960个token。为了应对这些挑战，作者采用了一种帧选择策略。

具体而言，作者使用语音转录文本来指导对哪些视频帧进行处理以供视觉模型使用。这是通过首先训练一个仅包含语音的LLM变体来实现的，该变体仅根据语音转录文本

预测章节边界的序列

。对于每个预测的边界

，作者从该时间戳的视频中采样帧

。请注意，这个变体比完整模型更经济，因为它只需要音频流的语音识别转录，而无需处理RGB流（即字幕）。然后，作者仅根据该模型预测的时间位置处理视频帧。由此，视觉信息补充了之前从旁白中获得的“盲”预测，并使作者能够细化预测。这产生了一个视频表示

，其中$K<

将视频映射到文本并附加时间戳。为了利用预训练大语言模型（LLM）的知识，作者将所有输入映射为文本。这包括：(1) 从音频模态获得的语音转录

，以及 (2) 从视觉模态获得的标题描述

。具体来说，对于语音转录，作者使用文献 [112] 提供的 ASR 输出，该输出通过 Whisper-Large-V2 [73] 模型并使用 WhisperX [6] 实现获得。对于标题生成，作者采用 MiniCPM-V [115] 作为图像标题生成器，独立应用于选定的视频帧，即

。

在旨在预测相关章节边界时，作者向大语言模型提供了时间信息。对于这两种模态，作者都将格式化为

的时间戳信息添加到前面，以编码语音或字幕获取的位置。

字幕自然地来自一个特定的时间点。语音片段覆盖时间间隔，但它们的持续时间通常非常短（3-4秒）。因此，作者简单地使用每个转录语音间隔的起始时间。作者根据时间戳的排序顺序，交错语音和字幕输入。作者为每个时间戳添加一个特定于模态的前缀，以表示信息是从哪个模态提取的（即语音转录的ASR，字幕的Caption）。

作者将语音转录文本和字幕组合后的文本前缀添加一个固定的 Prompt ，该 Prompt 提供任务指令（具体措辞见补充材料）。该 Prompt 大约占用90个token，与视频长度无关。

语言模型。作者通过利用一个强大的预训练LLM来构建llm-Chapter-Llama_2504。具体来说，作者采用了最近的Llama-3.1-8B-Instruct [21]模型，并进一步使用LoRA技术 [36]在章节标注上进行微调。根据之前描述的输入结构，LLM被训练以输出章节，其中每个章节由一个HH : MM: SS格式的timestamp后跟一个自由形式的章节标题组成。作者将timestamp和标题都简单地视为文本token，并在预训练LLM的原始词汇表上应用标准的交叉熵损失。作者在训练过程中应用教师强制，并在推理时自回归地解码token。请注意，最终模型（同时将语音和字幕作为输入）独立于作者用于帧选择的语音版本模型进行训练，但这两个模型共享相同的主干，它们仅在LoRA参数上有所不同（每个13MB）。在所有实验中，作者为模型进行单个epoch的微调，并使用相同的超参数。作者在附录A中提供了这些超参数以及实现细节，并在附录C中提供了几个Llama变体的实验。

长视频的迭代预测。输入可能超过LLM的上下文窗口限制，尤其是在处理长视频时。例如，在A6000 GPU上，Llama-3.1-8B-Instruct [21]模型在训练时可以处理长达约15k token的视频，平均对应50分钟的视频内容；在推理时可以处理长达25k token的视频，平均对应80分钟的视频内容。为解决此问题，在训练过程中，作者选择token数量少于15k的视频。由于训练集中存在满足此约束条件的长达1小时的视频，并且作者不需要整个训练数据集来达到良好性能，因此该token限制不会阻碍作者的训练。在评估过程中，作者依次为每个片段预测章节，使得一个片段的开始是上一个片段的结束。最后，作者将所有片段的预测结果合并，以获得完整视频的章节边界。作者在附录A.4中提供了更多细节。

实验

在本节中，作者首先描述实验中使用的数据和评估指标（第4.1节）。接下来，作者将结果与当前最佳水平进行比较（第4.2节），然后提供llm-Chapter-Llama_2504的一系列消融实验（第4.3节）。最后，作者研究了使用超过上下文窗口限制的非常长的视频进行测试的影响（第4.4节）。

4.1. 数据与评估

数据。作者在最近发布的VidChapters-7M [112]数据集上进行训练和评估，该数据集包含用户标注的章节视频，来源为YouTube。语音转录文本使用Whisper [73]作为语音识别方法。在原始发布中，总共有81.7k个视频，跨越800万个章节，每个章节平均时长2.4分钟，每个章节标题平均包含5.4个词，总计每个视频平均23分钟和8.3个章节。数据被分为80.1k个训练视频、8.2k个验证视频和8.2k个测试视频。为了测量不同视频长度的性能，作者根据视频时长定义了三个类别：'短'（0-15分钟）、'中'（15-30分钟）和'长'（30-60分钟）视频。在本工作中，作者使用训练数据的一个子集，因为作者观察到增加训练集规模带来的收益递减，且训练时间延长（见图4）。具体来说，作者使用了约20k个训练视频（其中10k个短视频用于基于语音的帧选择模型，另外10k个视频均匀分布在短、中、长时长中用于最终模型）。对于最先进方法的比较（第4.2节），作者使用了完整的官方测试集，该测试集还包含没有语音的视频（占总视频的2.5%）以及时长超过60分钟的视频（例如，有很少视频的时长约为12小时）。在消融实验（第4.3节）中，为了更快地进行实验，并限制实验期间对测试集的使用，作者在一个随机采样的1k视频子集（在短、中、长时长中均匀分割）上进行训练，并在一个随机采样的300个验证视频子集（每个时长100个）上报告结果，这些验证视频至少包含一个语音片段。

picture.image

评估指标。作者主要监控时间分割指标来评估作者的章节边界检测。具体而言，作者采用tIoU和F1分数。对于tIoU（时间交集率），作者首先通过贪婪选择IoU分数最高的配对来计算预测段和真实段之间的最佳匹配。然后，tIoU分数计算为所有匹配对的平均IoU，乘以100得到百分比。对于F1分数，作者首先在不同IoU阈值（范围从0.5到0.95，步长为0.05）下计算精确率和召回率。在每个阈值下，如果预测段与真实段之间的IoU高于阈值，则预测被视为正确。精确率是正确预测数与总预测数的比值，而召回率是匹配真实段数与总真实段数的比值。然后，F1分数计算为精确率和召回率的调和平均值。最终的F1指标是所有阈值的平均值，乘以100得到百分比。请注意，文献[112]以两种方式使用召回率和精确率指标：

（1）将3秒或5秒阈值内的时间戳视为匹配；

（2）将IoU高于0.5或0.7的段视为匹配。虽然这些指标在特定阈值下提供点估计，但作者发现tIoU和F1分数具有以下优点：它们在多个阈值上持续评估性能，更易于解释，并提供了更全面的模型评估。

对于章节标题评估，作者遵循[112]并报告SODA（S）[26]和CIDEr（C）[97]，它们用于衡量与真实片段匹配的预测片段标题的质量（详细信息请参见[112]）。

4.2. 与当前最优方法的比较

在表1中，作者报告了llm-Chapter-Llama_2504在完整的VidChapters-7M测试集[112]（所有'列）上的性能，并与[112]中报告的最先进技术进行了比较，后者使用了Vid2Seq[113]。此外，作者以零样本方式评估了四个专有模型，使用了作者的基于语音的帧选择和字幕生成技术。

picture.image

作者观察到，经过微调的Chapter-Llama在所有指标和视频时长类别上均实现了显著的性能提升（例如，与Vid2Seq相比，F1值从45.3提升至26.7，SODA值从19.3提升至11.6）。值得注意的是，相较于短视频，作者的改进在中等时长和长视频上的效果更为显著。需要注意的是，作者的最终方法是在前一节详细描述的数据子集上进行训练的，具体为20万个视频，这仅占可用训练数据的2.5%。相比之下， Baseline Vid2Seq模型[113]是在一个规模显著更大的数据集上训练的，该数据集同时使用了HowTo100M[59]和完整的VidChapters-7M训练集。

此外，作者还报告了llm-Chapter-Llama_2504在不基于任何章节标注进行训练时的性能（即，基于语音的帧选择器和LLM均未进行微调，并使用与微调设置中相同的 Prompt 进行运行）。作者发现作者的零样本方法也实现了具有竞争力的性能（例如，29.5 F1），而仅基于HowTo100M进行训练的Vid2Seq则无法泛化（3.0 F1）。

最后，在零样本评估专有模型时，作者使用基于语音的框架选择和字幕输入评估了GPT4-o [64]和Gemini变体[28]，观察到具有竞争力的性能（例如，Gemini-1.5-Pro达到42.2 F1）；然而，作者的Chapter-Llama在所有指标上仍然表现更优。需要注意的是，由于专有模型的API成本，作者仅对测试集的随机10%子集进行了评估；但作者验证了，在用Chapter-Llama评估时，10%和100%测试集的得分相似。

定性比较。在图3中，作者提供了与Vid2Seq [112, 113]和作者的零样本 Baseline 进行定性比较的示例。作者的预测与真实章节高度一致，准确捕捉了时间边界并生成了相关的标题。相比之下，Vid2Seq的片段分割准确性较低，作者还观察到它经常生成重复的标题（底部示例）。零样本Chapter-Llama Baseline 倾向于生成相对较长且

picture.image

冗长的章节标题，并且经常生成看似是前一章延续的章节，而不是独立的段落，同时也表现出过度分割的问题。作者在附录D中提供了更多例子。

4.3. 消融研究

以下，作者实验研究了 (i) 语音和字幕模态的贡献，以及LLM微调的影响，(ii) 作者用于字幕生成的框架选择方法的影响，(iii) 训练数据的数量，以及 (iv) 使用框架嵌入代替字幕的影响。如前所述，作者使用1k个训练视频和300个验证视频进行这些消融实验。

模态和LLM微调。在表2中，作者消融了微调LLM的影响以及每个语音和字幕模态的贡献。在顶部块中，作者在上一节介绍的无监督设置下运行作者的 Baseline 模型。仅语音 Baseline 模型在无监督设置下大幅优于仅字幕 Baseline 模型。这表明语音包含更多与章节划分相关的信息，正如[112]之前所观察到的。

如表2底部模块所示，与零样本学习相比，在LLM上进行微调时作者观察到显著的性能提升。作者假设，使用长篇多模态文本进行零样本 Prompt ，其中可能包含冗余和不相关的信息，可能会使LLM不堪重负[82, 104]。作者通过结合两种模态获得了最佳模型，其性能优于仅使用语音或仅使用文本的模型。这展示了llm-Chapter-Llama_2504的多模态能力。

基于语音的帧选择。在表3中，作者研究了一系列在提取字幕时用于采样帧的策略。除了之前描述的指标外，对于每种帧采样方法，作者报告了每个视频的平均字幕数量和每分钟的平均文本 Token 数量。作为参考，作者还报告了现成的镜头检测[12]和Vid2Seq[112, 113]。

picture.image

作者将基于语音的帧选择策略与各种 Baseline 进行了比较。作者通过采样（i）均匀地进行了实验

在Vid2Seq中选取100帧，(ii) 每10秒选取一次，(iii) 在由现成的场景检测器[12]检测到的场景边界处选取，(iv) 选取10个等距帧，以与基于语音的定位位置相似（即平均10.0帧与10.3帧相似），(v) 在由仅输入语音的LLM预测的章节边界帧处进行采样。在所有情况下，作者限制最大帧数为100，以处理极端时长，这与[112, 113]中的做法相同。

在仅使用字幕和字幕加语音两种设置下，作者的基于语音的帧选择方法在分割结果上优于更耗费帧数的 Baseline 方法，包括"每100帧"、"每10秒"和"分镜头边界"，同时使用的帧数更少，并且相较于使用相似帧数的"10等距" Baseline 也有提升。这证明了作者基于语音的帧选择策略的有效性。

为参考，作者还报告了与Shot Detection和Vid2Seq[112, 113]的积极对比。注意，与作者的100个等距变体相比，Vid2Seq每分钟使用的token数量较少，因为Vid2Seq在输入中使用了不同的时间戳分词器。

训练数据量。鉴于VidChapters-7M训练集的大规模特性，作者研究了用于LoRA微调LLM所需的章节数据量。作者在图4中绘制了性能与训练视频数量的关系。作者从零样本 Baseline 开始作为第一个数据点，并报告了使用1k、5k、7k和10k视频的方法，这些视频均匀分布在三个时长中。作者发现，在训练视频数量增加到数千个以上后，性能提升开始出现边际效益递减。因此，作者为最终的LLM保留了10k个训练视频，这使得llm-Chapter-Llama_2504在训练方面非常高效（在4个H100 GPU上仅需40分钟）。请注意，这里作者关注的是章节LLM，并且始终使用基于10k个独立视频训练的语音模块提供的帧采样位置。

帧嵌入与标题对比。在表4中，作者研究了原始视觉嵌入是否可以作为文本标题的替代方案。为此，作者通过用帧嵌入替换标题进行实验。具体而言，对于每一帧，作者从冻结的SigLIP模型[122]中提取对应于[CLS] Token 的1152维输出嵌入，并将其输入到一个2层MLP映射网络中。作者使用MANTIS[42]初始化MLP权重，并在微调过程中与LLM联合训练。实验结果显示，Speech+Embeddings的效果优于单独的Speech（38.5 vs 40.4 F1），但劣于Speech+Captions（42.6 vs 40.4 F1）。Speech+Embeddings与Speech+Captions之间的性能差距可能源于标题提供了更丰富的信息，标题使用每个帧的多个 Token ，以直接文本形式呈现，而单个[CLS] Token 的帧嵌入则需要一个映射网络才能被LLM处理。最后，虽然结合所有模态实现了最佳性能（44.4 F1），但由于实际考虑，作者最终模型排除了帧嵌入，例如它们增加了复杂性，将处理时间增加了2.5倍，并需要3000倍的存储空间。

picture.image

4.4. 对较长视频进行迭代预测

在作者的消融研究中，实验设置考虑了在LLM上下文窗口内进行视频的训练和评估。在表5中，作者评估了作者的迭代预测程序在处理超出LLM上下文窗口的视频时的优势。为此，作者识别出验证集中输入超出LLM推理上下文窗口（>35k个token）的视频，共有110个视频。在这个具有挑战性的子集上，作者发现与仅通过裁剪输入到第一个输入窗口来运行LLM一次的 Baseline 相比，作者的迭代预测程序在各种上下文窗口（10k、15k和20k）下提高了章节划分结果。有关超出LLM上下文窗口的视频长度和统计信息的详细内容，请参阅附录B。

picture.image

结论

作者提出了Chapter-Llama方法，该方法利用大语言模型（LLMs）实现小时级视频章节划分，通过语音转录文本将视频映射到文本，并高效地为基于语音帧选择器采样的视频帧添加字幕。

因此，作者在VidChapters-7M数据集上的结果显著提升了当前最佳水平。通过广泛的消融实验，作者验证了各组件的优势。llm-Chapter-Llama_2504的一个局限性在于它依赖于自动语音识别（ASR）和视觉字幕生成器的准确性。未来工作可以探索具有多种粒度的分层章节划分，并考虑除语音之外的其他音频模态。

此外，作者注意到LLM、视觉字幕生成器和语音转录模型都是在大型网络数据集上训练的，这些数据集可能包含导致章节划分不准确（尤其是对于代表性不足的视频内容）的偏见。