最近,随着大语言模型和视觉特征提取模型的快速发展,多模态大模型在开放域视频问答任务中的表现得到了显著提升。这些多模态理解模型还增强了各种下游任务,如具身智能、视频生成和为视障人士提供字幕。
然而,大多数现有的端到端视频理解模型,仅限于处理 几分钟长度的视频 。
但现实中的复杂任务需要理解更长时间的视频的能力,这对现有的多模态模型提出了重大挑战。
尽管过去提出了许多视频理解评测基准,但由于数据获取和注释的困难,长视频理解领域仍然发展不足。
为了解决这一问题,我们提出 LVBench , 一个旨在评估模型理解长视频能力的基准 。
我们从公共来源渠道收集了 长视频数据 ,并通过 人工标注 和 模型辅助 的方式构建了问答数据集。
论文:https://arxiv.org/abs/2406.08035
代码:https://github.com/THUDM/LVBench
数据:https://huggingface.co/datasets/THUDM/LVBench
项目网站:https://lvbench.github.io/
我们定义了6项长视频理解的核心能力,这些能力可以灵活组合,形成复杂且具有挑战性的问题。这种多方面的方法使得能够全面评估模型处理和理解长视频内容的能力。LVbench中的视频类别如图2所示,这种广泛的长视频内容集合为测试模型在扩展时间上下文中的能力提供了坚实基础。
我们从各种来源收集了多样化的长视频数据,平均时长大约是现有最长数据集的四倍。视频长度统计如图3所示。通过细致的人类注释和多阶段质量控制过程,我们确保了数据集的高质量,为评估长视频理解能力提供了可靠的基准。
我们通过人工标注的方式为每个视频准备了一系列的问题和对应的答案。另外,我们还为每个问题准确了额外三个干扰选项,我们把选项打乱后生成了只有唯一正确答案的选择题。为了保证问题的质量,我们还通过GPT-4和GLM-4进行纯文本形式的问答,来剔除那些不用获取视频便可以正确回答的问题。用户可以参考我们构造 随机答案的例子 ,来生成自己模型的答案。然后通过我们的 评分脚本 来测试模型回答的准确率。用户完成评测后,可以在我们的代码仓库通过 提交issue 来申请加入LVBench的排行榜。
我们评测目前主流的视频理解模型,以及具有多图理解能力的GPT-4o模型。图4展示了不同模型在各个维度的性能雷达图。图5列出了不同模型的具体数值结果。
图6展示了不同模型的答案分布。可以看到Gemini 1.5 Pro模型生成了很多非四选一的回答,而MovieChat模型更偏向于选择答案A,出现了很强的选项回答偏差。LLaVA-NeXT模型能够比较好的遵循最终的输出形式,但是准确率仍然比Gemini 1.5 Pro更差。
图7展示了人类对于相关问题的回答准确率。可以看出,现在的视频理解模型相比于人类,仍有巨大的提升空间。
未来,我们还会继续在LVBench上评测未来新出的模型,并不断更新到我们的项目主页排行榜(
https://lvbench.github.io/#leaderboard
)上。
阅读原文,用智能体读论文!