LVBench：超长视频理解 · 评测集 - 文章 - 开发者社区

picture.image

最近，随着大语言模型和视觉特征提取模型的快速发展，多模态大模型在开放域视频问答任务中的表现得到了显著提升。这些多模态理解模型还增强了各种下游任务，如具身智能、视频生成和为视障人士提供字幕。

然而，大多数现有的端到端视频理解模型，仅限于处理几分钟长度的视频。

但现实中的复杂任务需要理解更长时间的视频的能力，这对现有的多模态模型提出了重大挑战。

尽管过去提出了许多视频理解评测基准，但由于数据获取和注释的困难，长视频理解领域仍然发展不足。

为了解决这一问题，我们提出 LVBench ， 一个旨在评估模型理解长视频能力的基准 。

picture.image

我们从公共来源渠道收集了 长视频数据 ，并通过 人工标注 和 模型辅助 的方式构建了问答数据集。

论文：https://arxiv.org/abs/2406.08035

代码：https://github.com/THUDM/LVBench

数据：https://huggingface.co/datasets/THUDM/LVBench

项目网站：https://lvbench.github.io/

数据集

我们定义了6项长视频理解的核心能力，这些能力可以灵活组合，形成复杂且具有挑战性的问题。这种多方面的方法使得能够全面评估模型处理和理解长视频内容的能力。LVbench中的视频类别如图2所示，这种广泛的长视频内容集合为测试模型在扩展时间上下文中的能力提供了坚实基础。

picture.image

我们从各种来源收集了多样化的长视频数据，平均时长大约是现有最长数据集的四倍。视频长度统计如图3所示。通过细致的人类注释和多阶段质量控制过程，我们确保了数据集的高质量，为评估长视频理解能力提供了可靠的基准。

picture.image

评测方法

我们通过人工标注的方式为每个视频准备了一系列的问题和对应的答案。另外，我们还为每个问题准确了额外三个干扰选项，我们把选项打乱后生成了只有唯一正确答案的选择题。为了保证问题的质量，我们还通过GPT-4和GLM-4进行纯文本形式的问答，来剔除那些不用获取视频便可以正确回答的问题。用户可以参考我们构造随机答案的例子，来生成自己模型的答案。然后通过我们的评分脚本来测试模型回答的准确率。用户完成评测后，可以在我们的代码仓库通过提交issue 来申请加入LVBench的排行榜。

评测结果

picture.image