备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
大型视觉语言模型(LVLMs)在处理复杂视频任务方面取得了显著进展,激发了研究行人对其具有人类多模态理解能力的兴趣。
视频描述是评估视频理解能力的基本任务,需要深入理解空间和时间动态,这对人类和机器都具有挑战性。因此,通过使用视频字幕作为 Agent 任务进行合理的人机比较,研究 LVLMs是否能像人类一样全面地描述视频 将有助于增强对这些模型的理解和应用。然而,目前用于视频理解的视频理解基准存在显著局限性,包括短的视频长度、简短的标注和依赖单一标注员的视角。
这些因素阻碍了对LVLMs理解复杂、长时间视频的能力进行全面评估,并阻止了建立一个准确反映人类视频理解能力的人机 Baseline 。为了解决这些问题,作者提出了一个新颖的基准,FIOVA (F ive I n O e V ideo A nnotations),旨在更全面地评估LVLMs和人类理解之间的差异。FIOVA包括3,002个长视频序列(平均33.6秒),涵盖各种具有复杂时空关系的场景。
每个视频由五个不同的标注员标注,捕捉到广泛的视角,因此字幕比现有基准长4至15倍,从而建立了第一个全面反映人类理解的视频描述任务 Baseline 。
使用FIOVA基准,作者对六种最先进的LVLMs(VideoLLaMA2, LLaVA-NEXT-Video, Video-LLaVA, VideoMat2, Tarsier和ShareGPT4Video)进行了深入评估,并将它们的性能与人类进行比较。结果表明,尽管当前的LVLMs在感知和推理方面具有一定能力,但它们仍然在信息省略和描述深度方面存在困难。
此外,作者在复杂视频中发现了LVLMs和人类之间的显著差异,尤其是在人类标注员表现出巨大分歧的地方,而LVLMs则倾向于依赖统一策略来处理具有挑战性的内容。
这些发现强调了使用单一人类标注员作为评估的地面真相的局限性,并突出了需要新的评估视角。
作者认为这项工作提供了关于LVLMs和人类差异的有价值的见解,最终指导未来的发展方向,以实现人类 Level 的视频理解。
1 Introduction
大型语言模型(LLM)在自然语言处理(NLP)领域取得了重大进展,在文本生成 和问答等任务上表现出色。在这些进展的基础上,大型视觉语言模型(LVLMs),包括GPT-4V 和LLaVA ,将LLM能力扩展到多模态领域。LVLMs在集成文本、图像和视频方面表现出色,在文本到视频生成和视频字幕(黄等,2024)等应用方面取得了显著进展。然而,评估LVLMs的真实能力仍然具有挑战性,因为传统的评估方法(通常基于文本匹配或嵌入距离)往往无法捕捉到人类对视频理解的细微差别。
这引发了一个基本问题:“ 视频基础的 LVLMs 能否像人类一样全面描述视频? ” 视频字幕 ;Ramanishka等人是评估模型感知、理解和生成有意义视频描述能力的关键任务。与结构化任务;
问题回答不同,视频字幕需要深入理解空间和时间动态,这对机器和人类都提出了巨大的挑战。因此,通过使用视频字幕作为 Agent 任务,以合理的人机比较方式来研究这个问题,将有助于作者理解和应用这些LVLMs。
然而,当前的基准测试;Chen 和Dolan;Caba Heilbron等人;Xu等人(2016);Chen等人(2024b);Zhou 等人(2018))存在几个主要局限性:它们通常具有简单的场景,提供了简短的标注(平均15个词),并依赖于单个标注者。
这些限制限制了对LVLMs对复杂、长时间视频理解洞察,并阻止了建立一个准确反映人类理解能力的强大人类基准。
为解决这些问题,作者提出了一种新颖的基准测试方法,FIOVA (五合一视频标注),旨在全面评估LVLMs与人类理解之间的差异。如图1所示,FIOVA包括三个关键贡献:
(1)全面的数据集构建: 作者构建了一个包含3002个长视频序列(平均33.6秒)的数据集,涵盖多样场景和复杂的时空关系。每个视频由五位不同的标注者标注,捕捉到广泛的视角,导致字幕比现有基准长4到15倍,建立了一个强大的 Baseline ,全面代表人类在视频描述任务中的理解(参见第2节)。
(2)评估最先进的LVLMs: 作者对六个代表性的开源LVLMs(VideoLLaMA2,LLaVA-NEXT-Video,Video-LLaVA,VideoChat2,Tarsier和ShareGPT4Video)进行了深入评估,确保作者的评估反映了该领域的最新进展。此外,作者对模型输出应用了多种处理技术,以实现对其能力和局限性的更全面评估(参见第3节)。
(3)细粒度的人机比较分析 :利用FIOVA基准,作者对视频理解的各种方面进行了详细实验,以分析LVLMs与人类标注之间的差异。这种比较研究为作者提供了关于LVLMs的局限性以及捕捉语义理解、流畅性和内容相关性的新评估视角的宝贵见解(参见第4节)。
通过提供多个人类标注的基准,FIOVA旨在弥合LVLM和人类视频理解之间的差距,提供对LVLM当前状态的洞察,并指导开发未来用于视频理解任务的AI系统。
2 Construction of FIOVA Dataset
图1 显示了作者的工作概述。在本节中,作者将详细介绍第一步。首先,作者收集了FIOVA数据集,其中表示视频的人机标注集合(参见第2.1节)。在这个基础上,作者还结合了形成了 GT 作为视频的人机理解的全面基准(参见第2.3节)。总共,FIOVA包含了3,002个三元组(即3,002个视频,15,010个人机原始描述和3,002个 GT 描述)。
Video Collection and Annotation
作者构建了一个包含3002个视频和15010个描述的数据集,专门用于评估LVLM的视频理解能力。该数据集涵盖了38个不同的主题,涵盖了广泛的现实世界场景和互动(参见附录B.1)。这些主题范围从“事故”,捕捉交通事件,到“家庭活动”,描绘日常家庭互动。这种主题多样性确保了该数据集为评估各种背景和内容类型的模型提供一个强大平台。
为了确保高质量标注,每段视频都由五名个人进行标注,他们仅关注视觉内容,排除音频或字幕,除非是场景中自然产生的文本。这一过程强调了可观察的视频元素,从而增强了视频理解任务的数据集的相关性。标注员遵循了标准指南以确保一致性(见附录B.2),包括时间、地点和突出物体或行动的详细信息,同时避免使用文学或情感化的语言。公共行人被描述为通用的,描述严格遵循事件发生的顺序。这些指南确保了中立性、清晰度和事实准确性,为评估提供了可靠的依据。
FIOVA带来了额外的挑战,使它与现有的数据集区分开来,使得视频理解任务更具挑战性。如图A1所示,FIOVA包括具有不同分辨率和 aspect ratio 的视频,要求模型适应不同的视觉格式。频繁的摄像机切换和多样的主要主题增加了复杂性,挑战模型准确地跟踪转换和识别关键元素。此外,FIOVA还包含具有镜头畸变的视频,如鱼眼镜头的视频,进一步复杂化了空间关系的解释。这些挑战旨在考验LVLMs,推动它们在视频理解方面实现更高的适应性和鲁棒性。
每段视频序列都配对有五个由人工标注者撰写的独特英文描述,这些描述是连贯的多句陈述句段落。句子的数量根据视频的复杂程度有所不同,可以详细记录事件和转换。平均视频长度为33.6秒,数据集捕获了复杂动作和交互,非常适合需要深度视频理解的任务。数据集的广泛主题多样性、详细描述和严谨标注过程为推进视频理解研究提供了有价值的资源,并评估了LVLM的能力。表1比较了FIOVA与其他现有数据集,图2展示了FIOVA的统计维度。与 others 相比,FIOVA 由多个标注者标注,并具有更详细、更精确的描述。
Caption Quality Assessment
在第二节1中,作者通过为每段视频提供五个不同标注者的描述,构建了多维度的视频内容理解。这种多标注者方法有效地捕捉了人类理解中的多样性和变异性,形成了全面的人类认知 Baseline ,这是与以前的研究作出重要区分的关键。除了捕捉多种视角外,作者还为每段视频生成了一个综合的人类描述作为最终的真实值。这个真实值是视频内容的详细摘要,支持传统的视频字幕评估,并作为进一步评估的重要参考。
在生成 GT 值的第一步中,作者进行了对标注的全面评估。不同的标注者可能会对同一视频提供不同的描述,其中在词汇选择、关注点和语言风格等方面存在差异。为了解决这些差异,作者收集了视频描述对,并使用类似于在Video-ChatGPT(Maaz等人,2023)和Tarsier(Wang等人,2024)中使用的GPT-3.5-turbo模型,对每个描述在五个关键维度上进行评估。遵循VideoLLaMA2(Cheng等人,2024)的定义,这些维度包括:
(1)一致性:描述是否逻辑连贯且与视频内容相符。
(2)上下文:描述是否准确捕捉场景变化和事件之间的关系。
(3)准确性:信息是否准确且没有误导性内容。
(4)细节导向:描述是否捕捉关键细节,如行人、物体、场景和事件。
(5)时间顺序:描述是否遵循事件的时间顺序,不跳过或过度概括。GPT-3.5-turbo为每个描述在五个维度上分配了1到10的分数。这种评分使作者能够全面分析每个标注者描述的质量,并确定最高一致性和准确性的标注者。
为了更直观地展示评估结果,作者绘制了所有视频和五个维度下人类标注者的评分分布。如图3(a-e)所示,各维度的评分分布相对一致,表明标注具有代表性,反映了具有合理认知能力的人类的平均理解。值得注意的是,细节指向性的分布与其他维度略有不同,这表明人类字幕通常能够提供超过平均水平的覆盖内容与细节,捕获视频中的大部分关键点。然而,在某些具体细节或全面性方面仍存在不足。
基于此,作者进一步研究了标注者之间的差异。为了量化这种差异,作者根据评分标准差和平均值计算了系数方差。特定视频的较高CV表示标注者之间存在更大的差异,意味着标注者之间存在不同的解释。作者将这种差异称为_不同意度_,反映标注者之间理解上的差异。
为了对这些不同意进行更详细的分析,作者在现有的五个评估维度 中添加了一个第六维度——标注长度。通过计算所有六个维度下每个视频的平均CV值(见图3(f)和附录B.4),作者将数据集分为八个基于CV值的明显子组。CV值较低的视频(组A)表示多个维度上标注者描述高度相似,而CV值较高的视频(组H)表示存在更大的差异。这种分类不仅提供了关于人类标注的差异性的洞察,还为后续算法评估奠定了基础,使作者能够将不同 Level 的LVLM与人类组进行比较,以了解视频理解方面的差异。
Groundtruth Generation
作者使用GPT-3.5-turbo模型将五个人类提供的描述合成一个单一的、全面的视频描述,作为最终的 GT 值(见附录D.1.2)。在合成过程中,模型整合了五个描述中的关键元素,平衡了观点的多样性与一致性和连贯性。这确保了最终 GT 值捕捉了视频的最突出和有用的方面,同时保持了所有相关维度的逻辑流畅性和完整性,如图4所示。
使用GPT-3.5-turbo进行合成提供了一种系统性的方法来结合多个视角,减少主观偏见,并确保不遗漏任何关键细节。每个合成的真实事实都代表了视频的整合理解,平衡细节导向、上下文相关性和时间准确性。通过结合多个人类标注的优势,生成的真实事实不仅补充了个体描述,还设定了一个更高的质量标准,作为评估模型性能的更严格和标准化的基准。
3 LVLMs Response Collection
如图1中的第2步所示,在本节中,每个视频 经过多个 LVLMs 处理,形成视频、描述和响应的基准对集合 ,其中 表示 LVLMs 对视频 的响应集合。
Baseline Models Selection
作者在本研究中使用了六个最先进的开源LVLMs:VideoLLaMA2(Cheng等人(2024年)),Video-LLaVA ,LLaVA-NEXT-Video(Zhang等人(2024年)),Tarsier ,VideoChat2(Li等人(2023年)),以及ShareGPT4Video 。有关这些LVLMs的更多详细介绍请参见附录A.1。这些模型针对视频描述任务进行 Prompt ,生成了18,012个响应(参见附录D.2)。每个模型生成的响应长度分布如图5所示,这提供了模型输出的可变性。此外,每个模型都针对视频字幕生成进行了微调,使用特定的配置来优化性能。
VideoLLaMA2使用默认设置,温度为0.2,最大 Token 限制为1,024。VideoChat2和ShareGPT4Video的设置与默认值相同,温度为1.0,top.p为0.9,最大 Token 限制为1,024。Video-LLaVA的温度为0.1, Token 限制相同。Tarsier和LLaVA-NEXT-Video设置温度为0,top.p为1,最大 Token 限制为1,024。所有模型在四个RTX 3090 GPU上处理8帧。
Event Generation
上一节中由LVLMs生成的视频描述适用于使用传统指标进行评估。然而,最近提出的AutoCQ(自动字幕质量)方法(Wang等人,2024年)通过同时关注参考和模型生成的字幕事件提取,提出了一种新颖的评估方法,能够进行基于事件匹配的更细致评估(参见第4.1节)。
如图6所示,为了支持更广泛的评估指标并实现全面分析,作者使用GPT-3.5-turbo对 GT 和第j个LVLM生成的输出(参见附录D.1.3)进行事件提取。这确保了事件提取的一致性和准确性。从这一点开始,作者生成了事件集合用于和用于,以支持后续分析。这种事件提取使作者能够利用传统评估指标和详细的事件基础评估,从而增强作者对模型生成的字幕和人类标注之间的对齐理解。
4 Fine-grained evaluation and analysis
如图1中的第3步所示,基于FIOVA基准 ,作者在多个维度上比较了LVLMs与代表性人类 Baseline (真实值)和人类间隔(五个个人的标注)。这使得可以对人类和LVLMs在视频理解方面的相似性和差异性进行深入分析。
Evaluation Methods
传统指标如BLEU(Papineni等人(2002))在评估详细和较长的视频描述时存在局限性,通常无法捕捉到所需的语义细微差别和上下文准确性。最近的研究尝试使用像Chat-GPT这样的模型进行内容评级(Maaz等人(2023);Achiam等人(2023)),但评分分配的不可解释性仍然是一个挑战(参见附录A.3)。因此,作者采用了AutoCQ(Wang等人(2024)),它通过集成文本和语义相似性扩展了传统指标BLEU、GLEU和METEOR,提供了对LVLM生成的字幕与人类标注之间对齐的更全面评估。
该AutoCQ评估过程包括两个主要阶段。在第一阶段,从 GT 描述()和LVLM生成的描述()中生成事件,如第3.2节所述。在第二阶段,计算两个比例:(1) 中与中存在的事件的比例(即,召回率,表示LVLM的描述捕获 GT 事件的程度),以及(2) 中与中存在的事件的比例(即,精确度,反映LVLM输出与 GT 事件对齐的准确性)。然后,计算精确度和召回率的调和平均值(即,F1分数),以提供模型性能的平衡衡量。图6说明了这一过程的一个示例。
最后,作者使用传统指标(BLEU、GLEU 和 METEOR)和基于AutoCQ的指标(F1、精确率和召回率)对模型进行评估。这些指标主要协助两个主要任务:(1)总体评估:为生成的每个描述分配质量分数,评估LVLMs是否能够用传统和基于AutoCQ的指标描述视频的水平,与人类相当。(2)批处理评估:评估多个模型输出的相对性能,提供对模型产生人类般描述能力的细腻理解。根据不同视频的F1分数,对LVLMs进行排名,反映它们在不同场景下的描述能力。
Overall evaluation for LVLMs
传统指标。对于基于表2中传统指标的结果,Tarsier在大多数指标上表现出色。相比之下,ShareGPT4Video在这些指标上的表现最差,其分数显著低于其他模型在这些指标上的分数。
短吻猫的出色表现主要得益于与真实描述之间的词汇重叠程度高,这意味着其生成的描述经常使用与参考描述中相同的词语。然而,在涉及同义词使用和形态变化方面,Tarsier的表现不佳,这在BLEU和GLEU得分上得到体现。这表明尽管Tarsier在真实描述的词汇上有效对齐,但在语言多样性和表达范围上仍存在局限性。
相反,ShareGPT4Video在快速生成滑动窗口视频字幕,整合不同段落之间的描述,以及根据 Prompt 生成详细字幕方面,展示了显著的优势。这些能力使其在各种视频理解基准测试中取得了有前途的结果。然而,在FIOVA上的表现是最弱的。详细分析表明,ShareGPT4Video生成的字幕存在相当大的冗余,这对其在传统指标上的得分产生了负面影响。BLEU,GLEU和METEOR等指标关注词汇相似度,简单同义词使用和基本词法变化,因此会惩罚重复和冗余内容。
这些发现强调了采用平衡方法不仅应确保词汇相似性,还应提高语言多样性并减少冗余,从而全面提高视频描述的质量。
基于AutoCQ的指标。 为了进一步评估模型的性能,作者利用AutoCQ评估了LVLMs的视频描述能力(见表2)。AutoCQ通过提取事件并对模型生成的描述和 GT 描述进行细粒度分割来评估描述。这种方法可以评估模型对视频内容的理解在完整性和精细度方面的表现。
章鱼的表现最高,在F1和Recall方面均表现出最高性能,说明其生成的字幕覆盖了 GT 场景中的大部分事件,反映了内容完整性更高。然而,章鱼在Precision方面的表现最弱,表明在实现描述准确性方面存在挑战。这意味着尽管章鱼对视频内容整体理解较为扎实,但在生成字幕时,往往难以精确控制,常常包括无关或错误的信息。
相反,ShareGPT4Video在精确度得分最高,但 recall 得分最低。高的精确度表明 ShareGPT4Video 生成的描述是准确的,主要包含正确的事件。然而,低的 recall 表明模型遗漏了大量关键信息,说明在字幕生成上采取了保守的方法。尽管 ShareGPT4Video 生成错误内容的倾向较小,但往往无法捕捉到视频的显著方面,导致内容覆盖不完整。
其他LVLMs在它们之间表现如何,表明了在召回率和精确率之间实现了平衡的权衡,两个指标的得分都处于中等水平。这些结果说明了不同LVLMs在视频字幕领域的不同策略——有些优先考虑完整性,而另一些则专注于准确性。AutoCQ评估强调了开发能够全面覆盖视频内容且保持高描述准确性的平衡模型的必要性,以产生高质量的视频字幕。
Batch evaluation for LVLMs
批量评分评估对于LVLMs。除了评估整体得分外,作者在八个子组(见图7)上进行了批量评分评估。AutoCQ的表现趋势与整体评估一致,Tarsier在F1和Recall指标上继续保持优势。然而,作者观察到大多数LVLMs在组H中的性能普遍下降。组H包括九个视频,具有多个摄像机切换和频繁的场景变化,人类标注者之间的变异系数(CV)超过70%。这些视频代表了FIOVA数据集中的最具有挑战性的内容,因此对其进行准确描述特别困难。正如预期那样,大多数LVLMs在组H中很难保持描述的完整性,尽管内容相对准确,但仍存在明显的遗漏。有趣的是,Tarsier在该组中的表现优于其他模型,这可能是由于其更擅长捕捉时间变化。这表明Tarsier在快速场景转换的背景下更能保持连贯性,这对于生成复杂序列的高质量描述至关重要。
在精确度方面,LVLMs在不同子组之间表现相对稳定,说明它们能够准确捕捉视频复杂性无关的关键细节。然而,与AutoCQ不同,Tarsier的BLEU分数在组H中不理想,而其GLEU分数在所有子组中保持稳定。GLEU允许更大的变化,强调生成的内容的流畅性和整体质量,而BLEU更注重词匹配的逐字精确。因此,当生成的文本在语义上与参考文本相似,但在表达方式或词序上有所不同,GLEU倾向于给出更高的分数,而BLEU则不太有利。
这些观察强调了传统指标的局限性,这些指标可能无法准确反映模型在开放式视频描述任务中的性能。仅关注词汇匹配的指标往往无法捕捉到对于高质量视频描述至关重要的语义对齐和流畅性,尤其是在复杂视频中频繁的场景变化中。
批量排名对LVLMs。作者使用算法A2来计算LVLMs的CV。此外,作者计算了人类和模型之间的CV排名,以及这些排名之间的差异(见算法A3)。如图8(a)所示,模型性能的CV从组A逐渐降低到组H。这一趋势表明,对于相对容易描述的视频(例如,组A),模型在性能上表现出显著的变异性。相反,对于更具挑战性的视频(例如,组H),其性能变得更加一致。
观察到组A和组B中的较高CV值表明,这些模型在处理简单视频时的描述性能存在显著差异。这种变化可以归因于模型在处理直接内容时所采用的多样化策略,导致了描述质量的更广泛范围。随着视频复杂性的增加,CV值逐渐降低,如组E、F、G和H所示,这表明模型对于复杂内容的描述更加稳定。这种趋势的一个可能解释是,后一组(例如,组H)的难度增加,对模型的描述能力提出了更严格的要求,促使它们采用更统一的方法,从而降低了输出变异性。这一发现强调了评估具有复杂和多样化内容模型的价值,因为它揭示了它们在挑战条件下进行概括和保持稳定的能力。
批量对齐(Batch ranking)对于人类和LVLMs。图8(b)显示,随着人类准确描述视频的难度增加(从组A到组H),负面区域(如组A和组B)表明,对于易于描述的视频,人类标注者表现出更一致的表现,而模型则表现出显著的变化(参见附录E.4中的图A12)。这表明,模型对于简单视频内容的描述能力不足,无法达到人类的一致性表现。
相反,阳性区域(如组H)表明,对于更具挑战性的视频,人类标注者在其描述中表现出更大的变化,而模型则表现出更为一致的表现(参见附录E.4中的图A14)。模型的一致性可能是由于它们在描述复杂场景时采用的相似策略或共享限制,导致输出更为统一。大多数中间组(如C、D和E)接近于零,这意味着对于这些视频,模型和人类之间的方差系数相对较为相似,没有明显的优势。
这些发现与总体评分和批次评分评估相符。在总体评分中,LVLMs的精度超过0.6,显著高于召回率。这表明,尽管LVLMs能够准确描述视频内容,但它们在全面性上存在不足,常常遗漏某些细节。在组H中,大多数LVLMs的召回分数下降,但保持稳定的精度分数,这与批次排名结果一致。这表明,当前的LVLMs可以为复杂的视频提供准确的描述,表明了一致性和稳定性,但牺牲了内容的覆盖面,往往在复杂场景中遗漏关键细节。总的来说,这些发现突出了LVLMs在描述能力上的权衡,尤其是在处理各种难度视频时。这强调了在实现高精度和全面内容覆盖之间需要改进模型,尤其是在复杂的视频背景下,人类变异性显著。
Summary
基于上述结果,作者得出结论:现有的LVLMs具有一定的感知和推理能力,使它们在某种程度上能够准确描述视频内容。然而,大多数LVLMs仍存在信息缺失,限制了它们提供全面描述的能力。在评估的六种LVLMs中,Tarsier的表现最好,这主要得益于其有效利用时间关系,增强了描述复杂视频的全面性。然而,Tarsier仍需在提高描述精度并减少无关内容方面进行改进。
与人工生成的字幕相比,在处理更简单的视频中,LVLMs存在显著差异,表明它们往往无法捕捉到人类标注员容易识别的细微差别。相比之下,对于更复杂的视频,LVLMs的一致性和稳定性超过了人类,这可能是因为视频的复杂性促使LVLMs采用统一策略,从而获得稳定输出。对于中等复杂度的视频,LVLMs的表现与人类标注员相当,实现了准确性和完整性的平衡。此外,一些模型在特定视频中始终表现良好或较差,如图A16和A15所示。在其他情况下,模型出现了严重的像幻觉和重复输出等问题(参见图A17以获取详细信息)。所有六个LVLMs在简单的场景中表现良好,如巴西柔术练习,但当面临涉及复杂时空关系和频繁场景转换的复杂视频场景时,它们的性能显著下降,表明当前LVLMs在处理涉及复杂时空关系和频繁场景转换的复杂视频场景方面需要显著改进。
作者的实验还突显了传统评估指标(如BLEU和METEOR)的局限性。这些指标在评估开放式视频描述的质量时往往不够准确,特别是在LLM时代,任务、模型和数据的复杂性不断变化的情况下。为了适应这种动态环境,开发新的评估指标以有效捕捉LVLMs的多样化能力并准确反映其性能至关重要。这样的指标应超越简单的词义匹配,并结合语义理解、流畅性和内容相关性,从而提供更全面地评估模型能力的方式。
5 Conclusions
在本文中,作者提出了FIOVA,这是一个新基准,旨在评估LVLMs在视频字幕领域的判断能力,并评估它们与人类判断的一致性。
作者的研究结果表明,尽管Tarsier在精确度和时间利用方面表现良好,但通常会生成缺乏细节的简短字幕,限制了全面性。相比之下,ShareGPT4Video虽然在声称的理解方面与GPT-4V相当,但其在输出中存在虚幻和冗余问题。
FIOVA基准为比较LVLMs与人类评估提供了复杂的环境,揭示了它们在各种视频场景下的各自优势和局限性。
作者的结果还强调了需要改进的LVLMs,能够有效地平衡准确性、全面性和内容相关性,尤其是在复杂环境中。
作者希望FIOVA能够支持进一步的研究,以推动视频描述和理解的发展。
[0]. Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison.