悉尼大学提出多模态因果推理基准:挑战视觉大语言模型推断暹罗图像间的因果联系 !

智能语音交互图像处理MySQL

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

大型语言模型(LLMs)在从文本信息中进行因果推理方面展现了显著的能力。然而,当只有视觉线索提供时,这种因果关系是否会仍然很简单呢?受此启发,作者提出了一种名为MuCR的多模态因果推理基准,挑战视觉大语言模型(VLLMs)在仅依赖动作、外观、服装和环境等视觉线索的情况下推理语义因果关系的能力。

具体来说,作者引入了一种驱动式图像合成方法,可以创建具有内置语义因果关系和视觉线索的镜像图像,有效地评估VLLMs的因果推理能力。此外,作者从多个角度开发了定制的指标,包括图像 Level 的匹配、短语 Level 的理解以及句子 Level 的解释,全方位评估VLLMs的理解能力。

作者的广泛实验表明,当前最先进的VLLMs在多模态因果推理方面的技能可能还没有作者想象的那么高。此外,作者对这些模型的不足进行了深入分析,并从不同角度提出了改进方向和建议,以便未来研究。

作者希望能MuCR能成为多模态因果推理研究的有价值的资源和基础性基准。

该项目位于:https://github.com/Zhiyuan-Li-John/MuCR

Introduction

因果推理是人工智能识别原因与结果之间关系的过程,被视为人工智能的基本能力[14]。近年来,大语言模型(LLMs)的先进发展极大地提高了在文本模式下的因果推理能力。这些先进的LLM可以通过思维链策略推理原因与结果关系,并提供合理的解释[12]。它们甚至可以推理复杂因果关系,这些关系通常需要专家 Level 的拓扑结构分析[13]。然而,虽然有这些进步,但现有的语言评估基准开始在评估最新视觉语言模型(VLLMs)的高级能力方面表现不足,如GPT-4o,Claude 3.5,和Gemini 1.5。具体而言,一个主要的限制是它们在评估它们的先进视觉理解能力方面存在不足,如多图像理解[16]。

picture.image

picture.image

因此,作者提出以下引人入胜的问题:视觉语言模型是否能够仅通过视觉线索达到与它们在文本模式内成功实现同样的因果推理理解水平?图1显示了两个模式下的因果推理案例比较。现有的大多数基准没有解决这个问题。特别地,如图2(a)所示,作者发现以前基准存在三个主要缺陷:

(1) 缺乏视觉模式 :语言因果推理基准无法评估视觉理解能力。

(2) 多图像理解缺陷 :现有的因果推理问答任务在跨图像分析方面不足。

(3) 缺乏因果与效果的关系问题 :现有的多图像理解基准[23, 24]缺乏因果与效果的关系问题,导致它们无法评估VLLMs的因果推理能力。为了解决这些问题,作者提出了一种新的M ultimodal C ausal R easoning (MuCR ) 基准,挑战VLLMs仅依靠视觉线索推理Siamese图像之间的因果关系。

它评估VLLMs的因果推理能力从图像,短语和句子水平。作者在作者的基准上评估了当前最先进(SOTA)的开源和闭源VLLM。结果表明,开源模型,如LLaVa1.6[23],子在视觉信息理解方面遇到严重挑战,导致它们在闭源模型GPT-4o(OpenAI 2024b)的性能远远落后。然而,即使是最好的闭源模型GPT-4V(OpenAI 2024a)仍无法达到人类 Level 的性能。这一差距主要归因于语言模型中的强因果知识,这可能会导致它们忽视关键的视觉证据[23]。此外,作者还证明,通常用于增强LLM的策略,如上下文学习和思维链推理,在作者的基准上的改进或甚至负面改进。最后,作者揭示多媒体输入格式可能是推进VLLM研究的有前途的途径。

作者的贡献如下:

  • 作者识别出当前因果推理基准的局限性,这些基准无法评估VLLM的先进视觉能力。
  • 作者提出了MuCR基准,可以全面评估VLLM的多模态因果推理能力。
  • 作者的广泛实验与SOTA开源和闭源模型揭示了有趣的洞察和建议,为未来的研究提供了潜在的方向。

Related Work

因果推理 。人工智能的核心特征之一被认为是因果推理能力。随着LLM的发展,它们在因果推理任务中展现出了越来越强大的能力。先前的评估标准,如Com2sense [21] 和 CausalBank [22],对于评估语言能力已经变得 insufficient。为了解决这个问题,Romanou等人 Romanou2013推出了CRAB基准,该基准要求LLMs在真实世界场景中捕捉变量之间的显式因果关系。类似地,Jin等人 Jin2013提出Cladder来调查LLMs是否可以使用一组明确的正式规则来有意识地推理因果性。然而,这些基准仅关注文本模态, leaving the至关重要的多模态推理问题未得到解决。Zellers等人 zellers2019引入了视觉常识推理(VCR)来挑战视觉理解,通过超越物体识别走向认知 Level 理解。此外,Hessel等人 Hessel2022引入了Sherlock来挑战VLLM在识别场景中散布的视觉线索并将其与常识和经验推理相结合。然而,这些基准仍未能评估最新VLLM在多图像理解方面的先进视觉能力,尤其是在多图像理解方面。

多图像理解 。多年以来,多图像理解领域取得了明显发展,提出各种任务来评估VLLM理解多个图像的能力和内容以及它们之间的关系的潜力。现有任务可以广泛分为两类:多图像相似性和多图像差异性。多图像相似性任务包括在同一物品或不同图像之间识别相同项目或进行不同图像之间的类比,包括行人重识别,如CUHK [22]和PRW [24],视觉类比如VASR [13]和VISALOGY [25],以及包括iPanda-50 [22]和ATRW [11]在内的物体重识别。相比之下,多图像差异性任务强调相似图像之间的对比差异或变化。这些任务包括视觉偏见评估,如VNLR1 [23]和NVLR2 [24],包括IDC [25]和Chg2Cap [26]在内的差异标题,以及包括Winoground [27]在内的组合性挑战。最近,已经提出了ScienceQA [12], M3CoT [1] 和MIRB [28]等综合评估VLLM能力的基准。在这些基准中,有许多多图像形式问题,如视觉类比、物理常识和几何理解。然而,所有这些基准都未包括因果推理挑战,这对于多模态研究是至关重要的。

The MuCR Dataset

在这一部分,作者将详细阐述MuCR数据集的构建。图3展示了作者的多模态因果关系基准生成的系统化工作流程。作者的流程始于生成核心的配对描述,每个描述都包含一个原因和一个后果的描述。然后,作者利用语言能力将配对的描述转化为上下文相关的描述,以提高句子的连贯性,从而便于创建因果关系图像配对。最后,作者使用扩散模型根据这些描述生成大量的相似图像,并为每对图像标注指代短语和因果解释。

picture.image

Generating Core Caption Pairs

MuCR 基准测试旨在评估视觉语言模型(VLLMs)进行多模态因果推理的理解能力。为实现这一目标,首先关注生成明确界定因果关系的核心标题对。这一过程涉及一个由六名志愿者组成的团队进行完善。图4 说明了核心标题对生成的过程。为了避免个人偏见,作者将两名志愿者分组:一人基于初始激励和迭代反馈处理并完善标题,另一人审查并根据需要提供反馈以提高标题的质量。此外,作者要求志愿者作为一组设计四个配对的标题,这些标题拥有相似的因果关系,但含有不同的视觉线索。这些各组旨在探索在不同主题、多种场景下发生相似因果关系的能力。此外,为了保持作者数据的多样性,作者还包括了非人类案例的一部分。尽管许多因果关系场景以人类为主要主题,但作者还包含了包括动物、植物、漫画角色及其互动在内的涉及非人类的案例。最后,这一过程总计生成400对因果关系标题(见补充材料以获取更多信息和详细信息)。

picture.image

Producing Contextual Description Pairs

尽管核心配有配对有效描绘因果关系,但它们往往缺乏诸如外观、衣着颜色和环境背景等语境细节,这些细节是高质量因果图像合成的关键视觉线索。这些具体细节的缺失可能导致图像创建中的随机性,这可能导致不一致,并可能削弱双向图像之间的感知因果关系。图6突出展示了缺少上下文信息的问题以及添加上下文信息的优势。图6(a)显示,虽然两列图像准确地代表了核心配有,但配对不协调的衣着破坏了因果关系的感知,使得形成连贯的配对变得困难。相反,图6(b)的例子表明,将上下文信息融入描述并将核心配有转变为上下文描述有效地解决了这个问题,降低了图像合成的随机性。

picture.image

为解决这个问题,作者利用LLM的语言能力,通过丰富上下文细节如外观、衣着、环境和氛围来增强核心配有配对。通过在各个图像中保持这些元素的一致性,作者的方法不仅能够在语义层面有效地描绘因果关系,而且还能够提高视觉连贯性(敬请参阅补充材料,比较身份保护技术和作者的方法)。此外,作者在上下文描述对中引入了细微变化,如面部表情的变化,以反映时间的流逝。这些详细变化强调了因果关系随时间的发展的影响,使双向图像之间的联系更加自然和连贯。

Creating Images and Annotations

作者使用具有上下文描述的扩散模型作为提示生成因果关系图像对。具体来说,作者通过各自的API使用DALL-E [10],DeepAI [1]和Stability-AI [21]进行图像合成,旨在减小模型偏差并提高生成图像的多样性。在创建这些图像时,作者还 incorporated两种风格(摄影和漫画)。每个扩散模型需要为每句话生成4张图像,从而在每对因果关系图像中有24张图像(总共9600张图像)。然后,志愿者被要求手动选择出每张图像中能够有效描绘因果关系的两个最佳表示,同时保持视觉层面的连贯性。这导致了各种类别(人类、动物、植物、角色和混合)和不同风格(照片和漫画)的400对因果关系图像。图5显示了作者从MuCR基准中的一些示例,以及类别和风格的分布概述。

picture.image

除图像合成外,作者还要求志愿者为每对因果关系图像创建文本标注。如图3所示,它包括句级列表(提示短语)和句级描述(因果关系解释)。提示短语包括四个选项,每个都是单词或短语。其中,只有一个是正确解释或与因果关系高度相关的短语,而其他三个则是图像中的突出元素,但不是恰当的提示。例如,图3中的正确短语 "恶劣天气" 有效地将 "天空中发现了黑暗的云" 和 "被困在一场大雨中" 链接起来,而其他三个则没有这样的效果。句级标注旨在验证 VLLMs 是否真正理解多模态因果关系并提供合理的解释。为此,作者需要志愿者将解释结构分为先描述因果关系图像的内容,然后描述效果图像的内容,最后用选定的提示短语将两个图像之间的因果关系连接起来。为了避免个人标注偏见,作者需要将每对图像的3个志愿者分为一组,以生成3个独立的解释(见补充材料获取更多示例及相应标注)。

Evaluation Metrics

评价指标部分的开端。

Image-level Metric

图像 Level 的分数由两部分组成:因果关系(C2E)分数和效应关系(E2C)分数。这种评分方法旨在评估VLLM是否能够识别图像中的视觉线索和语义因果性,并从四个潜在的图像中选择正确的答案。对于具有对应问题的原因图像,模型需要从四个潜在的效应图像中选择最优的选择。C2E分数的计算方法如下:

其中量化了表示VLLM从可能的效果图像中进行的预测。代表四个可能图像中的最优选择。表示计算C2E分数的函数。类似地,反方向的E2C分数也是以同样的方式计算。

Phrase-level Metric

词汇层面的评价指标称为 Cue 分数,它测试了语言模型在根据相同图像对一组欺诈词汇进行区分的能力。给定原因-效果图像对 {IC, IE} 以及相应的问答 Q_P,模型需要从四组潜在词汇 {TP^(i)}_{i=1}^{4} 中选择最佳选项。Cue 分数可以按照以下方式计算:

其中 衡量了 {IC, IE}_{P}^{Q_P}TP^{(i)} 之间的因果关系强度。 代表语言模型从潜在词汇中得出的预测。 代表四组潜在图像中的最佳选项。 代表计算 Cue 分数的函数。

Sentence-level Metric

作者的最终评估指标旨在评估VLLMs解释因果关系的能力。这个句子级评估指标被称为解释得分Exp )。给定相关问题,条件,以及对应的题目,Exp 得分可以按照以下方法计算:

Experiments

Experimental Setup

作者在MuCR基准测试上评估了几个流行的开源模型,包括BLIP2 [11],OpenFlamingo [1],InstructBLIP [23],MiniGPT4 [24]和LLaVA [19]。此外,作者还评估了大规模的内部模型,如Claude [19],Gemini [1]和GPT-4o(OpenAI 2024b)。作者还在MuCR基准测试上建立了人类表现作为比较 Baseline 。具体来说,由于大多数开源模型仅接受单个图像,作者使用由较小图片组成的复合图像作为所有模型的视觉输入,如图7(a)所示。在参数设置方面,作者将λ1,λ2和λ3分别设置为0.25,0.25和0.5,分别见公式(9)中的相应数值。作者将GPT-4(OpenAI 2023)用作作者的函数来计算语义相似度分数,分数从0到10(参见补充材料讨论对GPT-4作为评分函数的依赖性)。

picture.image

Experimental Results

表1展示了在MuCR基准上,流行的VLLM和人的主要结果,得出以下几点发现:

(1) 在MuCR上所有开源模型表现不佳:在开源模型中,LaMDA 1.6 13B [19]具有最高的性能,C2E得分为23.75%,E2C得分为21.50%,Cue得分为35.75%。然而,这些结果大致相当于随机基准,凸显了改进的重大潜力。

(2) 所有内部模型在MuCR上的表现不如人类:尽管GPT-4V(OpenAI 2024a)和 GPT-4o(OpenAI 2024b)在大多数内部模型中表现最好,但它们仍未能达到人类表现水平。例如,GPT-4o的Cue得分为57.25%,相比人类表现(90.50%)有很大差距。这表明当前内部模型与人类 Level 性能之间存在巨大差距。

picture.image

Analysis

通用LLM增强策略的有效性。 作者研究了流行的思维链策略,包括CoT [13]和CCoT [14],以及诸如ICL [1]和MMICL [22]这样的上下文学习方法的效果。表2列出了这些不同策略对MuCR基准测试的性能影响。结果显示,提示得分有显著提高;然而,这些通用策略在开源和内部模型的图像 Level 和句子 Level 得分上表现出有限甚至负面的改进。

picture.image

类别和风格影响。 作者还研究了类别和风格对模型表现的影响,使用GPT-4V作为基准。作者的分析重点在于正确性和这些因素之间的相关性。图9说明了各种类别和风格的对应结果。从类别来看,植物和混合标签成为性能瓶颈。关于风格,漫画风格在图像 Level 的得分上明显优于摄影风格。

picture.image

视觉输入形式。 除了LLM增强策略、类别和风格,作者还探讨了一个有趣的问题:视觉输入形式的改变是否会影响最终输出?图7展示了作者检查的视觉输入形式的三个类型。表3表明,所有内部模型从使用分图像输入形式中显著受益,导致性能显著提高。这种改进可能是由于内部模型已使用多图像输入形式进行训练,允许它们单独处理每个图像,而不是作为组合,从而提高每个图像的视觉感知。

picture.image

案例研究。 在本节中,作者进行案例研究以确定VLLM的缺陷,如图8所示。对于开源模型,主要的局限在于其视觉感知能力[10]。在案例(a)中,模型只能识别花园中人的存在,但无法区分行人[10]。另一个开源模型的重要问题是全知, Liu等人。 (2024)如图(b)所示,第一张照片展示了穿着蓝天毛衣的婴儿,第二张照片展示了婴儿用毯子包裹的样子。然而,LLaVA 1.6错误地推理婴儿因为感冒有蓝色的皮肤[10]。这些观察表明,改善视觉感知可以显著提高开源模型的性能。对于内部模型,主要问题在于语言模型中的过度强因果知识先验,这可能会导致模型在正确识别视觉证据时忽略[10],如图(c)所示。此外,推理错误Bender等人(2021)是一个问题,如图(d)所示,该模型正确分析了两张照片,但得出了错误的结论(正确答案是“进攻”[10])。

picture.image

Conclusion

在本研究中,作者提出了一个新的多模态因果推理基准MuCR,旨在评估基于视觉线索仅推理VLLMs的能力。作者还开发了三个层次的专门指标,以从不同角度全面评估各种VLLMs的因果推理能力。作者进行了 extensive 的实验,以洞察当前最先进VLLM在本基准测试上的性能。最后,作者进行深入分析,以识别模型的不足并探讨未来研究 direction。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论