备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
通过利用文本和图像,大规模视觉语言模型(LVLMs)在各种多模态任务上取得了显著进展。
然而,这些模型通常存在错觉,它们在视觉输入和文本输出之间表现出不一致性。
为了解决这个问题,作者提出了H-POPE,这是一个从粗粒度到细粒度系统地评估目标存在和属性的错觉的基准。
作者的评估表明,模型在目标存在方面容易产生错觉,尤其是在细粒度属性的情况下。
作者还进一步调查了这些模型是否依赖于视觉输入来形成输出文本。
1 Introduction
近年来多模态模型的最新进展已经使得各种令人印象深刻的能力变得可行。例如,这些模型可以生成对给定图像的详尽描述,从而反映出对文本和视觉领域的理解。尽管它们取得了有前途的进展,但现有的模型通常会受到一种称为“幻觉”的现象的影响,这种现象不仅降低了模型的性能,而且引发了关于安全和可靠性的问题。为了理解和评估LVLMs中的幻觉,已经提出了几个基准测试。具体来说,《Caption Hallucination Assessment with Image Relevance》(CHAIR)[9] 表明,当要求提供对给定图像的准确描述时,这些模型的响应通常包括实际上不存在的物体[9]。此外,《Polling-based Object Probing Evaluation》(POPE)[5] 表明,这些模型倾向于确认图像中不存在的物体存在,如果它经常与其他图像中的物体共同出现。
虽然上述基准测试有效突显了幻觉的一般问题,但它们往往专注于评估目标的存在。一个自然的扩展是进一步评估与目标相关的细粒度属性。因此,作者项目的主要目标是进行更精细的评估,不仅评估目标的存在,还评估与它们相关的属性。为了实现这一目标,作者利用了POPE [5]中概述的判别性方法。对于每张图像,作者从粗粒度的目标存在问题开始,然后继续到关于属性存在的细粒度问题。产生的基准被称为_层次化POPE ( H-POPE )。
原始POPE包括三种针对负目标的取样策略。其中一些是根据数据集中的发生统计专门设计的具有挑战性的问题。在作者的研究中,作者使用这些设置,同时也有意设计一种针对属性的额外取样策略。为此,作者提出了一种基于图像的对抗设置,该设置将重点放在给定图像的局部上下文中,并选择出现在图像中但无法描述所问目标的属性。作者的评估表明,模型在这种设置下采样的问题上倾向于产生最糟糕的幻觉,这表明现有的LVLMs在将属性正确匹配到具有它们的目标上存在困难。
最后,值得注意的是,当前的工作将评估指标集中在模型的文本输出上。作者调查相关性图,看看在给出幻觉答案与正确答案时,模型是否对视觉信息有不同的利用方式。
总之,作者的主要贡献包括:
- 介绍H-POPE,这是一个评估LVLMs在图像中的目标和属性上的幻觉的基准测试,包括一种新的对抗策略,旨在评估LVLMs是否能够将属性匹配到图像中的正确目标。
- 评估三种当前的LVLMs,即mPLUG-Owl [12],InstructBLIP [3]和LLaVa [7]在H-POPE上的性能。
- 视觉线索的定性示例,这些线索来源于LVLM-Interpret [10]。
2 Related Work
Hallucination Benchmarks
幻觉评估的LVLMs(如CHAIR[9]),传统上遵循生成范式。给定一个指令,模型生成一个文本描述,然后对其进行幻觉评估。然而,由于其依赖于指令设计和描述长度,这种方法往往不稳定。为了解决这个问题,POPE引入了一个新的判别框架来评估粗粒度的幻觉[5]。它通过针对图像中存在的目标和从随机、热门和对抗性负采样策略中获取的目标的一系列二进制问题来评估模型的目标幻觉。这不仅已经证明在不同 Prompt 下稳定,而且还允许根据其他类型的幻觉灵活地调整这个基准。
Large Scale Attributes (LSA) Dataset
大多数幻觉基准测试都使用带有评估标注的数据集。其中一个这样的数据集是LSA,它将来自6个不同数据集的属性和标注聚合起来:视觉基因组、GQA、Flickr30K-Entities、MS-COCO Captions 2017、COCO Attributes和Localized Narratives [8]。与仅关注形容词目标属性和忽略目标间视觉关系的现有工作不同,LSA利用负标签扩展:由于许多属性相互排斥,存在这种属性(例如,干净)就会自动暗示不存在其他属性(例如,脏)。LSA与现有工作相辅相成,可以更好地评估视觉AI系统的性能。
Large Vision-Language Models (LVLMs)
语言模型(LVLMs)利用文本和视觉信息来学习和生成各种多模态任务的内容。这些任务包括图像描述生成(image captioning),其中模型根据视觉输入生成描述性文本,以及图像生成(image generation),其中它根据文本 Prompt 生成视觉内容。几种著名的LVLMs包括InstructBLIP [3], LLaVa [7] 和 mPLUG-Owl [12]。从高层次来看,这些模型由一个预训练的语言编码器和一个预训练的视觉编码器组成,它们生成相应的文本和视觉嵌入,然后通过各种方法对齐,使模型能够理解并生成连贯的多模态输出 [4]。尽管LVLMs在解决各种任务方面具有巨大的潜力,但大多数模型仍然容易产生错觉 [4]。在作者的研究中,作者专注于调查生成给定多模态输入(即图像和文本 Prompt )的文本输出的模型中的错觉。
3 Method
H-POPE Benchmark
作者的H-POPE基准扩展了POPE [5]到包括属性评估。给定输入图像,H-POPE从标注中提取一组真实物体,并从中样本相同数量的负面物体。这些用于形成第一层(较粗糙)的问题。然后,对于每个存在的物体,H-POPE提取一组真实属性,并从中样本相同数量的负面属性。这些构成了第二层(较精细)的问题。请注意,作者使用相同的负样本策略来样本物体和属性。作者的流水线如图1所示。
Negative Sampling Strategies
对于目标存在,作者的负采样策略遵循POPE基准测试[5]中的策略。具体来说:(i) 随机,即从数据集中随机选择任何在图像中不存在的目标;(ii) 流行,即从数据集中选择出现次数最多的那些在图像中不存在的目标;(iii) 对抗性(基于频率的)选择与真实目标在图像中不存在的共同出现次数最多的属性。这三种采样策略作为属性自然采样方案。作者还引入了一种额外的对抗性场景(iv)对抗性(基于图像的),即选择在图像中存在的属性,因为它们描述了其他目标,但并未描述所询问的目标。作者将在图2中进行说明。
Attribute Type Selection
作者的H-POPE基准测试将二元问题形式化为关于目标存在和目标属性的问题。负属性从数据集
中的属性列表中采样得到,因此作者需要确保互斥性,即如果一个目标有一个属性列表
,它不应该从
中获取任何属性。
为此,作者将作者的设置限制为只有三种属性类型:_color_, material , 和 shape . 作者使用来自LSA数据集的这些类型,因为它们是最频繁的,并且在数据集中通常由于负标签扩展而互相排斥(例如,如果一个目标被 Token 为_red_和_yellow_,那么可能可以将其余颜色作为负属性)。
4 Hallucination Evaluation
Evaluation Setting
作者在本文档中评估了三种流行的 LVLMs,它们分别是 InstructBLIP [3], LLaVa [7] 和 mPLUG-Owl [12]。作者分别选择它们的 7B 变体进行评估。作者用输入图像和以下 Prompt 来 Query 模型,以判断物体是否存在和属性:
图片中是否存在<目标>? 图片中的<目标>是否具有<属性>? 作者的基准是二分类任务,因此作者报告准确率、F1分数、精确率和召回率。
数据 。作者的评估使用MSCOCO(val. 2014)[6]中的图像和目标,以及LSA数据集[8]中的属性标注。作者选择了所有至少具有六个问题(两个关于目标存在,四个关于属性)的图像。对于具有超过六个问题的图像,作者随机选择六个问题。此外,如果一张图像有多個标注目标,作者将选择一个随机的目标,以防止某些图像比其他图像更频繁地出现。通过这种方式,作者得到了994张用于随机、流行和频率基础的对抗性采样,以及926张用于基于图像的采样策略。具体数字请参见表1。
Evaluation Results
作者的结果汇总在表2中,包括总体性能以及按目标存在和属性进行的细分。在所有设置下,任何模型达到的最高准确性约为76.76%。这个数字比POPE中的88.73%准确性低[5]。这在某种程度上是可以预料的,因为属性是目标存在的更细致细节,因此关于属性的问题比关于目标存在的问题更难。事实上,LLaVa和Instruct-BLIP在目标存在上的准确性得分约为它们在属性上的得分的10%。另一方面,mPLUG-Owl在所有设置下的准确性得分都在50%至60%之间,表现出比目标存在略好的性能。令人惊讶的是,这个模型在属性上的表现比在目标存在上更好。此外,最具挑战性的设置是作者基于图像的对抗性设置,所有模型在此设置下的准确性得分都最低。
很可能会出现mPLUG-Owl与其他两种模型之间性能差异的原因在于,mPLUG-Owl使用了LLAMA[11]作为其语言模型骨架,而其他两种模型则使用Vicuna[2]。后者在GPT-4和ChatGPT对话上进行了微调,而前者则没有进行微调。尽管三种模型都在多模态设置下微调了他们的最终模型,但似乎可以推测,微调后的语言 Backbone 提供了改进的指令遵循能力,这使得LaLaVa和InstructBLIP在这个基准测试上表现更好。
5 Further Analyses
Ablation 1: Positive Answer Bias
POPE的研究发现,模型的答案高度倾向于正面(即更有可能回答“是”)[5]。作者的结果也显示了类似趋势(见表2),普遍观察到“是”与“否”的比例较高。然而,这种正面答案偏差仅适用于关于目标存在的问题。对于关于属性的问题,模型在大多数情况下更可能回答“否”。
Ablation 2: Context
在作者的评估中,问题会按顺序在一个聊天中提出。作者进一步研究了模型是否对上下文敏感,这可能包含在前一个问题中的错误答案。一个包含在上下文中的聊天示例(前一个问题提出的问题)见表3。因此,作者将模型性能与有无上下文(图3)进行比较。两种设置中的相似结果表明,无论是否存在上下文信息,作者的基准测试都是稳定的。
Visual Cue Analysis
作者研究了这些模型是否使用正确的视觉线索来得出答案,从而深入了解幻觉产生的原因。例如,在模型没有产生幻觉的情况下,人们预期与问题中的物体对应的图像块最相关。作者使用 LVLM-Interpret [10] 来可视化 LLaVa [7] 的相关性图 [1](图4)。LVLM-Interpret 返回每个答案中的一个相关性图,表示每个图像块对预测相应 Token 的相关性。为了获得每个答案的一个相关性图,作者选择与 Token {"Yes", "No", "Sobject", "Sattribute"} 对应的相关性图,其中 Sobject 和 Sattribute 分别替换了问题中提到的物体和属性。这些图然后被平均并放大以匹配图像大小。为了获得最终的视觉化,它们被绘制在图像上的热力图上。最后两步遵循 LVLM-Interpret 所采用的方法。在作者的定性示例(图5)中,相关的图像块通常对应正确的物体。有趣的是,相关图像块的位置大多保持不变,仅在强度上有所变化。由于这个事实,正确答案和幻觉答案之间没有显著差异。
6 Limitations
作者的目标是更细致地理解幻觉,即物体属性。作者的H-POPE基准测试期望模型给出明确的“是”或“否”的答案。在作者的实验中,这种情况通常会出现,但作者也遇到模型无法做到这一点的情况。具体来说,InstructBLIP错过了91912个答案中的66个,LLaVa错过了58个,mPLUG-Owl错过了417个。
然而,这些遗漏的数量相对于总共提出的问题数量非常低。此外,作者目前的设置仅限于几种属性类型,留下了如语气、模式和方向等其他类型的属性未探索。作者的H-POPE要求属性之间的互斥,这使得将其扩展到某些属性类型变得困难。作者将留待未来的工作来制定更通用的采样策略。
7 Conclusion
在这项工作中,作者提出了H-POPE,它是POPE [5]的一个扩展,用于评估LVLMs在图像中赋予目标属性的趋势。
作者的基准表明,当前的LVLMs在属性问题上比关于目标存在的问题上的幻觉更严重。
此外,作者的新负样本策略表明,这些模型可能会将属性错误地分配给图像中的错误目标。
最后,分析相关性图并没有提供关于幻觉来源的洞察。作者希望这项工作有助于更准确地评估LVLMs的幻觉。
[0]. H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models.
