Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !

大模型向量数据库云通信

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

尽管在视觉语言推理方面表现出色,但大型视觉语言模型(LVLMs)可能会生成与给定图像中不存在的虚假内容。大多数现有的LVLM幻觉基准都局限于评估与目标相关的幻觉。

然而,两个目标之间的潜在幻觉,即关系幻觉,仍然缺乏研究。为了弥补这一缺陷,本文提出了一种统一的框架,同时测量LVLMs中的目标和关系幻觉。

作者的框架的核心思想是对LVLMs响应中提取的(目标,关系,目标)三元组进行幻觉评估,因此可以轻松地推广到不同的视觉语言任务。

基于作者的框架,作者进一步引入了Tri-HE ,这是一个新的三元组 Level 的H allucination E valuation基准,可以同时研究目标和关系幻觉。

作者对Tri-HE进行了全面的评估,并观察到现有LVLMs中的关系幻觉问题甚至比目标幻觉更为严重,突显了可靠LVLMs之前被忽视的问题。

此外,根据作者的发现,作者设计了一种简单的无训练方法来减少LVLMs的幻觉,使作者超过了所有开源对照,实现了与强大的GPT-4V相当的表现。

作者的数据集和代码用于复制作者的实验 https://github.com/wujunjie1998/Tri-HE。

1 Introduction

大型视觉语言模型(LVLMs)引起了广泛关注。尽管性能优越,但现有研究主要关注提高LVLMs的有用性,而没有仔细考虑LVLMs生成的响应的可靠性。然而,最近的研究已经观察到LVLMs存在严重的错觉,即LVLMs可能会生成给定图像中不存在的信息,这可能是由于在视觉指令调优过程中训练不足导致的。图1(a)提供了一个典型的例子,其中LaVA[2]模型认为该位置很繁忙,仅仅因为它识别这是一个有几个人存在的地方的火车站。

picture.image

随着LVLMs的普及,大量工作开始探讨LVLM错觉的评估和分析。

然而,观察到两个问题:

  1. 错觉类别: 现有的大部分工作专注于 目标相关的错觉[5, 6, 10](即,LVLMs描述的图像中不存在的目标)而忽视了当两个目标成功识别时,在常识推理过程中LVLMs可能会弄错它们之间的关系。如图1(a)所示,LaVA成功识别了""和"车站区域",但预测了它们之间的关系为"四处走动"无法直接从给定的图像中获取。因此,有必要建立一个统一的定义和分类来整合不同类型的LVLM错觉。
  2. 幻觉识别: 已有研究依赖自我识别(例如,是/否问题)来证明 LVLMs 对给定图像中的物体和关系的 Aware 。当 Prompt 指令“图像中是否有[内容]?”时,只有当 LVLMs 对不存在的内容回答“是”时,幻觉才会确定。

然而,这些基准测试需要将通用视觉语言任务转换为"是/否"格式,限制了它们的可适用性。此外,由于不同LVLMs在不同的数据上进行预训练,它们在回答这类"是/否"问题时可能具有不同的能力,这可能导致评估结果偏见[12]。

因此,作者提出了一个问题:作者能否对各种幻觉进行统一且无偏的评价? 为了实现这一目标,本文首先提出了一种统一的框架来衡量目标和关系幻觉(SS3)。具体而言,它首先从LVLMs的响应中提取知识图,然后使用外部评委将这些三元组与输入图像的场景图进行比较以进行幻觉评估。

这样,作者的方法可以在任何视觉语言任务上提供细粒度的评估结果。基于提出的框架,作者然后构建了Tri-HE ,这是一个新颖的Tri plet-level H allucination E valuation基准,用于同时评估目标和关系幻觉(SS4)。如SS5和图1(b)所示,关系幻觉实际上是强大的GPT-4V模型[13]的一个常见噩梦,甚至比目标幻觉更严重。通过比较不同LVLMs的性能,作者还发现了几个可能降低LVLM幻觉[SS5.2]的潜在发现。

此外,作者的由GPT-4提供的三元组级幻觉评委与人类判断具有显著的对齐(表3)。这激励作者将其三元组描述集成到LVLMs中,并提出一个简单而有效的无训练幻觉减轻方法(SS5.4)。使用这种方法,LaVA-1.5模型[14]超过了所有开源对照,实现了与强大GPT-4V comparable的性能,如图1(b)和表5所示。

picture.image

picture.image

作者的主要贡献包括以下三个部分:

  1. 作者提出了一种统一框架,同时测量LVLMs的实体和关系幻觉。具体而言,作者建议进行三元组 Level 的幻觉评估,这可以提供更准确和细粒度的评估结果。
  2. 根据框架,作者提出 Tri-HE ,这是一个新颖的元学习语言模型(LVLMs)的三元级细粒度幻觉评估基准。
  3. 作者提出了一种简单而有效的训练免费的人造图像抑制方法,其性能超过了所有开源的对应方法,在Tri-HE上与GPT-4V相媲美。

2 Related Work

Large Vision-Language Models (LVLMs)

大型语言模型(LLMs)展示出的强大能力推动了它们向多模态领域的扩展。通过将视觉编码器与预训练语言模型对齐表示,并经过视觉指令调优,LLMs得以理解和推理图像和文本。LaVA [14, 2] 提出使用简单的投影层将视觉表示集成到文本编码器中,这一想法在Shikra [15]中得到进一步发展,通过引入参考对话任务。

相反,BLIP [16] 提出Q-Former架构从视觉表示中提取有用信息,这一架构也被MiniGPT-4 [3]和InstructBLIP [1]所使用。MoCLE [17] 进一步引入了Mixture-of-Experts架构到LVLMs,以处理指令调优期间的数据冲突。尽管功能强大,但现有研究主要关注提高有用性,而没有对LVLMs的可靠性进行全面分析。

Hallucination Evaluation in LVLMs

仅评估目标幻觉或没有区分不同幻觉,这忽视了其他幻觉类型如关系幻觉,因此不够全面。另一类工作使用"是/否"问题评估LVLM的关系/目标幻觉。然而,这些基准需要将一般的视觉语言任务转换为"是/否"格式,限制了其适用性。此外,不同的LVLMs由于在不同的数据上进行预训练,可能对回答这些"是/否"问题有不同的能力,这可能偏颇评估结果。

为弥补这一研究空白,本文提出了一种三元组 Level 的评估框架,可以为任何视觉语言任务提供细粒度的目标和关系幻觉评估,并提出了一个名为Tri-HE的评估基准,其中包含需要更复杂常识推理的问题。值得注意的是,另一个并行基准测试Reefknot [26]也评估了三元组 Level 的关系幻觉。

然而,与Tri-HE相比,Reefknot存在几个局限性:

  1. 它完全依赖现有数据集,可能导致数据污染,而Tri-HE由GPT-4V生成的合成问题组成。
  2. Reefknot只评估了有限数量的关系类型,而Tri-HE覆盖了更广泛的范围,使得评估结果更加全面。
  3. Reefknot只使用了一个基于蕴涵的幻觉检测器,而Tri-HE利用GPT-4提供更精确的幻觉检测,可以同时识别目标和关系幻觉。

3 Tri-HE Framework Formulation

受到自然语言处理(NLP)关系提取任务的影响,在本节中,作者提出一个统一的框架来评估目标和关系隐现,通过目标-关系三元组(即,(目标1,关系,目标2))。在这里,目标和关系可以是具有属性的单词或短语。

作者首先通过三元组在SS3.1中定义目标和关系隐现,基于此,作者在SS3.2和SS3.3中分别定义作者的评估指标和流水线。

Definitions

如图1(a)所示,给定一个输入图像,与相关的问题及其真实答案,以及由LVLM 参数化的答案,作者首先定义场景图,其中和分别指存在于中的所有物体以及这些物体之间的所有可能关系。

作为包含所有所需目标和关系以回答 的知识图。

作为从 提取的知识图,其中 和 包括 中所有提到的目标及其所有可能目标关系。

请注意,在这里,所有图形都可以转换为一系列三元组(即,,其中且)。在之前的LVLM幻觉文献中,一个常见的难题在于对预测幻觉错误 之间的模糊区分[28]。

为了获得不受偏见的幻觉评估结果,作者根据是否在给定的图像中存在错误生成的目标或关系 进行分离。

具体而言,对于中的一个三元组,作者有以下定义,目标幻觉 :如果或,表示包括不在中的目标。例如,图1(a)中的三元组(位置, 建议, 社交热门地)遇到目标幻觉,因为 "社交热门地" 无法从中获取。

关系错觉(Relation hallucination):如果 且 ,这意味着 从 中正确识别出两个相关目标,但将它们与不存在的关系配对。例如,图1(a)中的三元组 (people, walking around, area) 具有关系错觉,因为从 中无法获得关系 "walking around",尽管这些目标都存在于 中。

预测误差:如果且,但,则说明正确地从中识别出物体和关系,但以错误的方式配对。

Evaluation Metrics

在掌握了上述定义的情况下,给定来自模型响应 的知识图 ,作者计算 的幻觉率作为 中幻觉三元组 的比例。

大多数先前的研究(例如,POPE [5])直接评估目标 Level 的幻觉率,以预测目标的总数量为参照,然而,由于不同的 LVLMs 可能指代其响应中的不同目标数量,因此它们的结果在 LVLMs 之间不可比。为了解决这个问题,作者选择在问题和图像 Level 计算幻觉率。具体来说,作者计算两种类型的幻觉率,包括以下定义的问题 Level 幻觉率 (Hallu)和图像 Level 幻觉率 (Hallu)。

picture.image

Evaluation Pipeline

依据SS3.1和SS3.2中提供的定义和评价指标,剩余问题包含两部分:1)如何从LVLM响应中提取知识图,以及2)如何判断中的三元组是虚构的还是真实的。作者流程的概述如图1(a)所示。

知识图谱提取。给定LVLM响应,相应的问句和图像,作者通过 Prompt GPT-4从中提取知识图谱。有关知识图谱提取的 Prompt 见图6。然后,作者提出两种不同的策略,根据地面真理答案和图像场景图判断三元组是否包含幻觉,具体描述如下。

首先,实现第一个策略的是一种自然语言推理(NLI)模型[29]。具体来说,给定一个提取的三元组,作者首先计算它与图像场景图G中所有三元组的余弦相似度得分,并只保留相似度得分大于0.5的真实(GT)三元组,以优化用于NLI模型的信息。如果G中没有满足这个标准的三元组,那么只有与最高相似度得分最高的三个GT三元组,作为NLI模型的预测输入。如果提取的三元组与GT三元组的NLI分数低于0.6,这表明提取的三元组不能基于GT三元组推理出来,从而导致幻觉。

GPT-4法官。另一种策略是通过 Prompt GPT-4模型,这是近期的LLM评估文献[30]的常见做法。作者 Prompt GPT-4,判断一个先前提取的三元组是否可以直接基于图像场景图获得或推理。请注意,作者没有采用GPT-4V法官,因为[31]观察到,仅基于文本的GPT-4法官比GPT-4V更符合人类偏好。此外,如果被识别为幻觉三元组,作者进一步要求它说明幻觉与关系或目标之间的关系。请参阅图82中的GPT-4法官 Prompt 。

有了三元级的虚幻判断,作者可以采用公式(1)和公式(2)来计算相应的虚幻率,如果使用GPT-4进行判断,这些虚幻率可以进一步分为目标虚幻和关系虚幻率。详细结果请参见表2。

picture.image

作者在GQA数据集[32]的基础上构建了Tri-HE,该数据集要求LVLMs基于给定的图像进行常识推理。场景图标注的提供与作者在三元组 Level 的虚实评估相一致。

数据收集。然而,GQA中的几个场景图只配备了图像中物体之间的关系的一部分,使得问答所需的信息缺失。为了解决这个问题,作者首先使用过滤过程来识别场景图标注中具有充分不同关系的图像。具体而言,作者从相应的GQA场景图标注中选择了300张具有超过5种关系的图像。为了扩大每个GQA图像的问题-答案对,作者利用GPT-4V 3根据输入图像生成需要基于常识推理的新问题。通过利用图7中的 Prompt ,作者 Prompt GPT-4V为每个图像生成十一个问题,并附有相应的答案和关系三元组,说明推理过程。然后,作者手动验证生成的问题的正确性,只保留确实需要推理的问题。此外,验证后的三元组被添加到GQA中收集的原场景图中。

统计数据。Tri-HE的整体统计数据汇总在表1中。如图2所示,Tri-HE中的每张图像都与一个场景图以及一组需要推理的问题-答案对相关联,并附有地面实三元标注。请注意,由于Tri-HE中每个问题的质量都经过手动验证,扩大其规模需要大量资源和面临挑战。然而,Tri-HE中的图像和问题数量与现有LVLM幻觉评估基准测试(如[23]和[8])相当。此外,如SS5所示,Tri-HE能够生成可靠的幻觉评估结果。

picture.image

5 Results on the Tri-HE Benchmark

Evaluated LVLMs

作者选择了6个开源的LVLMs进行评估,包括LaMDA系列[14, 2],MiniGPT-4 [3],InstructBLIP [1],Shikra [15],以及InternLM-XComposer2(简称:InternLM2)[33]。对于所有评估的LVLMs,作者都选择了7B变体以确保公平比较。

此外,作者还测试了最近流行的 Llama-3.2-Vision-Instruct 模型(简称:LLaMA-3.2)[34],并使用了其最小版本(11B)。所有LVLMs都使用了官方的 Prompt 模板和推理配置。所有实验都在两块Nvidia A100 GPU上进行。

Main Result

LVLM 比较。表2 比较了不同 LVLM 在作者 Tri-HE 基准测试上的幻觉率。可以看出,所有评估的 LVLM 都至少产生了 38% 的幻觉率。在这些 LVLM 中,InternLM2 [33] 获得了最佳的整体性能,表明同时使用文本图像和仅文本指示数据进行训练的策略有助于更好地对齐视觉编码器与 LLM,从而降低其幻觉率。此外,与 LLaVA [2] 相比,Shikra [15] 一直具有较低的幻觉率,这建立在 LLaVA 结构中引入的额外定位能力的基础上,表明引入额外定位可能有助于 LVLM 降低幻觉。此外,LaMA-3.2 实现了最低的关系幻觉率,表明强大的文本 Backbone 可以帮助减轻关系幻觉。然而,它识别物体的能力较弱,影响了其物和总体幻觉率。由于 LLaMA-3.2 没有比其他具有更多参数的 LVLM 更出色,作者在剩余部分中不采用它。关系幻觉更为严重。除 MiniGPT-4 和 LLaMA-3.2 外,所有 LVLMs 生成的关系幻觉都多于物体幻觉。一个可能的解释是现有 LVLMs 缺乏推理能力,使他们容易混淆并破坏目标之间的关系。这进一步表明,专注于物体幻觉 [5] 不足以对 LVLM 的可靠性和全面的统一研究进行深入分析,而像作者提出的 triplet-level 评估 这样的综合研究是必要的。

评估 Pipeline 。此外,作者观察到 GPT-4 法官可以比 NLI 法官更清晰、更有理由地区分模型。作者将在 SS5.3 中对这两种法官之间的差异进行更全面的调查。此外,在两种 Hallu1 和 HalluQ 指标下的评估结果表现出同样的趋势,证明了在不同的评估粒度下,作者提出的基于三元组的幻觉评估设置的鲁棒性。

性能对比GPT-4V。除了开源的LVLMs,作者还探索了最先进的商用LVLMs [13, 35]的性能。由于实验预算有限,在这里作者只评估了Tri-HE中随机选择的25个样本的GPT-4V [13]模型(表格2中的相同设置)。作者还报告了开源LVLMs在25个选择图像上的性能。如图1(b)所示,GPT-4V展示了其优越的性能,并优于所有开源LVLMs。尽管它的物体幻觉率比InternLM2略高,因为它倾向于将许多不在图像中的物体关联在一起,但GPT-4V的推理幻觉率显著低于其他LVLMs,表明其强大的推理能力,因此报告了优越的整体幻觉率。

Analysis

研究自动产生幻觉判断的人类判断。在SS3中,作者提出在三角形 Level 上测量幻觉,并设计两个自动幻觉法官。在这里,作者通过研究其与人类判断的相关性,进一步说明三角形 Level 评估设置的有效性。为了进行细粒度幻觉分析,以前的工作[36, 37]将模型响应首先分割为子句,在这些子句上进行幻觉测量。作者认为这种方法是对比的基础。具体而言,作者从Tri-HE中随机选择20张图像,并邀请人类标注者对所有SS5.1中的LVLMs的响应进行五点分级的幻觉评分。请参阅表9以获取详细的标注指南。人类标注者实现了Krippendorff's alpha得分[38]为0.66,表示高度的一致性。

结果如表3所示。作者发现,三元 Level 的幻觉率与NLI和GPT-4法官的人类判断具有更高的相关性,这意味着在三元上识别幻觉可以导致模型响应的人类首选评价更加准确。此外,作者还发现,与NLI相比,GPT-4法官对人类判断的相关性更高,这揭示了GPT-4在发现幻觉方面的优越能力,这也与作者在SS5.2中的观察一致。

探究与目标信息相关的幻觉。根据SS5.2的结论,现有的LVLMs在回复中通常会生成目标和关系幻觉,而关系幻觉的生成率甚至更高。由于不同的LVLMs拥有一对它们熟悉的目标(例如,在它们进行微调的指令数据中的高频目标对)并且在这些目标上生成正确关系很容易,作者认为关系幻觉问题可能主要存在于不太频繁的目标对中。为了验证这个假设,作者从每个LVLM在Tri-HE上的回复中提取目标对,并从各自的Gθ生成中得到这些目标对,然后根据频率对这些对进行排名。接着,作者计算每个LVLM在其最频繁的目标对上的关系幻觉率。

正如表4中所示,所有LVLMs在熟悉的多目标配对上的关系幻觉率显著较低,这表明它们了解物体之间的可能关系,并理解如何适当地选择关系。请参阅附录A中关于输入长度对幻觉率影响的其他分析。

picture.image

Hallucination Mitigation

关于LVLM幻觉的原因,以前的研究[36, 39]已经确定_模态不匹配_是关键因素。受到ECSO [40]的启发,作者提出了一种无需训练的LVLM幻觉缓解方法,通过自对齐[12, 40, 41]实现。具体而言,作者禁用LVLMs的直接视觉访问,以减轻由于模态不匹配而产生的幻觉,并充分利用LVLMs(仅文本)的LLM Backbone 网络的指令遵循能力来缓解幻觉[24]。

方法。作者首先要求LVLMs在 Aware 到给定问题的图像上描述图像(即通用描述 )。然后,作者阻止LVLMs直接访问图像,将文本-图像LVLMs降级为仅文本的LLMs,这些LLMs仅根据先前生成的图像描述进行响应,但无法访问图像。

在SS5.3中讨论过,在三元组 Level 上观察到更好的幻觉评估。因此,作者进一步 Prompt LVLMs在描述图像时,将重点放在识别物体和物体关系(即三元组描述 )上。作者使用MiniGPT-4中的子集(见图1(b)),并使用 Prompt 和图3中的示例。

picture.image

结果.如表5所示,作者的结果表明,通过作者提出的 Prompt 策略,幻觉缓解是有效的。无论是通用描述还是三元组描述,都能显著降低幻觉率,而 Prompt LVLMs关注目标及其相互关系,则实现了最低的幻觉率。

此外,作者在附录B中进行了消融研究,并比较了作者的方法与现有 Baseline 。

6 Conclusion

从对幻觉的统一定义出发,作者提出了一种新颖的基于三元组的LVLM幻觉评估框架,用于目标幻觉和关系幻觉。

然后,作者引入了Tri-HE,这是一个新颖的基于三元组的LVLM幻觉评估基准,通过它,作者对目标幻觉和关系幻觉之间的差异进行了全面的分析。

最后,作者提出了一种简单而有效的无训练幻觉减轻方法,该方法整合了作者关于目标和目标间关系的发现。

参考文献

[0]. Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论