备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
尽管最近在理解和响应复杂视觉文本上下文中实现了大规模视觉语言模型(LVLMs)的突破,但它们固有的假象倾向限制了在需要高精度实际场景中的实际应用。
现有方法通常要么使用额外的数据微调LVLMs,这需要额外的手工标注和计算资源,要么在解码阶段进行比较,这可能会在推理过程中引入推理开销,同时消除推理所需的有用语言先验知识。
因此,作者提出了一种轻量级的、无需训练的方法 ICT,该方法计算一个干预方向,使模型关注不同视觉信息的 Level ,增强对高层次和精细视觉细节的关注。
在正向传播阶段,干预应用于编码整体图像信息和细粒度物体细节的注意力头,有效地减轻了过度语言先验现象,从而减轻了假象。
大量实验表明,ICT 在少量数据下实现了强大的性能,并且可以在不同的数据集和模型之间很好地泛化。
1 Introduction
近年来大型视觉语言模型(LVLMs)在处理复杂现实世界任务方面取得了显著的进步。然而,LVLMs经常生成与视觉输入不一致的文本输出,例如在图像中错误判断物体的存在或在描述物体属性时准确性不足[55, 72]。这个问题通常被称为_物体错觉现象_[55],这严重限制了LVLMs在高风险场景中的适用性,例如自动驾驶[94]和医疗手术[35, 82]。以前的研究表明,LVLMs中产生错觉的主要原因如下:
1)大型语言模型(LLMs),如Vicuna[12],与视觉编码器(如CLIP[67])相比具有显著更强的参数和能力。这导致过强的语言先验,使模型过度依赖语言线索而忽视视觉输入。
2)当前的视觉解码器往往难以准确捕捉细粒度的视觉语义,导致图像中物体属性的详细错误,如颜色和数量。
根据上述两个问题,以前在LVLM中缓解幻觉现象的方法可以分为三个主要方法:
1) 使用额外数据进行微调: 这种方法涉及引入高质量的标注数据,以更好地将模型的行为与人类解释对齐,有效教导模型更关注视觉信息 。然而,这种方法不仅需要耗时的手工标注,还涉及更新模型参数,需要大量的计算资源,从而限制了其可扩展性。
2) 感知增强: 这种方法将深度图和分割图等附加信息作为辅助输入,帮助视觉编码器捕获更详细的视觉特征,从而减少幻觉。然而,它通常需要手动选择辅助特征,这限制了它在不同任务上的泛化能力。
3) 对比解码: 这种方法在不需要额外训练的情况下缓解幻觉。它通过应用模糊、旋转或裁剪等变换来对原始视觉输入进行诱导,从而产生幻觉。在解码阶段,与这些诱导的幻觉相关的 Token 会被惩罚,从而减轻语言先验的影响 。然而,像VCD这样的方法通常会无差别地消除所有语言先验,包括那些可能有益的先验。如图1所示,原始模型识别到Curry拿高尔夫球杆,并利用语言先验识别Curry是一名篮球运动员。这个语言先验对于实现准确解释是有价值的。但是,通过对比解码,这个有用的先验也被移除了,这可能会无意中导致幻觉。
为了应对LVLMs中减轻幻觉的挑战,作者提出了一种图像-目标跨 Level 可信干预(ICT)方法,这是一种训练免费、即插即用的方法,适用于前向传播阶段。与对比解码不同,作者的方法不会消除语言先验知识来减少模型对文本语义的过度依赖。相反,它在前向传播过程中进行干预,以增强模型对综合视觉信息和精细物体细节的关注。作者研究了当模型产生正确响应和幻觉响应时,注意力头的激活模式。这种分析使作者能够识别出激活值偏差,这些偏差可以将模型从“不可信”转变为“可信”。根据先前的研究[8, 19, 80],表明多头注意力机制中的不同头编码信息在不同的粒度 Level ,作者对每个头训练二分类器,以确定哪些头编码整体视觉信息,哪些捕获详细视觉特征。在正向传播过程中,作者根据识别出的粒度 Level 调整这些头的激活值,从而增强模型对相关视觉特征的注意力,并减少幻觉的可能性。如图1所示,在应用ICT后,模型能够更专注于图像内部的细节,如识别出Curry,同时利用有益的语言先验知识(例如,Curry是一名篮球运动员)进行推理和得出正确答案。由于干预的位移向量是预先计算的,ICT在正向传播过程中不会引入额外的延迟。
作者的实验表明,对于LLaVA-v1.5 [52]和Qwen-VL [5],应用IC(信息增益)在POPE基准上平均提高了6.27%,在MME基准上提高了67.37分。此外,IC展示了跨数据集泛化和模型无关的泛化性。作者的贡献可以总结为:
作者提出了图像-目标跨层可信干预(ICT),这是一种新颖的、无训练的、即插即用的方法,可以通过在正向传播过程中增强对整体视觉信息和细粒度目标细节的关注,有效地减少LVLMs中的幻觉,同时不消除有益的语言先验知识。
不同于现有的对比解码方法,作者引入了一种干预机制,该机制在正向传播过程中运行,而不是解码阶段。这使得ICT能够与现有解码策略正交且互补,同时不引入任何额外的延迟。
经过在LLaVA-v1.5和Qwen-VL上的广泛实验,证明信息通信技术(ICT)显著提高了在POPE和MME基准测试上的性能,同时保持了跨数据集和模型无关的泛化性。
2 Related Work
Large Vision-Language Models
随着LLM(大规模语言模型)的成功,研究行人开始探索多模态领域。利用LLM的强大能力,大型视觉语言模型将视觉编码器和特征 Projector 集成到强大的LLM中,使它们能够根据视觉和文本输入理解和生成内容。这些模型通常经过两个训练阶段,即预训练阶段和微调阶段。预训练阶段的主要目的是对文本和视觉特征进行对齐,而微调阶段的目标是进一步弥合视觉和语言之间的模态差距,同时提高它们的指令遵循能力和在特定下游任务上的性能。早期的尝试,如FLamingo [2],Gemini [78],和BLIP-2 [44],已经显示出令人鼓舞的结果。最近的工作,如LLaVA-v1.5 [54],Qwen2-VL [83],和xgen-mm [91],进一步推动了这一领域的发展,极大地提高了这些模型的能力。为了增强视觉表示和语言表示的一致性,已经做出了许多努力,包括使用更高分辨率的视觉编码器,转移到更大和更强大的LLM,采用强化学习技术如RLHF [61, 97]等。尽管已经取得了显著的进展,LVLMs仍然存在严重的错觉,这限制了它们在现实世界场景中的大规模应用潜力。
Mitigating Hallucinations in LVLMs
为了理解幻觉的原因,已经做出了许多努力。现有减轻幻觉的方法可以根据发生的阶段大致分为两类。第一类关注训练阶段。大部分落入这一类的工作都引入了额外的或精选的数据集,这些工作通常为与幻觉相关的任务专门设计数据集或改进数据清理方法[68, 74],或引入新的训练目标。虽然有效,但这些方法通常需要进行广泛的训练,既耗时又费力。第二类关注推理阶段,通常涉及基于CD的[47]新解码策略。另一种方法是生成和纠正潜在的幻觉,等等。此外,一些研究行人通过调整分配给图像的注意权重或图像的相关部分[3]来解决幻觉。其他工作包括基于 Prompt 的方法,利用外部工具或外部知识等。
然而,对于大型视觉语言模型来说,其中一个最重要的特征——推理阶段的激活空间仍然被严重忽视。因此,作者的研究旨在在推理阶段进行 Head 干预,为大型视觉语言模型的更有效应用奠定基础。
3 Task Formulation
给定一个由
参数化的LVLM模型,该模型处理一个文本输入
和视觉输入
,其中
和
分别表示文本和视觉输入的序列长度。模型将文本和视觉序列连接起来形成一个统一的输入
,然后通过
层 Transformer 架构进行处理。在每个层中,连接输入
进行多头自注意力计算,计算方法如下:
表示第
个头在第
层的注意力操作,
是输出投影矩阵,其中
表示每个 Head 的维数,
表示 Head 的数量。
4 Methodology
在本节中,作者引入了两个 Level 的细粒度干预模块。第一个模块使LVLM能够专注于图像,从而减少对语言先验的过度依赖。第二个模块鼓励LVLM更加关注图像目标,有助于减轻关键目标的遗漏,减少幻觉。
Intervention at Image-Level
该模块旨在识别与整体图像信息相关的注意力头,并针对这些头应用定向干预措施。这种方法在增强模型对视觉输入的关注的同时,降低了语言先验的影响。
如图2所示,考虑一组图像-问题对,记作
,每个对都来自POPE数据集,并 Token 为“是”。在这里,
的形式为“图片中/有/个[目标]?”对于每个问题,作者提取指定的目标
,并将问题重新表述为
“图片中的[目标]是什么?”然后,对于每个图像
,作者按照[26]中的前向扩散过程逐步添加高斯噪声,从而得到最终的模糊图像
:
在步骤t处,噪声方差
表示。最后,作者构建了一个修改后的数据集
,以获取图像 Level 的干预向量。然后,作者将
与问题
连接,形成答案,从而得到同一样本的可靠和不可靠数据对
和
。
对于每个样本,作者将最后一个 Token 的表示视为多模态数据的融合表示,并从可信和不信任数据的
个头中提取注意力激活,分别表示为
和
,其中
。根据可信激活
和不信任激活
从所有样本对中获得的激活位移向量
,作者可以计算以下激活位移向量
,以鼓励模型更关注视觉信息:
接下来,作者为每个 Head 训练一个二分类分类器
,使用 B 个样本对进行训练,以检测哪些 Head 编码了图像级信息,特别是那些能更好地区分信任样本对和不信任样本对的 Head :
当
为所选干预头的数量,
是一个指示函数,当
时为
,否则为
,
表示干预的强度。使用
对编码图像信息的 Head 进行图像级干预后,模型增强了视觉 Level 的可信度,更加关注视觉信息,从而减轻了过度强大的语言先验的影响。
Intervention at Object-Level
在提升模型在图像层面的可信度之后,为了增加模型对图像细节的关注度,从而减少由于遗漏细节而产生的幻觉,需要进行更精细的目标层面的干预。
最后,作者将图像级和目标级干预模块集成在一起,创建一个统一的方法,以加强模型对整体视觉上下文和更精细的物体特定细节的关注,具体如下:
通过结合这些干预措施,模型获得了一个平衡的注意力机制,该机制在依赖语言先验的同时增强了对于不同粒度 Level 的重要视觉线索的敏感性,从而减轻了幻觉的发生。
5 Experiments
Experimental Setup
Datasets and Metrics.
POPE [48] (基于投票的目标检测评估)是一个用于评估LVLMs在图像中识别特定物体存在的能力,从而确定目标 Level 的幻觉。它使用基于目标标注的Yes/No问题,包括准确性、精确度、召回率和F1分数等指标。数据集是平衡的,其中50%的 Query 针对现有物体,50%针对非现有物体,并采用三种采样策略:随机、流行和对抗性。该评估方法借鉴了MSCOCO [49]、A-OKVQA [73]和GQA [32]等数据集,评估了27,000个 Query -回答对,以衡量模型性能。
MME [20] (多模态大型语言模型评估) 基准旨在全面评估不同维度上的LVLMs的性能。它包括十个注重感知的任务和四个与认知相关的任务。MME基准通过关注目标存在和计数子集来专门评估目标 Level 的幻觉,而属性 Level 的幻觉则通过关注目标位置和颜色相关的子集进行评估。评估指标是准确率,提供了对模型在各种任务上性能的定量衡量。
Baseline 模型作者采用广泛使用的LLaVA-v1.5 [52]和Qwen-VL [5]模型作为作者的 Baseline LVLMs。作者比较了两个在解码阶段消除LVLMs的语言先验以减轻幻觉的 Baseline 模型:VCD [43]和Opera [31]。
实现细节 在实验中,作者利用了COCO随机子集的1,500个问答对,其中回答为"Yes",来训练干预位移向量。随后,作者在具有显著分布差异的两个数据集上评估了ICT方法:POPE和MME。这一评估旨在评估ICT在多种数据分布下的泛化性和鲁棒性。对于每个注意力头,作者使用支持向量机(SVMs)[15]作为分类器,并进行了2重交叉验证以评估分类准确性。在实验中,作者设置α=β,并通过网格搜索确定了α、β和K的最优值。附录A提供了详细的超参数配置。所有实验都是在配备了8个H800 GPU的系统上进行的。
Main Results
结果在 POPE.表1 呈现了 LLaVA-v1.5 和 Qwen-VL 在 POPE 数据集的九个子集上的结果。通过比较这些方法,作者可以得出以下结论
:
1)
应用 ICT 导致 LLaVA-v1.5 和 Qwen-VL 在9个子集上的 F1 分数平均提高了 7.09% 和 5.44%,分别高于之前的对比解码 sota 基准(Opera)的 2.19% 和 1.14%。这种改进可以归因于 ICT 没有消除语言先验,可能提供有用的信息。相反,它增强了模型对各种视觉信息 Level 的关注,从而减少了模型过分依赖语言先验的趋势,并减轻了幻觉的发生。
2)
在图像 Level 和目标 Level 分别进行干预,平均 F1 分数提高了 5.76% 和 5.47%。这表明增强 LVLMs 对图像信息各 Level 的关注可以有效地减轻幻觉。此外,由于目标 Level 干预也暗示着模型对更广泛的图像信息集中注意力,因此它实现了相对较高的性能改进。
3)
使用来自 MSCOCO 随机子集的 1,500 个样本训练的干预转移向量在 MSCOCO 随机子集上实现了平均 F1 分数的 7.67% 改进,在其余 8 个具有不同分布的子集上实现了平均 6.09% 的改进。这表明 ICT 有效泛化,得到的干预向量捕捉了一般指向可信度的方向,而不仅仅是拟合特定数据集。
6 Analysis and Discussions
Inference Latency across Different Methods
在表2中,作者比较了两种不同代表性方法的推理效率与作者的提出方法。值得注意的是,基于CD的方法导致推理时间显著增加(2.1至3.6倍更慢),而作者的方法对推理效率几乎没有影响。作者归因于这个事实,即VCD和OPERA要么需要多次推理运行,要么在推理过程中涉及大量额外的计算。相比之下,ICT在推理过程中没有增加额外的计算成本,进一步突显了作者的方法的优势。
Generalizability between Different Models
为了验证推导出的激活位移向量在某种程度上代表了模型与真实性的对齐,作者探讨了这些位移是否可以转移至其他模型。具体而言,作者将从LLaVA-v1.5获得的激活位移向量应用于COCO随机子集的Qwen-VL中进行干预。然后,作者在具有与COCO显著不同的分布的GQA数据集上评估了这种干预的一般化效果。表3中的结果表明,与未修改的模型相比,ICC-LLaVA-v1.5在F1得分上平均提高了4.62%,在准确率上提高了4.64%。此外,作者使用t-SNE来可视化LLaVA-v1.5和Qwen-VL中不同层之间的偏移向量。图4显示了两种模型在第16层和第18层的多头注意力层级的目标级和图像级位移向量。
从图中,作者可以观察到在第16层,图像级位移向量(蓝色和黄色)相对较近,表明模型在编码图像级信息方面存在一定程度的相似性。然而,目标级位移向量(红色和绿色)更为显著,反映了模型在编码精细物体细节方面的特定特征。在第18层,两种模型的图像级和目标级位移向量具有很高的相似性,表明生成的激活位移向量代表了通用的位移向量,引导模型更关注视觉信息。
Impact of Hyperparameters on Performance
作者提出的ICC主要依赖于两个关键超参数:干预强度α和参与干预的头数K。为了研究这些超参数对性能的影响,作者固定其中一个参数,并在POPE COCO随机子集上计算LLaVA-v1.5和Qwen-VL的平均F1得分。结果如图6所示,作者可以观察到,当α为负值时,表示反向干预减少模型对视觉信息的关注,此时模型性能下降。当α过小时,模型没有得到足够的干预,导致结果不尽如人意。相反,当α过大时,干预变得过于强烈,破坏了模型的基础能力,导致性能下降。对于超参数K,作者发现当K过小时,某些编码相关视觉信息的注意力头没有得到充分的干预,导致性能不佳。相反,当K过大时,编码无关信息的注意力头被无必要地干预,导致性能下降。
Analysis of Attention Heads for Visual Information Encoding
在图7中,作者呈现了在32层LLaVA-v1.5模型中的1024个多头自注意力头中,图像级和物体级特征的分类准确性。这一分析有助于确定哪些头编码整体视觉信息,哪些头捕捉细微视觉细节。从图中,作者可以观察到编码整体视觉信息的注意力头主要位于模型的早期层,例如第4层和第10层。相比之下,捕捉细微视觉细节的注意力头更集中在模型的后期层,例如第20层和第22层。
Case Study and Error Analysis
在图5中,作者针对POPE和LLaVA-Bench数据集展示了一个案例研究,展示了每个问题文本 Token 对视觉 Token 的注意力比例。如图所示,在应用ICT后,模型将更多的注意力分配给视觉 Token ,尤其是与问题相关的目标 Token (例如,“马”和“水果”)。通过优先考虑视觉信息,ICT正确地识别出图像中没有马,而VCD错误地认为马在图像中存在,这是因为对视觉线索的关注不足。然而,当问到:“图片中有多少未切的果实?”,VCD错误地回答“两个”,这是因为对视觉细节的关注不足。尽管ICT正确地识别出图像中一共有四个果实,但这个问题需要不仅关注视觉内容,还需要在文本模态内进行推理。模型需要不仅识别出果实的总体数量,还需要关注“未切”这个属性。由于它未能将这一信息纳入考虑,ICT给出了错误的答案。
7 Conclusion and Limitations
在本文中,作者通过提出图像-目标跨级可信干预(ICT),一种无需训练且可即插即用的方法,来减轻LVLMs中的目标虚幻问题。在正向传播过程中,ICT能够增强模型在图像级和目标级视觉信息上的关注度。
作者的实验表明,ICT显著降低了虚幻现象,同时提高了通用推理能力。结果证实,ICT有效降低了过度依赖语言先验,在多样视觉环境中提高了准确性和鲁棒性。
局限性。 作者的方法需要访问模型的权重,因此无法应用于封闭源模型。此外,作者仅在图像上使用高斯模糊作为变换方法。未来的研究可以探索使用生成方法来转换图像。
[0]. ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models.