备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
大型视觉-语言模型(Large Vision-Language Models, LVLMs)常常出现目标幻觉(object hallucination)问题,即生成的文本与视觉输入不一致,这会严重损害其可靠性。现有的推理阶段干预方法在缓解该问题时面临一个严峻的权衡:
尽管通过操控内部状态或调整输出logits的方法具有一定有效性,但通常会带来显著的计算开销,通常需要额外的前向传播(forward passes)。这一效率 Bottleneck 限制了其在实际、低延迟敏感场景中的应用。本文提出Residual-Update Directed DEcoding Regulation(RUDDER),一种低开销框架,旨在引导LVLM实现与视觉信息一致的生成。
RUDDER基于两项关键创新:
(1)上下文激活残差方向 (Contextual Activation Residual Direction, CARD)向量,该向量是在一次标准前向传播中,从自注意力(Self-Attention)层的残差更新中提取的、针对每个样本的视觉证据向量;
(2)一种受贝叶斯启发的自适应门控机制,实现逐token注入,其校正信号的强度由模型对视觉上下文的偏离程度动态决定。
在多个关键幻觉基准测试(包括POPE和CHAIR)上的大量实验表明,RUDDER在性能上可与当前最先进方法相媲美,同时引入的计算延迟可忽略不计,验证了RUDDER作为一种实用且高效提升LVLM可靠性的方法。
1 引言
Image
尽管大型视觉-语言模型(Large Vision-Language Models, LVLMs)在多模态任务中展现出卓越的能力,并日益被应用于解决现实世界问题(Alayrac et al., 2022; Liu et al., 2024a),但其实际可靠性却因一个持续存在的挑战而受到严重制约:物体幻觉(object hallucination)。如图1所示,LVLMs 经常生成流畅且具有说服力的文本,但这些文本在事实上与视觉输入不一致,严重限制了其在现实场景中的实用性与可信度(Ji et al., 2023)。LVLMs 产生幻觉的根本原因在于跨模态信息的错位:强大的预训练语言模型倾向于过度依赖参数化知识和语言先验,而忽视了视觉上下文(Li et al., 2025)。为在不进行昂贵重训练的前提下解决该问题,众多研究聚焦于推理时干预(Inference-Time Intervention, ITI)。然而,现有的 ITI 方法在有效性与效率之间面临权衡。这些方法通常可分为两类:非引导型(Non-steering)方法作用于最终输出的 logits。它们通过对比不同条件下的输出(如不同模型层的输出)来调整词元概率(Chuang et al., 2023; Leng et al., 2023)。基于引导(Steering-based)的方法则直接修改模型内部的隐藏状态,从而在生成过程中更好地与视觉信息对齐(Li et al., 2025)。尽管这类方法通常有效,但两者均存在显著缺陷:计算开销高。它们通常需要多次前向传播,导致推理延迟翻倍,难以应用于实时场景。因此,亟需一种兼具高效性与有效性的解决方案。
基于这一观察,作者认为理想的干预机制不应在高性能与实际效率之间强制取舍。相反,它应当兼具有效性与轻量化特性,仅需一次前向传播即可完成,且具备上下文感知能力,能够在生成过程的每一步动态调整其作用强度。这要求作者在模型内部计算中识别出一个可靠的信号,该信号能够与模型的生成状态相关联。因此,作者的研究围绕以下问题展开:作者能否在模型的标准计算流程中,识别出一个稳定、信息丰富且成本低廉的信号,以实现生成过程的引导,而无需引入额外的前向传播?
作者提出残差更新定向解码调节(Residual-Update Directed DEcoding Regulation, RUDDER),一种旨在规避有效性-效率权衡的框架。通过采用单次干预机制,在生成过程仅与实例特定证据一致时进行引导,RUDDER 在保持与昂贵的前沿引导方法相当性能的同时,引入了可忽略的计算延迟,从而实现低开销的高效解决方案。
yinqin-Adaptive建立在两项创新之上:(1) 上下文激活残差方向(Contextual Activation Residual Direction, CARD)向量,这是一种在标准前向传播过程中从自注意力(self-attention)层的残差更新中提取的、针对每个样本的视觉证据向量;(2) Beta Gate:一种受贝叶斯启发的自适应门控机制,能够以 token Level 注入 CARD 向量,在需要时仅施加强烈的校正信号。因此,RUDDER 提供了一种实用的、面向视觉引导生成的方法,在不牺牲部署可行性的情况下实现高效性能。
作者的主要贡献如下:
- 作者提出了CARD向量,这是一种新颖且高效的方法,可在几乎不增加额外计算成本的情况下,提取动态的、针对每个样本的视觉引导向量。
- 作者提出了 Beta Gate,一种自适应的、基于 token 的门控机制,能够提供一种有理论依据且细粒度的干预方式。
- 作者通过在具有不同架构的多种LVLM上进行大量实验,证明了RUDDER显著降低了物体幻觉,达到与最先进方法相当的水平,同时引入的计算开销可忽略不计,从而在有效性与效率之间实现了更优的平衡。
2 相关工作
作者的研究位于推理时干预(Inference-Time Intervention, ITI)与概率门控(Probabilistic Gating)的交汇处。
推理时干预(Inference-time intervention, ITI)旨在不修改模型权重的情况下引导模型的生成行为。作者根据现有方法在计算路径中的作用位置对其进行分类。非引导型方法(Nonsteering methods)作用于输出的logits。许多此类方法通过重新校准最终logits来提升视觉定位能力,但通常会因额外的前向传播而带来显著的延迟。例如,VCD(Leng et al., 2023)利用扰动图像构建负向上下文,PAI(Liu et al., 2024b)减去无条件(仅文本)的logits,而MARINE(Zhao et al., 2025)则采用无分类器引导(classifier-free guidance)风格。类似地,DoLa(Chuang et al., 2023)通过对比深层与浅层logits来抑制通用文本的生成。更高效的替代方案如约束解码(constrained decoding, Hokamp & Liu, 2017)或事后编辑(post hoc editing, Manakul et al., 2023)通常适应性较弱。引导型方法(Steering methods)则直接修改隐藏表示以引导生成轨迹。大多数此类方法在运行时也会产生较高的计算开销。例如,ASD(Su et al., 2025)通过偏离预定义的幻觉方向进行引导,VISTA(Li et al., 2025)则注入由激活差异计算出的信号向量。VTI(Liu et al., 2025)尝试通过将计算负担转移至离线预计算阶段来缓解这一问题。
贝叶斯与概率门控。作者的工作也受到用于不确定性建模的贝叶斯与概率门控的启发。这包括证据深度学习(Evidential Deep Learning)(Sensoy et al., 2018)中的概念,该方法将输出建模为狄利克雷分布(Dirichlet distribution)的参数以实现不确定性量化。其他相关工作探索了随机门控机制。例如,Yamada 等人(2020)基于伯努利分布(Bernoulli distribution)的松弛(relaxation)提出了随机门控用于特征选择。更直接相关于yinqin-Adaptive是 Beta-LSTM(Song et al., 2019),该方法用源自贝塔分布(Beta distribution)的门控替代了标准的 Sigmoid 门控,并验证了贝叶斯原则在门控机制中的有效性。
3 yinqin-Adaptive
为在避免现有引导方法高昂计算成本的同时缓解目标幻觉问题,作者提出了残差更新引导解码调节(Residual-Update Directed DEcoding Regulation, RUDDER)。RUDDER 是一种低开销的引导解码框架,通过在自回归解码过程的每一步注入一个动态生成的视觉证据向量(visual evidence vector),自适应地引导大型视觉语言模型(LVLM)生成与视觉内容一致的结果。关键在于,该方法无需校准数据,也无需额外的前向传播即可实现上下文相关的引导。
本节详细介绍了yinqin-Adaptive的组成部分。作者首先简要概述Transformer的残差流(residual stream)。随后,作者阐述RUDDER的两个核心原则:(1) 零成本提取上下文激活残差方向(Contextual Activation Residual Direction, CARD)向量,以及(2) Beta Gate,一种由贝叶斯启发的门控机制引导的自适应注入机制。
3.1 前置知识
基于Transformer的视觉语言模型(LVLM)中的解码器在残差流(residual stream)上运行,其中每个子层的输出(例如解码器层的自注意力输出)会加回到其输入中。该输出被称为残差更新
,表示在第
层所贡献的新信息。作者在两阶段自回归生成过程中利用这些更新:
- 预填充阶段(Prefill Stage) :模型通过一次并行前向传播处理预填充段(prefill span),该段包含图像 Token (image tokens)和文本 Prompt Token (text prompt tokens),以填充键值缓存(Key-Value cache)。在此必经步骤中,作者通过聚合预填充段内所有 Token 的自注意力残差更新,提取出CARD向量。
- 解码阶段(Decoding Stage) :模型逐个 token 顺序生成输出。在此阶段,作者采用 Beta Gate 实现自适应引导(adaptive steering)。
3.2 卡德向量(CARD Vector):一种零成本的逐样本证据方向
动机。LVLMs 通过 self-attention 机制融合视觉与文本信息。因此,self-attention 子层的残差更新编码了视觉上下文对每个文本 token 表示的净影响。作者假设,通过对预填充阶段(prefill span)中的图像 token 与文本 Prompt token 的这些更新进行聚合,可以获得一个稳健的、每个样本对应的向量,该向量能够捕捉特定输入的视觉证据方向(Liu et al., 2024a)。作者的实证分析支持这一假设:提取出的 CARD 向量在方向上呈现出系统性的、与图像相关的旋转,偏离了仅基于文本(语言先验)的方向,且该旋转与下游的引导机制(steering mechanism)具有高度一致性。这证实了聚合更新提供了有意义的方向性信号,而非随机噪声(详细可视化与量化结果见附录 A.4)。
Image
为确定提取 CARD 向量的最佳层,作者分析了 LLaVA-1.5–7B(Liu et al., 2024a)的内部动态。作者发现,在解码器的后期层进行干预,对模型最终输出的影响最大。完整分析见附录 B.1,图6a 和 6c。
提取。在单次标准预填充(prefill)过程中,输入图像和文本 Prompt ,作者在目标解码器层
处设置一个轻量级的只读钩子(hook),并缓存预填充片段
中每个 Token
的自注意力输出,记为
。在预归一化(pre-norm)解码器中,残差更新即为注意力输出,
然后对这些更新进行池化,并应用
归一化,以获得每个样本的方向:
整个过程均在单次预填充(prefill)阶段完成,且引入的开销可忽略不计,因为无需额外的前向传播或校准步骤。
3.3 BETA GATE:基于贝叶斯启发的自适应注入门控
与其他转向方法采用固定强度的校正信号不同,这种方法可能并非最优。如附录 B.1 中图6b 所示,内部更新向量的方向一致性在解码器的后期层中往往会坍缩,这表明固定全局转向方向在某些步骤上可能产生偏差。只有当模型生成内容偏离视觉证据时,才需要强校正;当生成结果已经与视觉信息对齐时,过强的干预反而可能损害输出质量。
为解决这一问题,作者提出 Beta Gate,一种受贝叶斯原理启发的动态自适应门控机制。作者将该问题建模为确定每个 token 的“视觉基础性概率”(probability of visual groundedness)。该概率通过在潜在门控变量
上进行贝叶斯更新来表示,该变量在每个 token 的基础上调节校正信号的强度。
贝叶斯视角与实际门控机制。令
表示在目标干预层
生成答案词元
时的隐藏状态,具体为自注意力模块(self-attention block)之前 LayerNorm 操作的输出。作者通过余弦相似度
来衡量其与视觉上下文的一致性。该得分反映了当前生成轨迹与视觉证据的一致程度。基于 Beta–Binomial 的直观理解,作者使用
来参数化一个 Beta 分布,门控值
取该分布的后验均值。(详细的动机及从 Na¨ıve Bayes 视角的推导见附录 A.2。)门控参数的计算方式如下:
其中,
是一个敏感性超参数,用于控制门控机制对对齐变化的响应陡度,
是一个集中度参数,用于控制其偏置。
为确保稳定性,作者将门控单元的输出限制在预定义范围内,即
。这可以防止门控单元过早完全关闭(
)或在最大修正值处饱和(
),从而提升干预机制的鲁棒性。
在生成答案中的每个 Token
时,最终的导向更新
将自适应门控与全局上限
相结合:
该向量在 Self-Attention (SA) 操作之后立即注入残差流。因此,更新后的隐藏状态
计算如下:
项
表示干预的自适应强度,仅在需要时施加较强的校正信号;注入操作仅限于答案跨度内。
3.4 RUDDER
Image
Image
作者的完整方法——残差更新导向的解码调节(Residual-Update Directed DEcoding Regulation, RUDDER),通过融合CARD向量与自适应Beta门机制,引导大型视觉语言模型(LVLM)生成更具视觉依据的输出,从而缓解幻觉问题。如算法1所示,RUDDER可无缝集成至标准的自回归解码循环中。通过在单次推理过程中运行,RUDDER以可忽略的计算开销有效缓解幻觉,解决了性能与效率之间的常见权衡问题。该方法的整体流程如图2所示。
4 实验
在本节中,作者验证了RUDDER的有效性,展示了其在几乎不增加计算开销的情况下有效缓解幻觉的能力。作者通过在多种LVLM架构和基准测试上进行一系列实验,评估其性能、泛化能力、效率以及超参数敏感性。
4.1 实验设置
模型架构。作者在三种具有不同视觉-文本对齐机制的代表性 LVLM 上评估 RUDDER:LLaVA-1.5–7B(Liu et al., 2024a)和 Idefics2–8b–base(Laurenc¸on et al., 2024)(两者均采用线性投影),以及 InstructBLIP(Dai et al., 2023)(采用 Q-former(Li et al., 2023a))。
解码策略。作者验证了RUDDER在三种广泛使用的解码策略中的通用性:贪心解码、束搜索(束宽为5)以及核采样(top-·p = 0.9;所有场景下温度固定为1.0)。
Baseline 方法。作者将 RUDDER 与一系列最先进的推理时干预方法进行比较,以展示其在有效性与效率之间更优的权衡。 Baseline 方法包括基于 logits 的策略,如 DoLa (Chuang et al., 2023)、VCD (Leng et al., 2023) 和 PAI (Liu et al., 2024b);以及基于 steering 的干预方法,如 VISTA (Li et al., 2025),代表了该领域的主要范式。所有 Baseline 方法的结果均在相同的评估设置下复现,以确保公平比较,尽可能使用作者公开提供的代码。
评估基准。为了严格评估 RUDDER,作者采用了一组专门针对幻觉问题的基准测试,以及一套全面的通用多模态能力基准测试。
• 幻觉基准测试(Hallucination Benchmarks)。作者直接使用两个标准基准来衡量目标幻觉(object hallucination):
(1) CHAIR(Rohrbach et al., 2019):图像相关性 caption 幻觉评估基准(Caption Hallucination Assessment with Image Relevance),用于评估开放式图像描述任务中的幻觉现象。作者报告两个指标:
该指标衡量句子 Level 的幻觉率;以及
该指标衡量目标 Level 的幻觉率。两个指标得分越低,表示性能越好。按照既定协议,作者从 MSCOCO 2014(Lin et al., 2015)验证集随机选取 500 个样本,使用 Prompt 词“Please help me describe the image in detail”进行评估,最大生成长度为 512 个 token。
(2) POPE(Li et al., 2023b):基于投票的目标检测评估(Polling-based Object Probing Evaluation),通过针对性的“是/否”问题(如“图像中是否存在?”)来检测目标幻觉。性能通过在 MSCOCO 2014 子集的随机(random)、流行(popular)和对抗性(adversarial)划分上的准确率(accuracy)和 F1 分数进行衡量。
• 通用能力基准测试。为验证作者的幻觉缓解方法不会损害模型的整体能力,作者采用 MME(Fu 等,2024),这是一个具有挑战性的基准测试,用于评估模型在多种任务上的表现,包括颜色感知、计数和定位等,以全面考察其多模态能力。
实现细节。作者在一个包含100张MSCOCO 2014图像的预留验证集上优化超参数,以平衡生成质量与幻觉减少。各模型的具体配置如下:对于LLaVA-1.5,作者将注入层设置为
,Beta门控参数为
,
。对于Idefics2,作者采用
,
,
。由于InstructBLIP的Q-former架构在中层至深层注入时效果较差,因此将其注入层设为
,
,
。在所有模型中,门控的集中参数
固定为1,输出被限制在区间
内。这些设置定义了作者主要的自适应方法——RUDDER-Beta;而作者的固定强度消融实验RUDDER-Add则采用恒定的注入强度,等于各模型对应的
,且不使用自适应门控。
4.2 幻觉基准测试结果
4.2.1 CHAIR:开放性图像描述生成
在评估开放式描述中幻觉现象的 CHAIR 基准测试中,RUDDER 展现出强大的能力,能够在保持描述质量的同时显著减少事实性错误。
在幻觉抑制中面临的一个关键挑战是与召回率之间的权衡:过于激进的引导策略可能会通过生成过于简单的描述来人为降低幻觉得分。为了确保评估的公平性与实用性,作者限定分析范围为那些召回率至少保持原始模型(vanilla model)95%的配置(即,Recall {evaluated methods} \smash { \frac { 1 } { 3 } 0 . 9 5 \times { \mathrm { R e c a l l } \_ { - } } { } {vanilla model})。
Image
在该约束条件下,RUDDER-Beta 在所有测试的 LVLMs 和解码策略中均持续优于原始 Baseline ,如表1 所示。其在句子级(CHAIR
)幻觉上实现了平均相对减少
,在物体级(CHAIR
)幻觉上实现了平均相对减少
。
与VCD和DoLa等强 Baseline 方法相比,yinqin-Adaptive在两个指标上均表现更优。此外,RUDDER-Beta的表现与当前最先进方法VISTA相当,并且平均而言能更显著地减少物体 Level 的幻觉现象(CHAIRI)。
RUDDER-Beta 在减少 CHAIRI 方面比
更为有效,凸显了其精准性。作者将其归因于逐 Token 门控机制(token-wise gating mechanism),该机制能够选择性地增强视觉不一致或内容名词 Token 上的修正,同时对已正确 Anchor 定的 Token 基本保持不变。这使得 RUDDER 能够优先抑制目标 Level 的幻觉,而不会降低整体描述质量与召回率。
4.2.2 POPE:视觉问答(Visual Question Answering)
Image
从开放式的图像描述任务转向更具约束性的任务,作者接下来在 POPE 基准上评估 RUDDER 的物体探查能力。该基准通过针对性的“是/否”问题测试模型的事实性,为幻觉问题提供了不同的评估视角。在此设置下,RUDDER 再次展现出具有竞争力的性能。如表2 所示,RUDDER 在所有测试模型上均持续优于原始 Baseline 模型以及大多数竞争方法。具体而言,RUDDERBeta 在 LLaVA1.5、Idefics2 和 InstructBLIP 上分别提升了
个百分点(pp)的准确率,以及
pp 的 F1 分数。
值得注意的是,RUDDER-Beta 在 LLaVA-1.5 和 Idefics2 上均取得了最高的 F1 分数和准确率,超越了诸如 VISTA 等强大的基于引导(steering-based)方法。尽管在 InstructBLIP 上采用贪婪解码(greedy decoding)和核采样(nucleus sampling)时,其性能略逊于 VISTA,但 RUDDER 依然表现出极强的竞争力,凸显了其作为减少物体幻觉(object hallucination)的通用解决方案的有效性。
4.2.3 自适应与固定强度转向的分析
RUDDER中的一个关键设计选择是使用自适应门控(RUDDER-Beta)还是固定强度注入(RUDDER-Add)。作者的实验表明,这两种变体之间存在明显的权衡,应根据具体任务和模型架构来决定选择。
在复杂的开放式生成任务(CHAIR)中,RUDDER-Beta 始终表现更优。其逐 Token (tokenwise)的精确性对于抑制长文本中的特定幻觉至关重要,同时不会损害整体召回率。而在更简单的二分类任务(POPE)中,两者之间的差异则更为微妙。尽管 RUDDER-Beta 在 LLaVA-1.5 和 Idefics2 上仍保持最佳性能,但 RUDDER-Add 表现同样出色,甚至在 InstructBLIP 上超越了 RUDDER-Beta。作者推测,这部分是因为 InstructBLIP 的 Q-Former 提供了高度压缩的视觉表征,在简单设置下对统一的引导信号具有良好的响应性。对于单 Token 的“是/否”回答,固定强度引导带来的强烈推动在某些模型架构下可能已足够,甚至更具优势。
综上所述,RUDDER-Beta 适用于复杂任务中稳健且精确的控制,而更简单的 RUDDER-Add 则是受限任务及特定模型架构下的强大选择。
4.3 在综合基准测试上的结果
Image
为确保幻觉缓解不会损害模型的通用多模态能力,作者在 MME 基准上对 RUDDER 进行了评估。结果表明,RUDDER 在有效减少幻觉的同时,未牺牲所测试 LVLM 的整体性能。如表3 所示,对于 Idefics2 和 InstructBlip,RUDDER-Beta 和 RUDDER-Add 的 MME 得分均高于原始模型。在 LLaVA-1.5 上,RUDDER 的得分略低于原始模型,但差异仍在可接受范围内。
4.4 效率测试
Image
RUDDER 的一个关键优势在于其计算开销低,使其在实际部署中具有可行性。与许多需要额外前向传播且显著增加延迟的最先进干预方法不同,RUDDER 设计为在单次生成过程中完成操作。作者对 RUDDER 与原始模型及其他方法的实用延迟和吞吐量进行了测量,结果如表4 所示。所有实验均在单个 Nvidia A100 GPU(80 GB VRAM)上进行,批量大小固定为 1。RUDDER-Beta 相较于原始 LVLM 的平均吞吐量保持在
。而 RUDDER-Add 更为高效,因为它跳过了 Beta Gate 的计算。相比之下,需要额外前向传播的竞品方法效率显著下降。以 VISTA 为例,其平均吞吐量仅为原始模型的
。
Layer CHAIRs & CHAIRi @
,
(a) 在
,
时的层消融实验。中间到晚期层(
)最为有效;
时取得了显著的性能下降。
4.5 消融研究
Image
作者使用 CHAIR 基准对 Idefics2 进行消融研究,以分析关键超参数:注入层
、最大引导强度
以及门控敏感度
。首先,作者确定了最优干预层,发现对于 Idefics2 模型而言,Layer 28 是最有效的,如图3a 所示。聚焦于该层后,作者进一步调优超参数
和
。图3b 至 3d 中的热力图揭示了一个核心权衡:增加引导强度
能有效降低 CHAIR 得分,但代价是召回率下降。门控敏感度
并未表现出简单的线性趋势,而是在此权衡中起到了关键的调节作用。最终,作者发现 Idefics2 的最佳平衡点位于
且
。其他模型的消融结果见附录 B.2。
4.6 案例研究
附录B.3的定性分析展示了RUDDER的有效性。案例研究显示,RUDDER不仅消除了原始模型输出中存在的物体幻觉,还生成了更为保守的内容。通过避免原始模型自信但错误的断言,RUDDER提升了模型的整体可靠性。
5 结论与局限性
在本工作中,作者提出了 RUDDER,一种低开销的推理时干预框架,通过两项关键创新缓解了大型视觉语言模型(Large Vision-Language Models, LVLMs)的幻觉问题:一是零成本的 CARD 向量(zero-cost CARD vector),该向量从模型自身的残差更新中提取每样本的视觉证据;二是自适应 Beta 门(adaptive Beta Gate),以原则性的方式对每个 token 应用具有可调强度的校正信号。
实验结果表明,RUDDER 在 CHAIR 和 POPE 等基准测试上实现了与当前最先进方法相当的性能,同时计算开销可忽略不计,有效解决了常见的一致性-效率权衡问题。RUDDER 为提升 LVLMs 在真实场景中的可靠性提供了一种实用且高效的方法。RUDDER 的主要局限在于对超参数较为敏感,需针对每种模型架构进行调优。未来工作可聚焦于自动化超参数优化,以增强其鲁棒性并简化部署流程。
参考
[1]. ADAPTIVE RESIDUAL-UPDATE STEERING FOR LOWOVERHEAD HALLUCINATION MITIGATION IN LARGE VISION LANGUAGE MODELS
