备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
近期的研究表明,集成视觉模态后的视觉-语言模型(VLMs)对有害请求和 Jailbreak 攻击变得更加敏感,其脆弱性大于仅包含文本的大语言模型(LLM)基础架构。为了探索这一现象的根本原因,作者进行了深入分析,并识别出一个关键问题:多模态输入导致激活偏移朝着比仅文本模态更“安全”的方向发展,从而使得 VLMs 系统性地高估了有害输入的安全性。
作者将这一问题称为安全性感知失真。为了减轻这种失真,作者提出了一种无需训练的方法——ActivationShiftDisentanglement 和校准(ShiftDC),该方法分解并校准了由多模态输入引起的激活偏移,以减少对安全性的模态影响。通过隔离并移除与安全性相关组件,ShiftDC 重置了 LLM 基础架构的固有安全对齐,同时保留了 VLM 的视觉-语言能力。实验证明,ShiftDC 显著提升了在安全性基准上的对齐性能,而不损害模型的实际应用价值。
- Introduction
视觉语言模型(VLMs)的发展 标志着一个重大突破,使得视觉和文本信息的无缝整合成为可能,从而增强多模态理解能力。然而,大多数VLM架构中常见的视觉模块常常会牺牲模型的安全对齐性,相比其底层的语言模型主体。例如,基于Vicuna-13B大语言模型构建的LLaVA-1.5-13B,当有害内容通过图像而非文本 Query 传达时,在MM-SafetyBench(Liu等,2025)上的攻击成功率(AsR)增加了28.36%。
本工作旨在开发一种仅限推理的方法,将VLMs内在的防御机制——这些机制主要在纯文本场景下有效——扩展到视觉语言输入中,同时保持模型的功能性和辅助性。为此,理解视觉模块如何影响VLMs的安全对齐机制是一个关键前提。相关研究表明(Liu等,2024d;Guo等,2024),添加视觉模态会导致VLM激活空间的分布偏移,从而降低其区分安全与不安全请求的能力。尽管如此,导致这一现象的具体机制仍然 largely 未被探索。
在本研究中,作者首先探讨了大语言模型(LLM)的激活空间,以理解图像输入如何促使这些模型遵循恶意指令的情况,如图1所示。作者进行了系列分析,并总结了以下关键发现:
(1) 在纯文本场景中,大语言模型的 Backbone 网络能够有效识别不安全的输入,但当引入图像时,视觉语言模型(VLM)难以区分安全和不安全的输入。
(2) 视觉语言输入的激活与相应的纯文本输入有所偏离,表明视觉模态导致了激活偏移。
(3) 对于视觉语言输入而言,无论是不安全还是安全的激活大多落在由纯文本大语言模型推导的安全边界“安全”一侧。这表明激活偏移包含一个被称为安全相关偏移的成分,该成分将激活移动到一个看起来更加安全的位置。
(4) 不安全请求的激活向“安全”一侧偏移得越明显,这些请求就越有可能绕过VLM的安全机制。
这些观察表明,增加视觉输入会导致一种激活转移,可以分解为两个部分:与安全性相关的转移,这会扭曲请求对VLM感知的安全性,使其误判不安全的输入为安全,并最终回复不安全的命令;
与安全性无关的转移,这捕获了有意义的视觉语义和其他模态特有的性质,这些性质与安全性方向正交。受此启发,作者提出了一种激活转移分解和校准方法(ShiftDC),该方法在推理过程中将图像作为输入时,可以去除与安全性相关的转移同时保留与安全性无关的转移。通过去除与安全性相关的转移,这种方法使激活恢复到其适当的安全相关位置,从而使预对齐的大语言模型 Backbone 网络的防御机制能够正常工作。通过保留与安全性无关的转移,重要的视觉语义和其他模态特定的信息得以保留并正确 Anchor 定。此外,ShiftDC 是一种仅在推理阶段使用的技术,只需少量数据且无需额外训练。
通过在两个VLM安全基准测试、两个视觉推理实用基准测试以及五个不同的VLM上进行实验,作者证明ShiftDC显著提高了VLM的对齐能力,而不会牺牲其总体性能。作者希望这些发现能够激发提高VLM安全对齐的新视角。
总之,作者的主要贡献如下:
-
作者实证研究表明,引入视觉模态使激活朝着更安全的方向变化,这是导致安全对齐退化的一个关键因素。
-
作者提出了一种名为ShiftDC的简单、有效且高效的方法,用于分离和校准VLM的激活,以恢复安全对齐。
-
实验结果表明,ShiftDC增强了VLM的安全对齐,使其能够达到甚至超越其大语言模型Backbone的表现,同时保持视觉推理能力。
-
Related Work
视觉语言模型的牢笼破解攻击。研究表明,视觉输入的连续性和高维度特性使得视觉语言模型(VLMs)更容易受到对抗性攻击的影响。通过优化设计用于触发有害响应的对抗图像,可以实现对VLMs的“牢笼破解”(Niu et al., 2024; Qi et al., 2024)。例如,imgJP(Niu et al., 2024)针对未见过的 Prompt 和图像优化了一种通用扰动以生成目标响应。多项研究进一步评估了VLMs在对抗图像面前的鲁棒性。与基于扰动的方法不同,其他方法直接在图像中嵌入高风险内容,使用生成模型或字体样式。不同场景下VLMs对恶意图像输入的脆弱性已在的研究中进行了评估。FigStep(Gong et al., 2023)进一步表明,在图像中嵌入旨在引发步骤响应的文本 Prompt 会增加VLMs产生有害输出的风险。作者主要关注揭示VLMs为何对视觉输入脆弱,并探索减轻这种脆弱性的方法。
VLM 逃逸防御。针对 VLM 逃逸的防御方法通常涉及使用基于人类反馈的强化学习(RLHF)或监督微调对专门的安全相关数据集进行微调。其他方法则结合使用训练分类器或微调后的防御大语言模型(Pi 等,2024),以检测和修正有害输出。然而,这些方法资源密集且高度依赖于标注数据的质量。此外,它们的安全能力往往受限于培训数据所涵盖的具体领域。仅限推理的防御措施克服了这些限制。AdaShield(Wang 等,2024)通过迭代细化 Prompt 词来帮助 VLM 仔细审查图像内容并利用大语言模型防御者拒绝不安全请求。ECSO(Wang 等,2024)将视觉内容转换为文本,重新激活大语言模型主干固有的对齐机制。然而,这些方法要么因迭代 Prompt 词生成而耗时,要么由于防御性 Prompt 词或视觉细节丢失而导致帮助性和推理能力下降(Ding 等,2024)。
理解视觉语言模型囚笼攻击的机制。很少有研究探讨图像模态如何影响VL模型的行为并促使它们遵循有害指令。VLGuard(Zong等人,2024)表明,视觉语言模型安全性能下降是由视觉语言微调过程中的灾难性遗忘和有害指令调优数据集中有害内容的存在引起的。然而,多项研究表明,在VLM微调后的LLM主干网络中,其安全性下降的程度远小于其原始未微调版本(Guo等人,2024;Luo等人,2024)。
FigStep(Gong等人,2023)显示,嵌入在图像中的逐步指令排版是有效的,因为安全和不安全的排版表示相互混杂,使得区分变得困难。这一观察结果也在Liu等人(2024d)、Gu0等人(2024)的研究中有所报道。在此基础上,CMRM(Liu等人,2024d)提出了去除图像融入对隐藏状态的影响以恢复安全对齐的方法。ETA(Ding等人,2024)表明,LLM主干网络与离散文本嵌入对齐,这解释了为什么连续视觉嵌入能够绕过安全机制。将连续Token映射到离散Token显著降低了不安全率。尽管前景乐观,但仍不清楚添加图像如何以影响安全的方式改变VLM激活空间,以及如何从由模态诱导而对实用性和帮助性至关重要的效应中分离出这种安全影响。
- Preliminaries
视觉语言模型(Vision Language Models, VLMs)。VLMs 是一种自回归文本生成模型,能够处理文本和图像,作为从输入空间到输出空间的映射
:
,其中
表示词汇集,
表示图像空间,
和
分别表示输入和输出文本的tokens数。VLM
的输入包括一个文本 Prompt
和一张图像
。给定
,VLM
会逐个token地生成输出序列
。
安全相关的数据集构建。作者构建了视觉语言数据集
,其中包含有害和无害的指令。在每个输入
中,图像与文本 Prompt 在语义上相关。此外,作者通过将每个样本
中的图像替换为其图像描述c,创建相应的纯文本数据集
,从而生成形式为
的配对。这些描述由视觉语言模型
生成,其中
为指令:“根据请求,描述图像”。因此,这两个数据集的样本(即
及其相应的纯文本版本
)包含相似的语义信息,主要区别在于模态。图2展示了这些数据集的样本示例,进一步的构造细节详见附录A。
激活和方向。令
表示在第
层的 VLM 中最后一个 Token 的残差流激活,它代表了截至第
层处理过的输入
的信息。作者定义函数 ActMean 来计算给定数据集
中第
层的最后一个 Token 的激活均值。
各种研究表明(Ca0等人, 2024; Arditi等人, 2024; Park等人, 2024; Marks和Tegmark, 2023),在大语言模型的激活空间中,高级概念可以表示为线性方向。通过计算模型处理两组对比指令
和
时的平均激活值之差,可以识别这些方向,这两组指令分别引发不同的行为。
结果生成的
被称为差值均值向量,描述了从数据集
到
层
激活变化的方向和幅度。该向量有效地隔离了驱动两种指令集下模型行为差异的关键特征。
- How Do Vision-Language Inputs Distort Safety Perception?
先前的研究表明,将恶意输入从文本转换为图像显著削弱了视觉语言模型(VLMs)的安全对齐性(Liu等人,2025;Gong等人,2023)。为了探究这一现象的根本原因,作者在LLaVA-1.5-7B(Liu等人,2024c)和MiniGPT-4-7B(Zhu等人,2024)两种广泛使用的VLMs的激活空间上进行了系列实验。作者的发现揭示了安全感知失真的问题:与单纯的文本输入相比,图像-文本输入导致激活值发生变化,从而使VLMs过分乐观地认为其输入安全,具体表现如下。
观察1:视觉语言模型在区分安全和不安全的视觉语言输入方面存在困难。近期的研究工作(Lee等,2024;Rimsky等,2024)发现,对安全性对齐的大语言模型能够在其激活空间中识别出不安全的请求。为了检查整合视觉输入后的视觉语言模型是否仍然具备类似的感知安全性能力,作者通过线性分类器检测模型的激活。给定一个包含标注为“安全”或“不安全”的指令的数据集
,作者为每一层
训练一个分类模型
,用于预测给定时刻
的激活
所对应的指令是安全的还是不安全的。
作者在两种设置下开展了二分类安全实验:(1)在仅文本的数据集
上进行训练和测试;(2)在视觉-语言数据集
上进行训练和测试。
和
均采用4:1的比例进行训练和测试划分。
图3展示了通过检测VLMs每一层的激活值来评估安全分类的准确性。对于Both LLaVA-1.5-7B和MiniGPT-4-7B来说,基于文本数据集
训练的二元分类器在中间层的测试集中达到了约90%的准确率,而基于
训练的分类器在测试集上的准确率仅约为65%,几乎与随机猜测相当。这些结果表明,虽然LLM Backbone 网络能够区分安全和不安全的纯文本输入,但VLMs在处理视觉-语言输入时存在困难。这表明,在
中,安全和不安全的数据激活值是可以线性分开的,但在
中,即使在较深的层,安全和不安全的数据激活值仍然是混合交织在一起的。
观察2:视觉模态引起了激活的变化,导致VLMs错误地感知指令更为安全。从图3(左)中作者还发现,当安全分类器在仅文本输入
上进行训练并在视觉-语言输入
上进行测试时,中间层的准确性下降到约60%,相较于在原始仅文本测试集
上的测试,准确率下降了约30%。为了理解这一下降的原因,图4显示了相应的混淆矩阵。结果表明,大约95%的安全指令和大约70%的不安全指令被分类为“安全”,这表明有明显的高估视觉-语言输入安全性倾向。
为了可视化这种转变,如图5所示,作者将第15层激活投影到二维空间,并突出三个关键点:(1) 仅文本数据集●
和●
的数据集以及仅视觉-语言数据集●●
和●●
的激活明显分离,表明引入图像模态使激活远离了为LLM主干优化的原始分布。这与(Liu等人,2024d)的研究观察相符。(3) 大部分来自视觉-语言数据集
的样本,包括恶意指令的样本,落在由
推导出的安全边界(红色线条)的“安全”一侧,表明为了恶意指令添加图像会使它们的激活朝向更安全的一侧。这解释了为什么在
上训练的分类器经常错误地将
样本分类为“安全”,不论它们的真实标签如何。
观察3:激活的增加性偏向“安全”方向与绕过VLM安全机制的概率更高相关。为了研究激活安全性错感知的程度如何影响VLM中的安全违规概率,作者特别分析了安全性相关的激活偏移。为此,作者通过对比仅文本良性数据集
和有害数据集
,使用方差差异(如公式(2)所示)来提取激活偏移量。
其中,Dusafe → Drare 表示从不安全指令到安全指令的激活转移,称为与安全性相关的转移。作者通过对比仅基于文本的数据集来识别这一转移,因为在观察1中显示了这些数据集的激活在安全性方面具有更好的线性可分性。
作者还计算了引入视觉模态引起的激活变化。考虑到输入是否成功突破了VLM,作者将有害的视觉-语言数据集
划分为两个子集:
,该子集成功绕过了安全机制;以及
、
、
和
、
。基于这些细粒度的安全指令分类,作者遵循公式(2)推导出以下由模态引起的激活变化。
作者计算每个模态诱导变化与安全变化之间的余弦相似度,即cos
,以量化视觉模态对安全的影响。数值越大表明由于视觉输入而导致的激活变化越倾向于安全侧。图6报告了这些余弦相似度,并且给出了相应视图-文本不安全指令集的攻击成功率(ASR)。结果显示,余弦相似度与ASR之间存在明显的正相关关系:当模态诱导的变化更接近安全变化时,ASR会增加,使得输入更可能绕过VLM的安全机制。具体而言,对于实现100% ASR的
,其对应的模态变化Dsucs → Dsueces与安全变化的余弦相似度最高(大于0.7);相比之下,具有0% ASR的
导致的余弦相似度最低(小于0.2)。此外,
显示出正向的ASR和余弦相似度,这表明即使空白图像-尽管其语义内容极少-也能促使激活趋向于安全侧,暗示这种变化源自视觉模态本身而非特定图像内容。
Remark. 这些观察表明,在输入指令中加入图像会引发激活空间的显著变化,这一变化被称为模态诱导偏移。这一偏移包括一个“更安全”方向的成分,称为与安全性相关的偏移,导致多模态模型错误地将不安全的指令识别为安全的,从而绕过了其安全机制。
- Rectifying Safety Perception Distortion
以往为了减轻VLMs中的安全性退化问题,通常需要做出权衡。后训练方法(Zong等,2024)需要精心设计的数据集和大量的计算资源。基于防御性 Prompt 的方法(Wang等,2024)往往会使模型过于谨慎,以至于降低了其对良性指令的帮助性。将图像转换为描述(Gou等,2025)虽然可以触发LLM主干网络的内在安全机制,但也有可能丢失视觉细节,比如颜色、纹理和物体布局,从而减小模型的实用性。
目标与动机。在本研究中,作者旨在提高视觉语言模型(VLM)在推理阶段的安全性,同时保持其视觉信息和模型的有用性。具体而言,在应用作者仅限推理的干预措施后,期望VLM能够:
(1) 保留对视觉语言输入安全性感知的能力,使得LLM主干网固有的安全机制能够得到正确激活;
(2) 保留由视觉模态引入的模态特定信息(例如视觉语义),从而维持VLM的视觉理解能力。
作者通过利用在VLMs激活空间中的发现来实现这些目标。如第4节所述,VLMs的安全对齐退化与其安全感知失真有关:视觉输入引发了一种模态诱导的激活偏移,这种偏移包含了一个与安全性相关的内容,导致VLMs将不安全的要求误判为安全,并破坏其安全防线。因此,作者通过Activation Shift Disentanglement and Calibration(ShiftDC)来纠正安全感知失真以恢复VLMs的安全对齐,详见图7。
解构模态引起的激活位移。观测2与观测3表明,视觉-语言输入
趋于朝着“更安全”的方向扭曲模型激活,相较于仅文本输入
。理想情况下,仅改变模态(例如,在图像存在的情况下与文本相比的内容)不应该引入任何相关安全性的位移。因此,为了允许VLMs在处理视觉-语言输入时不对感知安全性造成扭曲,必须从激活空间中隔离出与安全性相关的变化成分(例如,具体到模态本身)与无关的变化成分。
为了实现这一目标,作者提出如下方法来解耦由模态引起的激活偏移。在模型推理过程中,给定一个视觉-语言输入
,作者首先通过将其图像替换为其描述生成其纯文本版本
,如第4节所述。它们在第
层的最后一个Token的激活表示为
和
。作者可以计算给定输入的模态引起的激活偏移如下(即图7中的蓝色箭头):
为了隔离其安全相关的组件,作者需要在激活空间中识别出安全方向。幸运的是,这一方向已在公式(4)中预先计算,并将其概念简化为
(即图7中的黄色箭头)。
的安全相关组件通过将其投影到
上获得。
如观察3所述,该组件会导致不安全的视觉-语言输入被误认为是安全的,因此应将其移除以校准激活偏移。
校准激活偏移。通过将安全相关组件解耦为
,作者从激活偏移
中剔除它,以获得校准后的偏移(即图7中的红线)。因此,作者对视觉-语言输入的原始激活进行了如下干预:
标定的平移代表了通过引入视觉模态所获得的期望的安全无关效果。因此,视觉-语言输入
的激活被校准为
(即图7中的黄色圆圈),并将这些激活传递给 VLM 后期层以减轻安全相关的偏移。
作者提出的解耦然后再校准的策略可以解决激活偏移的问题,并提供了增强VLM安全性的多项优势:(1) 保持模型的实用性——该策略仅移除了与安全性相关的组件,而保留了模型处理视觉输入的能力;(2) 维持模型的辅助性——通过利用大语言模型固有的安全性机制而不施加额外的筛选过程,这种方法避免了让模型变得过于谨慎;(3) 提高效率——该方法相较于标准推理仅增加了两次额外的前向传递,确保了可承受的计算开销。
- Experiments
6.1. Models and Baseline Methods
作者将在五种开源视觉语言模型(VLM)上将ShiftDC与最近的推理时VLM防御框架AdaShield(Wang等,2024)和ECSO(Gou等,2025)进行比较:LLaVA-1.5-7B(Liu等,2024c;a)、LLaVA-1.6-34B(Liu等,2024b)、MiniGPT-4-7B(Zhu等,2024)、ShareGPT4V-7B(Chen等,2024a)以及Qwen-VL-7B(Bai等,2023)。
6.2. Main Results on Safety
评价指标。为了评估在防御框架下监狱突破攻击的有效性,作者衡量攻击成功率(AsR),定义为有害响应的数量占总输入 Query 数量的比例。较低的ASR表明防御措施对抗攻击更为 robust。作者参照(Liu等,2025;Wang等,2024)的方法,通过检查响应中是否包含附录C中预定义的拒绝关键词来分类有害响应。
安全基准测试。作者在MM-SafetyBench(Liu等,2025)和FigStep(Gong等,2023)基准上评估了VLMs响应的安全性。MM-SafetyBench针对13种常见禁止场景评估了VLM的安全性。每个 Query 以三种输入格式表示:(1) 稳态扩散图像(SD);(2) 字型图像(OCR);(3) SD与OCR组合图像(SD+OCR)。FigStep则通过重新表达有害指令来鼓励模型逐项生成答案,并使用字型将其转换为图像。
评价结果。对于MM-SafetyBench,在所有VLMs的13种场景中,平均检测率如表1所示,而表2则列出了使用LLaVA-1.5-7B在其中8种场景上的检测率结果,参考文献(Gou等,2025)。表3展示了不同VLMs在FigStep上的检测率结果。完整结果详见附录D。
大多数VLM的Backbone在处理视觉-语言输入时表现出高的抗攻击率(ASR)。虽然SD图像只会轻微提高ASR,但基于字型的攻击(OCR与FigStep)则非常有效。应用ShiftDC后,所有VLM和攻击类型的ASR显著降低,这证明了其在重新激活安全对齐和防御攻击方面的有效性。ShiftDC还优于ECSO和AdaShield,突显了其激活校准的有效性。
6.3. Main Results on Utility
ShiftDC 设计的目的是不牺牲 VLM 的视觉效用,因此该模型也进行了效用基准的评估。
实用性基准。实验在流行的多模态语言模型(VLM)实用基准MME和MM-Vet上进行,这些基准评估了VLM的基本能力。MME通过问题 Level 的准确率和图像 Level 的准确率
来评估性能(要求两个问题都正确)。MM-Vet需要生成开放式响应,并根据所有样本的平均GPT-4评分(范围为0到1)进行打分。详细信息参见附录A。
评价结果。表4展示了所有视觉语言模型(VLMs)在MME和MM-Vet基准上的实用性评分。在这些基准上,ShiftDC的表现与原始模型相当,并且优于其他baseline模型。这表明ShiftDC成功地通过在激活空间中保持模态变换来保留了视觉推理的实用性。
6.4. Does ShiftDC Truly Correct Safety Perception?
ShiftDC 消除了视觉模态引起的激活安全偏移,使大语言模型能够准确识别不安全指令。为了评估其效果,作者测量了在应用 ShiftDC 后,每种视觉语言模型 (VLM) 对 LLaVA-Instruct-80k(安全数据集)和 MM-SafetyBench(不安全数据集)进行二分类安全准确率。在这里,作者将每种 VLM 视作一个分类器来判断输入是否安全,相关细节见附录 C。不同模型的分类准确率展示在图8(左)。作者也提供了仅文本输入的准确率以及未应用 ShiftDC 之前的准确率作为参考。应用 ShiftDC 后,图像-文本输入的准确率显著提高,达到了与仅文本输入的准确率相当的水平,这符合预期。
作者还通过图8(右)可视化了在应用ShiftDC后LLaVA-1.5-7B的激活情况。该可视化显示,不安全和安全的图像-文本指令的激活现在是可以区分开的,这与图5中以前混合的状态相反。此外,大多数不安全的图像-文本激活正确地位于由纯文本激活推导出的边界的“不安全”一侧,这表明ShiftDC按预期工作。
6.5. Does ShiftDC Cause False Alarms on Safe Datasets?
为了确保ShiftDC在良性指令上仍能保持VLM的帮助性,表5报告了在应用ShiftDC后,ShiftDC在MME、MM-Vet以及从LLaVAInstruct-80K中抽样的指令上的误分类率(良性样本被错误分类为有害样本)的变化情况。由于这些数据集完全是良性且不会触发有害响应,因此任何检测到的危害都应被视为误报。结果显示,ShiftDC在大多数情况下很少增加误分类率,这表明它能够保留良性指令在其正确安全位置的激活状态。
6.6. Mechanism of How Defensive Prompts Work
AdaShield 通过在输入中添加一个防御性 Prompt ,引导 VLM 在响应之前彻底分析图像和指令。基于防御性 Prompt 的方法已被证明存在拒绝良性请求的风险。作者从激活转移的角度分析了基于防御性 Prompt 策略的机制,特别是 AdaShield(Wang等,2024)。
对于每一层,作者计算激活值移位对比有无防御性 Prompt 的输入,并计算其与安全相关的移位
的余弦相似度。图9显示,无论是安全数据集还是非安全数据集,在大多数层中都呈现出负的余弦相似度,这表明防御性 Prompt 会一致地将激活值推向非安全侧。虽然这种方法有助于VLM正确识别出非安全的输入,但它会导致安全输入被误分类为非安全并遭到拒绝。相比之下,ShiftDC使用与安全性相关的方向作为 Anchor 点,确保激活值不会过度偏向非安全侧,从而有效解决了这一问题。
6.7. Inference Efficiency
作者在表10中报告了ShiftDC和ECSO(Gou等,2025)在MM-SafetyBench和MME上的所有输入的平均推理时间。ShiftDC相比于Backbone增加了推理时间,因为它需要进行两次额外的前向传播以获得图像描述和输入激活。然而,第二次前向传播更快,因为它不需要自回归文本生成,只需提取激活即可。相比ECSO,ShiftDC的推理时间增加较少,因为ECSO需要完成两次完整的自回归生成以进行响应安全性检查和图像描述。
- Conclusion
在本研究中,作者展示了视觉模态会导致激活转移,从而降低VLMs的安全性。这种转移使得激活向比纯文本输入更为“安全”的方向偏移,扭曲了VLMs的安全感知。
为了解决这一问题,作者提出了一种名为ShiftDC的简单而有效的方法,以分离出该转移中的相关和无关的安全组件。通过去除相关安全的组件,ShiftDC恢复了安全性对齐,同时保留了视觉推理的功能。实验结果在多个开源VLMs和基准上的表现证明了其显著提高安全性的效果。
参考
[0]. Understanding and Rectifying Safety Perception Distortion in VLMs .