中科院联合多所高校提出 AdvLoRA | 通过数据增强，攻击检测等对抗模型攻击，提高模型安全性和鲁棒性！ - 文章 - 开发者社区

picture.image

视觉-语言模型（VLMs）是人工通用智能（AGI）的一项重要技术。随着AGI的快速发展，安全问题成为VLMs面临的最重要挑战之一。在本文中，通过大量实验，作者展示了传统适应方法的脆弱性，这可能会带来重大的安全风险。

此外，随着VLMs规模的增大，在VLMs上执行传统的对抗性适应技术会导致高昂的计算成本。为了解决这些问题，作者提出了一种名为AdvLoRA的基于低秩适应的参数高效对抗适应方法。

首先，作者探究并揭示了VLMs对抗适应过程中的内在低秩性质。与LoRA不同，作者通过设计一种基于参数聚类和参数对齐的新型重参化方法，提高了对抗适应的效率和鲁棒性。

此外，作者还提出了一种自适应参数更新策略，以进一步提高鲁棒性。通过这些设置，作者提出的AdvLoRA减轻了和高资源浪费问题。大量实验证明了AdvLoRA的有效性和高效性。

在诸如人脸识别，医疗分析和自动驾驶等各个领域，存在重大的安全威胁。如图1所示，作者在MSCOCO 和MSR-VTT 数据集的自然数据和被攻击数据上进行了VLMs的适应实验。从这些实验结果中，作者发现模型在受攻击的数据上的平均性能下降了大约30.98%。为了解决这个问题，提出了各种技术，通过数据增强，攻击检测和对抗训练来对抗攻击。

作为最有效的防御策略，对抗训练通过在挖掘的对抗性例子上重新训练模型，增强了VLMs的对抗鲁棒性。

picture.image

1 INTRODUCTION

随着VLMs规模的增大，用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来，由于在调整大规模预训练模型方面的显著成功，参数高效微调（PEFT）技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs，并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功，但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1）防御性能有限和2）计算和存储成本高昂。为了验证作者的观点，作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中，作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外，LoRA、LP和Aurora对对抗攻击并不鲁棒。

picture.image

为了解决这些问题，作者旨在开发一种名为AdvLoRA的参数高效对抗适应方法，以有效和高效地提高VLMs对抗攻击的鲁棒性。首先，与LoRA类似，作者揭示了VLMs对抗适应过程中的内在低秩性质。其次，作者使用一种新型的重参化技术改进了LoRA。具体来说，作者将LoRA的秩视为聚类中心的数量，并使用聚类算法从VLMs的权重矩阵中重参化LoRA。权重矩阵被解耦为聚类中心和聚类分布矩阵。随后，作者对它们的乘积施加约束，使其与原始权重矩阵的参数分布对齐。此外，作者设计了一种自适应参数更新策略，以进一步提高鲁棒性。通过这些设置，作者有效地促进了VLMs的对抗适应。本文的贡献总结如下。

作者通过实验展示了不同适应方法的VLMs在面对对抗攻击时的脆弱性。
作者探究并揭示了视觉-语言模型对抗适应过程中的内在低秩性质。
作者提出了一种名为AdvLoRA的新型参数高效对抗适应方法，包括参数聚类、参数对齐和自适应参数更新。
作者首次引入了视觉-语言模型的对抗适应。大量实验证明了作者提出方法的有效性和高效性。

2 Related Work

Vision-Language Models

视觉-语言模型（VLMs）已经在解决多种视觉-语言下游任务中取得了成功，包括跨模态检索[25, 34, 108]和跨模态生成[9, 83, 84, 88]。通过利用大规模多模态数据和自监督训练，VLMs学习跨模态的语义关联并在各模态间建立了一个通用的多模态表示子空间，因此它可以被视为解决跨模态任务的基础模型。VLMs的架构通常由三部分组成：文本编码器、图像编码器和多模态融合模块。文本编码器编码文本数据，通常采用诸如词嵌入[38, 71]、BERT[17, 64]和GPT[81, 82]等结构。另一方面，图像编码器编码视觉数据，通常采用如CNN[35, 39]、Fast R-CNN[14, 26, 64]和ViT[38, 41, 42]等结构。多模态融合模块通常基于 Transformer 架构[93]，可以分为三种形式：基于编码器[42, 64, 81]、基于解码器[84]和基于编码器-解码器[100]。得益于编码器和解码器架构的优势，基于编码器-解码器的VLMs可以在跨模态理解和生成任务上实现更好的性能，例如BLIP[41]。在本文中，作者探讨了BLIP的对抗鲁棒性。最近，随着大型语言模型（LLMs）的成功，研究行人开始探索如何通过整合LLMs来增强VLMs对多模态数据的理解。例如BLIP-2 [40]，Flamingo [4]，LLaVA [48, 49]，Qwen-VL [8]等。

Parameter-efficient Tuning on VLMs

参数高效调优技术首次被提出，旨在减轻在预训练模型适配过程中沉重的训练和存储成本。适配是一种帮助预训练模型解决下游任务的有效方式，通常发生在预训练模型执行特定任务时，该任务相关的数据分布与训练数据不同。然而，随着视觉语言模型（VLMs）规模的增大，传统的适配技术如FFT效率低下且成本高昂[99, 103, 109]。近期，受到自然语言处理[16, 32, 33, 45, 53, 110]和计算机视觉[7, 37, 85]领域方法的启发，为VLM设计的一些方法被提出，这些方法旨在通过引入极小的可学习参数来适配冻结的VLM以解决下游任务。尽管可学习参数较少，但其效果可以等于甚至超过全参数调优的效果。这些方法可以严格分为三种类型：基于 Adapter [24, 119]的、基于提示[65, 105, 115]的以及基于LoRA[3, 15, 18, 31, 69, 74, 80, 98, 112, 114]的。基于LoRA的方法由于其可学习参数更少、无需额外输入、不增加额外推理延迟而受到了相当大的关注。在本文中，作者从聚类的角度探讨了基于LoRA的VLM方法。

Adversarial Robustness on VLMs

一些研究行人已经证明，包括VLMs在内的人工神经网络容易受到人类无法识别的攻击[10, 44, 113]。特别是，向输入中添加额外的扰动可以使VLMs以高置信度做出错误的决策。为了提高VLMs的对抗鲁棒性，大多数研究工作集中在数据增强[10, 102]和对抗训练[23, 68]。作为一种最有效的方法，对抗训练通过在训练过程中注入对抗性输入，并通过最小-最大公式化[23, 68]，可以提高VLMs的对抗鲁棒性。然而，由于需要更新的巨大参数，将对抗训练应用于VLMs是成本高昂的。据作者所知，TeCoA[68]是迄今为止唯一使用参数高效调整技术来提高VLMs对抗鲁棒性的对抗训练方法。然而，TeCoA专注于单一模态的下游任务（图像分类），并且尚未在跨模态任务中进行研究。在本文中，作者探索基于LoRA方法的对抗训练，并尝试以低成本提高VLMs在跨模态任务中的对抗鲁棒性。

Clustering Algorithm

聚类是一项基本但具有挑战性的任务，旨在以无监督的方式将样本分组到分离的簇中。得益于挖掘未标注数据的能力。在早期阶段，提出了各种传统聚类方法[19, 30, 86, 87, 96]。例如，经典的-Means聚类[30]通过迭代更新簇中心和簇分配来分组样本。近年来，受到深度学习惊人性能的启发，深度聚类[6, 43, 46, 72, 79, 89]已成为一个快速发展的研究领域。例如，Xie等人提出了DEC[104]，通过深度学习执行聚类。具体来说，他们首先通过在样本上执行-Means聚类来初始化簇中心，然后使用Kullback-Leibler散度聚类损失[104]优化聚类分布。此外，IDEC[29]被提出以通过从潜在嵌入重构原始信息来改进DEC。另外，JULE[107]被提出通过迭代学习数据嵌入和聚类分配来进行聚类。同样，DeepCluster[11]也根据聚类分配依次更新深度网络。此外，一个名为SwAV[12]的在线方法对数据进行聚类，并保持来自同一图像不同视图产生的聚类分配之间的一致性。在DINO[13]中，采用了动量编码器来减轻表示崩溃。此外，Qian提出了SeCu[78]，通过设计一个稳定的簇判别任务和一个新的难度感知聚类标准。除了图像数据，深度聚类也广泛应用于图[54, 55, 56, 57, 58, 59]、文本[2, 36, 51, 90]和推荐[60]。然而，参数聚类相对较少。值得利用聚类的无监督学习能力将参数分离到不同的簇中。

3 Method

在3.1节中，作者首先定义了跨模态检索。随后，针对视觉语言模型（VLMs）对抗攻击的脆弱性，作者在3.2节中引入了一个对抗训练模块，以提高模型的对抗鲁棒性。最后，为了减轻对抗训练的高昂成本，作者在3.3节中提出一个适配模块，该模块在保持视觉语言模型对抗鲁棒性的同时，减少了对抗训练的开销。

Task Definition

任务定义部分的开始。

3.1.1 Cross-Modal Retrieval

跨模态检索旨在利用一种模态的信息来从另一种模态中检索语义上相关的内容。作者选择跨模态检索作为作者的基准任务，因为它能有效评估VLMs中跨模态表示学习的效果。在对抗性攻击下，跨模态检索作为评估模型是否能够学习鲁棒特征表示的有效指标。

以图像到文本检索为例，给定一个图像，其语义表示用于计算与文本数据库中每个文本表示的余弦相似度，如下所示。

其中表示从文本数据经由文本编码器提取特征后得到的语义表示。然后作者选择相似度最高的文本数据作为检索结果。在对抗性攻击下，鲁棒的VLMs能够学习语义不变的 feature 表示，以至于不会被小的扰动误导。

Adversarial Training Module

广泛的实验表明，如图1和附录所示，通过PEFT方法适应的VLM及其变体都容易受到对抗性攻击。因此，在本小节中，作者设计了一个对抗性训练模块，以提高VLM的对抗性鲁棒性。作者首先介绍对抗性攻击的概念，然后介绍对抗性训练作为一种有效的防御技术，用于增强对抗性鲁棒性。

3.2.1 Adversarial Attack

对抗性攻击是一个添加到自然图像上的张量，，其目的是使模型做出错误的决定，如下所述。

其中表示范数，而表示值的限制值，通常设置为小于。因此，对抗性攻击对人类来说是不可感知的。在本文中，作者关注对视觉数据的对抗性攻击，因为对自然语言的攻击容易被人类感知。因此，对视觉数据的攻击在实际中具有重要意义且更具挑战性。具体来说，作者使用PGD [67]生成如下。

其中表示反向传播梯度的符号值。此外，是每次迭代的步长。而将的每个值剪辑到小于，并且当任何维度的值超过时返回。表示迭代过程。通过这种方式，可以欺骗模型做出错误的决定。值得注意的是，对于视频数据，作者将其视为图像的集合，并通过随机稀疏采样[101]攻击20%的帧。

3.2.2 Adversarial Training

对抗训练技术指的是在受攻击的数据上重新训练模型，这可以学习在对抗攻击下语义不变的特征。对抗训练旨在最小化以下目标。

其中表示模型的参数。

Adaptation Module

尽管对抗性训练可以有效增强视觉语言模型（VLMs）的对抗鲁棒性，但它需要基于梯度信息更新所有参数，导致巨大的成本开销。为了缓解这个问题，在本小节中，作者提出一个适配模块，在LoRA上执行对抗性训练以减少可学习参数的数量，实现了参数高效的对抗适配。作者首先简要介绍LoRA，然后介绍聚类重参化和参数对齐方法，以及一种自适应参数更新策略，以促进对抗适配。

3.3.1 LoRA

LoRA通过更新两个附加在冻结预训练权重上的低秩矩阵来实现参数高效的适应。具体来说，给定预训练权重，以及LoRA矩阵和，输入通过以下计算处理以得到输出如下。

其中。而和的初始化如下。

其中表示高斯分布。

在适应过程中，是固定的，而和通过梯度下降方法进行更新。在作者提出的模型AdvLoRA中，作者冻结，仅通过对抗性适应来更新和，以使模型获得以下对抗鲁棒性。

作者的模型遵循常规实践，将LoRA同时整合到BLIP中的注意力模块和前馈网络中。

3.3.2 Reparameterization and Adaptive Parameter Update

AdvLoRA与其他类似LoRA方法的主要区别在于矩阵的参数化过程。在原始的LoRA中，采用随机高斯初始化，而初始化为零，因此在适应过程的开始时为零。相比之下，作者的模型AdvLoRA，在预训练模型的权重矩阵上进行初始聚类，将LoRA的秩视为聚类中心的数量。具体来说，给定一个权重矩阵和秩，作者首先随机初始化个聚类中心。然后，对于的每一列，计算到每个聚类中心的距离，并将分配给最近的聚类，如下所示。

然后通过计算分配给每个聚类的所有数据点的平均值来更新聚类中心，如下所示。

其中是指分配给簇的的列集合。重复上述步骤，直到簇中心不再显著变化或达到最大迭代次数。通过这种方式，作者获得了簇中心嵌入和距离分配矩阵，其中每个元素表示与簇中心之间的距离。距离分配矩阵可以使用以下公式计算。

而簇中心表示矩阵就是如下所示的簇中心矩阵。

在参数聚类之后，聚类分配矩阵和参数中心可以表示原始 LoRA 方法中的和。通过这些设置，作者为 LoRA 中的可调参数提供了更好的重新参数化。它将参数分离到不同的簇中，这些簇在整个网络中具有不同的功能。

在获得矩阵和之后，作者进一步对它们的乘积施加约束，使其与原始权重矩阵的参数分布对齐，如下所示。

通过这种方式，作者可以保证在训练开始时 AB 的零初始化。

在模型对抗性适应过程中，作者设计了一个自适应更新参数，以促进模型自适应学习鲁棒的语义表示，如下所示。

其中是一个可学习的神经网络参数，它可以在对抗性适应过程中控制适应速率。总之，作者在算法1中描述了AdvLoRA的整个工作流程。

picture.image

算法1 在VLMs上的AdvLoRA工作流程。

4 Experiment

以下是第4节实验部分的开始部分。

Experimental Setup

实验设置部分开始。

4.1.1 Datasets

作者全面评估了作者所提出的模型AdvLoRA在两种检索任务和四个常用数据集上的表现，以展示AdvLoRA在跨模态理解任务上的卓越性能，包括图像-文本检索：Flickr30K [120]和MSCOCO [118]；以及视频-文本检索：DiDeMo [116]和MSRVTT [122]。更多细节可见附录。

4.1.2 Baselines

作者比较了AdvLoRA与由BLIP实现的常规适应方法：完全微调（BLIP-FFT）、线性检测（BLIP-LP）；以及在BLIP上的PEFT方法：LoRA（BLIP-LoRA）、Aurora和Uniadapter。更多细节请参见附录。

4.1.3 Metrics

作者采用召回率@k作为作者的评价指标，其中表示在前个检索结果中考虑的条目数。这个指标以百分比形式表示。

4.1.4 Implementations

作者的实现基于Salesforce的开源代码库[41]。按照[119; 121]的做法，作者也采用BLIP[41]作为所有任务中的视觉语言基础模型。作者使用PyTorch在NVIDIA V100 GPU（32G）上实施所有实验。对于视频文本检索任务，作者遵循Wei等人[101]的工作，采用一种攻击策略，即稀疏采样20%的视频帧。此外，作者还采用了BLIP的设置，使用动量编码器来增强作者模型的检索性能。为确保公平比较，动量编码器也应用于其他 Baseline 方法。作者使用带有权重衰减的AdamW[62]优化器。作者提出的AdvLoRA的排名是第10。注意，在微调过程中，基础模型的参数保持冻结。更多训练细节可在附录中查看。

Vulnerability to Adversarial Attacks

在本节中，作者对BLIP及其通过PEFT方法适配的变体进行了对抗性攻击，以研究它们对这类攻击的脆弱性。具体来说，作者对两个任务在四个数据集上的 Baseline 模型执行了PGD-3攻击，然后评估它们在对抗性攻击下的表现。图1简单说明了模型对抗对抗性攻击的脆弱性，而表1和表2展示了详细的数据。其他数据集上的完整结果在附录中提供。通过大量实验，作者得出以下关键结论。

picture.image

通过不同方法适配的BLIP对对抗性扰动非常敏感。如表1和表2所示，无论使用的方法是全程微调还是PEFT，都观察到了30.98%的性能下降。这一现象可以归因于传统的VLMs和适配技术无法从数据中有效学习语义不变特征。

Performance Comparisons

在本节中，作者在两个跨模态检索任务上对提出的AdvLoRA和五个 Baseline 方法进行了比较分析，并使用了四个数据集。具体来说，作者对所有方法基于PGD-3 [67] 攻击进行了对抗性适配，然后评估它们在对抗性攻击数据和自然数据条件下的性能。

首先，对于图像-文本检索，作者在Flickr30K和MSCOCO的对抗攻击数据上进行了实验，结果分别展示在表4和表3中。从这些实验中，作者得出两个重要结论如下：

picture.image

在对抗性适配后，面对对抗性攻击时，AdvLoRA优于所有其他 Baseline 方法。特别是在MSCOCO上，AdvLoRA比所有其他PEFT方法高出12.17%，比FFT高出2.47%，而使用的可调整参数大约是FFT的1/100。
AdvLoRA在大数据集上展示了增强的对抗性鲁棒性，突显了PEFT方法在提高模型对抗性攻击鲁棒性方面的显著潜力。具体来说，在相对较小的数据集Flickr30K上，各种 Baseline 方法在对抗性适配后的性能相当，并未显示出显著增强的鲁棒性。然而，在较大的数据集MSCOCO上，FFT实现了相当的对抗性鲁棒性，但仍然落后于AdvLoRA。这些结果不仅归功于AdvLoRA在聚类重参化和参数对齐方面的设计，也表明随着适配数据的增加，对抗性适配的有效性有所提高。

其次，对于视频-文本检索，作者在Didemo和MSR-VTT数据集的对抗攻击数据上进行了实验，结果分别展示在表6和表5中。作者从图像-文本检索中得出以下两个结论：

picture.image

AdvLoRA在视频数据上实现了出色的对抗性鲁棒性，超过了所有其他 Baseline 方法。在DiDeMo中，AdvLoRA在使用的参数数量仅为Uniadapter的1/7时就略微超越了它。在MSR-VTT上，AdvLoRA将模型的对抗性鲁棒性提升了39.16%，并且显著超过了其他 Baseline 方法。

表2：在MSR-VTT上的脆弱性实验。“TR”和“VR”分别代表文本到视频检索和视频到文本检索。

表3：在MSCOCO上的对抗性实验。星号(*)表示已进行对抗性适配。最佳结果以粗体显示，次佳结果以下划线标出。

AdvLoRA在大数据集上展示了更好的对抗性鲁棒性。具体来说，在相对较小的数据集DiDeMo上，各种 Baseline 方法在对抗性适配后的性能相当，鲁棒性提升并不显著。然而，在较大的数据集MSR-VTT上，Uniadapter方法实现了相当的对抗性鲁棒性，但仍然劣于AdvLoRA，并且使用了多出7倍的参数。这样的结果归功于AdvLoRA在聚类重参化和参数对齐方面的设计。这表明随着适配数据的增加，对抗性适配的有效性有所提高。

第三，作者在四个数据集的自然数据上进行了实验，表7展示了MSCOCO的结果。其他数据集上的完整结果在附录中提供。从这些实验中，作者得出一个重要结论如下：

picture.image

对抗性适配可以降低模型在自然数据上的性能。例如，通过比较表7和表1，可以发现除了LP和LoRA之外，所有其他模型在对抗性适配后性能都有所下降。然而，AdvLoRA方法在MSCOCO上仍然取得了有竞争力的结果。这可以归因于AdvLoRA学习语义不变特征表示的能力。LP和LoRA性能未下降的原因可能是因为它们对对抗性适配的敏感性较低，导致适配过程无效。正如表3所示，LP和LoRA在对抗性适配后并未获得增强的对抗性鲁棒性。

Ablation Study

在本节中，作者对AdvLoRA进行了消融研究，以证明在Dideno上所提出的聚类重参化、参数对齐和自适应参数更新策略的有效性，结果展示在图3中。作者得出以下结论。

picture.image

所提出的技术，包括聚类重参化、参数对齐和自适应参数更新，是有效的。此外，正如图3所示，当这些方法集体应用时，模型实现了最优的对抗鲁棒性。

Adaptation Efficiency and Storage Cost

在本节中，作者对与AdvLoRA相关的适应效率和存储成本进行了分析和比较。表8展示了相对的训练GPU小时数和GPU内存成本，其中FFT的时间（或内存）被作为一个单位。以下是可以得出的结论：1) 就时间开销而言，AdvLoRA并没有显著优势，但它优于Aurora和FFT。值得注意的是，基于在线权重分解的模型，如Aurora，在适应过程中的时间需求比FFT要长。相比之下，AdvLoRA由于只需要完成一次离线聚类重参化和参数对齐就可以适应，因此具有较小的时空开销。2) 在内存开销方面，AdvLoRA超过了Aurora和FFT。由于Aurora更重的在线分解，其内存成本再次高于FFT。3) 总的来说，在没有对训练时间和内存施加任何额外限制的情况下，AdvLoRA可以被认为是一种出色的对抗性适应方法，用于增强VLMs的对抗鲁棒性。

picture.image

Hyperparameter Sensitivity Analysis

在本节中，作者对Flickr30K上的AdvLoRA的秩大小进行了敏感性分析。作者为秩设置了一系列值，分别为8、10、16、32和64，结果如图4（a）所示。AdvLoRA对秩大小不敏感，这使得作者可以根据需要选择适当的秩以降低适应成本。

picture.image

Loss Convergence Analysis

表5：在MSR-VTT上的对抗性实验。星号（*）表示已进行对抗性适配。最佳结果以粗体显示，次佳结果则被划线。

在本节中，作者在Flickr30K上对AdvLoRA和LoRA进行了收敛性分析实验。结果展示在图4（b）中。通过分析实验结果，作者可以得出以下结论。1）在对抗性适配过程中，AdvLoRA相较于LoRA显示出更优的收敛性，实现了显著降低的损失水平。2）AdvLoRA比LoRA更有效地加速了对抗性适配的收敛。这些效率和有效性可以归因于聚类重参化、参数对齐以及自适应参数更新策略的设计。## 5 结论

在本文中，作者旨在减轻视觉-语言模型（VLMs）中的安全风险。首先，作者通过大量实验展示了在对抗性攻击下，VLMs和各种适配方法所存在的脆弱性。此外，随着VLMs规模的增加，简单地将传统的对抗性适配方法应用于VLMs容易导致1）对抗鲁棒性不佳和2）巨大的参数和训练成本。基于这些动机，作者提出了一种名为AdvLoRA的参数高效对抗性适配方法，该方法包含参数聚类、参数对齐和自适应参数更新。大量实验证明了AdvLoRA的有效性和效率。这一结果揭示了在对抗性适配过程中出现的内在低秩特性。作者提出的技术，包括聚类重参化和参数对齐，对于促进适配过程起到了关键作用。因此，作者在AGI更广泛的背景下为该领域的研究行人提供了新的研究视角。

然而，在本文中，作者仅使用简单的PCD-3进行对抗性攻击。在未来，采用更具挑战性的攻击并进一步优化适配过程中的内存和计算预算是值得的。

Acknowledgments

这项工作得到了中国科学技术部资助，项目编号为2020AAA0108401，以及国家自然科学基金的资助，项目编号分别为72225011和72293575。请注意，郑小龙是本文的通讯作者。

Appendix A Datasets


        
          
Flickr30K [120] contains 31,783 images and 158,915 captions in total. Each image is often annotated with 5 captions. Following the split in Uniadapter [119] and Aurora [121], we use 1,000 images for testing, another 1,000 for validation, and the rest for training.  
MSCOCO [118] is a large dataset containing 123,287 images and 616,435 captions. Each image is annotated with 5 captions. Following the split in Uniadapter [119] and Aurora [121], we use 5,000 images for testing, another 5,000 for validation, and the rest for training.  
Didemo [116] contains 10,000 videos and 40,000 annotations. Following Frozen in Time [117], we concatenate all descriptions corresponding to the same video into a single sentence to conduct actual video-paragraph retrieval task.  
MSR-VTT [122] is a popular video-text dataset. It contains 10,000 videos and 200,000 captions. Following the split in Uniadapter [119] and Aurora [121], we use 1,000 videos for testing, another 9,000 for training.


        
          
Flickr30K [120] 总共包含31,783张图像和158,915条字幕。每张图像通常带有5条字幕。遵循Uniadapter [119]和Aurora [121]的划分方式，作者使用1,000张图像进行测试，另外1,000张用于验证，其余的用于训练。  
MSCOCO [118] 是一个大型的数据集，包含123,287张图像和616,435条字幕。每张图像都带有5条字幕。遵循Uniadapter [119]和Aurora [121]的划分方式，作者使用5,000张图像进行测试，另外5,000张用于验证，其余的用于训练。  
Didemo [116] 包含10,000个视频和40,000条标注。遵循Frozen in Time [117]的方法，作者将相同视频的所有描述拼接成单个句子，以进行实际的视频-段落检索任务。  
MSR-VTT [122] 是一个流行的视频-文本数据集。它包含10,000个视频和200,000条字幕。遵循Uniadapter [119]和Aurora [121]的划分方式，作者使用1,000个视频进行测试，另外9,000个用于训练。

Appendix B Baselines

BLIP-FFT是一种传统的适应技术，通过在下游任务中重新训练并更新全部参数，来提高BLIP在特定下游任务上的性能。 BLIP-LP是一种适应技术，它涉及在冻结的预训练模型BLIP之上添加并训练一个线性层，以适应特定的下游任务。 BLIP-LoRA是一种参数高效微调（PEFT）技术，通过引入低秩 Adapter 来捕捉任务特定信息，实现对下游任务的高效适应，同时最小化可调整参数的更新。 Uniadapter[119]是第一种基于 Adapter 的参数高效跨模态适应PEFT技术。 Aurora[121]是一个参数高效的跨模态迁移学习框架，它使用模式近似来生成最小的可调整参数集，实现轻量级多模态适应。

Appendix C Hyperparameter Setting

作者将在表9中展示超参数设置。

picture.image

LoRA可能是因为它们对对抗性适应的敏感性较低，导致适应过程无效。

表10. 对Flickr30K的脆弱性实验。"FFT"和"LP"分别表示全微调和线性检测。"Nat"和"Att"分别代表自然图像和受到对抗攻击的图像。"TR"和"IR"分别代表文本到图像检索和图像到文本检索。

picture.image

表9. 超参数设置

表11. 对Didemo的脆弱性实验。"TR"和"VR"分别代表文本到视频检索和视频到文本检索。

picture.image

Appendix F Case Study

在本节中，作者在图5中进行了MSR-VTT的案例研究。可以观察到，AdvLoRA在对抗性攻击下实现了鲁棒的检索性能。

picture.image

参考

[1].AdvLoRA: Adversarial Low-Rank Adaptation of Vision-Language Models.

​中科院联合多所高校提出 AdvLoRA | 通过数据增强，攻击检测等对抗模型攻击，提高模型安全性和鲁棒性！

1 INTRODUCTION

2 Related Work

Vision-Language Models

Parameter-efficient Tuning on VLMs

Adversarial Robustness on VLMs

Clustering Algorithm

3 Method

Task Definition

3.1.1 Cross-Modal Retrieval

Adversarial Training Module

3.2.1 Adversarial Attack

3.2.2 Adversarial Training

Adaptation Module

3.3.1 LoRA

3.3.2 Reparameterization and Adaptive Parameter Update

4 Experiment

Experimental Setup

4.1.1 Datasets

4.1.2 Baselines

4.1.3 Metrics

4.1.4 Implementations

Vulnerability to Adversarial Attacks

Performance Comparisons

Ablation Study

Adaptation Efficiency and Storage Cost

Hyperparameter Sensitivity Analysis

Loss Convergence Analysis

Acknowledgments

Appendix A Datasets

Appendix B Baselines

Appendix C Hyperparameter Setting

Appendix F Case Study

参考

中科院联合多所高校提出 AdvLoRA | 通过数据增强，攻击检测等对抗模型攻击，提高模型安全性和鲁棒性！