简单、高效的域泛化扩散采样方法 ED-SAM ，以提升视觉语言基础模型的泛化能力！

点击下方卡片，关注「AI视界引擎」公众号

picture.image

视觉语言基础模型最近在各类感知学习任务中表现出色。视觉语言模型的卓越性能主要依赖于大规模预训练数据集和各种数据增强技术。

然而，视觉语言基础模型的域泛化问题需要解决。这个问题限制了视觉语言基础模型对未知数据分布的泛化能力。

在本文中，作者提出了一种新的简单而高效的域泛化扩散采样方法（ED-SAM），以提升视觉语言基础模型的泛化能力。

作者在这项工作中的理论分析揭示了扩散模型在视觉语言基础模型域泛化中的关键角色和关系。然后，基于深入的分析，作者引入了一种新的简单而有效的传输变换到扩散采样方法。

它能够有效地生成对抗样本，以提高基础模型对未知数据分布的泛化能力。

在不同规模的视觉语言预训练数据集上的实验结果，包括CC3M、CC12M和LAION400M，一致地显示了与其它近期方法相比，所提出的ED-SAM方法在性能和可扩展性方面的优势。

1 Introduction

图1：作者提出的基于扩散的域泛化方法与先前方法[75; 88; 39]的比较。

picture.image

基于对比学习训练的视觉-语言基础模型，如CLIP[60]所示，因其在各种任务上的出色表现而受到越来越多的关注。尽管视觉-语言基础模型在各类下游视觉任务上显示出优势，但很少有研究探讨它们的泛化能力。同时，基础模型的泛化能力仍然主要依赖于大规模的预训练数据集。尽管已有许多先前研究[20; 26; 83; 42; 45; 87; 3; 78; 5]引入了域泛化方法用于分类[34; 83; 75; 2; 41]，检测[74; 43]，语义分割[88; 35; 10; 29]，但很少有研究解决视觉-语言基础模型中的域泛化问题。

尽管在大型数据集上进行了训练，但视觉-语言基础模型的泛化能力必须得到考虑，因为这是保证模型在面对未知数据分布时性能的关键因素。迫切需要域泛化方法用于基础模型训练，以确保最佳性能和泛化能力。目前使用对比学习训练的视觉-语言基础模型常常依赖数据增强来提高鲁棒性并防止过拟合。

然而，这些方法对提高基础模型的泛化能力并不够有效。特别是，为了提高CLIP模型的性能，大多数先前的视觉基础模型在视觉输入上进行数据增强[39; 48; 60; 50; 31]，以增加训练样本数量并创建具有挑战性的样本。这些增强方法旨在增加数据的多样性，从而增强基础模型的泛化能力。

然而，这些视觉增强主要集中在像素级修改，如 Mask 、对抗性扰动、对抗性样式或颜色抖动，这对于丰富视觉概念的语义信息影响有限。因此，视觉-语言模型对未知数据分布的泛化能力仍然有限。

近年来，与视觉-语言模型的发展并行，扩散模型在数据分布建模和生成式AI方面表现出其卓越性能。基于非平衡热力学的扩散方法[21]，能够通过使用变分推理训练参数化马尔可夫链来建模数据分布。因此，扩散模型能够合成新颖、高质量和复杂的数据。此外，扩散模型还能够有效地建模条件数据分布，例如文本到图像的扩散[62]。受到扩散成功的启发，本文从根本上探讨了扩散模型与视觉-语言基础模型泛化能力之间的关系和作用。特别是，作者首先通过潜在空间训练域附近数据分布的最坏情况公式来建模视觉-语言基础模型的域泛化。

然后，使用拉格朗日松弛和扩散性质，作者引入了一种新颖的转换方法，通过扩散模型扩展训练数据分布，从而提高视觉-语言基础模型的泛化能力。

作者的理论分析表明，所提出的方法是鲁棒的，并且具有很好的泛化能力。与先前方法[75; 88]相比，它还具有更好的域泛化能力。

贡献：本文提出了一种新颖的基于扩散的域泛化方法，这是一种简单但有效的改进视觉-语言模型（如CLIP）泛化能力的方法，通过利用扩散模型的强大功能（图1）。特别是，首先，作者通过训练数据分布的最坏情况公式形成视觉-语言模型的域泛化问题。通过使用扩散模型建模数据条件分布，作者进一步提供了关于扩散模型与对抗性增强之间关系的完整理论分析。

其次，作者引入了一种新的简单但有效的传输转换方法到扩散采样，能够合成对抗性样本以提高视觉-语言模型的泛化能力。得益于作者提出的传输转换，作者的方法有效地扩展了训练数据分布，因此提高了视觉-语言模型对未见数据分布的泛化能力。最后，作者在不同规模的视觉-语言预训练数据集上进行了大量实验，包括CC3M、CC12M和LAION400M，显示了所提出方法的鲁棒性。作者的方法在各类基准测试上显著提高了CLIP的性能，并优于其他增强和域泛化方法。

理论分析和实证结果保证了所提出的方法简单且可扩展，并为视觉-语言基础模型的泛化能力提升做出了贡献。

2 Related Work

视觉语言基础模型对比语言图像训练已成为开发大规模视觉语言模型 [60; 31] 的突出方法。CLIP [60] 和 ALIGN [31] 首先引入对比学习来学习用于跨模态对齐的图像和文本的强大表示。CoCa [84] 提出了一个额外的解码器和生成式图像字幕。SLIP [48]，DeCLIP [40]，FLIP [39] 通过使用自监督训练技术进一步提高了性能。LaCLIP [12] 通过引入大型语言模型进行文本增强，提高了CLIP的性能。LiT [86] 和 BASIC [56] 通过进一步微调语言编码器，提高了零样本迁移能力。SimVLM [80]，OFA [77]，BLIP [37] 在编码器-解码器框架内用语言生成损失训练视觉语言模型。SigLIP [85] 提出了一种Sigmoid损失来计算图像文本相似度。

去噪扩散概率模型（DDPM）在密度估计和图像合成 [21; 62] 中取得了最先进的性能。DDPM模型定义了一个扩散步骤的马尔可夫链，逐渐向数据中添加随机噪声，并通过UNet [21] 学习反转扩散过程，从噪声中构建数据样本。后续研究通过重新加权学习目标 [33]，改进方差调度 [51]，使用蒸馏 [47] 进一步提高了性能。去噪扩散隐式模型（DDIM）[69] 被引入来通过推广DDPMs加速采样过程。

同时，潜在扩散模型（LDM）[62] 提出了一个两阶段扩散模型，其中扩散过程在潜在空间上执行。其他方法通过引入级联生成 [22]，与GANs结合 [81]，使用小波变换 [57]，引入基于动量的扩散 [11; 28] 来改进DDPMs。扩散模型还具备条件合成的能力，例如文本到图像 [62; 61; 65]，图像编辑 [32; 49]。这种条件能力可以作为显式条件 [62]，分类器引导 [52; 11; 9]，或分类器无关引导 [23] 实现。后来的研究通过引入单步扩散 [24]，主题驱动的微调 [63] 进一步提高了扩散模型。

领域泛化旨在从单一或多个源数据中学习一个鲁棒的模型，以便该模型后来能够很好地泛化到未见过的数据领域。领域泛化的一个途径是使用数据增强来提高模型的泛化能力 [39; 25]。近期研究采用了图像 Mask [39]，或通过扩散模型进行图像编辑技术或风格转换来提高目标分类，目标检测 [14]，或3D分类 [68] 的性能。领域泛化的另一个途径是通过联合优化多领域自编码器，通过正则化去除特定领域，在频域中学习来学习不变特征空间。对抗性训练已被引入，通过生成对抗性样本形成新领域来学习鲁棒模型。

对抗性数据增强（ADA）首先引入了一种通过最大最小迭代训练生成对抗性样本的方法。后来，M-ADA [59] 通过训练额外的自编码器进一步改进了ADA。其他方法通过元学习，或图像风格对抗学习使用对抗性样本来学习领域不变特征。

此外，另一种领域泛化方法通过重新设计深度神经网络或使用专家模型的集成 [1] 来提高泛化能力。据作者所知，_这些先前的研究尚未完全探讨扩散的基础对视觉语言基础模型的领域泛化的影响。因此，在本文中，作者提供了对扩散对视觉基础模型泛化能力的理论分析，然后提出了一个新的简单而有效的基于扩散的领域泛化方法._

3 Theoretical Analysis of Generalizability in Foundation Model

Preliminary

扩散模型通过逐渐去噪一个正态分布的变量来制定数据分布，该变量的反向过程是长度为的固定马尔可夫链，即，从一个高斯转移开始于。扩散模型包括前向和后向过程。前向扩散过程，即定义为：

其中是一个方差计划。然后，后向过程，即，定义为：

后向过程采用去噪模型从预测去噪变量。然后，模型通过通常的变分下界在负对数似然上学习，如下所示：

其中是的参数，，，，以及是从到均匀采样的，即。扩散模型能够建模条件分布，即，其中是条件（例如，一个文本提示）。这种能力可以通过实现一个条件去噪模型来完成。

对比语言-图像预训练（CLIP）[60] 在使用语言监督训练视觉-语言基础模型方面表现出了卓越的性能。正式地，设是CLIP模型的源训练数据，其中是图像，是相应的提示，和分别是视觉和语言编码器，和是由视觉和语言编码器分别提取的特征，即和。CLIP模型通过对比损失学习，其中图像和相应文本的配对是正样本对。CLIP模型可以表述如下：

其中是和的参数，是的负文本样本，是用于缩放逻辑值的温度系数，是用于测量特征之间距离的点积。为了简化，方程式（4）仅说明了图像上的对比损失。实际上，还会应用对文本的对称损失，并且损失是图像和文本上对比损失的均值。

Domain Generalization of Contrastive Language-Image Pre-Training

在作者的论文中，作者旨在开发一种针对CLIP的域泛化方法，该方法能够更好地泛化到新的未知数据分布。在这项工作中，作者认为CLIP的训练数据来自单一源数据[75]，即。受到鲁棒优化先前工作的启发，作者提出通过围绕源数据分布的最坏情况问题来建模CLIP的域泛化，如下所示：

其中是从中采样的图像和提示，是衡量两个数据分布和之间距离的Wasserstein度量，是距离约束，是与相距的未知数据分布，即。等式（5）旨在保证CLIP模型在面对未知数据分布时具有良好的性能。

CLIP的领域泛化在作者的论文中，作者关注CLIP的领域泛化问题，旨在提高CLIP的性能，尤其是在将其用于下游任务时，例如零样本分类、线性检测或微调。在这种学习场景中，由于目标数据分布完全未知，超参数扮演着重要角色，因为它将指示CLIP模型对新数据（或测试领域）的泛化能力。为了解决方程（5），可以采用拉格朗日乘数来改写方程（5）为：

其中是为了提高CLIP模型的泛化和鲁棒性而对应的提示的 _对抗样本_，是在方程（4）中定义的对比语言-图像预训练损失，是与成反比的超参数，是从移动到分布的运输成本。由于作者的论文旨在提高CLIP模型在下游视觉任务上的泛化能力，本工作的范围聚焦于视觉领域的对抗样本。方程（6）旨在创建增强样本，使得增强样本的分布与原始分布相距，并增加对比学习损失。然后，使用这些增强样本来潜在地提高CLIP的泛化能力。

先前工作的局限性先前的研究采用了对抗性训练 [75]，增强方法 [39]，或者对抗性风格增强 [88] 来生成对抗性/增强样本以提高泛化能力。尽管先前的结果显示了潜在的性能提升，但这些方法在将泛化能力扩展到未知分布方面仍然有限。实际上，对抗性学习 [75, 88] 尝试通过最大化损失或向图像中添加对抗性风格的方式来添加扰动。同时，增强方法通过执行启发式的像素级图像操作（例如， Mask 、裁剪、颜色抖动等）创建不同的图像变体。然而，与原始数据分布相比，先前方法 [75, 88, 39] 生成的增强样本的数据分布保持不变或变化很小。这可以解释为，尽管增强样本有不同的变化，但内容信息，例如物体外观、形状等，以及语义背景信息保持不变。例如，如图2所示，由 [75, 88, 39] 创建的增强样本的目标目标保持不变。通常，语义背景与原始图像相似，只是添加了噪声。

picture.image

The Relation of Diffusion to Adversarial Augmentation

正如前文所述，方程（6）中的对抗样本的目标是将数据样本从源训练集移动到-远离分布中的，以最大化对比语言-图像预训练损失。如方程（6）所示，样本依赖于源训练样本，文本提示以及两个分布之间的距离。因此，在作者的工作中，作者认为对抗样本是在，和条件下从-远离分布中抽取的，即。

源数据分布由于图像和是一对图像和文本，如果没有严格的论据，作者可以假设图像依赖于文本提示，即。如第3.1节所示，条件分布可以通过扩散有效地建模。令为图像的潜在变量。然后，可以通过在和条件下的扩散反向过程来建模图像，如方程（2）所示。为了简化，作者通过潜在变量将数据分布重写为。

基于扩散的对抗性增强图3展示了定义了、、、和之间关系的图形模型。该图形模型中的关系是基于对抗样本的条件和条件扩散模型的两个条件建立的。如图形模型所示，作者观察到对抗样本依赖于，而图像则依赖于。因此，为了简单起见，在没有严格论证的情况下，作者假设对抗样本等价地依赖于以下定义的：

其中是潜在空间上的传输变换。直观地说，不是在图像空间中将图像移动到新分布中的，并带有如方程（6）中的传输成本，这是一个具有挑战性的问题，作者打算通过受控制的传输函数将潜在变量移动到。由于扩散模型的潜在空间是可处理的（因为它是一个高斯分布），在潜在空间上移动到是可控的，并且比在图像空间上移动样本容易。然后，可以通过扩散模型的逆过程获得的对抗样本。得益于扩散模型 [62] 的强大功能，作者提出的方法能够合成新颖的对立样本，这些样本在保持提示的语义条件的同时，有效地用于提高训练 CLIP 模型的泛化能力。如图2所示，作者提出的方法可以用样本条件提示推广一个新样本，但图像的内容和语义背景已经发生了显著变化。这有助于在训练期间强烈扩展数据分布，以提高未知数据分布的泛化能力。

The Proposed Transport Transformation

设计满足域泛化条件的转换非常重要，即等式(5)中的，以保证在等式(5)中定义的可泛化性。由于作者的方法中数据分布在的潜在空间中移动，严格来说，通过潜在空间的域泛化条件可以写成以下形式：

在作者提出的方法中，为了满足等式(8)中定义的要求，传输转换可以定义如下：

其中是从均匀采样的可控超参数。

尽管可能存在多个满足两个分布之间距离条件的传输转换，即，但作者观察到作者在等式(9)中提出的度量提供了在潜在空间上移动样本的更好机制。

这可能是因为作者的度量能够在保持命题1中提到的重要性质的同时，通过在潜在空间中移动原始潜在向量来扩展训练数据分布。此外，通过使用受控参数在潜在空间中移动潜在向量，作者的度量可以保证与原始样本相比的语义内容信息，同时创建图像的多样化语义变化。这也鼓励扩散模型避免合成未受控潜在向量的无用随机图像。

4 The Proposed Diffusion-based Domain Generalization Training Approach

大规模基于扩散的增强样本生成正如作者的理论分析所示，生成基于扩散的对抗样本不需要与CLIP训练过程进行交替训练步骤。

作者通过实验观察到，重新训练文本到图像的扩散模型是不必要的，因为预训练的扩散模型已经在极端规模的数据集上学习得很好，能够很好地建模数据分布，并生成多样化的合成数据。因此，在作者的方法中，作者采用预训练的潜在扩散模型[62]提前生成对抗样本，以节省CLIP的训练时间。正式地说，对于每个图像及其对应的提示，作者通过以下过程通过潜在扩散模型生成个不同的增强样本：

其中和是潜在扩散模型的前向和后向过程。在训练过程中生成对抗样本将导致CLIP的训练时间更长，这是不必要的。

因此，作者提出在训练CLIP模型之前，先通过扩散提前生成对抗样本，这样更加节省时间。

基于扩散的域泛化训练图4展示了作者提出的域泛化框架。在生成步骤之后，每个真实图像都有个不同的对抗样本。然后，作者可以通过将真实样本和对抗样本一起训练来提高CLIP模型的泛化能力。正式地说，学习CLIP模型可以重写为如下形式：

picture.image

图4：提出的基于扩散的域泛化框架

实验

Datasets, Implementations, and Evaluations

数据集作者在不同的规模上对三个不同的图像-文本数据集训练了作者的基础模型：Conceptual Captions 3M（CC3M）[67]，Conceptual Captions 12M（CC12M）[4]，以及LAION400M[66]。由于硬件限制，作者的消融研究主要在CC3M和CC12M上进行。作者在ImgaeNet 1K[64]和六个常见数据集上评估作者的模型，包括STL-10[7]，Country-211[71]，Caltech-101[15]，Flowers[53]，Pets[55]，以及SUN-397[82]。

实现在作者的实验中，作者采用了OpenCLIP[6]和Latent Diffusion[62]的实现。对于CLIP模型，作者使用了ViT-B/16架构。其他网络 Backbone 的结果在附录中报告。

为了公平比较，作者的模型以与[60, 6]相似的超参数设置训练了32个周期。作者使用了32个NVIDIA A100 GPU（40GB），作者实验中的批处理大小设置为每个GPU 320。对于图像合成，作者使用文本到图像的潜在扩散模型[62]以的分辨率生成图像，使用10个DDIM步骤。

对于每个真实图像，作者生成了个不同的合成图像。分布间距离的控制参数在作者的实验中设置为0.5。由于时间和硬件限制，作者选择只使用10个DDIM生成步骤。这提供了符合可接受标准的图像质量[62]，同时在大规模数据集上保持高效的数据生成时间（例如，在32个GPU上生成CC12M的12M对抗样本大约需要7.5小时）。

评估设置在作者的实验中，作者考虑了三种不同的评估指标，即：零样本分类准确度、线性检测准确度和微调准确度。对于零样本分类，作者采用了CLIP[60]中描述的提示模板和评估协议。

对于线性检测，遵循常见的做法[60, 39, 48]，作者使用作者冻结的预训练图像编码器提取特征，然后训练一个线性分类器。为了公平比较，作者采用了[60, 6]的超参数设置。对于微调评估，作者在ImageNet 1K数据集上端到端微调图像编码器和一个线性分类器。作者从[6]采用实现和学习超参数设置以进行公平比较。

作者的绝大多数实验是在ImageNet 1K数据集上进行的。为了进一步说明作者模型的生成能力，作者还对六个不同的零样本基准STL-10，Country-211，Caltech-101，Flowers，Pets和SUN-397进行了零样本评估。

Ablation Studies

分布移动ρ的有效性表1的结果展示了分布间距ρ的有效性。当ρ的值较小时，即ρ=0.05，由于分布偏移较小，CLIP的改进也相对较小。

随后，当ρ的值从0.05增加到0.5时，性能逐渐提升。当ρ的值增加时，CLIP模型能提高其对未知分布的泛化能力。然而，如果作者继续增加ρ的值，性能趋势会下降。这是因为如果作者将在潜在空间中的新数据分布从原始数据分布（）移开得很远，由潜在扩散模型生成的合成图像在真实性和内容信息上的质量会急剧下降。作者在ρ为0.5时取得了CLIP的最佳性能。

picture.image

增强图像数量的有效性如表2所示，在ImageNet1K上评估的作者域泛化方法的性能随着对抗性图像数量的增加而逐渐提升。当作者仅使用3张对抗性图像时，CLIP模型的性能提升较小。

同时，当作者在训练过程中使用10张对抗性图像时，CLIP在CC3M和CC12M档案上训练的零样本分类性能分别达到20.33%和39.34%。当对抗性图像数量增加时，线性检测和微调的性能也显著提升。然而，如果作者继续增加图像数量，作者观察到CLIP模型的性能变得稳定。因此，为每张真实图像生成10张对抗性图像在性能和时间效率之间是一个良好的折中。

picture.image

传输变换的有效性为了说明作者的传输变换的有效性，作者将其与另一种变换进行了比较。作者定义了另一种随机变换，即从正态分布中抽取。为了公平比较，这种变换也满足的条件。然后，通过扩散模型生成图像，该模型使用，原始的时间变换显著优于LDM [62]的第一阶段的预训练VQ-VAE。如表4所示，实验结果表明，使用通过作者的传输变换生成的对抗样本，在使用重新训练和预训练的LDM两种情况下，性能都有显著提高。然而，实际上，使用预训练的扩散模型的性能优于在相应数据集上重新训练的扩散模型。这是因为预训练的潜在扩散模型在大规模数据集上进行训练，能够比在特定数据集上重新训练的潜在扩散模型更好地模拟数据分布。因此，使用预训练的潜在扩散模型不仅有利于提高时间效率，还能提升性能。

picture.image

作者对不同数据集和基于CLIP模型的域泛化效果表5展示了作者提出的方法在不同规模数据集和基于CLIP的模型（即CLIP [60]，LaCLIP [12]，和SLIP [48]）上的效果。零样本分类结果已经证明了作者提出的方法在不同数据集规模上的泛化能力。特别是，作者提出的方法在CC3M，CC12M和LAION400M上分别将CLIP的零样本结果提高了，和。通过线性检测或端到端微调进一步训练模型，显著提高了CLIP模型的性能。在ImageNet上微调后的模型分别达到了CC3M，CC12M和LAION400M上的，和。作者提出的方法不仅在不同数据集上有效，也适用于不同的基于CLIP的方法。

通过进一步使用更优的基于CLIP的训练方法（如LaCLIP或SLIP），零样本结果的性能显著提高，使用SLIP训练的LAION-400M甚至达到了。通过进一步微调SLIP模型，作者提出的方法在ImageNet1K上达到了最先进性能，即。表5的结果确认了作者的方法在训练数据集和基于CLIP的模型上的可扩展性和泛化能力。

picture.image

Comparisons With State-of-the-Art Approaches

表3：传输转换的有效性。

picture.image

在本节中，作者展示了与其它增强和领域泛化方法相比，作者方法的效果，即ADA [75]，AdvStyle [88]，以及 Mask 增强（FLIP）[39]。零样本分类表6将作者的方法与其他增强和领域泛化方法进行了比较。作者提出的方法一致地提高了零样本分类的性能。尽管 Mask 增强生成了 Mask 增强的样本，ADA [75]和AdvStyle [88]通过对抗性训练生成了对抗性样本。

然而，与基于作者扩散的方法相比，这些方法中的分布偏移仍然有限。因此，作者提出的方法显著优于其他增强和领域泛化方法。特别是，通过在大型LAION400M数据集上进行预训练，作者的模型在使用CLIP和SLIP训练时分别达到了70.11%和72.53%的零样本分类性能，这是目前最好的。这些结果表明，在提高视觉-语言模型对未知数据分布的泛化能力方面，作者具有优势。

picture.image

线性检测和端到端微调分类表6展示了作者的线性检测和微调实验的结果。与零样本分类结果类似，作者的线性检测和端到端微调结果一致地提高了CLIP [60]和SLIP [48]的性能，并且优于其他增强方法。通过在LAION-400M上进行预训练，并在ImageNet-1K上进行进一步微调，作者的训练方法达到了最先进的性能，CLIP和SLIP的准确率提高到了86.98%和87.49%。这些结果进一步证实了作者的方法在不同评估设置和预训练数据集上的有效性。

其他零样本分类基准测试表7展示了作者的方法（在LAION400M上预训练）在六个不同的零样本基准测试上的结果。作者的方法一致地提高了在所有零样本分类基准上CLIP和SLIP的性能，这展示了作者的方法对未见领域的泛化能力。得益于作者的泛化方法，视觉-语言基础模型能够更好地学习对抗数据分布偏移的视觉表示。因此，视觉-语言模型可以在后来的各种下游任务中得到很好的泛化。

picture.image

6 Conclusions, Limitations, and Broader Impact

结论：本文提出了一种新颖的基于扩散的领域泛化方法，应用于视觉-语言基础模型。在理论分析的基础上，作者引入了一种新的高效采样方法，根据作者提出的传输转换生成新的基于扩散的对抗样本，以提高视觉-语言基础模型的泛化能力。在多个基准测试上的实验结果证明了作者针对视觉-语言基础模型的泛化方法的有效性。

局限性：作者的研究选择了特定的网络配置和学习超参数来支持作者的假设。然而，由于硬件限制，其他学习方面尚未得到充分研究，例如，更大的网络规模、不同的扩散模型、更大规模的前训练数据集等。此外，更大的预训练数据集可能需要更多的时间来生成基于扩散的对抗样本。

更广泛的影响：作者的论文研究了领域泛化问题，这是提高视觉-语言基础模型泛化能力的一步。作者的贡献强调了扩散与领域泛化之间的关系，这可以后来用于提高视觉-语言模型的性能。作者的方法有助于提高基础模型在各种零样本下游任务中的鲁棒性。## 命题1的证明

命题1：_给定和 ()，如果传输转换定义为，则分布之间的距离条件成立。_

证明：该命题可以通过两个分布之间的Wasserstein距离来充分证明。由于潜在变量属于正态分布，即，通过转换得到的转换潜在变量应该属于。然后，通过Wasserstein距离测量的两个分布和之间的运输成本可以定义如下：

由于，，两个数据分布的和为，根据等式(12)定义的两个数据分布之间的距离可以重写为：

[

Additional Ablation Study

不同主干网络的有效性表8中的结果显示了作者的方法在不同主干网络中的有效性，即ResNet-50（RN50）和ViT-B/16。

通过使用更优秀的主干网络，CLIP模型的性能得到了显著提升。特别是在零样本分类基准测试中，作者在CC3M和CC12M上训练的方法的性能分别从提升到和从提升到。在进一步的微调后，两个主干网络的性能都得到了进一步的显著提升。

picture.image

Discussion of Limitations and Broader Impact

局限性在作者的论文中，作者选择了一套特定的超参数和学习方法来加强作者的假设。尽管作者提出的方法在提高视觉语言基础模型的泛化能力方面已经显示出其有效性，但它可能存在几个局限性。首先，应该在视觉语言模型中探索不同的对比学习损失选择。

其次，作者研究中并未对不同的视觉和文本编码器进行充分调查。此外，未来工作中应该研究图像生成过程中数据生成步骤中更多DDIM步骤的数量。第三，通过扩散模型进行数据生成过程需要高昂的计算资源和大量时间。此外，在作者的论文中，作者仅考虑了基于文本提示的图像。

然而，未来研究应考虑不同的条件，例如图像或目标布局、语义分割等。这些限制可能会激发新的研究，以增强基于扩散的视觉语言基础模型的领域泛化方法。

其他潜在的社会广泛影响作者的论文介绍了一种新颖的基于扩散的视觉语言基础模型领域泛化方法。作者的方法提高了基础模型在各个下游任务上的性能。

然而，作者承认，大规模扩散模型，即LDM [62]，在极端规模数据上的训练可能潜在地产生不适当的图像甚至幻觉。因此，视觉语言模型可能会意外地学习到这些信息。此外，由于数据生成过程需要高昂的计算资源和大量时间，它可能潜在地产生更高的碳足迹。

对抗样本

图5：作者的基于扩散的对立样本。每行的第一张图片是原始图像。

picture.image

图5展示了通过作者提出的运输转换与潜在扩散模型[62]生成的基于扩散的对立样本。

零样本预测的定性结果

点击上方卡片，关注「AI视界引擎」公众号

简单、高效的域泛化扩散采样方法 ED-SAM ，以提升视觉语言基础模型的泛化能力 ！

1 Introduction

2 Related Work

3 Theoretical Analysis of Generalizability in Foundation Model

Preliminary

Domain Generalization of Contrastive Language-Image Pre-Training

The Relation of Diffusion to Adversarial Augmentation

The Proposed Transport Transformation

4 The Proposed Diffusion-based Domain Generalization Training Approach

Datasets, Implementations, and Evaluations

Ablation Studies

Comparisons With State-of-the-Art Approaches

6 Conclusions, Limitations, and Broader Impact

Additional Ablation Study

Discussion of Limitations and Broader Impact