跨越域的分割精度提升，CLIP 模型在语义分割中的应用研究！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

域自适应在计算机视觉领域得到了广泛的关注，但在训练时间仍然需要访问目标数据，这在某些不常见的条件下可能难以获得。

在这篇论文中，作者提出了一种新的域自适应框架，该框架依赖于一个单一的视觉语言（VL）潜在嵌入，而不是完整的目标数据。

首先，利用对比语言图像预训练模型（CLIP），作者提出了一种基于 Prompt /照片驱动的实例归一化（PIN）方法。

PIN是一种特征增强方法，它使用单个目标VL潜在嵌入挖掘多个视觉风格，通过优化低级源特征的仿射变换。

VL嵌入可以来自描述目标域的语言 Prompt 、部分优化的语言 Prompt 或单个无标签的目标图像。

其次，作者证明了这些挖掘的风格（即增强）可用于零样本（即目标免费）和一次样本（即无监督域自适应）。

语义分割实验表明，所提出的方法的有效性，在零样本和一次样本设置中均优于相关 Baseline 。

1 Introduction

深度学习在图像分类领域的成功在过去十年中引领了一场迅速的范式转变。这场转变推动了算法的快速进化，深度神经网络（DNNs）几乎构成了现代计算机视觉方法的基础。例如，监督语义分割方法已经在提高高分辨率预测方面取得了显著成功，同时融合了多尺度处理和提高了计算效率。然而，基于DNN的方法在许多关键应用场景（如实际自动驾驶）中仍然远未达到可靠应用的程度。原因在于，基于学习的系统假设训练和测试数据是独立同分布的，然而这一假设在大多数情况下都违反了训练数据倾向于低估真实生成分布的事实。

因此，在控制环境下，当使用目标操作设计领域的数据训练分割模型时，其准确率可以满足高行业水平的预期。然而，在测试非分布数据时，这些模型往往会出现剧烈的性能下降（Ovadia等人，2019年）。

为了减轻所谓的“域转移”问题，本·戴维等人（2010）提出了无监督域自适应 Ganin等人（2016）；Sun和Saenko（2016）；霍夫曼等人（2018）；周等人（2018）；蔡等人（2018）；武等人（2019）；Vu等人（2019）等方法。这些方法的目标是利用一个源域的 Token 数据进行训练，同时利用目标域的未标注数据。

这可以减轻标注数据的负担，平均每个图像需要2到3小时。此外，现代架构可能需要大量 Token 图像。因此，UDA被视为处理域转移的标签高效的框架。

尽管表面上看起来很简单，在某些条件下收集无标签数据也可能具有挑战性。例如，在现实生活中，穿越火海或沙暴的情况很少发生且可能危险，因此捕捉这些条件并不容易。

有人可能会认为在无监督域自适应（UDA）中使用互联网图像。然而，在工业背景下，使用公共数据的做法是有限或禁止的。最近的工作旨在通过设计一次性的无监督域自适应（OSUDA）Luo等人（2020年）；吴等人（2022年）的方法，即使用一个目标图像进行训练，以更困难的数据效率设置取代标签效率。

在本文中，作者提出了一个使用单一视觉语言（VL）潜在嵌入来解决领域适应性挑战的新任务。在训练时间，作者的方法将分割模型适应于由自然语言描述（即 Prompt ）定义的领域，部分优化的 Prompt ，或单个未标注的目标图像。这使得该方法在嵌入来自 Prompt 时适用于零样本域适应，在嵌入来自未标注的目标图像时适用于一次无监督域适应（OSUDA）。

由于作者的方法利用了一个单一的VL目标嵌入，它可能来源于 Prompt 或图像，因此，当使用完全口述的目标 Prompt 时，作者称之为“ Prompt 驱动零样本域适应”（PODA）；当部分使用源图像优化目标 Prompt 时，作者称之为“PODA-概念”；当使用目标图像时，作者称之为“照片驱动的一次无监督域适应”（PIDA1）。

图1概述了作者的工作的主要目标，并给出了几个定性示例。在训练过程中没有看到任何火焰或旧电影图像，并使用语言 Prompt （即，PODA）简单描述这些条件，调整后的模型成功地将关键场景目标分割出来，错误比原始源模型少。图1还展示了当 Prompt 的一部分从源数据（即，PODA-concept）优化时，作者的框架（即，PIDA）带来的改进（例如，来自未标注的目标图像的VL嵌入），以及当 Prompt 来自源数据时，图1还展示了作者的框架带来的改进。

picture.image 作者的方法如图2所示，通过利用Radford等人（2021年）提出的CLIP模型的视觉语言（VL）连接来实现。在4000万对爬取的图像文本配对上进行训练，CLIP已经革新了多模态表示学习，为诸如图像合成、多模态融合（Jatavallabhula等人，2023年）、语义分割、少样本学习以及开放词汇目标检测（Minderer等人，2022年）等任务带来了显著的迁移能力。

picture.image 作者的工作利用CLIP潜在空间，并提出了一种简单而有效的方法，将源域嵌入转换为目标域嵌入（图2，左），通过优化低级特征的特定风格部分。这个过程可以被视为利用来自 Prompt 或图像的单个VL嵌入指导进行特征_增强_的一种特定形式。使用优化后的风格微调分割模型（图2，中）有助于减小两个域之间的分布差距，从而提高目标域上的性能（图2，右）。

本文扩展了作者的前期工作（Fahes等人，2023年），PODA，并提出了一种更一般的公式。扩展主要体现在三个方面。

(i) 作者进一步分析了PODA中相关 Prompt 的有效性，表明其来源于内容（例如，“驾驶”）和风格（例如，“夜间”）的综合描述。

(ii) 受到 Prompt 学习（Zhou等人，2022年，2022年）的启发，作者表明，而不是在 Prompt 中包含内容和风格，可以从原始数据中优化内容概念，并与文本风格（例如，“在夜间”）相结合。

(iii) 由于作者的框架只需要一个单一的VL嵌入，作者提出了PIDA，它使用未标注的图像而不是 Prompt ，从而允许适应难以用文本 Prompt 描述的条件。这些新的贡献不仅提高了原始PODA，还扩展了其应用范围。

总体而言，作者的贡献如下：

作者定义了一个新的领域自适应任务，该任务旨在仅提供一个目标域的VL嵌入，将源训练模型适应到目标域，并使用 Prompt 或图像进行演示。
不同于其他基于CLIP的方法，作者只修改特征，而不依赖像素空间中的外观。作者认为这在诸如语义分割等下游任务中特别有用，因为好的特征对分割头性能至关重要。具体而言，作者引入了 Prompt /照片驱动的实例归一化（PIN），其优化了低级源特征的仿射变换，使其嵌入与描述未见目标域的单个图像/文本条件相匹配。
作者提出了基于 Prompt 的零样本域自适应（Fahes等人，2023年）（PODA），它利用一个单一的 Prompt 来描述目标条件的内容和风格，展示了在不同场景下的性能：（i）从清晰的天气/白天到恶劣条件（雪、雨、夜间），（ii）从合成到真实，（iii）从真实到合成。
作者提出了一个名为PODA的新颖概念，该概念基于一个_概念优化_策略，以减轻使用语言描述源图像内容的需求。实验表明，当优化后的概念与视觉外观（即风格）描述相结合时，下游性能显著提高。
作者提出了PIDA，它利用单个图像的VL嵌入来适应训练好的模型。对于难以用文本 Prompt 描述的特殊视觉条件，作者证明它进一步提高了作者方法的表现。

2 Related works

无监督域自适应（UDA）。UDA文献广泛且包含不同但相关的方法：对抗学习，自训练，熵最小化，生成型自适应等。域间隙通常在输入层面，特征层面或输出层面上得到减小。

最近，One-Shot Unsupervised Domain Adaptation (OSUDA) 面临更为复杂的设置。罗等（2020）指出，在只有一个未标注的目标图像时，传统UDA方法会失败。为了降低在单一可用图像的样式上过拟合的风险，作者提出了一种基于风格挖掘算法的样式学习方法，该方法结合了风格生成器和特定任务模块。吴等（2022）介绍了一种基于风格混合和分块典型匹配（SM-PPM）的方法。在训练过程中，来自随机采样源图像特征的通道平均值和标准差线性混合与目标图像的特征。分块典型匹配有助于解决负适应问题。

在更具挑战性的零样本设置（在该设置中，没有目标图像可用）中，Lengyel等人（2021年）利用物理先验知识解决日夜域自适应问题。他们引入了一种颜色不变卷积层（CIConv），以使网络对不同的照明条件具有不变性。作者注意到，这种零样本自适应方法与作者所采用的方法正交，并且仅限制在特定类型的域间隙。

驱动的图像合成。最近，对比视觉语言预训练在多个下游任务（如零样本分类、多模态检索和视觉问答）上取得了前所未有的成功，这些任务都涉及多模态学习。这激发了社区使用文本描述来编辑图像，这一任务过去由于视觉和语言表示之间的鸿沟而具有挑战性。

例如，StyleCLIP 使用 Prompt 来优化StyleGAN（Karras等人，2019年）的潜在向量，并指导生成过程。然而，生成仅限于StyleGAN的训练分布。为了解决这个问题，StyleGAN-NADA（Gal等人，2022年）利用文本 Prompt 的CLIP嵌入来执行生成器的域适应，这在当前情况下是可训练的。

对于文本导向的风格迁移，CLIP-styler（Kwon和Ye，2022）并不依赖于生成过程。这种设置更为现实，因为它不受特定分布的限制，同时在一定程度上具有挑战性，因为CLIP潜在空间中的封装信息在优化过程中会不断变化。事实上，图像和文本表示之间没有一对一的映射，需要正则化来从文本嵌入中提取有用的信息。因此，在同一篇论文（Kwon和Ye，2022）中，一个保留内容的U-net（Ronneberger等人，2015）自编码器被优化，而CLIP潜在空间中的输出图像嵌入在优化过程中不断变化。

作者注意到，先前的研究中一个常见点是在优化过程中将像素空间映射到CLIP潜在空间。与这一方法不同，作者直接操作预训练的CLIP视觉编码器浅层特征。

Prompt 学习。受自然语言处理领域中的 Prompt 嵌入优化和自动 Prompt 生成的启发，周等人（2022年）将 Prompt 学习应用于VL模型的上下文优化，并表明在不同的图像识别下游任务中，它在小样本设置上优于 Prompt 工程。CoOp（用于上下文优化）（周等人，2022年）由可学习的向量替换 Prompt 上下文，这些向量通过使用少数 Token 支持图像最小化分类损失进行优化。在这个过程中，图像和文本编码器的权重被冻结。

随后，CoCoOp（周等人，2022年）添加了一个轻量级的神经网络，该网络预测输入相关的 Token ，并相对于CoOp提高了在未见类别上的性能。而不是学习单个 Prompt ，ProDA（Lu等人，2022年）估计输出嵌入空间中 Prompt 的概率分布，即通过多元高斯模型建模分类器权重分布来处理视觉表示的变异性。这种策略处理了视觉表示的变异性。

在这项工作中，作者使用源训练图像的嵌入来优化它们在语言空间中的共同概念。这与像Zhou等人（2022年）那样将类名固定并使用交叉熵损失以监督方式学习上下文的方法不同。作者的目标是“在文本空间中搜索”一个表示，它表达了作者源图像的元域，即假设全局上它们都具有相同的语义类（例如，驾驶场景）。

深度学习中的CNN规范化。为了加速和稳定CNN的训练，Batch Normalization (BN) 是在 (Ioffe 和 Szegedy，2015 年) 中提出的。在迷你批训练中，BN操作包括按通道对批量特征进行规范化，并应用可学习的仿射变换。具体而言，BN的读法如下：

picture.image

其中，，且分别表示批量大小、通道数、高度和宽度的特征激活；是可学习的参数；和是计算每个通道平均值和标准差的两函数，计算范围是的其余维度。具体而言，对于通道：

picture.image

是一个小正数常数，用于数值稳定性（例如，）。

BN 的有效性最初与减少内部协变量漂移相关，但后续研究则认为其在平滑优化景观（Santurkar 等，2018）中发挥了作用。Ulyanov 等人（2016，2017）证明，用实例归一化（IN）替代 BN 可以提高图像风格化。实例归一化（IN）的公式如下：

picture.image

在每个实例的每个通道上，通过对空间维度进行平均值和标准差计算：

picture.image

利用低级特征统计与图像风格之间的关系，自适应实例归一化（AdaIN） (Huang和Belongie，2017) 通过特征跨风格组件传递风格特定信息。

在AdaIN中，风格由特征的通道均值μ(f)∈R^{C}和标准差σ(f)∈R^{C}表示。用任意目标风格（μ(f_{t}),σ(f_{t}））对源特征f_{s}进行样式化，读作：

picture.image

其中μ(.)和σ(.)的定义如方程(5)和方程(6)所示。请注意，方程(7)中没有可学习的参数。

这些归一化方法，虽然具有类似的数学公式，但它们的目标各不相同。在本文中，作者提出了基于 Prompt /照片驱动的实例归一化（PIN），该方法受到AdaIN的启发，但假设没有访问和。

3 Domain Adaptation with a single VL Embedding

作者的框架如图2所示，基于CLIP（Radford等人，2021年），这是一种预训练于来自互联网的4亿图像文本对图像语言模型。CLIP同时训练图像编码器和文本编码器，以学习一个能有效桥接两个模态的表达式表示空间。在本工作中，作者使用这种双模态空间，将源域的图像嵌入向量拉近到由单个VL嵌入定义的目标域，该嵌入可能来自文本描述（即零样本）或未标注的目标图像（即一样本）。这是通过优化源低级特征的特定风格部分，这些部分最终对应于增强数据。

对于零样本学习，作者探索了两种不需要访问目标数据类型的指导：使用完整的文本 Prompt 或与优化概念相结合的文本 Prompt 。在前者中，作者探索了使用简单的一般 Prompt 来描述目标领域，例如，对于夜间领域，作者使用“夜间驾驶”作为 Prompt 。由于简单的 Prompt 可能不足以表示场景的复杂语义，作者还建议从源图像中优化一个概念，灵感来源于上下文优化（Zhou等人，2022）。

为了形成目标 Prompt ，这个概念与作者的目标描述相结合，例如，“ 在夜间”。作者的零样本领域自适应框架可以随时利用这些指导信号。

对于单次学习，作者只需用单个未标注的目标图像的嵌入来替换单一语言嵌入。因此，优化将在图像嵌入空间中进行，即由图像编码器定义的空间。后来作者发现，当目标域条件微妙且不易用言语描述时，这种设置可能会有用。

总体而言，作者的目标是优化低级源特征的仿射变换，使得这些特征的嵌入向量更接近其在目标域中的对应想象值（图2，左），同时关键地保留其语义内容。然后，可以应用学习得到的增强，以零样本/一样本的方式合成对应于目标域的特征，并随后用于微调模型（图2，中）。这最终允许在仅在训练时间通过一个 Prompt 或图像进行描述的域上进行推理（图2，右）。

作者的方法面临几个挑战：

（i）如何仅使用一个VL嵌入来针对目标域“挖掘”风格信息？

（ii）在风格挖掘过程中如何保留像素级语义（即内容）？

（iii）基于挖掘出的风格，如何将源模型适应到目标域？作者将这些问题在以下部分进行回答。

问题陈述。作者的主要任务是语义分割，即对输入图像进行像素级分类到语义分割。作者从一个类分割模型开始，该模型在 Token 的源域数据集上进行训练，其中表示图像，为其真实标注。分割器包括一个 CLIP 图像编码器（例如，ResNet-50）作为冻结特征提取器后端和一个随机初始化的像素分类头：。

作者的目标是使模型在测试目标数据集上的性能得到提高，只需要一个目标域的单一生成式嵌入信息。这可以通过访问目标嵌入实现，该嵌入可以是从使用冻结文本编码器的 Prompt 中派生，也可以是从使用冻结图像编码器的单个无标签目标图像中派生。

作者在源域上使用监督学习方法训练M进行语义分割任务。有趣的是，作者在表1中实证地表明，将特征提取器保持冻结有助于缓解对源域的过拟合风险，以利于泛化；这并非普遍的发现，这一观察仅限于作者在第4.1节中指定的实验设置。为了最小化不同训练策略在适应结果中引起的一般化效应的干扰，作者在训练源域时系统性地冻结，然后在适应时进行微调。

picture.image 从提取器中，作者移除了的注意力池头，以保留像素分类器的空间信息。作者用表示提取的中间特征激活，并用表示它们的对应 CLIP 嵌入。如图4 所示，作者说明了和的区别。

picture.image

操作如图4所示，通过的指导，扩展了的特定样式组件，将目标域的样式信息合成。作者强调，特征和具有相同的大小和相同的语义内容，尽管它们包含不同的视觉样式。在适应过程中，源特征被扩展为挖掘的样式，然后用于微调分类器，从而得到最终的适应模型。

Instance Normalization guided by single VL embedding

作者从自适应实例归一化（AdaIN）中获得了灵感（Huang和Belongie，2017），这是一种优美的方法，可以跨特征传递特定风格的组件。AdaIN在方程（7）中定义。

作者围绕AdaIN设计作者的增强策略，因为它可以通过少量参数有效地操纵样式信息。接下来，作者介绍作者的增强策略，该策略挖掘目标样式。

3.1.1 Prompt-driven Instance Normalization

在零样本设置中，作者假设没有访问目标域的任何图像。因此，在等式（7）中的和是未知的。然而，作者假设存在一个单一的自然语言文本条件（即 Prompt ）来描述目标域。因此，作者提出了一种名为Prompt-driven Instance Normalization（PIN）的方法。

picture.image

其中和是可优化变量，由驱动。

作者旨在增强源图像特征，使它们捕捉到未见目标域的风格。在这里，描述目标域的 Prompt 可以相当通用。例如，可以使用 Prompt 如 "夜间驾驶" 或 "雨天驾驶" 来使源特征更接近夜间或雨天域。

3.1.2 Concept optimization

在领域自适应中，尽管源数据和目标数据之间存在差异，它们仍然具有共同的特征（例如，“夜间驾驶”数据）。有趣的是，作者的实验表明，当 Prompt 包含描述共同特征的词（例如，在“夜间驾驶”中包含“夜间”一词）时，基于 Prompt 的适应性表现更好，尽管这需要 Prompt 工程方面的改进。为了防止这种情况，作者受到了CoOp（Zhou等人，2022c）的启发，并试图优化描述共同特征的词嵌入。尽管作者的方法在精神和原则上与CoOp相似，但在方法和实现上有所不同，因为后者需要访问目标数据及其标签。相反，作者只使用源图像和文本风格描述作为指导来优化一个概念（例如，“在晴朗的天气中”）。

在实践中，作者采用两步法应用概念优化。第一步，作者在词向量空间中定义可优化参数的概念，构建 Prompt 的形式为 <概念> + "在晴朗的天气中"。这里的 <概念> 表示可优化的参数。优化采用随机梯度下降（SGD）实现，目标如下：

picture.image

词向量通过最小化源图像表示和 Prompt 表示之间的余弦相似度进行优化。最终<概念>的值表示为。在第二步中，通过将与特定目标文本（如"在晚上"或"在雨中"）连接，构建目标 Prompt 。作者提出的概念优化的方法如图3所示。然后，作者应用PIN（Eq.（8）），尽管使用的是，即，即 Prompt 文本的词向量。

picture.image #### 3.1.3 Photo-driven Instance Normalization

在作者的框架中，只是一个引导和优化的嵌入式向量。虽然作者探索了使用文本来获取，但某些特殊的条件可能难以用这种方式描述。此外，作者的框架还允许从单个无标签的目标图像中获取 VL 嵌入。在这种情况下，作者使用目标图像的嵌入（即，）作为指导来应用 PIN（Eq. (8)）。在这个设置中，PIN 指的是光驱动实例归一化。

Style mining with PIN

在上述部分，作者描述了PIN可以利用目标 Prompt （第3.1.1节），源概念与目标 Prompt 的组合（第3.1.2节），或目标图像（第3.1.3节）来实现。现在，作者将详细说明如何挖掘一组风格。

作者在算法1中描述了特征增强过程的第一步：在目标域中挖掘样式集。对于每个源特征激活，作者希望挖掘对应于一个虚拟目标特征激活的样式统计信息。为此，作者将样式挖掘转化为一个关于原始源特征的优化问题，即在式(8)中的上优化。优化目标定义为样式化特征在CLIP潜在空间中与目标域的VL嵌入之间的余弦距离：

作者将在算法1中详细描述这一过程。

式(10)中的CLIP-空间余弦距离，已在先前的文本驱动图像编辑工作中使用（Patashnik等人，2021），其目的是使着色特征向目标VL嵌入的方向进行调整。优化过程的一个步骤如图4所示。由于目标领域可能存在多种风格，作者的挖掘方法将集填充为源图像中目标风格的各种变体，因此。

直观上，作者的简单增强策略可以被视为一种成本效益高的方法，通过从源图像产生的CLIP潜在空间中的不同 Anchor 点开始，将它们引导到目标VL嵌入的方向，从而覆盖目标域的分布。这有助于缓解在一 shots 特征增强（Luo等人，2020；Wu等人，2022）中讨论的多样性问题。

Fine-tuning for Adaptation

在适应性方面，在每次训练迭代中，作者从中随机选择一个挖掘的目标样式来对源特征进行样式化。增强的特征可以计算为，并用于微调分割器的分类器（图2，中间）。由于作者只调整特征样式，保持语义内容不变（Huang和Belongie，2017），作者仍可以使用以监督方式使用标准分割损失（即，对数损失）训练分类器。为此，作者只需将增强的特征通过的其余层以及进行前向传播。在反向传播中，只有的权重由损失梯度更新。作者将微调后的模型表示为。

算法2提出了基于VL的适应性训练的高层伪代码：从仅使用源代码的训练作为模型初始化，到VL嵌入驱动的特征增强，再到零样本/一次性的模型适应。

picture.image 在PODA和PODA-concept中，在从未在训练阶段中见过的具有条件和风格的图像上进行评估，而在PIDA中，它是在目标图像从相同数据集中采样到的验证集上进行评估。

4 Experiments

Implementation details

作者使用了DeepLabv3+架构（Chen等人，2018年）（见表1）。该架构的backbone部分采用预训练的CLIP-ResNet-50模型的图像编码器进行初始化。

仅对源数据进行训练。网络在随机生成的裁剪块上进行训练，批量大小为2，迭代200k次。对于分类器，作者使用多项式学习率调度，初始学习率；对于backbone，当未冻结时，作者使用（见表1）。优化采用随机梯度下降（SGD）（Bottou，2010年），动量和权重衰减。作者对裁剪块应用标准颜色抖动和水平翻转。

概念优化。通过对源图像进行轮随机梯度下降（SGD）优化，批量大小为，训练时间为轮。学习率设置为。

PIN优化。在风格挖掘步骤中，作者使用第一层后的源特征激活：。风格参数和是256维实向量。CLIP嵌入是CLIP-ResNet50 Backbone 的1024维向量，以及CLIP-ResNet101的512维向量。作者采用Radford等人（2021年）的Imagenet模板来编码目标描述符。对于PODA、PODA-概念和PIDA，作者使用梯度下降（GD）在具有学习率的16个特征实例批次上优化PIN，进行100次迭代。

分类器微调。从源代码仅训练的模型开始，作者在 augmented 特征的批次上对分类器进行微调，迭代次。使用多项式调度，初始学习率。作者始终使用最后一个预训练权重进行评估。

作者的数据集来源是 Cityscapes（Cordts等人，2016年），它由2975个训练图像和500个验证图像组成，这些图像包含了19个语义类别。虽然作者倾向于针对 Prompt 或图像而不是数据集进行调整，但作者需要临时数据集来进行测试。作者使用 ACDC（Sakaridis等人，2021年）报告主要结果，因为它包含在恶劣条件下拍摄的都市图像。作者还研究了作者的方法在真实到合成（以 Cityscapes 为源，并在 GTA5（Richter等人，2016年）上进行评估）和合成到真实（以 GTA5 为源，并在 Cityscapes 上进行评估）两个设置下的适用性。如果提供了验证集，作者会使用验证集进行评估，对于 GTA5 的评估，作者使用了1000个随机图像的子集。

评估协议：采用平均交并集(mIoU%)来衡量适应性表现。作者在原始分辨率的目标图像上测试所有模型。总是报告使用不同随机种子训练的五种模型平均值和标准差。

Poda

作者考虑了以下适应场景：白天到夜晚，清晰到雪，清晰到雨，真实到合成，以及合成到真实。作者在所研究的设置中报告了PODA的零样本适应结果，并与两个主要的 Baseline 进行比较：CLIPstyler（Kwon和Ye，2022）用于零样本风格迁移，以及SM-PPM（Wu等人，2022）用于单样本UDA。在训练过程中，PODA和CLIPstyler模型都没有看到任何目标图像。在本研究中，作者任意选择一个简单的 Prompt 来描述每个领域。作者在第4.2.1节中使用其他具有相似含义的 Prompt 获得更多结果，以展示作者的适应增益对 Prompt 选择的敏感性很小。对于SM-PPM，训练集中一个随机的目标图像被使用。

与CLIPstyler的比较。CLIPstyler（Kwon和Ye，2022年）是一种风格迁移方法，也利用了预训练的CLIP模型，但用于源图像的零样本风格化。作者将CLIPstyler3视为PODA的最具可比性的零样本 Baseline ，因为它们都基于CLIP，尽管有不同的机制和不同的目标。CLIPstyler专门用于风格迁移，产生的图像具有输入文本 Prompt 的特征风格。然而，风格化图像可能存在多个伪影，这会阻碍它们在下游分割任务中的使用。这在图5中可以看到，展示了CLIPstyler使用PODA目标 Prompt 的风格化示例。放大观察，作者注意到雪或游戏添加了雪地道路或Atari游戏在建筑物上的雪。

picture.image 从源代码模型开始，作者在风格化图像上微调分类器，正如PODA使用增强特征那样。表2比较了PODA与源代码模型和CLIPstyler。PODA始终优于两个 Baseline 。CLIPstyler在CityscapesNight和CityscapesSnow方面相对于源代码模型有所改进。在其他场景中，例如雨天，CLIPstyler的表现甚至不如源代码模型。

picture.image 真实合成是一个有趣但尚未充分探索的适应场景。真实合成的一个潜在应用是用于行业中的模型验证，其中一些危险的有效验证（如驾驶事故）必须在虚拟空间中进行。在这里，作者测试作者的零样本机制是否也可以应用到这种特定的设置中。同样，PODA 都超过了 Baseline 。在反向合成真实设置中，作者的方法再次表现最好。与仅使用源代码相比，CLIPstyler 在 mIoU 方面降低了约5%。

作者认为，作者的方法在引入最小更改特征统计的同时，对于目标适应性至关重要。CLIPstyler 是一种用于风格迁移的方法，它需要训练一个额外的 StyleNet，该网络有约 615k 个参数，用于合成风格化图像。作者利用 PODA 的简单性来解释为什么它在像语义分割这样的下游任务中比 CLIPstyler 有优势：最小的统计更改有助于避免特征流上的显著漂移，否则可能会导致意外的错误。相比之下，增强一个源特征需要 0.3 秒，而使用 CLIPstyler 风格化图像需要 65 秒（以一个 RTX 2080TI GPU 测量的）。

作者在图6中展示了源模型和PODA模型生成的定性预测示例。

picture.image 与单次迁移学习（SM-PPM）的比较。作者还与最先进的单次迁移学习方法OSUDA（Wu等人，2022）进行了比较， see Table 3。OSUDA设置允许访问单个未标注的目标域图像进行域适应。在SM-PPM中，这个图像被认为是对目标风格挖掘的 Anchor 点。使用5个随机选择的目标图像，作者分别用不同的随机种子训练了每个五模型。报告的mIoUs是在25个结果模型上的平均值。作者注意到两个模型的绝对结果由于backbone（SM-PPM中的ResNet-101 vs PODA中的ResNet-50）和segmentation head（SM-PPM中的DeepLabv2 vs PODA中的DeepLabv3+）的差异而不可直接比较。

因此，作者在考虑源域性能的同时，分析了每个方法相对于对应的无源域 Baseline 的改进。作者首先注意到作者的无源域（CLIP ResNet）比SM-PPM的无源域（ImageNet预训练ResNet）表现更好，证明了冻结的CLIP模型在整体上的鲁棒性。在CitiescapesACDC中，PODA相对于无源域的绝对和相对改进都大于SM-PPM。总的来说，尽管作者的方法完全是零样本学习，但PODA在SM-PPM之上表现出平行的或更大的改进。

定性结果在罕见条件下的表现。图7展示了一些在Cityscapes上训练的定性结果，以及从未在数据集中遇到的罕见条件（例如，_沙尘暴_，_火灾_，或_ 未标注的老电影_）。总的来说，PODA在仅使用源代码的情况下有所改进，这证明了其真正的优势。

picture.image #### 4.2.1 Ablation studies

选择目标领域描述作为 Prompt P，作者应该得到与PODA类似的适应增益。为了验证这一点，作者通过 Query ChatGPT（GPT 3.5）5，给出5个与[PROMPT]具有相同确切意义的 Prompt 作为表2中的 Prompt 。表4的结果显示，适应增益与文本表达相当独立。

相反，作者 Query 与[PROMPT]无关的 Prompt ，给出6个从3到6个字的随机照片描述的随机 Prompt ，这可能导致负迁移（见表4）。在某些情况下，可能会出现微小的增益；然而作者猜想，这些增益可能源于随机化的一般化，而不是适应。

picture.image 选择用于增强的特征。 DeepLabV3+分割器将作为输入从 Layer1 获取低级特征，并从 Layer4 获取高级特征。在PODA中，作者只优化 Layer1 特征（通过优化PIN），并将其传递到剩余的层2-4，以获得 Layer4 特征。分割头输入是这两个特征的连接。作者在表5中研究是否应该除了 Layer1 中的特征之外，还应增强其他特征：作者发现只增强 Layer1 性能最佳。作者推测，分类器的两个输入要保持一致，即 Layer4 特征应来自 Layer1 的增强特征。

picture.image Partial unfreezing of the backbone. 尽管作者的实验使用了一个预冻结的 Backbone 网络，因为观察到良好的泛化性能（见表1），但作者强调，在训练过程中，只有第一层（Layer1）必须被冻结，以保留进行增强操作的激活空间；其余的三个层可以可选地进行微调。表6中的结果表明，冻结整个 Backbone 网络（即Layer1-4）可以获得最佳效果。在所有情况下，PODA始终在源网络的基础上提高性能。

picture.image 请注意，对于微调 Backbone 网络，不同的超参数、优化器以及/或微调策略可能会带来性能提升相对于当前结果。这是本工作的范围之外，本工作的目标是展示PIN是一个即插即用的模块，可以用于任何基于CNN的视觉语言预训练模型。例如，其他工作已经证明PIN可以用于最先进的状态驱动领域泛化（Fahes等人，2024）。

PODA-concept

作者的初始 Prompt 是直观的描述性词汇，_e.g._，“夜间驾驶”，“雨中驾驶”。每个 Prompt 都是全球内容(_i.e._，“驾驶”）和目标风格条件(_e.g._，“夜间”，“雨中”）的自然组合。换句话说，使用ChatGPT Query 的相关 Prompt 也遵循相同的构造（见表4）。例如，在“在黑暗中导航道路”中，概念通过“导航道路”表达，风格条件通过“在黑暗中”描述。在目标 Prompt 中同时存在这两个元素对于挖掘相关风格至关重要。事实上，在表7的PODA行中，作者发现单独使用其中一个元素能优于源代码，但同时使用两者能获得更好的结果。有趣的是，优化到“驾驶”可以提高所有目标性能，而无需使用文本风格条件。这种 Prompt 表示可以描述包括所有风格的驾驶场景图像，带来一些泛化效果。

picture.image 从源数据优化概念。如同在3.1.2节中介绍的，由于源域图像和未见目标域图像具有相似的总体内容，作者提出使用源图像而不是依赖文本来优化后者。这是通过优化一个词嵌入，使得文本潜在嵌入在双模态空间（参见公式（9））接近源图像的嵌入。PODA-concept在表7中的结果表明，与所有PODA变体相比，其性能优越。使用从图像优化得来的概念更好地编码数据的语义内容，并导致更好的挖掘风格。有趣的是，仅使用可以提高相对于源域的性能。这种情况类似于使用"驱动"的PODA，然而更具数据专用性。请注意，对于严重的风格漂移，例如夜晚，mIoU仍然显著落后于 + "在夜晚"。

图8表明，在 Prompt 中包含一个优化的概念不仅提高了性能，而且使风格挖掘对迭代次数的敏感性降低。实际上，优化针对 Prompt 中包含的概念限制了搜索空间到一个表示图像语义的区域，从而减少了漂移到内容的危险。对于大量迭代，当使用通过语言表达的概念（即，“驾驶”）时，性能会受到严重影响。然而，有趣的是，使用优化的，同样的观察仍然成立，但下降幅度显著较小。作者猜想，在这两种情况下，这可能都是由于过度风格化（Kwon和Ye，2022年）。

picture.image 总之，结合优化的概念和风格条件，有两个优点：一是性能更好，二是对优化迭代更具有抗性。

Pida

作者现在评估作者的单次适应性，PIDA，它而不是目标 Prompt 利用目标图像。PIDA依赖于相同的数据挖掘策略（第3.2节），但使用从目标图像派生的目标嵌入（参见第3.1.3节）。与先前的实验一样，作者总是报告在5次运行的平均性能，但在这里，作者使用来自目标训练集的不同随机采样的。由于单次适应性可以实现难以言喻的细微设置，作者在以下实验中探索了不同的粒度水平。

离散领域。表8报告了在相同的离散领域（例如，雨、夜等）上的性能，这些领域与之前的研究相同。由于PIDA可以访问目标图像，作者还报告了一个纯AdaIN-adaptation Baseline ，该 Baseline 寻求直接与目标图像的风格对齐。正如预期那样，PIDA显著优于AdaIN，作者将这一结果归因于作者的挖掘策略提供了更大的多样性。相反，PIDA几乎始终被其0-shot对应物PODA击败。作者推测这可能是PODA的 Prompt 更好地捕获了目标领域的整体外观，而随机选择的目标图像可能无法充分代表目标领域中外观分布的整个范围。这一解释得到了PIDA的高方差的支持，表明挖掘的风格高度依赖于目标图像的选择。

picture.image 为了更好地展示PIDA对于细微目标条件的兴趣，这些条件难以用言语描述，作者报告了在时间序列数据上的性能。由于这些数据在驾驶域中缺乏，作者使用CoMoGAN（Pizzati等人，2021年），这是一种在Waymo Open数据集（Sun等人，2020年）上训练的连续图像到图像转换方法，其中转换由参数控制，，将太阳高度映射到，负值表示太阳低于地平线（即，夜间）。使用CoMoGAN，作者为不同值将Cityscapes训练和验证集进行转换。对于每个，作者利用PIDA，在转换的训练集中使用随机图像进行适应。

在图9中，作者绘制了每个φ值的城市景观验证性能，结果显示PIDA始终优于仅使用源模型的模型。在最后一个图中，作者还报告了使用"驾驶在<时间>"构建的各种 Prompt 构建的0-shot PODA的性能。有趣的是，当太阳较高（即φ<π/2）时，与白天相关的 Prompt （例如，“驾驶在正午”或“下午2点”）优于其他 Prompt ；而夜晚的 Prompt （例如，“驾驶在晚上10点”或“午夜”）在日落（即φ>π/2）后表现更好。然而，对于所有φ值，PIDA始终优于PODA，无论使用的 Prompt 如何。这些结果暗示，使用图像作为适应指导可以导致在难以用文本描述的特定条件下的更好性能。

5 Discussion

通用化与PODA。受到观察到某些无关 Prompt 可以提高目标域上的性能（见表4），作者研究PODA如何从通用风格增强中受益。首先，作者提出“仅源的G”通用源模型，其中通过为每个特征批次的特征通道统计值采样高斯噪声来增强特征，从而使信号噪声比达到20分贝。这种源模型借鉴了（Fan等人，2023年）中的思想，即特征通道统计的简单扰动可以帮助实现目标检测领域SOTA的泛化性能。表9显示，仅源的G总是优于仅源模型，证明了其泛化能力。在应用作者的零样本自适应到仅源的G（称为“PODA-G”）时，目标性能再次提高，始终在所需的目标上表现最好。

picture.image 为了进一步提高性能，作者进行风格混合。吴等人（2022年）证明了对于OSUDA，将源特征统计量和单个目标图像的特征统计量进行混合可以带来泛化效果。

后来，Fahes等人（2024年）表明无需目标图像：将原始和PIN增强的统计量进行混合有助于泛化。作者在这里也采用相同的策略。混合后的统计量分别为：

picture.image

其中是每个通道的混响权重，它们均匀地采样于；表示逐元素乘法。加法和减法也是逐元素进行的。最后，计算增强特征如下：

picture.image

其他架构。作者在表10中展示了PODA使用其他 Backbone 网络（RN101（He等人，2016年））和分割头（语义FPN（Kirillov等人，2019年））所带来的一致性提升。

6 Conclusion

在这项工作中，作者利用CLIP模型实现了使用单个VL嵌入进行域自适应的新颖挑战性任务。

作者提出了一种成本效益显著的特征增强机制，该机制调整源特征的风格特定统计信息，以在目标域中合成增强特征，该VL嵌入来自自然语言 Prompt 、部分优化 Prompt 或单个目标图像。

在语义分割等领域的广泛实验表明，作者的框架在语义分割方面的有效性。

它们还表明其适用于其他任务和各种backbone。

作者的研究路线与社区利用大规模预训练模型（称为“基础模型”（Bommasani等人，2021年））进行数据和标签高效的感知模型训练以应对实际应用的集体努力相一致。

参考文献

[0]. Domain Adaptation with a Single Vision-Language Embedding.

点击上方卡片，关注「AI视界引擎」公众号

跨越域的分割精度提升，CLIP 模型在语义分割中的应用研究 ！

1 Introduction

2 Related works

3 Domain Adaptation with a single VL Embedding

Instance Normalization guided by single VL embedding

3.1.1 Prompt-driven Instance Normalization

3.1.2 Concept optimization

Style mining with PIN

Fine-tuning for Adaptation

4 Experiments

Implementation details

Poda

PODA-concept

Pida

5 Discussion

6 Conclusion