惊爆！研究提出新颖框架，集成CLIP空间扩展预训练StyleGAN能力，文本引导操作灵活，性能远超现有方法！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

生成对抗网络（GANs），尤其是StyleGAN及其变体，在生成高度逼真的图像方面展现了惊人的能力。尽管它们取得了成功，但将这些模型适应到诸如域自适应、参考引导合成和文本引导操作等多样化任务，在有限训练数据的情况下仍然具有挑战性。

为此，本研究中，作者提出了一种新颖的框架，通过超网络集成CLIP空间，显著扩展了预训练StyleGAN的能力。

这种集成允许 StyleGAN 根据参考图像或文本描述动态适应到新的领域。此外，作者还引入了一种CLIP引导的判别器，增强了生成的图像与目标领域之间的对齐，确保了卓越的图像质量。

作者的方法表现出前所未有的灵活性，无需特定的文本训练数据即可实现文本引导图像操作，并促进了样式转移的无缝进行。全面的定性和定量评估证实了与现有方法相比，作者框架的稳健性和优越性能。

作者代码和模型已在项目网站上公开：https://cyberiada.github.io/HyperGAN-CLIP。

1 Introduction

他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活，但在推理时会带来巨大的计算成本。

针对这些挑战，作者提出了HyperGAN-CLIP，这是一个统一的框架，不仅解决了现有域适应方法的限制，还扩展了它们的职能，包括参考图像合成和文本引导图像处理。这个全面的框架利用每个目标域的一个示例来有效地适应预训练的GAN模型，无需专门的任务特定模型。HyperGAN-CLIP的核心是一个条件超网络，它根据来自图像或文本的特定域特定嵌入动态调整生成器的权重，由CLIP嵌入促进。

作者的超网络模块设计战略性地导致了重复的生成器网络，通过CLIP嵌入来产生特定领域的特征。这些特征通过残差特征注入机制无缝地集成到原始生成器中，既保留了源域的标识，又通过防止模式崩溃增强了生成器的鲁棒性。这种机制有效地解决了域适应中的常见挑战，使得作者的框架可以在不需要为每个领域单独训练会话的情况下适应不同的领域。与先前的方法不同，CLIP导向的超网络有效地理解和利用了目标域在适应过程中共享的常见特征，从而提高了结果。此外，它们通过允许使用图像和文本 Prompt 来增强作者的框架的能力，使其非常适合像参考引导图像合成和文本引导图像操作这样的任务。

总的来说，作者工作的关键贡献如下：

作者提出了一种条件超网络，该网络可以在极少数据的情况下，有效地将预训练的StyleGAN生成器适应到多个领域，同时保持高质量的合成图像生成，而不会增加模型大小。
作者的创新设计提供了更大的灵活性，支持广泛的合成和编辑任务，包括参考文献引导的图像合成和文本引导的操作，而无需为每个任务训练单独的模型。
作者在多个领域和数据集上进行了广泛的评估，证明了作者的框架与现有方法的有效性和适应性。
Related Work

State-of-the-art in GANs

图像合成和编辑领域通过使用生成对抗网络（GANs）取得了显著的进步。这些进步来自于创新性的架构和训练策略，使得图像变得高度逼真。值得注意的是，PGGAN 引入了渐进分辨率增强，而BigGAN 则通过更大的批处理大小和引入诸如残差连接和截断技巧等技术，实现了图像合成的扩展。StyleGAN（Karras等人，2019年）及其后续版本，包括StyleGAN2 和StyleGAN3 ，通过使用受风格迁移文献（Gatys等人，2015年）启发的生成器，进一步提高了照片逼真度并减少了艺术效果。StyleSwin 和GANformer（Hudson和Zitnick，2021年）则通过引入 Transformer 或二分结构，生成具有多个物体的复杂图像。

风格GAN因其丰富的语义意义潜在空间而受到特别赞誉，这使得用户能够精细地操纵图像属性。GAN反向，将实际图像嵌入到这个空间中的一种常见技术，可以通过诸如直接优化，学习方法，或混合方法（Bau等人，2019b; Zhu等人，2016）等方法实现。这些技术允许对潜在空间进行探索和操纵，以发现并应用有意义的编辑方向，通常是在无监督的方式，或利用图像 Level 的属性。

Domain Adaptation for GANs

少样本GAN域自适应涉及使用有限数据调整预训练模型到新的图像域，这通常会导致过拟合和模式崩溃等挑战。为解决这些问题，实施了几种新的策略。Ojha等人（2021）使用跨域距离一致性损失来保持多样性并在新域之间转移。Back等人（2021）通过冻结初始风格块并添加结构损失来微调StyleGAN2，以最小化源域和目标域之间的偏差。DualStyleGAN（Yang等人，2022）使用内容风格和肖像风格的独立风格路径进行内容迁移，而RSSA（Xiao等人，2022）压缩潜在空间以实现更好的域对齐。StyleGAN-NADA（Gal等人，2022）在适应过程中使用CLIP嵌入进行方向性指导，提高转移的保真度。Mind-the-Gap（Zhu等人，2022）引入正则化器来减少过拟合。JoJoGAN 使用GAN反转和StyleGAN的风格混合属性从单个示例中学习风格映射器。DiFa 利用CLIP嵌入进行全局和局部 Level 的适应，并采用选择性跨域一致性来保持多样性。OneshotCLIP（Kwon和Ye，2023）采用涉及CLIP引导潜在优化和生成器微调的的两步训练策略，以确保CLIP空间一致性。DynaGAN（Kim等人，2022）调节预训练生成器的权重进行动态适应。

HyperDomainNet（Alanov等人，2022）采用超网络来预测权重调节参数，并结合正则化和CLIP方向损失进行多域适应。Adaptation-SCR（Liu等人，2023）提出了一种光谱一致性正则化器来减轻模式崩溃并保持多样性和颗粒度适应正则化器，以平衡域适应过程中的多样性和风格化。作者的方法通过使用超网络调节StyleGAN2生成器的权重，将缺失的域特定特征集成到冻结的生成器中，以实现更好的身份保护和最小化失真。与DynaGAN的直接调优不同，作者的方法使用CLIP嵌入生成并注入特征，与StyleGAN-NADA的微调方法有显著区别，后者可能导致过拟合。此外，作者的超网络是条件于多模态CLIP嵌入的，拓宽了作者的模型的应用范围，从域适应延伸到参考引导的图像合成和文本引导的操作。

Reference-Guided Image Synthesis

参考引导图像合成将一张图像的内容与另一张图像的风格结合在一起，这种过程已经从早期的神经风格迁移技术（如[14]）发生了显著的演变，这些技术由于对局部语义细节处理不当，往往会出现风格伪影。为了克服这些局限性，WCT2[15]引入了小波校正的迁移，更好地保留了结构完整性和地方特征统计。DeepFaceEditing [17] 进一步改进了这种方法，通过使用局部解耦和全局融合更有效地分离和结合几何和风格元素。BlendGAN [19] 采用自监督方法，开发了一个集成加权混合模块的风格编码器，实现风格的无缝集成。TargetCLIP [10] 使用StyleGAN2潜在空间来确定与参考图像相匹配的编辑方向，优化目标CLIP相似度。NeRFFaceEditing [12] 利用基于三平面神经辐射场的AdaIN方法，使用外观和几何解码器进行增强解耦，以实现外观和几何的解耦。与这些方法不同，作者的HyperGAN-CLIP模型使用CLIP嵌入来动态控制调制权重并解码StyleGAN2潜在向量，提供了在合成过程中更强的灵活性和精确性。随着扩散模型日益受到关注，人们已经尝试使用参考图像来指导去噪扩散过程。例如，[11, 12]中的扩散框架允许图像生成受到参考图像风格的控制，而内容由文本 Prompt 指定。MimicBrush [17] 利用这些工作，通过使用参考图像在输入图像上实现局部语义编辑。这通过自动提取输入图像和参考图像之间的语义对应来实现。

Text-Guided Image Manipulation

文本指导的图像处理通过文本描述来修改图像，同时保留其结构和包含指定的属性。最近的研究利用CLIP [13]，为图像和文本提供了一个共享的潜在空间，实现了精确的文本驱动编辑。StyleCLIP-LO [15]优化了潜在代码，以生成与文本 Prompt 相匹配的目标图像。StyleCLIP-LM [15]基于属性和输出图像的CLIP相似性预测残留潜在代码。StyleCLIP-GD [15]将文本 Prompt 映射到原始StyleGAN空间的全球方向，而StyleMC [14]则在StyleGAN2的较低维度的

空间中探索全球方向，以增强这种对齐。HairCLIP [21]通过使用文本进行精细控制，调节特定风格属性（如发色）的潜在代码，以优化CLIP空间中的相似性。

DeltaEdit [16]仅使用图像进行潜在改进，使用语义对齐的

-CLIP空间，实现由参考文本描述或图像引导的操纵。CLIPInverter [1]在文本描述上条件化反向阶段，通过CLIP引导的 Adapter 模块获得操纵方向作为残留潜在代码。在基于扩散的合成方法中，DiffusionCLIP [16]首先通过正向扩散将输入图像转换为噪声，然后通过使用CLIP相似性指导反向扩散过程获得最终图像。Plug-and-play [18]通过将来自潜在扩散模型的图像特征图注入到由文本描述引导的降噪过程中，增强图像合成。Pix2Pix-Zero [18]通过交叉注意力指导和有针对性的编辑（使用编辑方向嵌入）来修改特定目标，同时保持原始图像的结构。InstructPix2Pix [19]和MagicBrush [12]基于用户提供的文本指令实现语义图像编辑。ZONE [19]将这些方法扩展到零样本局部图像编辑，利用预训练指令导向扩散模型中的局部定位能力。

Hypernetworks

超网络[10]是一种神经网络，用于预测或调节另一个网络（称为主网络）的权重。这种能力增强了模型的灵活性和泛化能力。例如，超反器[17]使用超网络来调整编码器参数，而超风格[1]使用它们来适应StyleGAN生成器，从而提高跨域图像的表达。DynaGAN[16]和超域网络[1]使用超网络进行少样本域自适应的动态权重调节。在这些基础上，作者的方法通过将超网络与CLIP嵌入相结合，根据不同的模式调节权重，使作者的框架可用于域自适应、参考引导图像合成和文本引导图像处理。

Approach

HyperGAN-CLIP是一种基于StyleGAN2[13]的统一架构，旨在解决各种生成任务，如域自适应、参考引导图像合成和文本引导图像处理。在3.1节中，作者介绍了HyperGAN-CLIP的核心组件。接下来，在3.2节中，作者描述了用于在各种生成和编辑任务上部署HyperGAN-CLIP的训练流程。

HyperGAN-CLIP

如图2所示，作者的HyperGAN-CLIP框架动态地调整在源域预训练的StyleGAN2生成器权重，使用输入图像或文本 Prompt 。这些多功能的输入可以代表目标域以进行适应，作为属性转移的域内参考，或作为编辑的文本描述。这种灵活性使得作者的框架能够生成不仅与目标域特征一致的图像，同时也支持参考引导的图像合成和文本引导的图像操作，同时保持源域的完整性。

picture.image

HyperGAN-CLIP的核心是一个统一的自适应策略，它采用一个单一的架构动态地处理各种生成任务。这个策略围绕一个超网络模块展开，该模块与预训练的StyleGAN生成器每一层相互作用，以产生任务特定的自适应。然而，作者的方法并不是直接更新原始生成器网络，而是更新复制生成器网络的权重。这个网络根据提供的CLIP[Radford等人，2021]条件输入的嵌入，基于提供的CLIP[Radford等人，2021]条件输入的嵌入生成缺失的特征。这些特征然后通过残差特征注入模块集成到原始、冻结的生成器网络中，确保源域的完整性。

更正式地，第i层的最终特征

可以通过将缩放调制特征

注入原始特征

来估计，如下所示：

在这里，

是缩放参数。通过这种方式，训练过程开始时，最终特征接近原始分布。原始的中间特征

是由前一层输出

推导出来的：

同时，

是由预训练的 StyleGAN 的权重

调制过的调制特征，计算方式如下：

在此，作者定义调制后的权重，

。

在这里，

表示串叠调制和解调操作的复合函数，

是从源图像的潜在代码

转换而来的风格向量，

表示预训练生成器在第 i 层的卷积权重。值得注意的是，调制参数

和

，即任务特定的权重偏置和通道尺度参数，由作者提出的 CLIP-条件超网络模块

动态预测：

Δc 是表示条件输入（图像或文本 Prompt ）的 CLIP 嵌入与源图像的 CLIP 嵌入之间差异的 Δ-CLIP 嵌入 [Lyu等，2023]。每个超网络模块由两个独立的完全连接层组成，为每个卷积层生成对权重偏置矩阵 Δφi 和权重缩放参数 δi 分别对应的仿射变换参数。因此，超网络模块引入的参数数量取决于 Δ-CLIP 嵌入的长度和相应的卷积层的大小，通常远小于基础生成网络。

以前的研究表明，CLIP嵌入式表示可以有效捕捉参考图像的风格元素[Balaji等人，2022年；Bansal等人，2024年]。利用

-CLIP嵌入式，可以使作者的模型仅关注源域中缺失的属性，从而消除任何冗余信息。这种方法将输入嵌入式中心化到超网络的零点附近，简化了训练过程。此外，作者的发现表明，直接使用原始CLIP嵌入式可以显著改变图像的身份，并明显降低图像质量。详细分析见补充材料。使用CLIP嵌入式的一个关键结果是，只需一个网络模型就可以将预训练的生成器适应到多个领域。

Training HyperGAN-CLIP

将以下英文AI学术论文翻译成简体中文：

考虑将

视为从噪声或源域

中的自然图像生成的合成图像。在StyleGAN的架构中，

由映射

生成，其中

是从噪声分布中采样或使用GAN反向技术派生的潜在向量。HyperGAN-CLIP旨在将预训练生成器

适配为调节生成器

。这种适应性使得

能够处理多种任务：多种域适应性、参考引导图像合成和文本引导图像操作。通过利用额外的输入，例如特定图像或文本 Prompt ，来定制生成器的输出以满足这些不同应用的要求。作者通过最小化一个多任务损失

来训练作者的HyperGAN-CLIP框架，该损失定义为：

λ_bullet 表示相应的正则化系数。

3.2.1. CLIP-based Losses

对于域自适应，核心目标是将适应域图像的语义与目标域图像

的语义对齐。作者定义

为对应于

在源域反转后得到的潜在码，其中它生成

，即源域中

的等效物。自适应生成器旨在使用相同的

来生成自适应图像

。利用目标图像的CLIP嵌入，作者通过CLIP相似度损失强制语义一致性：

目标图像的CLIP表示为

，重建图像的CLIP表示为

，

表示余弦相似度。

全球CLIP损失可能导致模式塌陷和内容损失（Gal等人，2022）。因此，如（朱等人，2022）所探讨的那样，作者额外采用以下定向CLIP损失，用于测量CLIP空间内和跨域的语义转移：

为了计算这些损失，作者首先使用从随机选择的潜在代码生成的冻结生成器

生成一个图像

。然后，通过

将该图像适应到目标域，得到

。从语义上看，作者预计由域适应捕获的源域和目标域之间的差异，由

-CLIP 嵌入

和

表示，它们应该对齐，因为它们代表了域适应所引起的转换。

另外，为了确保适应性保留了变换过程中的关键语义特征，源图像和适应性图像之间的差异，通过

和

测量，也应该保持一致。

参考引导图像生成，HyperGAN-CLIP采用了一种精细的方法，利用领域内数据，调整StyleGAN的权重以忠实复制目标图像的风格。通过利用源数据集中的源图像和目标图像的配对，作者有效地覆盖了CLIP嵌入空间的广泛分布，确保了CLIP空间和StyleGAN图像空间的强对齐。具体而言，作者重新定义了

，使用平均StyleGAN图像作为固定 Anchor 点图像

，而不是使用典型的域自适应中翻转目标图像。在训练过程中，

和

是随机采样的。此外，对于

，作者将

替换为

以增强身份和内容保持。请参阅补充材料查看这些方向损失的图形说明。

值得注意的是，经过参考引导的图像合成的HyperGAN-CLIP模型也能通过使用

-CLIP嵌入

来调节生成器权重，其中

表示输入文本 Prompt ，

表示与源图像匹配的任何文本。在作者的实验中，作者使用一个通用的 Prompt 如 " face "作为

，但可以替换为一个更细粒度的 Prompt 。

3.2.2. CLIP-conditioned discriminator loss

为了在域自适应过程中保持样本质量，作者引入了一种对抗损失

，该损失依赖于CLIP嵌入的判别器。这种判别器借鉴了（Kang等人，2023年；Kumari等人，2022年）的设计，使用了一个冻结的CLIP视觉 Transformer 背书，只训练最外层的头层。它动态地测量了源域和目标域分布之间的差异。为了处理数据稀缺性（作者每个目标域只有一个图像），作者使用了可微分增强（Zhao等人，2020年）。通过使用投影判别器（Miyato和Koyama，2018年）实现判别器对CLIP嵌入的条件，确保生成的图像与目标域特征一致，并加速训练收敛，防止模式崩溃。

3.2.3. Contrastive Adaptation Loss

为了确保从目标域生成的图像与其他域的图像明显不同，作者采用了一种适应性损失

，该损失鼓励网络学习特定域的变换。受 (Kim等人，2022年) 的启发，这种对比损失增强了相似关系，确保同一域的图像对具有更高的相似度，而不同域的图像对具有较低的相似度。形式上，它表示为：

随着

，

分别表示正负对之间的余弦相似度。

这里，

应用水平翻转和颜色抖动 augmentations 来增强训练稳定性（Liu 等人，2021）。这种损失在为多样域学习计算一个minibatch（4个目标域）的目标域上的最小二乘和。 #### 3.2.4. Identity Loss 为了在适应目标域时保持源域的标识，作者实现了一种身份相似度损失，该损失旨在最大化源域和目标域图像特征之间的余弦相似度。

深度特征提取采用人脸识别专用模型ArcFace（Deng等，2022年）。

3.2.5. Perceptual and Reconstruction Losses

为了补充CLIP损失

，作者使用L2和LPIPS损失将

与

对齐：

在哪里

代表 AlexNet (Krizhevsky et al., 2012) 特征。

Experiments

Training and Implementation Details

作者使用Adam优化器，其中β1=0.0，β2=0.99。作者将学习率设置为0.002，批处理大小为4。对于基于CLIP的损失，作者使用ViT-B/16和ViT-B/32 CLIP编码器模型，并将它们的结果与MTG中的方法一样添加。作者使用ViT-B/16 CLIP编码器，同时调节生成器。调节特征的缩放参数设置为η=0.1，以防止预训练生成器的特征分布发生巨大变化，确保训练从一开始就保持稳定。作者实际设置每个单独的损失项权重为λ1=30，λ2=1.5，λ3=0.5，λ4=0.2，λ5=1.0，λ6=3.0，λ7=8.0，和λ8=12.0。每个minibatch包括4个随机采样的目标域图像

和4个源图像

。对于域自适应和参考引导图像合成，作者使用e4e反转（Tov等人，2021）。然而，作者并非直接使用反转，而是通过应用潜在截断使其更接近均值潜在来将其靠近。这防止反转位于分区间，并避免

和

过于接近，从而限制了有意义的编辑方向。

Domain Adaptation

作者进行了两个不同的实验。首先，作者将预先在FFHQ数据集（Karras等人，2019年）上训练的StyleGAN2模型（Gal等人，2022年）调整到StyleGAN-NADA（Gal等人，2022年）扩展版中的101个新领域。训练数据是由Domain Expansion（Nitzan等人，2023年）提供的扩展版StyleGAN2模型生成的。对于每个目标领域，作者使用扩展版模型选择一个图像，并使用这些选择的图像训练作者的HyperGAN-CLIP模型进行多领域自适应。其次，作者使用AFHQ数据集将预先在猫图像上训练的StyleGAN2模型扩展到52个其他动物领域（包括22种狗品种和30种野生动物，由7张猎豹、6张老虎、6张狮子、7张狐狸和4张狼图像表示）。对于每个目标领域，作者选择一个图像，并使用这些样本训练相应的HyperGAN-CLIP模型。作者将HyperGAN-CLIP与最先进的GAN领域自适应模型进行比较，包括Mind-the-GAP（Zhu等人，2022年）、StyleGAN-NADA（Gal等人，2022年）、HyperDomainNet（Alanov等人，2022年）、DynGAN（Kim等人，2022年）和Adaptation-SCR（Liu等人，2023年）。每个模型在单次设置中使用相同的训练数据进行训练。值得注意的是，Mind-the-GAP、StyleGAN-NADA和Adaptation-SCR需要针对每个目标领域单独训练模型，而HyperDomainNet、DynGAN和HyperGAN-CLIP可以使用单个统一模型来模拟多个领域。为了定量评估生成的图像的质量和忠实度，作者采用广泛使用的Frechet Inception Distance（FID）分数（Heusel等人，2017年）以及（Alanov等人，2022年）中建议的质量与多样性指标。这些评价指标的详细信息见补充材料。

在图3中，作者展示了在AFHQ和FFHQ数据集上利用评估的域自适应技术生成的样本图像。每个样本包括源图像、相应的目标域训练图像和合成输出。Mind-the-Gap努力充分捕捉目标域的视觉特征，但往往产生视觉上较差的结果。HyperDomainNet在学习非常多样化的域方面似乎失败，导致低保真度的结果。尽管StyleGAN-NADA和Adaptation-SCR实现了更好的质量，但它们往往略微过拟合到代表性目标域的特定特征。DynaGAN在这些模型上的性能有所提高，但有时会生成不自然且略微扭曲的结果，尤其是在动物领域。它无法完全反映目标域的关键特征，例如，它没有在第一行生成所需的小动物耳朵。

与DynaGAN相比，HyperGAN-CLIP更好地保留了源内容。通过利用CLIP指导的超网络模块，它生成了具有惊人视觉保真度的图像，并有效地捕获了目标域的本质，这一点由表1中的FID分数验证。此外，多样性得分突出显示作者的方法在适应后的图像之间的变异性更高。作者在图4中提供了更多关于模型将域混合并执行语义编辑的示例。在附加材料中，作者提供了额外的比较，详细探讨了可控制图像生成的方面，并进行了 ablation 研究。此外，作者证明作者的方法在零样本域自适应相对较好的新域上表现良好，这些新域与训练期间使用的域在语义上非常不同。

picture.image

Reference-Guided Image Synthesis

在这个实验中，作者的目标是合成一张结合源图像的视觉身份和目标图像的风格的新图像，这由其CLIP嵌入表示。为了定量分析，作者使用CelebA-HQ数据集（Lee等人，2020年）的测试集（共6000张），作为源图像和目标图像。作者确保每张源图像对应不同的目标图像，以避免使用同一张图像作为源图像和目标图像。作者使用预训练在FFHQ数据集上的e4e编码器（Tov等人，2021年）将源图像转换到潜在空间。

在图5中，作者展示了样本级的定性比较。样本源-目标对显示了在性别、年龄、发色、族裔等视觉特性方面具有多样性的视觉特征。BlendGAN倾向于产生类似于卡通的输出，缺乏自然感。优化-基础的TargetCLIP-O在保持身份的同时，比其基于编码器的对应物TargetCLIP-E在合并目标图像中描绘的所需风格变化方面表现出优越性能。MimicBrush直接将目标脸复制到源姿态上，无法仅传输风格，通常导致不现实的输出。值得注意的是，HyperGAN-CLIP在将选择的目标脸的属性无缝转移到源面时，在保持身份方面优于竞争对手，尽管在某种程度上牺牲了自然感。表2显示了定量结果。作者的方法在FID方面达到了竞争性的结果，优于进行每个目标潜在优化的TargetCLIP-O。这突显了作者的方法生成高质量和忠实图像的能力。此外，作者的方法在保留源图像的身份方面超过了竞争对手，这一点由ID相似度得分证明。此外，作者的方法在CLIP语义相似性方面表现出色，证实了它能够在合成结果中捕获目标图像的语义。总的来说，作者的方法在多个评估指标上达到了良好的平衡，展示了在照片级图像合成和保留关键视觉属性的有效性。

picture.image

作者的方法以及竞争方法的一个关键限制是，在某些情况下，它们在将参考图像中的细属性进行迁移时遇到困难，因为它们的整体图像嵌入缺乏捕捉这些细节所需的特定性。为了解决这个问题，作者探索了一种结合参考图像CLIP嵌入和特定目标属性文本 Prompt 的策略。通过利用CLIP同时编码视觉和文本数据的能力，作者通过逐步添加由α参数调制的目标属性嵌入来完善参考图像嵌入，公式为CLIP(

) +

CLIP(

)。如图6所示，这种策略通过允许针对特定属性的微调来增强编辑过程，从而基于参考图像实现更准确、更详细的图像修改。

picture.image

Text-Guided Image Manipulation

在这个实验中，作者通过展示目标文本描述操纵输入图像的能力，来展示作者提出框架的多样性。为了定量分析，作者利用CelebA数据集的测试集[11]及其属性标注。作者选择在图像中缺失的属性，并构建目标描述来引发所需属性的操纵。利用预训练的e4e模型[23]，作者进行图像到潜在空间的倒置，生成输入图像的潜在表示。这些倒置的图像作为作者框架的输入。为了调控合成过程，作者使用Δ-CLIP嵌入，它捕获目标描述和输入图像CLIP嵌入之间的差异。作者全面比较了作者的方法与几种最先进的文本引导图像操纵方法。这些包括TediGAN-B[12]，StyleCLIP-LO[14]，StyleCLIP-GD[15]，HairCLIP[24]，DeltaEdit[25]，以及CLIPInverter[26]等基于GAN的方法。其中，DeltaEdit是唯一一个像作者一样仅使用图像数据进行训练，不使用任何文本数据进行训练的模型。此外，作者还与基于扩散的方法进行了比较，即DiffusionCLIP[13]，Plug-and-Play[27]，和Instruct-Pix2Pix[28]。在这些方法中，与作者最相似的是DeltaEdit，因为它也是仅基于图像数据进行训练，不使用任何文本数据进行训练的。通过与这些多样方法进行比较，作者提供了对其性能的全面分析，并突出了在文本引导图像操纵方面的独特优势。为了定量评估这些方法，作者采用Frechet Inception Distance (FID)[15]，Attribute Manipulation Accuracy (AMA)和CLIP Manipulative Precision (CMP)[2]，按照CLIPInverter[1]介绍的方法进行。有关评估指标的更多细节请参阅补充材料。

图7展示了作者提出的方法在各种文本描述下的文本导向图像处理结果，并与几种竞争方法进行了比较。TeldiGAN-B和DeltaEdit在有效操纵图像方面存在困难，通常导致图像与输入相似。虽然StyleCLIP-LO，StyleCLIP-GD和HairCLIP的表现有所提高，但在操纵所有指定的属性时，它们仍存在局限性。CLIPInverter在描述中明确指定显式属性操纵时表现良好，但当遇到在训练过程中未见过的新的描述，如"surprised"或"Elsa from Frozen"时，它就会逊色。DiffusionCLIP [13]生成的图像存在明显的伪影，导致输出质量较差。虽然Plug-and-play [21]成功应用了大多数操纵，但产生的图像往往缺乏真实性，显得卡通化，并且存在意外的属性更改。相比之下，即使在没有文本数据的情况下进行训练，作者的模型仍然成功应用了单或多个属性变化，同时比竞争方法更好地保留了输入图像的身份。

picture.image

表3呈现了作者的定量结果。在这里，作者将作者的方法与DeltaEdit合并，以区分在训练过程中使用额外文本数据的其他工作。作者使用AMA（单属性更改）和AMA（多属性更改）评估更改的准确性和精确度。值得注意的是，作者的模型在更改的准确性和精确度方面与领先的文本引导图像处理模型（包括StyleCLIP和DiffusionCLIP）相比具有可比性或甚至更好的性能。在FID方面，基于扩散的模型DiffusionCLIP和Plug-and-play优于基于GAN的方法，因为它们具有高质量的生成能力。尽管作者在训练过程中没有使用文本数据，但作者的模型在指标之间找到了良好的平衡，并始终提供具有竞争力的性能。它有效地处理涉及多个属性更改的描述。更重要的是，与DeltaEdit等其他无文本图像处理方法相比，作者的HyperGAN-CLIP的性能有了很大的提高。

picture.image

在补充材料中，作者提供了关于参考引导图像生成和文本引导图像处理任务在CUB-Birds数据集上的进一步视觉比较和示例结果。除了定量分析外，作者还使用Qualtrics进行了用户研究，共有16名参与者，以评估模型在所有三个任务上的性能。作者关注的方法具有与作者的方法相似的特征：用于多个域自适应的所有合一模型和无文本的文本编辑方法。在作者的人类评估中，作者为每个任务随机生成25个问题，并要求参与者根据其表现对模型进行排名。排名显示，作者的HyperGAN-CLIP模型，使用单一统一框架，实现了非常具有竞争力的结果，通常优于或与现有模型相匹配。有关更多详细信息，请参阅补充材料。

Conclusion

作者提出了HyperGAN-CLIP，这是一个灵活的框架，用于解决GAN中的域适应挑战，同时支持参考引导图像合成和文本引导图像处理。作者的高效超网络模块将预训练的StyleGAN生成器适配到处理图像和文本输入。

通过利用残差特征注入和条件判别器，它保留了源身份和图像多样性，同时有效地将目标域特征转移，产生高保真图像。

大量评估表明，HyperGAN-CLIP优于现有的域适应方法，在文本引导编辑方面表现出色，在参考引导图像合成方面具有强大的竞争力。虽然作者的框架可以处理各种任务，但其中一些任务需要不同的训练过程。

未来的研究可以无缝地将混合专家方法集成到一个具有路由机制的单模型中进行训练。

参考文献

[0]. HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation.

惊爆！研究提出新颖框架，集成CLIP空间扩展预训练StyleGAN能力，文本引导操作灵活，性能远超现有方法 ！

1 Introduction