当CycleGAN遇到Diffusion，CMU朱俊彦团队提出CycleGAN-Turbo与Pix2Pix-Turbo

关注「 AIWalker 」并星标

从此AI不迷路

picture.image

https://arxiv.org/abs/2403.12036
https://github.com/GaParmar/img2img-turbo

本文概述

在这项工作中，我们解决了现有条件扩散模型的两个局限性：由于迭代去噪过程而导致推理速度慢 ，以及依赖配对数据进行模型微调 。

为了解决这些问题，我们引入了一种通过对抗性学习目标使单步扩散模型适应新任务和领域的通用方法 。具体来说，我们将普通潜在扩散模型的各个模块整合到具有小可训练权重的单个端到端生成器网络中，增强其保留输入图像结构的能力，同时减少过度拟合。

我们证明，对于未配对的设置，我们的模型 CycleGAN-Turbo 在各种场景转换任务中优于现有的基于 GAN 和基于扩散的方法 ，例如昼夜转换以及添加/删除雾、雪和雨等天气效果。我们将我们的方法扩展到配对设置，其中我们的模型 pix2pix-Turbo 与 Sketch2Photo 和 Edge2Image 的 ControlNet 等最近的作品相当，但具有单步推理。这项工作表明，单步扩散模型可以作为一系列 GAN 学习目标的强大支柱 。

picture.image

本文方案

picture.image

我们从能够生成逼真图像的一步预训练文本到图像模型开始。然而，我们的目标是将输入的真实图像从源域转换到目标域，例如将白天驾驶图像转换为夜间图像。

首先，我们探索了为模型添加结构的不同条件方法以及相应的挑战。
接下来，我们研究了困扰潜在空间模型的常见细节丢失问题（例如文本、手、街道标志），并提出了解决该问题的解决方案。
然后，我们讨论未配对图像翻译方法，并进一步扩展成对设置和随机生成。

Adding Conditioning Input

picture.image

要将文本到图像模型转换为图像翻译模型，我们首先需要找到一种有效的方法将输入图像合并到模型中。具体来说，我们初始化第二个编码器，标记为条件编码器，使用稳定扩散编码器的权重或使用具有随机初始化权重的轻量级网络。该控制编码器采用输入图像，并通过残差连接将多种分辨率的特征图输出到预训练的稳定扩散模型。该方法在控制扩散模型方面取得了显着的成果。

尽管如此，如图 3 所示，使用两个编码器（U-Net 编码器和条件编码器）来处理噪声图和输入图像在一步模型的背景下提出了挑战。与多步扩散模型不同，一步模型中的噪声图直接控制生成图像的布局和姿态，通常与输入图像的结构相矛盾。因此，解码器接收两组残余特征，每组代表不同的结构，使得训练过程更具挑战性。

图 3 还说明了预训练模型生成的图像结构受到噪声图的显着影响。基于这一见解，我们建议将调节输入直接馈送到网络。

Preserving Input Details

picture.image

潜在扩散模型 (LDM) 的图像编码器将输入图像空间压缩 8 倍，同时将通道数从 3 增加到 4。这种设计加快了扩散模型的训练和推理速度。然而，它对于需要保留输入图像的精细细节的图像翻译任务可能并不理想 。我们在图 4 中说明了这个问题，其中我们获取输入的白天驾驶图像（左），并将其转换为相应的夜间驾驶，其架构不使用跳跃连接（中）。相比之下，采用包含跳跃连接（右）的架构会导致翻译后的图像明显更好地保留这些复杂的细节 。

为了捕获输入图像的细粒度视觉细节，我们在编码器和解码器网络之间添加了跳跃连接 （参见图 2）。具体来说，我们在编码器内的每个下采样块之后提取四个中间激活，通过零卷积层处理它们，然后将它们输入到解码器中相应的上采样块。这种方法确保在整个图像翻译过程中保留复杂的细节。

更多关于训练的信息请参考原文，这里略过咯

本文实验

picture.image

本文概述

本文方案

本文实验

推荐阅读

觉得内容还不错的话，给我点个“在看”呗