关注 「 AIWalker 」 并 星标
从此AI不迷路
https://arxiv.org/abs/2403.12036
https://github.com/GaParmar/img2img-turbo
本文概述
在这项工作中,我们解决了现有条件扩散模型的两个局限性:由于迭代去噪过程而导致推理速度慢 ,以及依赖配对数据进行模型微调 。
为了解决这些问题,我们引入了一种通过对抗性学习目标使单步扩散模型适应新任务和领域的通用方法 。具体来说,我们将普通潜在扩散模型的各个模块整合到具有小可训练权重的单个端到端生成器网络中,增强其保留输入图像结构的能力,同时减少过度拟合。
我们证明,对于未配对的设置,我们的模型 CycleGAN-Turbo 在各种场景转换任务中优于现有的基于 GAN 和基于扩散的方法 ,例如昼夜转换以及添加/删除雾、雪和雨等天气效果。我们将我们的方法扩展到配对设置,其中我们的模型 pix2pix-Turbo 与 Sketch2Photo 和 Edge2Image 的 ControlNet 等最近的作品相当,但具有单步推理。这项工作表明,单步扩散模型可以作为一系列 GAN 学习目标的强大支柱 。
本文方案
我们从能够生成逼真图像的一步预训练文本到图像模型开始。然而,我们的目标是将输入的真实图像从源域转换到目标域,例如将白天驾驶图像转换为夜间图像。
- 首先,我们探索了为模型添加结构的不同条件方法以及相应的挑战。
- 接下来,我们研究了困扰潜在空间模型的常见细节丢失问题(例如文本、手、街道标志),并提出了解决该问题的解决方案。
- 然后,我们讨论未配对图像翻译方法,并进一步扩展成对设置和随机生成。
Adding Conditioning Input
要将文本到图像模型转换为图像翻译模型,我们首先需要找到一种有效的方法将输入图像合并到模型中。具体来说,我们初始化第二个编码器,标记为条件编码器,使用稳定扩散编码器的权重或使用具有随机初始化权重的轻量级网络。该控制编码器采用输入图像,并通过残差连接将多种分辨率的特征图输出到预训练的稳定扩散模型。该方法在控制扩散模型方面取得了显着的成果。
尽管如此,如图 3 所示,使用两个编码器(U-Net 编码器和条件编码器)来处理噪声图和输入图像在一步模型的背景下提出了挑战。与多步扩散模型不同,一步模型中的噪声图直接控制生成图像的布局和姿态,通常与输入图像的结构相矛盾。因此,解码器接收两组残余特征,每组代表不同的结构,使得训练过程更具挑战性。
图 3 还说明了预训练模型生成的图像结构受到噪声图的显着影响。基于这一见解,我们建议将调节输入直接馈送到网络。
Preserving Input Details
潜在扩散模型 (LDM) 的图像编码器将输入图像空间压缩 8 倍,同时将通道数从 3 增加到 4。这种设计加快了扩散模型的训练和推理速度。然而,它对于需要保留输入图像的精细细节的图像翻译任务可能并不理想 。我们在图 4 中说明了这个问题,其中我们获取输入的白天驾驶图像(左),并将其转换为相应的夜间驾驶,其架构不使用跳跃连接(中)。相比之下,采用包含跳跃连接(右)的架构会导致翻译后的图像明显更好地保留这些复杂的细节 。
为了捕获输入图像的细粒度视觉细节,我们在编码器和解码器网络之间添加了跳跃连接 (参见图 2)。具体来说,我们在编码器内的每个下采样块之后提取四个中间激活,通过 零卷积层处理它们,然后将它们输入到解码器中相应的上采样块。这种方法确保在整个图像翻译过程中保留复杂的细节。
更多关于训练的信息请参考原文,这里略过咯
本文实验
推荐阅读
- CVPR2024 | 进一步提升超分重建质量,中科大提出用于图像超分的语义感知判别器SeD,即将开源
- 超越SwinIR,Mamba入局图像复原,达成新SOTA
- MiOIR | 直面 “多合一”图像复原,港理工张磊团队提出MiOIR,融顺序学习与提示学习于一体!
- NAFNet :无需非线性激活,真“反直觉”!但复原性能也是真强!
- 真实用!ETH团以合成数据+Swin-Conv构建新型实用盲图像降噪
- ELAN | 比SwinIR快4倍,图像超分中更高效Transformer应用探索
【AIWalker】期待您的关注
如果你关注以下方向,请关注一下「AIWalker」~
底层视觉处理 :如图像超分、图像降噪、低光增强、图像复原、人脸复原、等图像处理相关方向;
基础AI技术栈 :如算子解析、轻量化网络、CNN、Transformer、MLP、VLM等视觉相关架构;
图像分割方向 :如语义分割、人体解析、人像抠图、显著性分割以及单目深度估计等相关方向;
检测跟踪方向 :如通用检测、人脸/人体检测、YOLO、DETR、DeepSORT等相关技术栈;
模型部署维度 :如知识蒸馏、模型量化、NCNN、TFLite、TensorRT、RKNN等技术与工具链。
▲点击上方卡片,关注AIWalker公众号