LCM-LORA:一个通用的Stable diffusion加速模块 - 文章 - 开发者社区


        
          
https://github.com/luosiallen/latent-consistency-model  
https://arxiv.org/pdf/2311.05556.pdf

这篇技术报告主要介绍了一种名为LCM-LoRA的通用加速模块，它可以直接应用于各种Stable-Diffusion（SD）微调模型或SD LoRAs，以支持快速推理和最小步骤。与之前的数值概率流ODE（PF-ODE）求解器（如DDIM、DPM-Solver和DPM-Solver++）相比，LCM-LoRA可以看作是一种插件式神经PF-ODE求解器，具有很强的泛化能力。

picture.image

核心观点：

LCM（Latent Consistency Models）已经在加速文本到图像生成任务方面取得了显著成果，但仍存在进一步提高效率的需求。
通过将LoRA（Low-Rank Adaptation）技术应用于LCM的训练过程，可以显著降低训练所需的内存消耗，并扩展到更大的模型，如SDXL和SSD-1B。
LCM-LoRA参数可以直接与其他微调后的LoRA参数结合，从而在无需额外训练的情况下，实现特定风格的图像生成。

算法原理：

LCM通过将反向扩散过程视为一个增广的概率流ODE问题，在潜在空间中预测该ODE的解，从而显著减少了迭代步骤的需求。
通过在LCM训练过程中使用LoRA技术，可以将完整参数矩阵分解为两个低秩矩阵的乘积，从而大幅减少可训练参数的数量。
LCM-LoRA参数（加速向量）与其他微调后的LoRA参数（风格向量）线性组合，得到一个具有特定风格图像生成能力且无需额外训练的模型。

结论： LCM-LoRA作为一种通用的、无需训练的加速模块，可以直接应用于各种微调后的SD模型和SD LoRAs。实验结果表明，LCM-LoRA在文本到图像生成任务上具有很强的泛化能力和优越性。