https://github.com/luosiallen/latent-consistency-model
https://arxiv.org/pdf/2311.05556.pdf
这篇技术报告主要介绍了一种名为LCM-LoRA的通用加速模块,它可以直接应用于各种Stable-Diffusion(SD)微调模型或SD LoRAs,以支持快速推理和最小步骤。与之前的数值概率流ODE(PF-ODE)求解器(如DDIM、DPM-Solver和DPM-Solver++)相比,LCM-LoRA可以看作是一种插件式神经PF-ODE求解器,具有很强的泛化能力。
核心观点:
- LCM(Latent Consistency Models)已经在加速文本到图像生成任务方面取得了显著成果,但仍存在进一步提高效率的需求。
- 通过将LoRA(Low-Rank Adaptation)技术应用于LCM的训练过程,可以显著降低训练所需的内存消耗,并扩展到更大的模型,如SDXL和SSD-1B。
- LCM-LoRA参数可以直接与其他微调后的LoRA参数结合,从而在无需额外训练的情况下,实现特定风格的图像生成。
算法原理:
- LCM通过将反向扩散过程视为一个增广的概率流ODE问题,在潜在空间中预测该ODE的解,从而显著减少了迭代步骤的需求。
- 通过在LCM训练过程中使用LoRA技术,可以将完整参数矩阵分解为两个低秩矩阵的乘积,从而大幅减少可训练参数的数量。
- LCM-LoRA参数(加速向量)与其他微调后的LoRA参数(风格向量)线性组合,得到一个具有特定风格图像生成能力且无需额外训练的模型。
结论: LCM-LoRA作为一种通用的、无需训练的加速模块,可以直接应用于各种微调后的SD模型和SD LoRAs。实验结果表明,LCM-LoRA在文本到图像生成任务上具有很强的泛化能力和优越性。