“ 用LLM来编码文生图的文字信息,”ELLA与任何最先进的大模型作为文本编码器兼容,已经对各种LLM进行了实验,包括T5-XL 、TinyLlama 和LLaMA-2 13B 。语言模型的最后一个隐藏状态被提取为综合文本特征。文本编码器在 ELLA 训练期间冻结。“
https://arxiv.org/abs/2403.05135
https://github.com/ELLA-Diffusion/ELLA
Diffusion models 在文本到图像生成领域表现出了卓越的性能。 然而,这些模型中的大多数仍然使用 CLIP 作为文本编码器,这限制了它们理解密集提示的能力,这些提示包含多个对象、详细属性、复杂关系、长文本对齐等。
在本文中,我们介绍了一种高效的 大语言模型适配器(Large Language Model Adapter),称为 ELLA,它为文本到图像的扩散模型配备了强大的大语言模型 (LLM),以增强文本对齐,而无需 U-Net 或 LLM 的训练。
为了无缝桥接两个预先训练的模型,我们研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,即时间步感知语义连接器(TSC),它可以从 LLM 中动态提取与时间步相关的条件。 我们的方法适应去噪过程不同阶段的语义特征,协助扩散模型解释采样时间步长的冗长而复杂的提示。
此外,ELLA 可以轻松地与社区模型和工具结合,以提高其提示跟踪能力。 为了评估密集提示跟踪中的文本到图像模型,我们引入了密集提示图基准(DPG-Bench),这是一个由 1K 密集提示组成的具有挑战性的基准。 大量实验证明,与最先进的方法相比,ELLA 在密集提示跟踪方面具有优越性,特别是在涉及不同属性和关系的多个对象组合中。
我们提出了一种新颖的轻量级方法 ELLA,为现有的基于 CLIP 的扩散模型配备强大的 LLM。 无需经过 U-Net 和 LLM 的训练,ELLA 就可以提高提示跟随能力 ,并实现文本到图像模型的长密集文本理解。
我们设计了一个时间感知语义连接器,以在各个去噪阶段从预训练的 LLM 中提取与时间步相关的条件。 我们提出的 TSC 在采样时间步长上动态调整语义特征,从而有效地在不同的语义级别上调节冻结的 U-Net。