腾讯开源ELLA - 为扩散模型配备LLM,以提高提示词跟随能力,类似于DALL·E 3

火山方舟向量数据库大模型

“ 用LLM来编码文生图的文字信息,”ELLA与任何最先进的大模型作为文本编码器兼容,已经对各种LLM进行了实验,包括T5-XL 、TinyLlama 和LLaMA-2 13B 。语言模型的最后一个隐藏状态被提取为综合文本特征。文本编码器在 ELLA 训练期间冻结。“


        
          
https://arxiv.org/abs/2403.05135  
https://github.com/ELLA-Diffusion/ELLA  

      

picture.image

picture.image

picture.image

Summary

Diffusion models 在文本到图像生成领域表现出了卓越的性能。 然而,这些模型中的大多数仍然使用 CLIP 作为文本编码器,这限制了它们理解密集提示的能力,这些提示包含多个对象、详细属性、复杂关系、长文本对齐等。

在本文中,我们介绍了一种高效的 大语言模型适配器(Large Language Model Adapter),称为 ELLA,它为文本到图像的扩散模型配备了强大的大语言模型 (LLM),以增强文本对齐,而无需 U-Net 或 LLM 的训练。

为了无缝桥接两个预先训练的模型,我们研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,即时间步感知语义连接器(TSC),它可以从 LLM 中动态提取与时间步相关的条件。 我们的方法适应去噪过程不同阶段的语义特征,协助扩散模型解释采样时间步长的冗长而复杂的提示。

此外,ELLA 可以轻松地与社区模型和工具结合,以提高其提示跟踪能力。 为了评估密集提示跟踪中的文本到图像模型,我们引入了密集提示图基准(DPG-Bench),这是一个由 1K 密集提示组成的具有挑战性的基准。 大量实验证明,与最先进的方法相比,ELLA 在密集提示跟踪方面具有优越性,特别是在涉及不同属性和关系的多个对象组合中。

Method

我们提出了一种新颖的轻量级方法 ELLA,为现有的基于 CLIP 的扩散模型配备强大的 LLM。 无需经过 U-Net 和 LLM 的训练,ELLA 就可以提高提示跟随能力 ,并实现文本到图像模型的长密集文本理解。

我们设计了一个时间感知语义连接器,以在各个去噪阶段从预训练的 LLM 中提取与时间步相关的条件。 我们提出的 TSC 在采样时间步长上动态调整语义特征,从而有效地在不同的语义级别上调节冻结的 U-Net。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论