Taiyi-Stable-Diffusion-XL-3.5B 文生图模型 & 技术报告发布 - 文章 - 开发者社区

“ 文本复制自readme，模型没测过，paper也没看，主要最近不整文生图相关的项目。


        
          
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B  
https://arxiv.org/pdf/2401.14688.pdf

picture.image

Taiyi-Diffusion-XL文生图模型训练主要包括了3个阶段。

首先，我们制作了一个高质量的图文对数据集，每张图片都配有详细的描述性文本。为了克服网络爬取数据的局限性，我们使用先进的视觉-语言大模型生成准确描述图片的caption。这种方法丰富了我们的数据集，确保了相关性和细节。
然后，我们从预训练的英文CLIP模型开始，为了更好地支持中文和长文本我们扩展了模型的词表和位置编码，通过大规模双语数据集扩展其双语能力。训练涉及对比损失函数和内存高效的方法。
最后，我们基于Stable-Diffusion-XL，替换了第二阶段获得的text encoder，在第一阶段获得的数据集上进行扩散模型的多分辨率、多宽高比训练。

我们的机器评估包括了对不同模型的全面比较。评估指标包括CLIP相似度（CLIP Sim）、IS和FID，为每个模型在图像质量、多样性和与文本描述的对齐方面提供了全面的评估。在英文数据集（COCO）中，Taiyi-XL在所有指标上表现优异，获得了最好的CLIP Sim、IS和FID得分。这表明Taiyi-XL在生成与英文文本提示紧密对齐的图像方面非常有效，同时保持了高图像质量和多样性。同样，在中文数据集（COCO-CN）中，Taiyi-XL也超越了其他模型，展现了其强大的双语能力。

Model	CLIP Sim()	FID()	IS()
English Dataset (COCO)
Alt-Diffusion	0.220	27.600	31.577
SD-v1.5	0.225	25.342	32.876
SD-XL	0.231	23.887	33.793
Taiyi-XL	0.254	22.543	35.465
Chinese Dataset (COCO-CN)
Taiyi-v0.1	0.197	69.226	21.060
Alt-Diffusion	0.220	68.488	22.126
Pai-Diffusion	0.196	72.572	19.145
Taiyi-XL	0.225	67.675	22.965