Taiyi-Stable-Diffusion-XL-3.5B 文生图模型 & 技术报告发布

大模型智能内容智能语音交互

“ 文本复制自readme,模型没测过,paper也没看,主要最近不整文生图相关的项目。


        
          
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B  
https://arxiv.org/pdf/2401.14688.pdf  

      

picture.image

Taiyi-Diffusion-XL文生图模型训练主要包括了3个阶段。

  • 首先,我们制作了一个高质量的图文对数据集,每张图片都配有详细的描述性文本。为了克服网络爬取数据的局限性,我们使用先进的视觉-语言大模型生成准确描述图片的caption。这种方法丰富了我们的数据集,确保了相关性和细节。
  • 然后,我们从预训练的英文CLIP模型开始,为了更好地支持中文和长文本我们扩展了模型的词表和位置编码,通过大规模双语数据集扩展其双语能力。训练涉及对比损失函数和内存高效的方法。
  • 最后,我们基于Stable-Diffusion-XL,替换了第二阶段获得的text encoder,在第一阶段获得的数据集上进行扩散模型的多分辨率、多宽高比训练。

我们的机器评估包括了对不同模型的全面比较。评估指标包括CLIP相似度(CLIP Sim)、IS和FID,为每个模型在图像质量、多样性和与文本描述的对齐方面提供了全面的评估。在英文数据集(COCO)中,Taiyi-XL在所有指标上表现优异,获得了最好的CLIP Sim、IS和FID得分。这表明Taiyi-XL在生成与英文文本提示紧密对齐的图像方面非常有效,同时保持了高图像质量和多样性。同样,在中文数据集(COCO-CN)中,Taiyi-XL也超越了其他模型,展现了其强大的双语能力。

ModelCLIP Sim()FID()IS()
English Dataset (COCO)
Alt-Diffusion0.22027.60031.577
SD-v1.50.22525.34232.876
SD-XL0.23123.88733.793
Taiyi-XL0.25422.54335.465
Chinese Dataset (COCO-CN)
Taiyi-v0.10.19769.22621.060
Alt-Diffusion0.22068.48822.126
Pai-Diffusion0.19672.57219.145
Taiyi-XL0.22567.67522.965
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论