CogView3-Plus,开源。

大模型图像处理数据库

picture.image

我们已经开源了 CogView3 以及 CogView3-Plus-3B 。

先看下 CogView3-Plus-3B 的效果:

picture.image

还不错,对吧?

CogView3

CogView3 是一个基于级联扩散的 text2img 模型。

更具体来讲,CogView3 包含三个阶段:

picture.image

第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。

第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。

第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

更具体的方法细节,可以在这篇文章中查看。

picture.image

CogView3-Plus

CogView-3-Plus 在 CogView3(ECCV'24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。

其采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练,CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。

下面是在各类评测上的结果:

picture.image

从效果上看,CogView3-plus 有着和最领先的 text2img 模型持平的水平。

picture.image

上:A pink colored car.

下:A stack of 3 cubes. A red cube is on the top, sitting on a red cube. The red cube is in the middle, sitting on a green cube. The green cube is on the bottom.

picture.image

图像编辑功能

该系列模型的能力,已经上线「智谱清言」( chatglm.cn ),可以在清言上体验。

本次,我们开源了该系列中的 3B 模型。

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

开源规划:

  • CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议。
  • 9月29日,我们在 ECCV 大会上开源了 CogView3 模型和 CogView3-Plus 模型。
  • 10月11日,我们完成了 CogView3-Plus-3B 模型的 Diffusers 版本的适配,目前,你可以从 https://github.com/huggingface/diffusers 源代码安装以快速开始使用。
  • Lora / SFT:我们将会基于 Diffusers 框架搭建一套微调方案。
  • ControlNet 适配:使用 Diffusers 框架适配 ControlNet。

更多智谱开源:

picture.image

picture.image

picture.image

阅读原文,直达开源仓库!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论