CogView3-Plus，开源。 - 文章 - 开发者社区

picture.image

我们已经开源了 CogView3 以及 CogView3-Plus-3B 。

先看下 CogView3-Plus-3B 的效果：

picture.image

还不错，对吧？

CogView3

CogView3 是一个基于级联扩散的 text2img 模型。

更具体来讲，CogView3 包含三个阶段：

picture.image

第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。

第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。

第三阶段：将生成结果再次基于中继扩散迭代，生成 2048×2048 高分辨率的图像。

在实际效果上，CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，同时只需要 SDXL 大约 1/10 的推理时间。

更具体的方法细节，可以在这篇文章中查看。

picture.image

论文链接：https://arxiv.org/abs/2403.05121

CogView3-Plus

CogView-3-Plus 在 CogView3（ECCV'24）的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。

其采用了 Zero-SNR 扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比，它在保持模型基本能力的同时，有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练，CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。

下面是在各类评测上的结果：

picture.image

从效果上看，CogView3-plus 有着和最领先的 text2img 模型持平的水平。

picture.image

上：A pink colored car.

下：A stack of 3 cubes. A red cube is on the top, sitting on a red cube. The red cube is in the middle, sitting on a green cube. The green cube is on the bottom.

picture.image

图像编辑功能

该系列模型的能力，已经上线「智谱清言」（ chatglm.cn ），可以在清言上体验。

本次，我们开源了该系列中的 3B 模型。

开源仓库地址：

https://github.com/THUDM/CogView3

Plus 开源模型仓库：

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

开源规划：

CogView3 以及 CogView3-Plus 模型均使用 Apache 2.0 协议。
9月29日，我们在 ECCV 大会上开源了 CogView3 模型和 CogView3-Plus 模型。
10月11日，我们完成了 CogView3-Plus-3B 模型的 Diffusers 版本的适配，目前，你可以从 https://github.com/huggingface/diffusers 源代码安装以快速开始使用。
Lora / SFT：我们将会基于 Diffusers 框架搭建一套微调方案。
ControlNet 适配：使用 Diffusers 框架适配 ControlNet。

更多智谱开源：

picture.image

阅读原文，直达开源仓库！