自8月初以来,我们陆续推出了CogVideoX系列模型(2B、5B、5B-I2V),这些开源模型已成为行业领先,深受开发者喜爱。
经过持续迭代,我们在此 发布并开源最新版本的视频模型 CogVideoX v1.5。
相比于原有模型,CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解 。
此次开源包括两个模型:
-
CogVideoX v1.5-5B
-
CogVideoX v1.5-5B-I2V
> 新清影
CogVideoX v1.5 也将同步上线到清影(https://chatglm.cn/video),并与新推出的CogSound音效模型结合,「新清影」将提供以下特色服务:
-
质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
-
超高清分辨率:支持生成 10s、4K、60 帧超高清视频。
-
可变比例:支持任意比例,从而适应不同的播放场景。
-
多通道输出:同一指令/图片可以一次性生成 4 个视频。
-
带声效的 AI 视频:新清影可以生成与画面匹配的音效。
CogVideoX 技术
下图为 CogVideoX 的模型架构:
图|CogVideoX 架构
数据:
数据是训练大型模型的核心,但许多视频数据存在分布噪声,不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。
我们将缺乏动态连通性的视频视为有害数据,并开发了一个自动化筛选框架以过滤这些数据。
数据增强:
针对现有视频数据缺少高质量描述文本的问题,我们开发了端到端的视频理解模型 CogVLM2-caption,专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力,能够更好地处理长且复杂的指令,确保生成的视频更贴近用户输入。
图 |我们利用Panda70M模型为短视频生成字幕,通过提取关键帧创建图像字幕,再由GPT-4整合成视频字幕。为提升效率,我们还使用GPT-4对Llama 2模型进行了优化调整。
算法:
为解决内容连贯性问题,我们开发了高效的三维变分自编码器(3D VAE),将视频数据压缩至原来的2%,显著降低了训练成本和难度。
图 | 3D VAE结构包括编码器、解码器和潜空间正则化器,实现了像素到潜空间的8×8×4压缩(图a)。同时,采用时间因果卷积的上下文并行处理机制(图b)。
我们采用因果三维卷积作为核心组件,去除了注意力模块,增强了模型的分辨率迁移能力。因果卷积还确保了模型在时间维度上的序列独立性,便于扩展到更高帧率和更长视频。在部署方面,我们通过时间序列并行技术优化了变分自编码器,使其在减少显存占用的同时,支持高帧率视频的编解码。
架构:
我们自主研发了一种融合文本、时间和空间三维度的 Transformer 架构。该架构创新性地取消了传统的跨注意力模块,通过在输入阶段就将文本和视频嵌入拼接,加强了两种模态的交互。利用专家自适应层归一化(expert adaptive layernorm)技术,我们缩小了文本与视频特征空间的差异,优化了扩散模型中时间步信息的利用,提高了参数效率,并实现了视觉与语义信息的精准对齐。
注意力模块采用了创新的3D全注意力机制,与传统的空间和时间注意力分离或分块时空注意力相比,我们的方法减少了视觉信息的隐式传递,降低了建模复杂度,并兼容了高效的训练框架。
此外,我们设计了3D旋转位置编码(3D RoPE),显著提高了模型在时间维度上捕捉帧间关系的能力,建立了视频中的长期依赖关系。
训练:
我们构建了一个高效的扩散模型训练框架,通过采用多种并行计算和时间优化技术,实现了对长视频序列的快速训练。借鉴NaViT方法,我们的模型能够处理不同分辨率和时长的视频,无需裁剪,避免了裁剪带来的偏差,并具备了生成任意分辨率视频的能力。
我们已验证了 scaling law 在视频生成领域的有效性。展望未来,我们将在扩大数据量和模型规模的基础上,探索创新模型架构,以更高效地压缩视频信息,并更好地融合文本与视频内容。
开源
代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT