过去一周,智谱GLM先后开源了多模态模型家族:
从「眼睛看得见」的视觉理解模型GLM‑4.6V,
到「手能动起来」的AutoGLM,
再到「语音听得懂」的GLM‑ASR,
与「话能说出口」的GLM‑TTS。
从GLM团队组建的第一天起,我们就在试图回答那个根本问题“机器如何像人一样思考”,我们希望让大模型逐步拥有人的世界知识、记忆能力、复杂推理能力,以及拥有多模态处理能力,最终实现AGI。
在一周内,我们开源了覆盖视觉理解、设备操作、语音的多模态模型,从文本扩展到多模态,不断探寻智能上界。
在多模态开源周的收官之日,我们再开源四项面向视频生成的核心技术成果:SCAIL、RealVideo、Kaleido与SSVAE。它们对准当前视频生成领域的三大难点:精细化可控生成、复杂时空结构建模,以及大规模训练成本控制。
-
SCAIL:影视级角色动画生成框架,实现SOTA姿态控制;
-
RealVideo:实时流式视频生成系统,仅2-3秒首响延迟;
-
Kaleido:多主体视频生成框架,一致性开源SOTA;
-
SSVAE:频谱结构化变分自编码器 VAE,3倍收敛加速。
希望通过开源这四项底层技术,为繁荣的视频生成技术社区、产品社区,提供一些工程方案与理论研究,方便社区直接复现与二次开发。
SCAIL:影视级复杂姿态控制角色动画
开源周谢幕之舞,来自SCAIL复杂姿态控制
姿态可控角色动画生成(Pose Controlled Character Animation)可以实现让一张照片根据指定动作运动。然而,基于2D骨骼点的传统方法由于无法编码深度信息与遮挡关系,在处理复杂动作(如空翻、街舞)时,常导致肢体结构崩坏或违反物理规律。进一步,由于姿态编码和姿态输入方式的限制,该技术始终难以实现多人复杂交互动作的生成,难以面对影视级专业需求。
我们与清华刘永进教授课题组合作提出了一套面向影视级标准的角色动画生成框架——SCAIL(Studio-grade Character Animation via In-context Learning),通过识别角色动画中的关键瓶颈,即姿态表征与注入机制,解决了生成过程中的时空一致性问题,不仅在单人运动上取得了SOTA效果,更将角色动画应用场景扩展到复杂多人交互。
-
3D一致性姿态表征(3D-Consistent Pose Representation):SCAIL摒弃了传统的2D关键点或带有身份信息的SMPL Mesh方案。我们通过利用3D关节点估计,并在3D空间中将其拓扑结构光栅化渲染为柱体骨骼。这种表征方式显式地编码了深度与遮挡关系,使模型能够区分肢体的前后空间位置,从而在复杂遮挡场景下保持结构完整,并且能够进行运动信息保持的增强(Augmentation)和重定向(Retarget)。
-
全上下文姿态注入(Full-Context Pose Injection):针对传统ControlNet或Adapter逐帧控制缺乏全局视野的问题,SCAIL在DiT架构中设计了全上下文注入机制,并在序列维度上通过Pose-Shifted RoPE(姿态偏移旋转位置编码)区分控制信号,迫使模型在生成每一帧时,不仅关注当前时刻,还能对整个动作序列进行时空推理(Spatio-temporal reasoning)。
SCAIL的模型架构图
RealVideo:实时视频生成对话系统
基于RealVideo和GLM-TTS声音克隆,一张图片+三秒语音,即可与AI角色开启实时对话。
如今,生成式模型已在视听质量上取得惊人突破,但目前主流的视频生成模型往往延迟很高,需要等待1分钟以上,才能生成一个5秒左右长度的视频。
为了解决这一问题,我们研发了实时流式视频生成系统RealVideo。
RealVideo的核心突破在于将视频生成的首响延迟从数分钟大幅压缩到了2至3秒。正如大家在演示视频中看到的,用户只需提供一张静态照片并提问,两三秒后,画面中的人物就能开始流畅、自然地进行回答。这种低延迟的生成能力,支持输出长达数分钟的连续对话或演讲视频,让AI交互从单纯的文字或语音对话真正迈向了“实时视频对话”。
为了实现这一效果,RealVideo在模型架构和工程链路上进行了以下三项关键改进:
-
自回归模型对抗训练:RealVideo使用了Self-forcing的框架在双向视频生成模型作为教师模型的监督下可以很快的学习到自回归生成的模式,同时使用了对抗损失进行监督,将视频漂移的问题大幅减少。
-
滑动注意力窗口与Dynamic Sink RoPE:为了保证实时生成的延迟在可控的范围内,RealVideo使用了滑动窗口的策略,当视频的整体长度大于k时会对之前帧的kv cache进行截断,从而保证了模型上下文窗口大小为常数,为无限长生成提供了可能。同时Dynamic Sink RoPE策略可以保证相对位置编码的训练-推理一致,防止人物形象出现漂移。
-
流水线Pipeline:我们针对大模型对话、文本转语音、视频生成、VAE解码等多个流程搭建了一套流水线并行的管线,将CPU、GPU以及API的运行时间尽可能重叠从而极大的降低了首响延迟且提高了生成帧率。从而达到了实时对话的效果。
Kaleido:从数据构造到有效建模的多主体一致性生成框架
Kaleido在多主体(如人物+物体)及受控背景下的生成效果
在多主体(Multi-Subject)视频生成任务中,现有模型难以在保持多个参考形象一致性的同时,有效提取参考主体的真正身份特征。常见问题是在生成视频中直接复制参考图像,将参考图中的背景和主体的姿态等信息误认为主体身份特征,导致生成的主体运动不够灵活、表现力不足。
Kaleido 针对多主体生成的挑战,提出了一套从数据构建到参考信息注入的完整解决方案,在开源模型中达到了SOTA表现。
-
Reference Rotary Positional Encoding(R-ROPE):为了在 DiT 架构中精确区分不同的参考图像与视频 Token,Kaleido 引入了 R-ROPE 机制。该机制对参考图像的 Token 进行独立的旋转位置编码,通过显式的空间位移,在注意力计算层面确立了不同主体与视频帧之间的清晰边界,有效解决了多主体特征混淆的问题。
-
Cross-Paired 数据构建管线: 针对背景纠缠问题,我们构建了包含背景修复与运动增强的数据处理管线,合成了大量跨配对训练数据。这一策略强迫模型在训练时必须从参考图中解耦出主体特征,而非简单复制像素,从而大幅提升了背景解耦能力。
Kaleido的模型架构图
SSVAE:基于谱分析的视频 VAE 隐空间优化
视频生成模型的训练成本极高,而业界传统的视频VAE优化目标主要针对像素级重构质量。但我们的研究发现,相比于重构质量,隐变量结构对扩散模型的收敛贡献更大。
SSVAE(Spectral-Structured VAE)从谱分析的第一性原理出发,揭示了影响扩散模型训练效率的关键统计特性,并据此优化 VAE 的训练目标。
-
谱特性分析与正则化:我们通过大量实验发现,具有时空低频偏置(Low-Frequency Bias)和通道特征值的少模式偏置(Few-Mode Bias)的隐空间分布,能显著加速扩散模型的训练。
-
训练效率提升:实验数据表明,使用SSVAE提取的Latent训练视频扩散模型,在达到相同生成质量的前提下,收敛速度提升了3倍。同时,SSVAE仅需1.3B参数量的扩散模型即可在性能上超越基于Wan 2.2 VAE的4B参数量的扩散模型。
SSVAE通过谱正则化,在训练收敛速度和 Video Reward 上相对于 Baseline 的显著提升,超越Wan 2.2 VAE。
开源资源
我们已经开源上述论文涉及的代码及模型权重(包括SCAIL的1.3B/14B模型、SSVAE的推理代码及Kaleido的Checkpoint)。
本次开源周收官,智能是且仅是我们唯一的产品,期待与开发者共同推进AGI的上界。
SCAIL-Preview
代码:
https://github.com/zai-org/SCAIL
https://github.com/zai-org/SCAIL-Pose
模型:
https://huggingface.co/zai-org/SCAIL-Preview
https://modelscope.cn/models/ZhipuAI/SCAIL-Preview
RealVideo
代码:
https://github.com/zai-org/RealVideo
模型:
https://huggingface.co/zai-org/RealVideo
https://modelscope.cn/models/ZhipuAI/RealVideo
Kaleido
代码:
https://github.com/zai-org/Kaleido
模型:
https://huggingface.co/zai-org/Kaleido-14B-S2V
https://modelscope.cn/models/ZhipuAI/Kaleido-14B-S2V
SSVAE
代码:
https://github.com/zai-org/SSVAE
模型:
