刚刚,阶跃星辰开源 Step-Video-T2V。 一个30B参数的,文生视频模型。可生产最多204帧的视频,大概8s的样子。
提出了一种用于视频的深度压缩 VAE,实现了 16x16 的空间压缩比和 8x 的时间压缩比。在最终阶段应用直接偏好优化(DPO),以进一步提高生成视频的视觉质量。S
- 模型地址:https://huggingface.co/stepfun-ai/stepvideo-t2v
- 项目地址:https://github.com/stepfun-ai/Step-Video-T2V
似乎用到了hunyuan-clip
效果演示