Open-Sora Plan:Sora开源复现项目

技术

        
          
https://github.com/PKU-YuanGroup/Open-Sora-Plan  
https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html  

      

在2024年2月, OpenAI最近推出了Sora, 这是一个开创性的文本到视频模型, 代表了视频生成技术的一个重大飞跃。Sora能够将简短的文本描述转换成详细的、高清的视频片段, 这些片段最长可达一分钟。所提出的Sora推进了AI技术, 并在视频制作中提供了新的创造潜能。

今天, 我们非常兴奋地推出我们的Open Sora项目, 旨在复制OpenAI的视频生成模型,目前大部分团队人员来自北大。下面, 我们将介绍我们的框架, 它由以下组成部分组成。

  • Video VQ-VAE.
  • Denoising Diffusion Transformer.
  • Condition Encoder.picture.image

实现细节

  1. 可变长宽比

我们参考FIT实施了一种动态掩码策略, 以并行批量训练的同时保持灵活的长宽比。具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

picture.image

  1. 可变分辨率

在推理过程中, 尽管我们在固定的256x256分辨率上进行训练, 但我们使用位置插值可以实现可变分辨率采样。我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。

  1. 可变时长 我们使用VideoGPT中的Video VQ-VAE, 将视频压缩至潜在空间, 并且支持变时长生成。同时, 我们扩展空间位置插值至时空维度, 实现对变时长视频的处理。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论