Mora: 微软开源视频生成AI Agent框架,到底是山寨Sora还是高阶AGI?

人工智能与算法增长营销容器服务
Mora: 微软开源视频生成AI Agent框架,到底是山寨Sora还是高阶AGI?

Sora是第一个在社会上引起广泛关注的大型通用视频生成模型。自2024年2月由OpenAI推出以来,还没有其他视频生成模型能够媲美Sora的性能或其支持广泛视频生成任务的能力。此外,只有少数视频生成模型被完全公开发布,大多数模型是闭源的。为了填补这一空白,本文提出了一个新的多代理框架Mora,它整合了几个先进的视觉AI代理,以复制Sora展示的通用视频生成能力。特别是,Mora能够利用多个视觉代理,并在各种任务中成功模仿Sora的视频生成能力,例如(1)文本到视频的生成,(2)文本条件的图像到视频的生成,(3)扩展生成的视频,(4)视频到视频的编辑,(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明,Mora在各种任务中实现的性能与Sora相近。然而,当我们全面评估时,我们的工作与Sora之间存在明显的性能差距。总之,我们希望这个项目能够通过协作AI代理指导视频生成的未来轨迹。

效果

picture.image

picture.image

picture.image

picture.image

Text-to-video generation

Prompt: A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

picture.image

Prompt: A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

picture.image

Prompt: In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

picture.image

Text-conditional image-to-video generation

Prompt: Monster Illustration in the flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

Mora生成

picture.image

Sora生成

picture.image

Prompt: An image of a realistic cloud that spells “SORA”.

Mora生成

picture.image

Sora生成

picture.image

架构

picture.image

从论文中不难发现,Mora在六种主要的视频生成任务上,均能与Sora一拼。

  • • 文本到视频生成(Text-to-video Generation):根据文本描述生成视频。
  • • 文本条件的图像到视频生成(Text-conditional Image-to-Video Generation):结合文本描述和初始图像生成视频。
  • • 扩展生成的视频(Extend Generated Videos):在已有视频的基础上进行扩展,生成更长的视频内容。
  • • 视频到视频编辑(Video-to-Video Editing):对视频进行编辑,根据文本指令进行修改。
  • • 连接视频(Connect Videos):将两个视频片段无缝连接成一个连贯的视频。
  • • 模拟数字世界(Simulate Digital Worlds):创建模拟或数字化环境的视频。

picture.image

与我们平常所想象的不一样,Mora不是一个单独的模型,而是一个Agent框架。结合多个高级视觉AI代理,模拟并扩展了Sora模型展示的通用视频生成能力。Mora的核心优势在于其模块化设计,允许将视频生成任务分解为更小、更具体的子任务,并由专门的代理处理,从而提供灵活的管道来完成广泛的视频生成任务。

Mora框架定义了五种基本代理角色:文本提示选择与生成代理、文本到图像生成代理、图像到图像生成代理、图像到视频生成代理以及视频到视频代理。每个代理都负责特定的输入和输出,并通过它们的能力共同完成视频生成的整个过程。Mora支持六种文本到视频生成任务,包括文本到视频生成、文本条件的图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频和模拟数字世界。

与Sora有什么区别

Mora框架和Sora模型都是专注于视频生成的技术,但它们在设计理念、实现方式和某些功能上存在一些主要区别:

    1. 开源与闭源
  • Mora

是一个开源的多代理框架,这意味着它的设计和实现细节对公众开放,便于研究人员和开发者进行研究、修改和扩展。

  • Sora

由OpenAI开发,是一个闭源模型,其具体的内部工作原理和技术细节并未公开,这限制了学术界和开发者社区对其进行深入研究和创新的能力。

    1. 框架结构
  • Mora

采用了多代理框架,将视频生成任务分解为多个子任务,并由专门的代理(agents)来处理每个子任务。

这种方法提供了灵活性和可扩展性,允许根据需要添加或替换代理以完成不同的视频生成任务。

  • Sora

虽然具体架构未公开,但它被描述为一个能够执行多种视频生成任务的通用模型,表明它可能采用了更为集成的架构。

    1. 视频生成任务
  • Mora

能够执行多种视频生成任务,包括文本到视频的生成、文本条件的图像到视频的生成、扩展生成的视频、视频到视频的编辑、连接视频和模拟数字世界等。

  • Sora

同样能够执行多种视频任务,包括将文本提示转换为详细视频,并在视频编辑、连接和扩展方面表现出色。

    1. 性能和质量
  • Mora

在多个视频相关任务上展现出与Sora相近的性能,但在整体评估中仍存在明显的性能差距,尤其是在视频质量和生成视频的长度方面。

  • Sora

在视频生成质量上表现出色,能够生成长达一分钟的高质量视频,并且在遵循用户指令方面表现出色。

    1. 数据处理和训练
  • Mora

可能需要更多的工作来收集和处理高质量的视频数据集,以提高模型在复杂人类行为表现上的表现。

  • Sora

虽然具体细节未公开,但作为一个由OpenAI开发的模型,可能已经使用了大量高质量的数据集进行训练,以实现其出色的视频生成能力。

    1. 未来发展方向
  • Mora

提出了未来可能的研究方向,包括改进自然语言理解能力、实时反馈循环的交互式视频创作,以及优化计算资源需求,使其更易于被广泛采用。

  • Sora

由于其闭源性质,未来的发展方向和潜在的改进可能主要由OpenAI内部团队决定。

总的来说,Mora作为一个开源框架,为研究社区提供了一个可访问和可修改的平台,以探索和推进视频生成技术的发展,而Sora作为一个闭源模型,虽然在性能上表现出色,但其内部机制和进一步的定制化改进对外部研究者而言是不透明的。

开源仓库

Mora现在已经开源了,大家可以下载学习体验:https://github.com/lichao-sun/Mora

不过目前Mora开源出来的代码仅仅是一个README repo,真正的代码我们还需要静待。

picture.image

Arxiv[1]

引用链接

[1] Arxiv: https://arxiv.org/html/2403.13248v1

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论