Day 2/5:Hailuo 02,打破全球视频模型效果成本纪录

大模型视频服务云渲染与流化平台

第二天,来介绍大家期待已久的新视频生成模型 Hailuo 02。

上面的视频是由3位艺术家耗时1.5天,使用Hailuo 02生成多个6-10s视频,再拼接剪辑而成。

  • 1080p原生
  • SOTA指令遵循
  • 极限物理表现

实际上,艺术家们发现类似体操这种高度复杂的场景,Hailuo 02是目前全球唯一一个可以做到的模型。更多的场景也欢迎大家一起解锁。

去年8月底,我们很偶然的提供了一个展示视频生成模型的Demo网页,没想到吸引了全球大量优秀创作者的关注和好评。以此为起点,我们推出了海螺视频(Hailuo Video)的产品,至今为止已经帮助创作者生成了 超过3.7亿个视频

回到我们“Intelligence with Everyone”的初心,我们希望能帮助全球创作者更加充分地释放想象力,提升视频创作质量,降低创作门槛,同时又不给创作者增加太多成本负担而让技术变的没那么普惠。

为此,我们整个团队开始探索更高效的视频生成模型架构,最终得到Hailuo 02背后的核心架构,我们称之为 Noise-aware Compute Redistribution(NCR) 。更具体一点,这个新架构的核心思路如下:

picture.image

在同等的参数量级下,新架构使我们的训练和推理效率提升了2.5倍。这使得我们可以在不增加创作者使用成本的情况下,采用更大的参数规模,从而让模型有更好的表现力;又考虑到一定的推理优化的空间。最终我们把模型的总参数量扩大到了上一版模型的3倍。

更大的总参数量和更高的训练效率意味着我们可以拟合更多的数据,而大量创作者在Hailuo 01上的反馈也给了我们很多数据层面的指引。最终我们把数据量扩大到了上一版的4倍,同时数据的质量和多样性也显著提高。

架构的创新,3倍的参数量,和4倍的数据量,使我们的模型提升显著,特别是在复杂指令遵循和复杂物理表现上。新模型可以完整响应一些相当复杂的指令,让仔细编写的prompt得到更好的反馈。另外,得益于高效的新架构,我们甚至可以用相对实惠的价格生成原生的1080p视频。

我们在Artificial Analysis Video Arena上请用户测试了模型的一个早期版本,排名全球第二,New Version Stay Tuned!

picture.image

我们在海螺视频的Web、APP以及我们的开放平台API中推全了上述的模型更新。目前,我们提供三个版本,768p-6s,768p-10s,和1080p-6s。得益于上述的架构创新,我们持续给创作者提供业内最优的价格,不管是对比国内的大厂,还是海外的大厂以及创业公司。目前不同模型的官方价格对比如下:

picture.image

通过持续的技术研发,以及与大量艺术家的合作,我们更加清晰地看到自己的使命和前进的方向。Hailuo 02是一个新的起点,接下来我们会在以下几个方面更快速更新:

  • 生成速度提升
  • 更好的偏好对齐,抽卡率/稳定性提高
  • T2V/I2V之外的高阶功能的实现

以及,一如既往的,持续探索技术和艺术结合的上限。

Intelligence with Everyone.

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论