Day 2/5:Hailuo 02,打破全球视频模型效果成本纪录

大模型视频服务云渲染与流化平台

第二天,来介绍大家期待已久的新视频生成模型 Hailuo 02。

上面的视频是由3位艺术家耗时1.5天,使用Hailuo 02生成多个6-10s视频,再拼接剪辑而成。

  • 1080p原生
  • SOTA指令遵循
  • 极限物理表现

实际上,艺术家们发现类似体操这种高度复杂的场景,Hailuo 02是目前全球唯一一个可以做到的模型。更多的场景也欢迎大家一起解锁。

去年8月底,我们很偶然的提供了一个展示视频生成模型的Demo网页,没想到吸引了全球大量优秀创作者的关注和好评。以此为起点,我们推出了海螺视频(Hailuo Video)的产品,至今为止已经帮助创作者生成了 超过3.7亿个视频

回到我们“Intelligence with Everyone”的初心,我们希望能帮助全球创作者更加充分地释放想象力,提升视频创作质量,降低创作门槛,同时又不给创作者增加太多成本负担而让技术变的没那么普惠。

为此,我们整个团队开始探索更高效的视频生成模型架构,最终得到Hailuo 02背后的核心架构,我们称之为 Noise-aware Compute Redistribution(NCR) 。更具体一点,这个新架构的核心思路如下:

picture.image

在同等的参数量级下,新架构使我们的训练和推理效率提升了2.5倍。这使得我们可以在不增加创作者使用成本的情况下,采用更大的参数规模,从而让模型有更好的表现力;又考虑到一定的推理优化的空间。最终我们把模型的总参数量扩大到了上一版模型的3倍。

更大的总参数量和更高的训练效率意味着我们可以拟合更多的数据,而大量创作者在Hailuo 01上的反馈也给了我们很多数据层面的指引。最终我们把数据量扩大到了上一版的4倍,同时数据的质量和多样性也显著提高。

架构的创新,3倍的参数量,和4倍的数据量,使我们的模型提升显著,特别是在复杂指令遵循和复杂物理表现上。新模型可以完整响应一些相当复杂的指令,让仔细编写的prompt得到更好的反馈。另外,得益于高效的新架构,我们甚至可以用相对实惠的价格生成原生的1080p视频。

我们在Artificial Analysis Video Arena上请用户测试了模型的一个早期版本,排名全球第二,New Version Stay Tuned!

picture.image

我们在海螺视频的Web、APP以及我们的开放平台API中推全了上述的模型更新。目前,我们提供三个版本,768p-6s,768p-10s,和1080p-6s。得益于上述的架构创新,我们持续给创作者提供业内最优的价格,不管是对比国内的大厂,还是海外的大厂以及创业公司。目前不同模型的官方价格对比如下:

picture.image

通过持续的技术研发,以及与大量艺术家的合作,我们更加清晰地看到自己的使命和前进的方向。Hailuo 02是一个新的起点,接下来我们会在以下几个方面更快速更新:

  • 生成速度提升
  • 更好的偏好对齐,抽卡率/稳定性提高
  • T2V/I2V之外的高阶功能的实现

以及,一如既往的,持续探索技术和艺术结合的上限。

Intelligence with Everyone.

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论