一张图=整支广告！港大字节发布最新视频生成模型Goku，国外社区刷屏。 - 文章 - 开发者社区

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

提供你的一张产品图片，它就可以生成一些人和场景与你这个产品交互，并且准确的保持你产品原来的样貌：

picture.image

港大字节联手发布最新视频生成模型Goku（悟空）来了，支持文生视频、图生视频、文生图。还有一个视频广告基础模型Goku+，专注人类和产品的广告场景

picture.image

模型不到10B，视频可以生成超过20秒，但可以比原来低100倍的成本创建广告视频。

picture.image

下面是人与产品互动的生成场景：

Goku+ 制作逼真且极具吸引力的视频，专门用于展示特定产品。这些视频有效地抓住了产品的精髓，提高了观众的参与度和兴趣。

picture.image

我们看一下放大的示例：

picture.image

当然也支持仅生成包含产品的视频，在AI生成场景中，人似乎比物体更容易被察觉为AI生成。

picture.image

生成的视频非常逼真，网友热赞不断：

picture.image

他们用了RF Transformer技术，把图像和视频生成整合在一起。通过优化数据处理流程、模型架构和训练基础设施，在多个基准测试中取得了突破性表现。

Goku+可以从文本创建营销头像

Goku+ 将文本转换为超逼真的人类视频，性能明显优于现有方法。特别是，它可以生成超过 20 秒的视频，具有稳定的手部动作和人类主体极具表现力的面部和身体动作。

picture.image

它还可以文本直接生成视频

Goku+ 专注于从文本创建定制的高清视频，以优化广告场景，其表现明显优于竞争对手的视频基础模型。

picture.image

最后，看看这个基于流的视频生成基础模型：

picture.image

Goku的核心是RF Transformer模型。

picture.image

专为图像和视频联合生成设计。研究方法包含四个关键部分：数据处理流程：构建了大规模高质量的图文数据集。通过美学评分筛选、OCR内容分析和主观评估，确保视觉和语境质量。用多模态大语言模型生成精确的描述文本，再经LLM优化提升准确性和流畅度。模型架构：采用3D联合图像-视频变分自编码器，将输入压缩到共享潜空间。结合全注意力机制，实现图像和视频的无缝联合训练。Goku模型包含2B和8B参数两个版本。流程设计：基于RF算法，通过从先验分布到目标数据分布的线性插值训练，实现从噪声生成真实图像和视频。训练基础设施：开发了支持大规模模型训练的基础设施，使用先进的并行化策略管理长上下文训练的内存，集成了高性能检查点和容错机制。

Goku在基准测试中展现了强大性能。文生图方面，GenEval得分0.76，DPG-Bench得分83.65。在T2I-CompBench测试中，颜色、形状、纹理等指标都超过了现有模型。文生视频领域，在UCF-101零样本生成任务中取得了优秀的FVD和IS分数。VBench总分达到84.85，在人物动作、动态程度和多物体生成等关键指标上表现出色。

picture.image

在AI视频领域，国内的厂商如可灵、海螺、即梦把 Sora， Runway甩了很远了。

picture.image

当然，Google的Veo-2在社区反映中一直很好，我也看到不少精彩的示例，不过目前都在内测阶段，Google的产品确实也有不少好东西，不过营销方面似乎并不太出色，比如Ai studio这样的，知道的人比较少。

字节他们的这一款新的视频生成模型，在国外社区，可谓又掀起一阵风浪。

picture.image

官方目前只开放的技术报告，权重、演示等还在路上 ...

项目页面：https://saiyan-world.github.io/goku/
论文：https://arxiv.org/pdf/2502.04896

🌟 知音难求，自我修 炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：[1] https://x.com/AngryTomtweets/status/1888860179132993565

点这里👇关注我，记得标星哦～