一张图=整支广告!港大字节发布最新视频生成模型Goku,国外社区刷屏。

大模型向量数据库云通信

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

提供你的一张产品图片,它就可以生成一些人和场景与你这个产品交互,并且准确的保持你产品原来的样貌:

picture.image

港大字节联手发布最新视频生成模型Goku(悟空)来了,支持文生视频、图生视频、文生图。 还有一个视频广告基础模型Goku+,专注人类和产品的广告场景

picture.image

模型不到10B,视频可以生成超过20秒,但可以比原来低100倍的成本创建广告视频。

picture.image

下面是人与产品互动的生成场景:

Goku+ 制作逼真且极具吸引力的视频,专门用于展示特定产品。这些视频有效地抓住了产品的精髓,提高了观众的参与度和兴趣。

picture.image

我们看一下放大的示例:

picture.image

picture.image

当然也支持仅生成包含产品的视频,在AI生成场景中,人似乎比物体更容易被察觉为AI生成。

picture.image

picture.image

生成的视频非常逼真,网友热赞不断:

picture.image

picture.image

picture.image

他们用了RF Transformer技术,把图像和视频生成整合在一起。 通过优化数据处理流程、模型架构和训练基础设施,在多个基准测试中取得了突破性表现。

Goku+可以从文本创建营销头像

Goku+ 将文本转换为超逼真的人类视频,性能明显优于现有方法。特别是,它可以生成超过 20 秒的视频,具有稳定的手部动作和人类主体极具表现力的面部和身体动作。

picture.image

它还可以文本直接生成视频

Goku+ 专注于从文本创建定制的高清视频,以优化广告场景,其表现明显优于竞争对手的视频基础模型。

picture.image

picture.image

最后,看看这个基于流的视频生成基础模型:

picture.image

Goku的核心是RF Transformer模型。

picture.image

专为图像和视频联合生成设计。研究方法包含四个关键部分: 数据处理流程:构建了大规模高质量的图文数据集。通过美学评分筛选、OCR内容分析和主观评估,确保视觉和语境质量。用多模态大语言模型生成精确的描述文本,再经LLM优化提升准确性和流畅度。 模型架构:采用3D联合图像-视频变分自编码器,将输入压缩到共享潜空间。结合全注意力机制,实现图像和视频的无缝联合训练。Goku模型包含2B和8B参数两个版本。 流程设计:基于RF算法,通过从先验分布到目标数据分布的线性插值训练,实现从噪声生成真实图像和视频。 训练基础设施:开发了支持大规模模型训练的基础设施,使用先进的并行化策略管理长上下文训练的内存,集成了高性能检查点和容错机制。

Goku在基准测试中展现了强大性能。 文生图方面,GenEval得分0.76,DPG-Bench得分83.65。在T2I-CompBench测试中,颜色、形状、纹理等指标都超过了现有模型。 文生视频领域,在UCF-101零样本生成任务中取得了优秀的FVD和IS分数。VBench总分达到84.85,在人物动作、动态程度和多物体生成等关键指标上表现出色。

picture.image

在AI视频领域,国内的厂商如可灵、海螺、即梦 把 Sora, Runway甩了很远了。

picture.image

当然,Google的Veo-2在社区反映中一直很好,我也看到不少精彩的示例,不过目前都在内测阶段,Google的产品确实也有不少好东西,不过营销方面似乎并不太出色,比如Ai studio这样的,知道的人比较少。

字节他们的这一款新的视频生成模型,在国外社区,可谓又掀起一阵风浪。

picture.image

官方目前只开放的技术报告,权重、演示等还在路上 ...

项目页面:https://saiyan-world.github.io/goku/
论文:https://arxiv.org/pdf/2502.04896

🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。

参考链接:[1] https://x.com/AngryTomtweets/status/1888860179132993565

点这里👇关注我,记得标星哦~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论