🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
提供你的一张产品图片,它就可以生成一些人和场景与你这个产品交互,并且准确的保持你产品原来的样貌:
港大字节联手发布最新视频生成模型Goku(悟空)来了,支持文生视频、图生视频、文生图。 还有一个视频广告基础模型Goku+,专注人类和产品的广告场景
模型不到10B,视频可以生成超过20秒,但可以比原来低100倍的成本创建广告视频。
下面是人与产品互动的生成场景:
Goku+ 制作逼真且极具吸引力的视频,专门用于展示特定产品。这些视频有效地抓住了产品的精髓,提高了观众的参与度和兴趣。
我们看一下放大的示例:
当然也支持仅生成包含产品的视频,在AI生成场景中,人似乎比物体更容易被察觉为AI生成。
生成的视频非常逼真,网友热赞不断:
他们用了RF Transformer技术,把图像和视频生成整合在一起。 通过优化数据处理流程、模型架构和训练基础设施,在多个基准测试中取得了突破性表现。
Goku+可以从文本创建营销头像
Goku+ 将文本转换为超逼真的人类视频,性能明显优于现有方法。特别是,它可以生成超过 20 秒的视频,具有稳定的手部动作和人类主体极具表现力的面部和身体动作。
它还可以文本直接生成视频
Goku+ 专注于从文本创建定制的高清视频,以优化广告场景,其表现明显优于竞争对手的视频基础模型。
最后,看看这个基于流的视频生成基础模型:
Goku的核心是RF Transformer模型。
专为图像和视频联合生成设计。研究方法包含四个关键部分: 数据处理流程:构建了大规模高质量的图文数据集。通过美学评分筛选、OCR内容分析和主观评估,确保视觉和语境质量。用多模态大语言模型生成精确的描述文本,再经LLM优化提升准确性和流畅度。 模型架构:采用3D联合图像-视频变分自编码器,将输入压缩到共享潜空间。结合全注意力机制,实现图像和视频的无缝联合训练。Goku模型包含2B和8B参数两个版本。 流程设计:基于RF算法,通过从先验分布到目标数据分布的线性插值训练,实现从噪声生成真实图像和视频。 训练基础设施:开发了支持大规模模型训练的基础设施,使用先进的并行化策略管理长上下文训练的内存,集成了高性能检查点和容错机制。
Goku在基准测试中展现了强大性能。 文生图方面,GenEval得分0.76,DPG-Bench得分83.65。在T2I-CompBench测试中,颜色、形状、纹理等指标都超过了现有模型。 文生视频领域,在UCF-101零样本生成任务中取得了优秀的FVD和IS分数。VBench总分达到84.85,在人物动作、动态程度和多物体生成等关键指标上表现出色。
在AI视频领域,国内的厂商如可灵、海螺、即梦 把 Sora, Runway甩了很远了。
当然,Google的Veo-2在社区反映中一直很好,我也看到不少精彩的示例,不过目前都在内测阶段,Google的产品确实也有不少好东西,不过营销方面似乎并不太出色,比如Ai studio这样的,知道的人比较少。
字节他们的这一款新的视频生成模型,在国外社区,可谓又掀起一阵风浪。
官方目前只开放的技术报告,权重、演示等还在路上 ...
项目页面:https://saiyan-world.github.io/goku/
论文:https://arxiv.org/pdf/2502.04896
🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。
参考链接:[1] https://x.com/AngryTomtweets/status/1888860179132993565
点这里👇关注我,记得标星哦~