AI 视频生成“试金石”:谷歌 Veo 3 体操“图灵测试”未达标,仍是“抽象派”!

大模型向量数据库机器学习

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

谷歌新出的 Veo 3 视频生成模型,确实厉害,这点毋庸置疑,不光是画质惊艳,现在还能开口说话了。

但碰上体操,还是直接变“噩梦燃料”。

这个视频展示了 Veo 3 生成体操动作的效果。

还是那个味儿——“纯纯的抽象”。

体操这玩意儿,就好像视频模型的“图灵测试”。

Veo 3 学的是规则,但体操这运动,本身就有点“反规则”。画面跳帧、肢体模糊、物理效果打架,这才是视频生成的前沿难题。体操挑战重力和时间,空间都会扭曲,身体简直是在“掰弯数学”。

虽然现在视频模型还有很多地方生成不准,但很快就会好起来。而且,跟其他模型比,Veo 3 的物理效果已经算好的了。

这个体操视频中虽然动作还是不行,但是注意后面的电视中竟然也同步播放了运动员的动作。

有人说一旦 AI 搞定了体操,那 AI 动作捕捉 (MoCap) 问题也就解决了。建议谷歌跟 OptiTrack 或者 MoveAI 这些专业动捕公司合作一下。

Tech Brief AI 的 Ujjawal Kumar 表示:Veo 3 是个猛兽,但一到体操这块儿,还是“恐怖谷”警告,胳膊腿儿弯得像恐怖片。AI 要是连体操都拿不下,那说明还没到火候。

Pareash 也说,虽然看到不少 Veo 3 的惊艳视频,但这体操视频确实还是差点意思。体操是 AI 的终极考验,人类那种流畅又精准的动作,依然是视频生成的“最终 Boss”。

还有一个视频:Veo 3 简单的武术动作,搞不定。

不过Veo 3还是有许多惊艳的视频。

使用 Google Flow:https://labs.google/fx/tools/flow 创建,视觉、声音设计和语音都使用 Veo 3 文本到视频进行提示,欢迎来到电影制作的新时代:

绝了。

嗯嗯,还有:长颈鹿开上了暴力摩托。

一位大学教授在上 Z 世代俚语课,视频平移到所有婴儿潮一代,在做笔记。

技术会议,太真实了。。

ASMR工作者、视频助眠有危险了。

马沙拉茶。

有一个应用点想到了,做视频的时候。想要啥音效自己可以描述画面,相当于自己可以来“捏”声音了。

单口喜剧

最后,如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能‘听懂’,‘会说’。看来,音画一体,将是下一轮视频模型竞赛的标配。

不过,小遗憾是,视频目前仍只有 8 秒。而且现在 Veo 3 仅面向美国 Ultra 订阅用户开放,一个月 249.99 美元。这是谷歌给专业创作者和开发者的高阶服务。

如果你自己想测试,试试除了体操外其他动作,比如打板球、耍双节棍、射箭、撕纸这些,可以参考这个测试集链接和论文。

https://arxiv.org/abs/2503.06800

picture.image

One More Thing

本号知识星球(汇集ALL订阅频道合集和其他):

picture.image

星球里可获取更多AI实践和资讯:

picture.image

🌟 知音难求,自我修 炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

点这里👇关注我,记得标星哦~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论