AI 视频生成“试金石”：谷歌 Veo 3 体操“图灵测试”未达标，仍是“抽象派”！ - 文章 - 开发者社区

🍹 Insight Daily 🪺

Hi，这里是Aitrainee，欢迎阅读本期新文章。

谷歌新出的 Veo 3 视频生成模型，确实厉害，这点毋庸置疑，不光是画质惊艳，现在还能开口说话了。

但碰上体操，还是直接变“噩梦燃料”。

这个视频展示了 Veo 3 生成体操动作的效果。

还是那个味儿——“纯纯的抽象”。

体操这玩意儿，就好像视频模型的“图灵测试”。

Veo 3 学的是规则，但体操这运动，本身就有点“反规则”。画面跳帧、肢体模糊、物理效果打架，这才是视频生成的前沿难题。体操挑战重力和时间，空间都会扭曲，身体简直是在“掰弯数学”。

虽然现在视频模型还有很多地方生成不准，但很快就会好起来。而且，跟其他模型比，Veo 3 的物理效果已经算好的了。

这个体操视频中虽然动作还是不行，但是注意后面的电视中竟然也同步播放了运动员的动作。

有人说一旦 AI 搞定了体操，那 AI 动作捕捉 (MoCap) 问题也就解决了。建议谷歌跟 OptiTrack 或者 MoveAI 这些专业动捕公司合作一下。

Tech Brief AI 的 Ujjawal Kumar 表示：Veo 3 是个猛兽，但一到体操这块儿，还是“恐怖谷”警告，胳膊腿儿弯得像恐怖片。AI 要是连体操都拿不下，那说明还没到火候。

Pareash 也说，虽然看到不少 Veo 3 的惊艳视频，但这体操视频确实还是差点意思。体操是 AI 的终极考验，人类那种流畅又精准的动作，依然是视频生成的“最终 Boss”。

还有一个视频：Veo 3 简单的武术动作，搞不定。

不过Veo 3还是有许多惊艳的视频。

使用 Google Flow：https://labs.google/fx/tools/flow 创建，视觉、声音设计和语音都使用 Veo 3 文本到视频进行提示，欢迎来到电影制作的新时代：

绝了。

嗯嗯，还有：长颈鹿开上了暴力摩托。

一位大学教授在上 Z 世代俚语课，视频平移到所有婴儿潮一代，在做笔记。

技术会议，太真实了。。

ASMR工作者、视频助眠有危险了。

马沙拉茶。

有一个应用点想到了，做视频的时候。想要啥音效自己可以描述画面，相当于自己可以来“捏”声音了。

单口喜剧

最后，如果说 Sora 是让 AI 看懂物理世界，那 Veo 3，就是让 AI 能‘听懂’，‘会说’。看来，音画一体，将是下一轮视频模型竞赛的标配。

不过，小遗憾是，视频目前仍只有 8 秒。而且现在 Veo 3 仅面向美国 Ultra 订阅用户开放，一个月 249.99 美元。这是谷歌给专业创作者和开发者的高阶服务。

如果你自己想测试，试试除了体操外其他动作，比如打板球、耍双节棍、射箭、撕纸这些，可以参考这个测试集链接和论文。

picture.image

One More Thing

本号知识星球（汇集ALL订阅频道合集和其他）：

picture.image

星球里可获取更多AI实践和资讯：

picture.image

🌟 知音难求，自我修 炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

点这里👇关注我，记得标星哦～