🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
谷歌新出的 Veo 3 视频生成模型,确实厉害,这点毋庸置疑,不光是画质惊艳,现在还能开口说话了。
但碰上体操,还是直接变“噩梦燃料”。
这个视频展示了 Veo 3 生成体操动作的效果。
还是那个味儿——“纯纯的抽象”。
体操这玩意儿,就好像视频模型的“图灵测试”。
Veo 3 学的是规则,但体操这运动,本身就有点“反规则”。画面跳帧、肢体模糊、物理效果打架,这才是视频生成的前沿难题。体操挑战重力和时间,空间都会扭曲,身体简直是在“掰弯数学”。
虽然现在视频模型还有很多地方生成不准,但很快就会好起来。而且,跟其他模型比,Veo 3 的物理效果已经算好的了。
这个体操视频中虽然动作还是不行,但是注意后面的电视中竟然也同步播放了运动员的动作。
有人说一旦 AI 搞定了体操,那 AI 动作捕捉 (MoCap) 问题也就解决了。建议谷歌跟 OptiTrack 或者 MoveAI 这些专业动捕公司合作一下。
Tech Brief AI 的 Ujjawal Kumar 表示:Veo 3 是个猛兽,但一到体操这块儿,还是“恐怖谷”警告,胳膊腿儿弯得像恐怖片。AI 要是连体操都拿不下,那说明还没到火候。
Pareash 也说,虽然看到不少 Veo 3 的惊艳视频,但这体操视频确实还是差点意思。体操是 AI 的终极考验,人类那种流畅又精准的动作,依然是视频生成的“最终 Boss”。
还有一个视频:Veo 3 简单的武术动作,搞不定。
不过Veo 3还是有许多惊艳的视频。
使用 Google Flow:https://labs.google/fx/tools/flow 创建,视觉、声音设计和语音都使用 Veo 3 文本到视频进行提示,欢迎来到电影制作的新时代:
绝了。
嗯嗯,还有:长颈鹿开上了暴力摩托。
一位大学教授在上 Z 世代俚语课,视频平移到所有婴儿潮一代,在做笔记。
技术会议,太真实了。。
ASMR工作者、视频助眠有危险了。
马沙拉茶。
有一个应用点想到了,做视频的时候。想要啥音效自己可以描述画面,相当于自己可以来“捏”声音了。
单口喜剧
最后,如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能‘听懂’,‘会说’。看来,音画一体,将是下一轮视频模型竞赛的标配。
不过,小遗憾是,视频目前仍只有 8 秒。而且现在 Veo 3 仅面向美国 Ultra 订阅用户开放,一个月 249.99 美元。这是谷歌给专业创作者和开发者的高阶服务。
如果你自己想测试,试试除了体操外其他动作,比如打板球、耍双节棍、射箭、撕纸这些,可以参考这个测试集链接和论文。
https://arxiv.org/abs/2503.06800
One More Thing
本号知识星球(汇集ALL订阅频道合集和其他):
星球里可获取更多AI实践和资讯:
🌟 知音难求,自我修 炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
点这里👇关注我,记得标星哦~