12月一到,AI 圈的“王炸级”产品又双叒叕来了—快手旗下可灵(Kling AI)正式发布了被称为 “全球首个统一多模态视频大模型”—Kling O1(可灵 O1) 。
如果过去大家关注或使用了 AI 视频应用,也一定深知:想做一个连贯的短片,你得先用即梦/Nano Banana Pro等图片模型生成图片,再用 可灵/即梦/海螺/Veo 等让图片中的元素动起来。
要是发现动作崩了要重新抽卡,最后还得进剪辑软件调色、剪辑。工具割裂、流程繁琐、一致性差 ,这是所有 AI 创作者的噩梦。
但是,现在 可灵 AI(Kling AI) 正式发布了全球首个统一多模态视频大模型—Kling O1 。
这不仅仅是一个新模型,它标志着 AI 视频从“抽卡时代”进入了 “全流程语义控制时代” 。
今天,我就带大家深度拆解一下这个被称为“视频界 Nano Banana Pro”的 O1 模型,到底强在哪里,又将如何改变我们的创作工作流。
一个既会“看懂指令”也会“把视频做出来”的超级大脑。
过去做一个复杂视频创作流程,常常需要:文生视频模型 + 图像生成/修图模型 + 专门的视频编辑模型 + 若干后期软件。
O1 的目标是:
把这些能力统一到一个模型,用户可以在同一个输入通道里完成图生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务。
可灵官方把这个能力体系化地称为 MVL(Multi-modal Visual Language,全新交互的多模态视觉语言) ,并且结合长时序记忆与 Chain-of-Thought(思维链)推理,来保证时序、因果和主体一致性。
以前我们做视频,AI 模型是“偏科”的:有的擅长文生视频,有的擅长图生视频,有的擅长修补画面。
但可灵 O1 的出现,打破了这一切。一个模型,搞定所有。
一、全能引擎
特点:全球首个统一多模态视频大模型
可灵•视频O1模型,首次在视频生成领域,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于大一统模型之中。
你无需在多个模型及工具间跳转,即可一站式完成从灵感到生成、从生成到修改的全部创作。
二、全能指令
特点:多模态输入,全能创作编辑
依托统一模型的深层语义理解力,你上传的图片、视频、主体、文字等,在可灵 O1 眼中,皆是指令。
O1 模型打破模态的限制,可综合理解你上传的一张照片、一段视频或主体(一个角色的不同视角),精准生成视频的各种细节。
同时,配合可灵 O1 的多模态指令输入区,让繁琐的剪辑后期,变成了简单的对话。无需手动遮罩或关键帧,只需输入:
- • 「移除路人」
- • 「将白天改黄昏」
- • 「替换主角服装」
模型即可读懂影像逻辑,从局部的主体替换,到整体的视频风格重绘,自动完成像素级的语义重构。
还可以在可灵 O1 多模态指令输入区,进行以下创作:
1)图片/主体参考
为提供更好的角色/道具/场景一致性,可灵 O1 首次支持你通过上传多视角图片,进行「主体」的创建。
你可以上传1-7张参考图或主体,来自由组合人物、角色、道具、服装、场景等元素,并用文字定义它们之间的精彩互动,让静态元素在视频中活动起来。
文字指令=[多主体细节描述]+[主体间互动/动作]+[环境背景]+[运镜/光影/风格等视听语言]
2)指令变换
在可灵O1中,可以利用多模态(文字/图片/主体)的输入语言任意组合,轻松实现对原视频进行主体与背景的增加、修改、删除,也可以修改视频的风格、天气、颜色、材质、景别视角等等。
① 视频增加内容
句式:在【@视频】中增加【@图片】中的内容
② 视频删除内容
句式:删除【@视频】中的[描述要删除内容]
③ 切换景别/视角
句式:生成【@视频】中的[其他视角/景别,例如:正面特写/远景]
④ 视频修改任务
支持修改视频主体、修改视频背景、修改视频局部、修改视频风格、修改物体颜色、修改视频天气等等。
句式:把【@视频】中[描述指定主体]修改为【@主体】。
句式:把【@视频】中的背景修改为【@图片】中的[描述背景]
句式:把【@视频】修改为[风格词汇,例如:美式卡通/日式动漫/赛博朋克/像素风格/水墨风格/水彩风格/手办风.]
还支持视频特效玩法,你可以直接用文字,给视频中的元素增加火焰,或者让视频中的环境结冰。也可以给视频中的人物增加面部纹路、增加红眼特效。
还可以将视频中主体的图片转绘后,替换视频原主体,获得更具吸引力的视觉效果。
3)视频参考
你可以上传3-10s视频作为参考,配合文字、图片或者主体等指令描述,生成下一个分镜头;或者参考视频内动作/运镜,生成全新视频画面。
句式:参考使用【@视频】中[角色]的动作,让【@图片】中的[角色]动起来
4)首尾帧
可以在默认模式下,参考下面的句式,直接文字说明哪张图片是首帧、哪张图片是尾帧,并通过描述场景过渡、运镜轨迹或角色动作,精准控制视频从开始到结束的全过程。
句式:把【@图片1】作为/固定为首帧,[描述后续画面的变化];
句式:把【@图片1】作为/固定为首帧,把【@图片2】作为/固定为尾帧,[描述首帧和尾帧之间的变化内容]。
当然也可以按照之前的使用方式,点击技能区的「首尾帧」icon,唤起首尾帧的图片上传槽位,操作更清晰。(暂不支持仅尾帧的生成)
5)文生视频
在输入区输入文字,如未上传素材,提交生成按钮,即为文生视频创作。
句式:主体(主体描述)+运动+场景(场景描述)+(镜头语言+光影+氛围)
三、全能参考
特点:彻底解决视频一致性难题
可灵 O1 底层强化了对输入图像及视频的理解,并支持你通过多视角图创建主体。
这个主题可以是角色、物体或场景等。同时支持多主体混合参考,实现群像与交互场景的构建。
上传一个角色的多视角照片,它可以在不同镜头、不同光照与风格下保持“这个人是同一个人”的特征不变。
举个例子:
你设定了一个“穿风衣的黑人侦探”。你可以让他走在雨夜、坐在咖啡馆等。O1 生成的所有镜头,主角都是同一个人。
四、超强组合
特点:更多创意化学反应
O1 允许你把各种指令叠加使用 ,也就是技能叠加的“多层特效”。
它会理解这些指令之间的逻辑关系,并一次性生成出来。它不会因为加了雪花就忘了主角长啥样,也不会因为换了画风就搞乱了运镜。
五、节奏掌控
特点:支持生成3-10 秒自由叙事
每一段故事、每一个镜头,都有它应有的长度和呼吸感。
可灵 O1 支持3-10秒自由生成,无论是短促的视觉冲击,还是悠长的故事铺陈,都由你自由掌控,让叙事张弛有度。
在 AI 圈,不服跑个分。可灵 AI 公布了基于自建评测集的内部测试数据,结果相当炸裂。
- • 图片参考任务(IP 一致性) :O1 的胜率高达 247% ,对比对象是 Google 的 Veo 3.1 。
- • 指令变换任务(视频编辑) :O1 的胜率高达 230% ,对比对象是 Runway 的 Aleph 。
虽然这是官方数据,但也侧面反映了 O1 在「可控性」和「理解力」上的巨大优势。
可灵 O1 的发布,给我最大的感受是:AI 视频生成,真正从「玩具」变成了可落地的「工具」。
以前我们玩 AI 视频,更多是图个乐,因为不可控因素太多。但 O1 通过统一架构 + 语义指令 + 强一致性,让视频生成变得可预测、可编辑、可落地。
当然也并不意味着视频生成的所有问题都被解决了。更准确地说,这是把生成、理解、编辑三件事放到同一引擎里,向「程序化导演」迈进的一大步。
可灵O1-视频O1使用指南:https://docs.qingque.cn/d/home/eZQAOaXS\_vSJtC2ykMjNfYSaa?identityId=2KG5EOpYJ5H
同时 可灵O1-图片O1 模型也已上线,功能更是强大,大家也可以去试试。
可灵O1-图片O1使用指南:https://docs.qingque.cn/d/home/eZQAOaXS\_vSJtC2ykMjNfYSaa?identityId=2AwUiwWiFnw
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
