12月首炸！可灵 O1 正式发布，全球首个统一多模态视频大模型，强得可怕！ - 文章 - 开发者社区

12月一到，AI 圈的“王炸级”产品又双叒叕来了—快手旗下可灵（Kling AI）正式发布了被称为 “全球首个统一多模态视频大模型”—Kling O1（可灵 O1） 。

picture.image

如果过去大家关注或使用了 AI 视频应用，也一定深知：想做一个连贯的短片，你得先用即梦/Nano Banana Pro等图片模型生成图片，再用可灵/即梦/海螺/Veo 等让图片中的元素动起来。

要是发现动作崩了要重新抽卡，最后还得进剪辑软件调色、剪辑。工具割裂、流程繁琐、一致性差 ，这是所有 AI 创作者的噩梦。

但是，现在 可灵 AI（Kling AI） 正式发布了全球首个统一多模态视频大模型—Kling O1 。

这不仅仅是一个新模型，它标志着 AI 视频从“抽卡时代”进入了 “全流程语义控制时代” 。

今天，我就带大家深度拆解一下这个被称为“视频界 Nano Banana Pro”的 O1 模型，到底强在哪里，又将如何改变我们的创作工作流。

一句话理解 O1

一个既会“看懂指令”也会“把视频做出来”的超级大脑。

过去做一个复杂视频创作流程，常常需要：文生视频模型 + 图像生成/修图模型 + 专门的视频编辑模型 + 若干后期软件。

O1 的目标是：

把这些能力统一到一个模型，用户可以在同一个输入通道里完成图生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务。

可灵官方把这个能力体系化地称为 MVL（Multi-modal Visual Language，全新交互的多模态视觉语言） ，并且结合长时序记忆与 Chain-of-Thought（思维链）推理，来保证时序、因果和主体一致性。

以前我们做视频，AI 模型是“偏科”的：有的擅长文生视频，有的擅长图生视频，有的擅长修补画面。

但可灵 O1 的出现，打破了这一切。一个模型，搞定所有。

O1 的五大核心亮点

一、全能引擎

特点：全球首个统一多模态视频大模型

可灵•视频O1模型，首次在视频生成领域，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务，融合于大一统模型之中。

你无需在多个模型及工具间跳转，即可一站式完成从灵感到生成、从生成到修改的全部创作。

二、全能指令

特点：多模态输入，全能创作编辑

依托统一模型的深层语义理解力，你上传的图片、视频、主体、文字等，在可灵 O1 眼中，皆是指令。

picture.image

O1 模型打破模态的限制，可综合理解你上传的一张照片、一段视频或主体（一个角色的不同视角），精准生成视频的各种细节。

同时，配合可灵 O1 的多模态指令输入区，让繁琐的剪辑后期，变成了简单的对话。无需手动遮罩或关键帧，只需输入：

• 「移除路人」
• 「将白天改黄昏」
• 「替换主角服装」

模型即可读懂影像逻辑，从局部的主体替换，到整体的视频风格重绘，自动完成像素级的语义重构。

picture.image

还可以在可灵 O1 多模态指令输入区，进行以下创作：

1）图片/主体参考

为提供更好的角色/道具/场景一致性，可灵 O1 首次支持你通过上传多视角图片，进行「主体」的创建。

你可以上传1-7张参考图或主体，来自由组合人物、角色、道具、服装、场景等元素，并用文字定义它们之间的精彩互动，让静态元素在视频中活动起来。

文字指令=［多主体细节描述］+［主体间互动/动作］+［环境背景］+［运镜/光影/风格等视听语言］

2）指令变换

在可灵O1中，可以利用多模态（文字/图片/主体）的输入语言任意组合，轻松实现对原视频进行主体与背景的增加、修改、删除，也可以修改视频的风格、天气、颜色、材质、景别视角等等。

① 视频增加内容

句式：在【@视频】中增加【@图片】中的内容

② 视频删除内容

句式：删除【@视频】中的［描述要删除内容］

③ 切换景别/视角

句式：生成【@视频】中的［其他视角/景别，例如：正面特写/远景］

④ 视频修改任务

支持修改视频主体、修改视频背景、修改视频局部、修改视频风格、修改物体颜色、修改视频天气等等。

句式：把【@视频】中［描述指定主体］修改为【@主体】。

句式：把【@视频】中的背景修改为【@图片】中的［描述背景］

句式：把【@视频】修改为［风格词汇，例如：美式卡通/日式动漫/赛博朋克/像素风格/水墨风格/水彩风格/手办风.］

还支持视频特效玩法，你可以直接用文字，给视频中的元素增加火焰，或者让视频中的环境结冰。也可以给视频中的人物增加面部纹路、增加红眼特效。

还可以将视频中主体的图片转绘后，替换视频原主体，获得更具吸引力的视觉效果。

picture.image

3）视频参考

你可以上传3-10s视频作为参考，配合文字、图片或者主体等指令描述，生成下一个分镜头；或者参考视频内动作/运镜，生成全新视频画面。

句式：参考使用【@视频】中［角色］的动作，让【@图片】中的［角色］动起来

4）首尾帧

可以在默认模式下，参考下面的句式，直接文字说明哪张图片是首帧、哪张图片是尾帧，并通过描述场景过渡、运镜轨迹或角色动作，精准控制视频从开始到结束的全过程。

句式：把【@图片1】作为/固定为首帧，［描述后续画面的变化］；
句式：把【@图片1】作为/固定为首帧，把【@图片2】作为/固定为尾帧，［描述首帧和尾帧之间的变化内容］。

当然也可以按照之前的使用方式，点击技能区的「首尾帧」icon，唤起首尾帧的图片上传槽位，操作更清晰。（暂不支持仅尾帧的生成）

picture.image

5）文生视频

在输入区输入文字，如未上传素材，提交生成按钮，即为文生视频创作。

句式：主体（主体描述）＋运动＋场景（场景描述）＋（镜头语言＋光影＋氛围）

picture.image

三、全能参考

特点：彻底解决视频一致性难题

可灵 O1 底层强化了对输入图像及视频的理解，并支持你通过多视角图创建主体。

这个主题可以是角色、物体或场景等。同时支持多主体混合参考，实现群像与交互场景的构建。

上传一个角色的多视角照片，它可以在不同镜头、不同光照与风格下保持“这个人是同一个人”的特征不变。

举个例子：

你设定了一个“穿风衣的黑人侦探”。你可以让他走在雨夜、坐在咖啡馆等。O1 生成的所有镜头，主角都是同一个人。

picture.image

四、超强组合

特点：更多创意化学反应

O1 允许你把各种指令叠加使用 ，也就是技能叠加的“多层特效”。

它会理解这些指令之间的逻辑关系，并一次性生成出来。它不会因为加了雪花就忘了主角长啥样，也不会因为换了画风就搞乱了运镜。

五、节奏掌控

特点：支持生成3-10 秒自由叙事

每一段故事、每一个镜头，都有它应有的长度和呼吸感。

可灵 O1 支持3-10秒自由生成，无论是短促的视觉冲击，还是悠长的故事铺陈，都由你自由掌控，让叙事张弛有度。

picture.image

性能对比

picture.image

在 AI 圈，不服跑个分。可灵 AI 公布了基于自建评测集的内部测试数据，结果相当炸裂。

• 图片参考任务（IP 一致性） ：O1 的胜率高达 247% ，对比对象是 Google 的 Veo 3.1 。
• 指令变换任务（视频编辑） ：O1 的胜率高达 230% ，对比对象是 Runway 的 Aleph 。

picture.image

虽然这是官方数据，但也侧面反映了 O1 在「可控性」和「理解力」上的巨大优势。

写在最后

可灵 O1 的发布，给我最大的感受是：AI 视频生成，真正从「玩具」变成了可落地的「工具」。

以前我们玩 AI 视频，更多是图个乐，因为不可控因素太多。但 O1 通过统一架构 + 语义指令 + 强一致性，让视频生成变得可预测、可编辑、可落地。

当然也并不意味着视频生成的所有问题都被解决了。更准确地说，这是把生成、理解、编辑三件事放到同一引擎里，向「程序化导演」迈进的一大步。

可灵O1-视频O1使用指南：https://docs.qingque.cn/d/home/eZQAOaXS\_vSJtC2ykMjNfYSaa?identityId=2KG5EOpYJ5H

同时可灵O1-图片O1 模型也已上线，功能更是强大，大家也可以去试试。

picture.image

可灵O1-图片O1使用指南：https://docs.qingque.cn/d/home/eZQAOaXS\_vSJtC2ykMjNfYSaa?identityId=2AwUiwWiFnw

picture.image

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️

在看你就赞赞我！

picture.image