最近看YouTube上有人在进行实时换脸直播,被效果给惊艳到了。 实时AI换脸已经做到这个样子了,确实有点不可思议。 以前说到 AI 换脸,大家更容易想到的是离线处理:上传一张脸、上传一段视频、等模型跑完,然后看生成结果。
但现在已经可以在浏览器里打开摄像头,给一张参考人脸,画面可以持续返回 AI 处理后的预览。它不再像一个视频后期工具,而更像一个实时视频效果。
不可思议的点不是换脸,而是“实时”
单张图片换脸已经不算新鲜,视频模型换脸轻轻松松你哦。但实时换脸是另一件事,还没有很多大模型在这个领域厮杀。
因为实时意味着系统不能只追求最后一张图好看。它还要处理摄像头输入、参考图、网络延迟、模型推理、画面回传、前端渲染,以及中途停止会话这些连续状态。任何一环慢一点,用户看到的就不是“实时换脸”,而是卡顿、延迟、跳帧或者不知道发生了什么。
真正让人惊讶的地方,是它把过去离线生成任务的pipeline,压到了一个能互动体验的链路里。用户不是等一段视频生成完,而是在摄像头画面里直接看 AI 帧不断回来,这体验比干等着好太多了。
从上传视频后等待生成,变成一段实时会话视频
这背后的产品形态也变了。
传统 AI 生成更像一次请求:输入素材、提交任务、等待结果、下载文件。实时换脸更像一段会话:开始摄像头、设置参考图、建立实时连接、持续处理帧、随时停止。
这也是为什么它不能只做成一个“上传并生成”的表单。实时会话里,开始和停止都很重要,用户也需要知道当前是不是正在消耗ai token,因为大模型会按实时处理时长产生成本。 界面上就需要实时的告诉用户消耗的额度。
换脸、试穿、风格化全部通吃
我比较感兴趣的另一个点是,它不只局限在 face swap
从交互上看,实时试穿和实时 restyle 其实原理都是一样的。区别只是参考对象不同。换脸参考的是人脸,试穿参考的是衣服或造型,restyle 参考的是整体风格。
这说明实时视觉生成正在从“生成一个结果”往“改写当前摄像头画面”靠近。这个方向很有想象空间,因为它接近直播、视频会议、虚拟摄像头、OBS、短视频拍摄这些真实场景,而不是只停留在生成一张图或一段短视频。
如果想看一个现在已经能跑起来的demo,可以看这个 实时AI换脸预览。它已经把“参考输入 + 摄像头 + 实时 AI 输出”这条链路摆到浏览器里了。
边界需要要说清楚
当然,这类技术越让人惊讶,边界越不能含糊。
首先是身份和授权。参考人脸、服装、风格素材都应该来自自己或得到允许的内容。其次是输出范围和成本,实时推理不是一次性生成,按秒或按会话计量都需要提前让人知道。
我现在对这类技术的判断是:它已经不是简单的“换一张脸”了,而是在把 AI 视频生成推进到实时交互层。哪怕还不完美,看到摄像头画面能被模型持续改写,本身就已经很有冲击力。
