还记得 2023 年爆火的“AI郭德纲说英文”吗?当时网友惊呼口型对得真准,却很快发现——人物脖子以下像被水泥浇筑,说话时手都不会抬一下。
这其实是整个行业的尴尬:
• 98%的音频驱动模型只能做“面部动画”。
• 想做全身?动作僵硬、口型跑偏、人物走样,三大 bug 齐发。
• 更别提“让虚拟人随着提示词开心转圈”这种高精度控制,几乎是天方夜谭。
于是,夸克技术团队与浙江大学盯上了这块“不好啃的骨头”。他们把新模型取名 OmniAvatar——寓意:音频进去,真人级全身视频出来。值得一提的是,该模型已经开源,为研究者和开发者提供了宝贵的技术资源,推动了音频驱动视频生成领域的发展与创新。
概述
OmniAvatar 是一个创新的音频驱动全身视频生成模型,在唇形同步、面部及半身视频生成、文本控制等多个维度上取得了SOTA 表现。该模型不仅能够生成精确的唇形同步效果,还能产生流畅自然的身体动作,并支持通过提示词精准控制人物姿势、情绪、场景等要素。
技术亮点
1. SOTA性能表现
OmniAvatar 在多个评估维度上取得了领先的性能表现:
- 唇形同步准确性:在 HDTF 和 AVSpeech 数据集上的 Sync-C 指标达到最优
- 视频质量:FID 和 FVD 指标显著优于现有方法
- 文本控制能力:支持精确的提示词控制,可生成多样化场景
- 应用场景广泛:在播客、人机交互、动态场景、唱歌等多种场景下表现出色
2. 全身驱动能力突破
当前大多数音频驱动视频生成模型主要专注于面部动作,全身驱动能力相对较弱。OmniAvatar 通过创新的技术架构实现了突破:
传统方法的局限性:
- 主要关注面部运动,身体动作生硬不自然
- 难以同时保持唇形同步和身体动作的协调性
- 文本控制能力有限,无法精确控制身体姿势和背景
OmniAvatar的优势:
- 精确的唇形同步 + 流畅的身体动作
- 通过提示词控制人物姿势、情绪、场景
- 支持人物与物体的交互动作
3. 核心技术创新
OmniAvatar 在技术架构上提出了三个关键创新:
3.1 像素级多层次音频嵌入策略
传统方法问题:
- 使用交叉注意力机制引入音频特征
- 计算开销大,过度关注音频与面部特征的关系
- 难以实现全身协调的动作生成
OmniAvatar创新:
- 像素级音频嵌入:直接将音频特征融入模型潜在空间的像素级别
- 多层次嵌入:在 DiT 块的不同阶段集成音频嵌入
- 空间均匀分布:确保音频信息在整个视频像素中均匀分布
3.2 LoRA训练优化策略
设计理念:
- 保持基础模型的强大能力
- 高效集成新的音频特征
- 避免全量训练导致的性能退化
技术实现:
- 在注意力和前馈网络层引入低秩矩阵
- 平衡的微调策略:W' = W + ΔW, ΔW = AB
- 减少可训练参数,保持高质量输出
3.3 长视频生成优化
身份一致性保持:
- 参考图像嵌入策略
- 提取参考帧的潜在表示并重复匹配视频长度
- 在每个时间步与视频潜在表示连接
时间连贯性维护:
- 帧重叠策略:采用帧重叠技术确保平滑过渡
- 单帧和多帧前缀潜在表示的组合训练
- 前一批次的最后帧作为后续批次的前缀潜在表示
4. 应用场景与效果平衡
OmniAvatar 在多种应用场景下表现出色,实现了视频质量、准确度、审美三要素的良好平衡:
4.1 多样化应用场景
4.2 三要素平衡优化
视频质量:
- FID: 37.3(业界最低)
- FVD: 382(业界最低)
- 高分辨率输出支持
准确度:
- Sync-C: 7.62(接近真实值8.20)
- 精确的唇形同步
- 自然的身体动作协调
审美效果:
- ASE: 2.41(接近真实值2.48)
- 自然的表情变化
- 流畅的动作过渡
- 丰富的场景表现
技术架构总览
实验结果与性能对比
面部生成对比(HDTF 数据集)
方法 | FID↓ | FVD↓ | Sync-C↑ | IQA↑ |
---|---|---|---|---|
Hallo3 | 42.1 | 406 | 6.89 | 3.55 |
FantasyTalking | 43.9 | 441 | 3.75 | 3.59 |
HunyuanAvatar | 47.3 | 588 | 7.31 | 3.58 |
OmniAvatar | 37.3 | 382 | 7.62 | 3.82 |
半身生成对比(AVSpeech 数据集)
方法 | FID↓ | FVD↓ | Sync-C↑ | IQA↑ |
---|---|---|---|---|
Hallo3 | 104 | 1078 | 5.23 | 3.41 |
HunyuanAvatar | 77.7 | 887 | 6.71 | 3.61 |
MultiTalk | 74.7 | 787 | 4.76 | 3.67 |
OmniAvatar | 67.6 | 664 | 7.12 | 3.75 |
技术优势总结
- 突破性能边界:在唇形同步、视频质量等关键指标上达到 SOTA 水平
- 全身协调生成:解决了传统方法仅关注面部的局限性,实现全身自然动作
- 创新技术架构:像素级音频嵌入、LoRA 优化、长视频生成三大技术创新
- 广泛应用价值:在播客、交互、娱乐等多个领域展现出强大的实用性
- 平衡优化设计:在质量、准确度、审美三个维度实现了良好平衡
OmniAvatar 代表了音频驱动视频生成技术的重要进步,为数字人、虚拟主播、影视制作等应用领域提供了强有力的技术支撑。
参考资料: