技术解密:一键生成数字分身

行业趋势技术解析

还记得 2023 年爆火的“AI郭德纲说英文”吗?当时网友惊呼口型对得真准,却很快发现——人物脖子以下像被水泥浇筑,说话时手都不会抬一下。

这其实是整个行业的尴尬:
• 98%的音频驱动模型只能做“面部动画”。
• 想做全身?动作僵硬、口型跑偏、人物走样,三大 bug 齐发。
• 更别提“让虚拟人随着提示词开心转圈”这种高精度控制,几乎是天方夜谭。

于是,夸克技术团队与浙江大学盯上了这块“不好啃的骨头”。他们把新模型取名 OmniAvatar——寓意:音频进去,真人级全身视频出来。值得一提的是,该模型已经开源,为研究者和开发者提供了宝贵的技术资源,推动了音频驱动视频生成领域的发展与创新。

概述

OmniAvatar 是一个创新的音频驱动全身视频生成模型,在唇形同步、面部及半身视频生成、文本控制等多个维度上取得了SOTA 表现。该模型不仅能够生成精确的唇形同步效果,还能产生流畅自然的身体动作,并支持通过提示词精准控制人物姿势、情绪、场景等要素。

技术亮点

1. SOTA性能表现

OmniAvatar 在多个评估维度上取得了领先的性能表现:

  • 唇形同步准确性:在 HDTF 和 AVSpeech 数据集上的 Sync-C 指标达到最优
  • 视频质量:FID 和 FVD 指标显著优于现有方法
  • 文本控制能力:支持精确的提示词控制,可生成多样化场景
  • 应用场景广泛:在播客、人机交互、动态场景、唱歌等多种场景下表现出色

picture.image

2. 全身驱动能力突破

当前大多数音频驱动视频生成模型主要专注于面部动作,全身驱动能力相对较弱。OmniAvatar 通过创新的技术架构实现了突破:

传统方法的局限性:

  • 主要关注面部运动,身体动作生硬不自然
  • 难以同时保持唇形同步和身体动作的协调性
  • 文本控制能力有限,无法精确控制身体姿势和背景

OmniAvatar的优势:

  • 精确的唇形同步 + 流畅的身体动作
  • 通过提示词控制人物姿势、情绪、场景
  • 支持人物与物体的交互动作

picture.image

3. 核心技术创新

OmniAvatar 在技术架构上提出了三个关键创新:

3.1 像素级多层次音频嵌入策略

传统方法问题:

  • 使用交叉注意力机制引入音频特征
  • 计算开销大,过度关注音频与面部特征的关系
  • 难以实现全身协调的动作生成

OmniAvatar创新:

  • 像素级音频嵌入:直接将音频特征融入模型潜在空间的像素级别
  • 多层次嵌入:在 DiT 块的不同阶段集成音频嵌入
  • 空间均匀分布:确保音频信息在整个视频像素中均匀分布

picture.image

3.2 LoRA训练优化策略

设计理念:

  • 保持基础模型的强大能力
  • 高效集成新的音频特征
  • 避免全量训练导致的性能退化

技术实现:

  • 在注意力和前馈网络层引入低秩矩阵
  • 平衡的微调策略:W' = W + ΔW, ΔW = AB
  • 减少可训练参数,保持高质量输出

picture.image

3.3 长视频生成优化

身份一致性保持:

  • 参考图像嵌入策略
  • 提取参考帧的潜在表示并重复匹配视频长度
  • 在每个时间步与视频潜在表示连接

时间连贯性维护:

  • 帧重叠策略:采用帧重叠技术确保平滑过渡
  • 单帧和多帧前缀潜在表示的组合训练
  • 前一批次的最后帧作为后续批次的前缀潜在表示

picture.image

4. 应用场景与效果平衡

OmniAvatar 在多种应用场景下表现出色,实现了视频质量、准确度、审美三要素的良好平衡:

4.1 多样化应用场景

picture.image

4.2 三要素平衡优化

视频质量:

  • FID: 37.3(业界最低)
  • FVD: 382(业界最低)
  • 高分辨率输出支持

准确度:

  • Sync-C: 7.62(接近真实值8.20)
  • 精确的唇形同步
  • 自然的身体动作协调

审美效果:

  • ASE: 2.41(接近真实值2.48)
  • 自然的表情变化
  • 流畅的动作过渡
  • 丰富的场景表现

技术架构总览

实验结果与性能对比

面部生成对比(HDTF 数据集)

方法FID↓FVD↓Sync-C↑IQA↑
Hallo342.14066.893.55
FantasyTalking43.94413.753.59
HunyuanAvatar47.35887.313.58
OmniAvatar37.33827.623.82

半身生成对比(AVSpeech 数据集)

方法FID↓FVD↓Sync-C↑IQA↑
Hallo310410785.233.41
HunyuanAvatar77.78876.713.61
MultiTalk74.77874.763.67
OmniAvatar67.66647.123.75

技术优势总结

  1. 突破性能边界:在唇形同步、视频质量等关键指标上达到 SOTA 水平
  2. 全身协调生成:解决了传统方法仅关注面部的局限性,实现全身自然动作
  3. 创新技术架构:像素级音频嵌入、LoRA 优化、长视频生成三大技术创新
  4. 广泛应用价值:在播客、交互、娱乐等多个领域展现出强大的实用性
  5. 平衡优化设计:在质量、准确度、审美三个维度实现了良好平衡

OmniAvatar 代表了音频驱动视频生成技术的重要进步,为数字人、虚拟主播、影视制作等应用领域提供了强有力的技术支撑。

参考资料:

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论