PGTFormer:引领视频人脸修复的创新路径

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

引言

picture.image

视频人脸恢复效果展示。左侧为低质量视频人脸,右侧为恢复后的高质量结果。

视频人脸修复是计算机视觉中的一个关键挑战。当前的大多数方法主要集中在静态图像的处理,缺乏对视频中时序信息的有效捕捉。这些方法通常依赖复杂的对齐操作,且在处理长视频时,恢复结果容易出现不一致的问题。为了突破这些限制,研究者开发了PGTFormer(Parsing-Guided Temporal-Coherent Transformer),这是一种专门为视频人脸修复设计的端到端方法,能够有效避免传统对齐操作,提升修复的连贯性和效率。

该研究已被IJCAI 2024收录

方法概述

网络架构

为了解决视频人脸修复中的复杂问题,PGTFormer的网络架构分为两个主要阶段:

  1. 第一阶段 - 训练TS-VQGAN(时空VQGAN)
    在这一阶段,研究者首先训练TS-VQGAN模型,旨在捕捉高质量视频人脸的时空特征。该模型生成了逼近真实人脸的先验嵌入,为PGTFormer的后续修复提供了坚实的基础。
  2. 第二阶段 - 训练PGTFormer
    随后,PGTFormer通过人脸解析模块和时空Transformer模块,利用第一阶段生成的高质量人脸先验,完成视频人脸的修复。具体而言,PGTFormer首先对输入的低质量视频帧进行解析,提取关键面部特征;然后通过时空Transformer模块查询TS-VQGAN生成的先验信息,最终通过解码器将这些高质量特征整合到原始视频中,生成高清且时序一致性强的修复视频。

picture.image

PGTFormer的网络架构示意图,展示了TS-VQGAN与PGTFormer的协同工作及两阶段训练过程。

设计理念

视频人脸修复在保持时序一致性和简化对齐操作方面一直面临挑战。传统方法往往依赖复杂的对齐过程来确保视频帧间的一致性,但这种方法不仅增加了计算复杂度,还可能引入误差,影响修复效果。为此,研究者开发了PGTFormer,通过解析引导和时序一致性建模,彻底摒弃了对齐操作,直接实现端到端的视频人脸修复。这一创新设计显著简化了处理流程,极大提升了修复效果的稳定性和视觉质量。

picture.image

传统方法与PGTFormer在视频人脸修复流程上的对比。(a)展示了传统方法复杂的对齐步骤,(b)展示了PGTFormer的端到端修复流程,无需对齐。

实验验证

为了验证PGTFormer的性能,研究者在多个公开数据集上进行了广泛的实验,并与现有最先进的方法进行了对比。以下展示了PGTFormer在多个定量指标上的表现,涵盖了对齐和非对齐人脸视频的训练和测试结果。

picture.image

PGTFormer与其他方法在多个定量指标上的实验结果对比。

关键实验结果概述:

  • PSNR(峰值信噪比) :PGTFormer在对齐和非对齐视频上的PSNR值分别达到30.74和29.66,远高于其他方法,表明其在图像质量重建方面具有显著优势。
  • SSIM(结构相似性) :PGTFormer在SSIM指标上的表现优异,在对齐和非对齐数据集上的SSIM值分别为0.8668和0.8408,显示出其在保持结构一致性方面的出色能力。
  • LPIPS(感知相似度) :PGTFormer在LPIPS指标上取得了最低值,分别为0.2095(对齐)和0.2230(非对齐),这意味着PGTFormer生成的图像在视觉效果上更接近高质量图像。
  • 其他指标(Deg、LMD、TLME、MSRL) :在这些衡量面部特征、扭曲程度、时间一致性和细节保留的指标上,PGTFormer也全面超越了其他方法,展现出其卓越的修复能力。

主观视觉对比

除了定量分析,研究者还进行了广泛的主观视觉对比实验,以进一步验证PGTFormer在视频人脸修复中的实际效果。

picture.image

PGTFormer与其他方法在视觉效果上的对比。PGTFormer在细节保留、伪影去除及面部自然度上表现出色。

实验结果表明,PGTFormer在恢复面部细节方面表现卓越,如眼睛和嘴巴的轮廓和纹理更为清晰自然。相比其他方法,PGTFormer生成的人脸更加生动,色彩还原更为准确,几乎没有伪影或不自然的过渡现象。

结论

PGTFormer作为首个专为视频人脸修复设计的端到端方法,为该领域带来了创新的解决方案。其设计消除了传统方法中的复杂对齐问题,通过解析引导和时序一致性建模,实现了更加高效且自然的视频修复效果。未来,研究者计划继续优化PGTFormer的网络结构,并探索其在更广泛的视频增强任务中的应用潜力,期待在实际应用中展现更多的技术突破。

参考文献

K Xu, L Xu, G He, W Yu, Y Li. Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer. Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence IJCAI-24

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
评论
未登录
暂无评论