PGTFormer：引领视频人脸修复的创新路径 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

引言

picture.image

视频人脸恢复效果展示。左侧为低质量视频人脸，右侧为恢复后的高质量结果。

视频人脸修复是计算机视觉中的一个关键挑战。当前的大多数方法主要集中在静态图像的处理，缺乏对视频中时序信息的有效捕捉。这些方法通常依赖复杂的对齐操作，且在处理长视频时，恢复结果容易出现不一致的问题。为了突破这些限制，研究者开发了PGTFormer（Parsing-Guided Temporal-Coherent Transformer），这是一种专门为视频人脸修复设计的端到端方法，能够有效避免传统对齐操作，提升修复的连贯性和效率。

该研究已被IJCAI 2024收录

论文地址：https://arxiv.org/abs/2404.13640
论文主页：https://kepengxu.github.io/projects/pgtformer/
开源代码：https://github.com/kepengxu/PGTFormer
研究者主页：https://kepengxu.github.io

方法概述

网络架构

为了解决视频人脸修复中的复杂问题，PGTFormer的网络架构分为两个主要阶段：

第一阶段 - 训练TS-VQGAN（时空VQGAN） ：
在这一阶段，研究者首先训练TS-VQGAN模型，旨在捕捉高质量视频人脸的时空特征。该模型生成了逼近真实人脸的先验嵌入，为PGTFormer的后续修复提供了坚实的基础。
第二阶段 - 训练PGTFormer ：
随后，PGTFormer通过人脸解析模块和时空Transformer模块，利用第一阶段生成的高质量人脸先验，完成视频人脸的修复。具体而言，PGTFormer首先对输入的低质量视频帧进行解析，提取关键面部特征；然后通过时空Transformer模块查询TS-VQGAN生成的先验信息，最终通过解码器将这些高质量特征整合到原始视频中，生成高清且时序一致性强的修复视频。

picture.image

PGTFormer的网络架构示意图，展示了TS-VQGAN与PGTFormer的协同工作及两阶段训练过程。

设计理念

视频人脸修复在保持时序一致性和简化对齐操作方面一直面临挑战。传统方法往往依赖复杂的对齐过程来确保视频帧间的一致性，但这种方法不仅增加了计算复杂度，还可能引入误差，影响修复效果。为此，研究者开发了PGTFormer，通过解析引导和时序一致性建模，彻底摒弃了对齐操作，直接实现端到端的视频人脸修复。这一创新设计显著简化了处理流程，极大提升了修复效果的稳定性和视觉质量。

picture.image

传统方法与PGTFormer在视频人脸修复流程上的对比。(a)展示了传统方法复杂的对齐步骤，(b)展示了PGTFormer的端到端修复流程，无需对齐。

实验验证

为了验证PGTFormer的性能，研究者在多个公开数据集上进行了广泛的实验，并与现有最先进的方法进行了对比。以下展示了PGTFormer在多个定量指标上的表现，涵盖了对齐和非对齐人脸视频的训练和测试结果。

picture.image

PGTFormer与其他方法在多个定量指标上的实验结果对比。

关键实验结果概述：

PSNR（峰值信噪比） ：PGTFormer在对齐和非对齐视频上的PSNR值分别达到30.74和29.66，远高于其他方法，表明其在图像质量重建方面具有显著优势。
SSIM（结构相似性） ：PGTFormer在SSIM指标上的表现优异，在对齐和非对齐数据集上的SSIM值分别为0.8668和0.8408，显示出其在保持结构一致性方面的出色能力。
LPIPS（感知相似度） ：PGTFormer在LPIPS指标上取得了最低值，分别为0.2095（对齐）和0.2230（非对齐），这意味着PGTFormer生成的图像在视觉效果上更接近高质量图像。
其他指标（Deg、LMD、TLME、MSRL） ：在这些衡量面部特征、扭曲程度、时间一致性和细节保留的指标上，PGTFormer也全面超越了其他方法，展现出其卓越的修复能力。

主观视觉对比

除了定量分析，研究者还进行了广泛的主观视觉对比实验，以进一步验证PGTFormer在视频人脸修复中的实际效果。

picture.image

PGTFormer与其他方法在视觉效果上的对比。PGTFormer在细节保留、伪影去除及面部自然度上表现出色。

实验结果表明，PGTFormer在恢复面部细节方面表现卓越，如眼睛和嘴巴的轮廓和纹理更为清晰自然。相比其他方法，PGTFormer生成的人脸更加生动，色彩还原更为准确，几乎没有伪影或不自然的过渡现象。

结论

PGTFormer作为首个专为视频人脸修复设计的端到端方法，为该领域带来了创新的解决方案。其设计消除了传统方法中的复杂对齐问题，通过解析引导和时序一致性建模，实现了更加高效且自然的视频修复效果。未来，研究者计划继续优化PGTFormer的网络结构，并探索其在更广泛的视频增强任务中的应用潜力，期待在实际应用中展现更多的技术突破。

参考文献

K Xu, L Xu, G He, W Yu, Y Li. Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer. Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence IJCAI-24

点击上方卡片，关注「AI视界引擎」公众号