点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
现有的人脸超分辨率(FSR)方法取得了显著的进展,但它们主要利用有限的视觉信息超分辨率人脸,特别忽视了原始像素级空间中的多元线索,如高阶深度和语义,以及非视觉输入(文本描述和标注)。因此,这些方法难以从输入人脸中生成统一和有意义的表示。
作者猜想,将语言-视觉的多元表示引入尚未探索的潜在嵌入空间,可以通过编码和利用语言-视觉先验之间的互补性来增强FSR。这激发作者提出一个新的框架LLV-FSR,将大型视觉语言模型的力量与FSR的挑战结合起来。
具体来说,除了直接从原始输入中吸收知识外,作者还引入了预训练的视觉语言模型来生成多元先验,包括图像描述、描述、人脸语义 Mask 和深度。这些先验随后被用于指导更关键的特征表示,从而促进真实和高质量的人脸超分辨率。
实验结果表明,作者提出的框架在MMCelebA-HQ数据集上的PSNR重建质量和感知质量方面都有显著提高,比当前最先进水平(0.43dB)高出0.43dB。
1 Introduction
面部超分辨率(FSR)是一种可以从低分辨率(LR)图像中恢复高分辨率(HR)面部图像的技术。由于低成本相机和次优成像条件下的限制,捕获的面部图像通常质量较低,导致视觉效果不佳,并严重影响下游任务,如面部识别[8]、属性分析[38]等。FSR可以提高图像质量并增强下游任务,在近年来得到了更多的关注。
传统的基于模型的FSR方法依赖于特定的假设和先验知识,因此在假设不成立的情况下,在实际复杂场景中的效果和实用性较差。最近基于深度学习的方法在性能方面明显优于传统算法[12]。然而,FSR是一个不恰当的问题。具体来说,一个LR人脸可能对应多个HR人脸,因为空间维度的差异,这给FSR任务带来了巨大的挑战。
引入额外的先验信息是一种常见的策略来规范化解空间。例如,一些方法使用面部视觉先验(即,面部解析图,热力图等)来捕捉面部语义结构信息[5, 18, 39],以实现更好的重建。后来,基于生成先验的FSR技术展示出惊人的生成高质量人脸图像的能力[2, 3, 31],但并不忠实于真实世界。
此外,这些方法具有以下明显的缺点:
i)过度依赖特定的个体视觉先验,优化FSR的不确定性非常复杂;
ii)主要集中在视觉感知上,忽视非视觉语言文本信息,导致场景表示不完整,最终降低人脸图像的重建性能。
随着大规模模型的不断进步,一些工作已经将语言视觉先验集成到各种计算机视觉任务中(例如,视频理解[13]),并实现了令人印象深刻和激动人心的效果。与像素级视觉呈现不同,语言(文本)知识提供了更高层次的语义理解和抽象,这为视觉感知提供了补充。这一特性对于存在问题的FSR问题以及现有技术尚未充分探索。
基于上述分析和观察,开发一个统一的框架,以利用更丰富的语言视觉先验来提高FSR任务的鲁棒性和照片现实感,具有很高的前景和价值。遵循这一思维线索,作者开发了一个新颖的框架LLV-FSR,它主张将语言视觉先验与FSR任务相结合,如图1所示。具体而言,作者生成相应的语言视觉先验,包括来自观察到的LR人脸的图像描述、图像说明、面部语义 Mask 和深度图,这些模型都经过了一些预训练的大型规模模型。与现有FSR方法中使用的有限视觉知识(解析映射或深度)相比,作者的语言视觉先验平衡了视觉语义和高级文本抽象表达,它们更为全面,并与物理场景表示一致。此外,作者还精心设计了一个语言视觉先验融合模块,以充分利用语言视觉特征之间的互补性。得益于语言视觉先验和详细的融合,它使得具有强大能力的网络能够描述人类面部,从而享受到最先进的FSR性能,生成视觉上令人愉悦的FSR结果。
作者强调以下几点贡献:
- 作者提出了LLV-FSR,这是首次尝试将大型语言模型和高阶视觉先验与具有挑战性的FSR任务相结合。
- 作者精心设计了一个效应语言-视觉先融合模块,以利用语言-视觉表示中的互补信息,缓解FSR问题的不适定性。
- 实验结果表明,所提出的方法在视觉质量和定量指标方面达到了最先进水平。
2 Related Work
Face Super-resolution
面部超分辨率(FSR)是一种从给定的低分辨率面部图像中恢复高分辨率面部图像的技术。近年来深度学习的复兴推动了FSR研究的边界。在初期阶段,研究行人主要设计高效架构将低分辨率面部直接转换为高分辨率面部。SCGAN [11] 是一种基于生成对抗网络设计来恢复现实世界低分辨率面部图像的方法。SFMNet [25] 利用傅里叶变换来捕捉全局面部结构并增强模型的可表达性。考虑到CNN的感受野是局部且transformer可以捕捉全局依赖性,许多基于transformer的方法被开发出来。CTCNet [9] 构建了一个局部-全局特征合作模块来同时捕捉局部和全局依赖性,并利用它们之间的融合。近年来,基于扩散的FSR方法在研究社区中越来越受到关注。IDM [10] 将扩散模型与隐式表示相结合,实现连续FSR,而WaveFace [20] 提出分别恢复不同频率成分的方法。
然而,FSR是一个不恰当的问题。直接学习从LR到HR的映射非常困难。因此,引入先验信息来规范解决方案并辅助FSR。遵循这种思维方式,提出了先验引导的FSR方法。与自然图像不同,人脸图像具有特定的结构信息,即面部视觉先验(例如,面部地标、面部热力图、面部解析图等)。例如,FSRNet [4]粗略地增强LR人脸,然后提取面部先验以进一步改善中间结果的质量。DIC [18]迭代地执行FSR和视觉先验估计以实现它们之间的协作。MFPSNet [36]采用神经网络搜索聚合视觉先验的有效架构。而不是像以前的方法那样利用2D先验,研究行人利用更有信息的3D先验 [5]以提高人脸图像的质量。
后来,研究行人发现,预训练的生成面部模型可以提供丰富的面部信息,可以被视为生成先验,以增强FSR[3, 26]。起初,PULSE[19]直接优化潜在代码以生成高质量面部,其下采样版本类似于LR面部。PaniniNet[27]从LR面部中提取多尺度特征,并将这些特征输入到预训练的生成模型中,以捕捉生成先验。SGPN citesgpn探索了几何和生成先验的协同作用用于FSR。PD[28]提出了一种基于池化的分解方法,可以进一步改进基于生成先验的方法的一致性。最近,DR2[31]使用一个预训练的除噪扩散模型在使用增强模型之前消除降质伪影,以提高高频细节的分辨率。尽管已经取得了一些进展,但它们主要集中在视觉感知上,而忽视了非视觉语言文本信息,导致不完整的场景表示和有限的FSR性能。
Large-Scale Models
大型基础模型通常在庞大的数据集上进行训练,并在计算机视觉和自然语言处理方面表现出优越的性能。例如,BERT [6] 预先在大量语言数据上进行训练,使用 Mask 并预测任务来获得语言表示。SAM [14] 预先训练一个大分割模型,用于为输入图像生成语义 Mask 。DAM [35] 利用大规模无标签数据来训练深度估计模型,以获取深度信息。最近,CLIP [23] 致力于实现文本和图像之间的对齐。BLIP [15] 引入了二阶段方法,将图像和文本之间的差距弥合,并根据输入图像生成一个句子描述。GRIT [22] 利用网格和区域视觉特征以及基于 Transformer 的网络来生成更好的描述。ChatGPT [1] 有能力为任何输入图像生成详细的描述。这些模型可以为图像生成视觉信息(例如,语义 Mask 或深度图)和语言表示(例如,描述或描述),为人脸图像提供不同的表示。在本文中,作者研究了语言视觉先验在 FSR 中的潜力。
3 Approach
面部超分辨率致力于从给定的低分辨率面部图像中恢复高分辨率面部图像。为了解决这个病态且具有挑战性的问题,现有方法要么开发有效的网络架构来学习从LR到HR的映射,要么引入额外的先验来约束解空间并辅助面部重建。尽管现有方法已经取得了巨大的进步,但它们仍然存在一定的局限性。具体来说,它们过分依赖特定的个体视觉先验,这使得优化FSR的不确定性变得非常困难。它们主要关注视觉感知,而忽视了语言文本特征,这导致场景表示不完整,面部图像的重建性能下降。
最近,大规模模型出现了,并展示了在内容生成方面非凡的能力。与现有FSR方法中使用的视觉先验不同,语言(文本)知识具有更深入的理解和高级抽象,可以被视为语言先验,并可以作为视觉感知的补充。因此,作者开发了一个统一的框架,利用语言-视觉先验并探索它们的互补信息来恢复面部图像,作者称之为 LLV-FSR。在本节中,作者将详细介绍LLV-FSR。
Overview
给定一个LR人脸图像,作者首先将其输入到预训练的大型视觉语言模型中,以提取视觉语言异质表示。具体而言,作者分别采用预训练的BLIP2 [15],ChatGPT,SAM [14]和DAM [35]来生成文本描述、文本描述、语义 Mask 和深度图,分别对应。文本描述可以提供整体人脸信息,而文本描述则描绘了详细的面部内容和特征。语义 Mask 包含人脸结构信息,深度图则描绘了深度信息。这些先验互补,它们的结合呈现了更全面的人脸图像,促进了人脸重建。因此,LLV-FSR将它们结合在一起以协助FSR。
LLV-FSR 的流水线如图2 所示。以 作为输入,LLV-FSR 首先采用一个特征提取层(实现为一个卷积层),以提取视觉特征 ,然后将提取的特征输入到以下 L 个语言-视觉先验融合块和基本块的组合中,以充分挖掘语言-视觉先验的潜力。
其中和分别表示第i个语言视觉先验融合块和基本块的功能,是集成语言视觉先验的特征。
请注意,和是预训练文本编码器提取的标题和描述的文本嵌入,其参数固定,而和是图像编码器实现的意义 Mask 和深度图的特征。最后,作者将输入到由卷积层实现的特征重构器中,生成最终的超分辨率结果。为了约束LLV-FSR恢复令人满意的结果,应用了损失。
相应的高分辨率人脸图像为。
Language-Vision Prior Fusion Block
现有的FSR方法主要依赖于视觉感知,同时融入视觉先验知识,而忽视了语言文本特征,导致图像表示不完整,FSR性能受限。近年来,大规模模型表现出惊人的内容生成能力,一些研究已经成功地利用语言视觉先验知识进入计算机视觉任务。与视觉先验知识不同,语言文本知识描绘了更高层次的理解和抽象,这对人脸重建非常有价值,但在FSR中尚未得到充分探索。
在本工作中,作者构建了一个结合视觉先验知识和高级语言文本先验知识的语言视觉先验知识,以实现人脸图像更完整和上下文丰富的表示。这种双先验方法不仅增强了重构人脸的结构和视觉保真度,还引入了语义深度,通过利用文本信息的解释力提高了FSR性能。为了有效地整合和利用视觉和语言组件的互补优势,作者精心设计了一个语言视觉先验融合块(LVPPFB),如图3所示。这个融合块专门设计用于实现视觉和语言文本元素之间的协同作用,最大限度地发挥语言视觉先验的潜力,并提高FSR性能。在这里,作者将详细介绍LVPFB。
有效地融合视觉和语言组件,并利用语言-视觉先验的潜力和互补信息,作者精心设计了一个语言-视觉先验融合块(LVPPB)(如图3所示)。
在这里,作者将详细介绍LVPFB。
在给定的LR特征和语言视觉先验, , 和的情况下,LVPFB旨在整合这些元素并利用它们的互补信息来增强人脸超分辨率。首先,LVPFB将LR特征输入到四个并行且独特的注意力机制(即SegA,DepA,CapA和DesA)中,分别与四种语言视觉先验进行交互。
具体而言,深度图和语义 Mask ,它们分别反映面部结构和空间像素信息,由SegA和DepA处理。这些机制通过 ConCat 的卷积层学习一种面部分辨率感知的空间注意力,以增强LR特征。而文本描述提供了一个全局的视觉概述,因此对描述特征进行全局平均池化、卷积和sigmoid激活,生成全局描述注意力,称为CapA。与描述不同,文本描述提供了对面部图像的更详细和全面的洞察。因此,作者使用文本描述生成 Query Q,使用LR特征生成键K和值V。
然后,通过交叉注意力将这些融合在一起,称为DesA。在集成这四种先验后,作者将四种结果特征与LR特征连接,并引入 Shortcut 以产生最终输出。在LVPFB中,作者根据先验的特点采用不同的策略来融合不同的先验,实现先验感知和特性适应融合,从而提高FSR。
Language-Vision Prior Generation
在这里,作者详细介绍了语言视觉先验生成的相关细节,包括视觉先验语义 Mask 和深度图,以及语言先验、文本描述和描述。
视觉先验:语义 Mask 和深度图。面部语义 Mask 捕获了面部高层次的语义信息,这些信息划分了面部的关键结构区域,如眼睛、鼻子、嘴巴和面部轮廓,从而允许详细理解面部解剖结构。与此同时,深度图提供了关于面部特征的空间配置的 critical 三维信息,为面部深度变化的洞察提供了贡献,并有助于重建图像中的更真实纹理和阴影。这两者对于增强面部结构的表示和通过引入几何和语义线索促进 FSR 至关重要。在最近的发展中,如 SAM [14] 和 DAM [35],这些在大规模多样化的数据集上进行训练的基础模型,展示了出色的泛化能力和对各种图像降质 [34] 的鲁棒性。这些模型可以从降质输入中以令人印象的准确性提取语义和结构细节。因此,作者将 LR 面部图像直接输入到预训练的 SAM 和 DAM,以获得面部语义 Mask 和深度图作为视觉先验。
语言先验:文本描述和描述。文本描述提供了一个全局的 face 图像概述,包括图像的整体语义实质,并为其主要特征提供一个简洁而有意义的摘要。这个摘要通常强调了诸如性别等一般方面,提供了视觉表示的补充高层次信息。相比之下,文本描述提供了一个更详细和全面的 face 描述,捕捉到细微的面部表情、特定皮肤纹理或其他任何可能有助于 face 个体化的特定特征。这种程度的详细程度丰富了整体上下文理解,提供了仅依靠视觉元素之外的理解。图4 说明了语言视觉先验知识的示例。与语义 Mask 和深度图所示的结构信息和深度信息不同,描述和文本都提供了更高的语义信息和更全面的文本信息。这些类型的信息——视觉和文本——虽然不同,但互补,允许对 face 图像有更丰富和全面的了解。在本研究中,作者将 LR 图像输入到 BLIP2 中,以生成相应的图像描述,概括 face 的主要视觉特征。对于描述,LR 面部图像,以及一个 Prompt ,要求模型提供有用的可见特征或观察,被输入到 ChatGPT-4 中,然后生成 face 图像的详细文本描述。
4 Experiments
Datasets and Metrics
作者使用广为人知的高质量人脸数据集MM-CelebA-HQ[32,33]进行实验。遵循官方设置,作者使用24,000张人脸图像进行训练,剩下的6,000张人脸图像用于测试。为了评估模型性能,作者选择了四个流行的图像质量评估指标,包括峰值信噪比(PSNR)、结构相似性(SSIM)[30]、学习感知图像块相似性(LPIPS)[37]、自然图像质量评估器(NIQE)[21]。
Implementation Details
原始人脸图像(256256)直接作为 GT 。然后,通过双立方插值将 GT 下采样到3232和1616,分别生成LR人脸图像(8和16),设置为7。基本模块由两个 ConCat 的Transformer模块实现。优化器使用Adam,其中=0.9,=0.99,=1e-8,学习率2e-4。在PyTorch上训练30个周期。实验在具有24G内存的NVIDIA 4090 GPU上实现。
Comparison with the State-of-the-Arts
作者将作者的方法与最先进的FSR方法进行比较,以验证LLV-FSR的优越性。具体来说,作者选择了几种具有代表性的方法,包括第一种基于深度学习的超分辨率方法SRCNN [7],面部先验引导方法FSRNet [4]和DIC [18],基于卷积神经网络的方法SISN [17]和SFMNet [25],以及最近提出的基于 Transformer 的方法FaceFormer [29]和WFEN [16]。为了公平起见,所有方法都使用上述数据集进行训练和测试。定量质量和视觉质量比较分别显示在表1、图5和图6中。
现有方法的表现。例如,在 面部超分辨率任务上,作者的 LLV-FSR 的 PSNR 为 25.95 dB,比第二好的方法 WFEN 高 0.43 dB。具体来说,FSRNet 和 DIC 试图估计准确的面部视觉先验,并将其集成到模型中。然而,他们的性能非常有限。SISN 发展了分隔注意力机制来捕获面部信息,并比 DIC 和 FSRNet 表现更好。FaceFormer 结合了 Transformer 和卷积神经网络,其性能超过了 SISN 和 DIC。WFEN 和 SFMNet 采用 Transformer 和傅里叶变换来捕获全局感受野,并进一步超越了 SISN 和 FaceFormer。尽管比较方法表现良好,但它们主要关注单个视觉先验和像素级表示,而忽视了更全面的语言视觉先验的探索。LLV-FSR 将语言视觉先验集成到 FSR 任务中,并对面部图像进行全面描述,从而实现了最先进的面部重建性能。
定性对比:图5和图6分别展示了不同方法在和 FSR任务中的视觉质量对比。为了便于清晰对比,作者在左侧和右侧列出了LR和HR人脸图像。如图5所示,SRCNN在重建关键面部特征方面存在困难。而FSRNet、DIC和SISN可以恢复清晰的面部轮廓,但在 FSR任务中,它们在重建关键面部细节,如眼睛和嘴等方面存在困难。然而,在更具挑战性的 FSR任务中,它们的性能急剧恶化,产生了较差的结果。同样,在 FSR任务中,更先进的方法如FaceFormer、SFMNet和WFEN也未能准确恢复关键面部特征。这些方法通常生成的面部图像过于光滑,缺乏复杂的纹理和锐利度。相比之下,作者提出的利用语言视觉先验的方法在增强整体面部表示方面发挥着关键作用。通过结合视觉和文本信息,作者的方法确保在恢复过程中考虑到更全面的情景和结构特征。这使得LLV-FSR能够恢复出不仅具有更清晰、更准确的面部特征,而且具有更高程度真实感和自然感的面部图像。
人脸识别比较:除了提高LR人脸图像的质量外,人脸超分辨率方法还应保持面部身份信息。也就是说,超分辨率人脸图像应与相应的高分辨率(HR)图像具有相同的身份信息。因此,作者在身份距离方面进一步进行比较实验。具体而言,作者将由不同FSR方法恢复的超分辨率人脸图像和相应的HR图像输入到预训练的人脸识别模型DeepFace [24]中,以提取面部身份特征。然后,计算这些特征之间的余弦距离作为身份距离的衡量指标。比较结果如图7所示。作者的人脸身份距离低于其他方法,这表明LLV-FSR可以更好地保持人脸图像的身份信息,从而进一步提高人脸识别任务。
Ablation Study
有效性分析:作者首先分析LVPFB的有效性。具体而言,作者移除LVPFB和语言视觉先验信息,生成 Baseline 模型1。然后作者引入语言视觉先验信息,并采用连接 followed by 卷积层来合并语言视觉先验,得到模型2。与模型1相比,模型2的性能更好,表明引入语言视觉先验信息可以提高人脸重建效果。然而,模型2相对于模型1的性能提升有限。然后,作者用作者提出的LLV-FSR替换连接,LLV-FSR在表2中实现了最佳的定量性能,且其改进幅度明显,证明其有效性。作者还通过图8展示了不同模型之间的视觉对比。在视觉质量比较方面,LLV-FSR比模型1和模型2更能恢复出更清晰、更准确的面部细节,尤其是在面部眼睛上,尤其是比模型1和模型2更美观。总之,LVFPB能有效地融合语言视觉先验并提高人脸的定量指标和视觉质量。
本文采用了四种先验,包括语义 Mask 、深度图、文本描述和描述。在这里作者分析每种先验的功能。图9说明了在没有不同先验的模型恢复的面部。由LLV-FSR生成且没有语义 Mask 或深度图 的面部组件略逊于LLV-FSR,因为它们描绘了面部结构信息,这对FSR非常重要。没有文本描述的LLV-FSR的结果似乎与LLV-FSR的结果相似,因为文本描述反映了全局信息,主观上难以区分。没有 的LLV-FSR在重建准确的细节(如眼睛的细节)上遇到困难,因为语义 Mask 、深度和描述都无法提供详细信息描述包含的详细信息,而且描述的缺失导致面部细节的丢失。总体而言,不同的先验包含不同的信息,语言先验和高阶视觉语义先验的组合导致更全面的面部表示,从而提高了FSR。
Discussion and Limitations
尽管LLV-FSR可以充分利用语言视觉先验并实现最先进的性能,但它存在明显的局限性:推理成本。
在推理阶段,需要从大规模模型中提取语言视觉先验,这需要额外的计算和时间成本,限制了其应用场景。
未来,作者将进一步探索如何在不需要额外计算成本的情况下整合语言视觉先验。
[0]. LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution.
点击上方卡片,关注 「AI视界引擎」 公众号