备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
Reward 反馈学习(ReFL)近年来在多种生成任务中展现出巨大潜力,能够有效对齐模型输出与人类偏好。本研究首次将名为DiffusionReward的ReFL框架应用于盲人脸修复任务。DiffusionReward有效克服了基于扩散方法的局限性,后者常因无法生成逼真的面部细节和身份一致性差而受限。llm-DiffusionReward_2505的核心是面部 Reward 模型(FRM),该模型使用精心标注的数据进行训练,为修复网络优化过程提供关键反馈信号。
具体而言,作者的ReFL框架将梯度流融入现成人脸修复方法的去噪过程,以指导模型参数更新。引导梯度由三方面协同决定:
(i)FRM确保修复后的人脸感知质量;
(ii)正则化项作为保障,以维持生成多样性;
(iii)结构一致性约束以保持面部保真度。此外,FRM在整个过程中进行动态优化,不仅确保修复网络与真实人脸流形精确对齐,还能有效防止 Reward 攻击。
在合成数据集和真实数据集上的实验表明,llm-DiffusionReward_2505优于现有最优方法,显著提升了身份一致性和面部细节质量。
源代码、数据和模型可在以下链接获取:https://github.com/01NeuralNinja/DiffusionReward。
1 引言
在真实场景中捕获的人脸图像常常受到复杂多样的退化影响,例如模糊、压缩伪影、噪声和低分辨率。盲人脸修复(BFR)[23, 22, 40]旨在从这些退化输入中恢复高质量(HQ)的对应图像。由于低质量(LQ)输入中存在大量信息损失,且通常未知退化过程,BFR本质上是一个高度不适定的问题。因此,对于任何给定的单个LQ人脸,理论上存在一个包含无限多个潜在高质量解的解空间。结果,从这个广阔的解空间中准确重建HQ人脸图像仍然是一个未解决的挑战,特别是在逼真度、自然性和身份保持方面。
扩散模型[10]已成为BFR的一种强大范式,这得益于其卓越的生成能力。利用训练过程中获取的丰富视觉先验知识,这些模型将LQ图像作为条件输入,通过迭代去噪逐步重建高保真度人脸。DiffBIR[26]和OSEDiff[45]等显著方法利用预训练的Stable Diffusion[33]模型,通过微调有效适配,在人脸修复方面实现了卓越质量。然而,这些预训练的扩散模型通常使用来自通用领域的图像进行训练,缺乏充足的人脸特定先验知识。这种缺陷常常导致修复后的人脸图像细节不足。
如图1(左)所示,尽管粗略的面部特征、配饰和背景区域可以在一定程度上得到恢复,但细粒度的面部纹理(如皮肤纹理)的恢复通常不足,导致纹理过于平滑或不真实[55]。缺乏特定于面部的先验知识不仅削弱了细节恢复的质量,还显著加剧了映射模糊性[12],如图1(中)所示。此外,Stable Diffusion模型主要针对文本到图像生成任务进行训练,而非图像恢复任务,后者要求严格的保真度。因此,其固有的生成机制和训练数据的性质更擅长创意合成,而非满足恢复任务对保真度的严格要求,在恢复过程中可能导致与原始身份特征出现偏差,如图1(右)所示。
Reward 反馈学习(ReFL)[48, 5, 25]是一种经过验证的优化范式,在文本到图像生成等领域得到应用。该范式利用基于人类偏好训练的 Reward 模型,通过指导并微调潜在扩散模型,提升这些模型生成输出的质量、真实性和用户一致性。在本工作中,作者采用ReFL方法处理BFR任务,以解决基于扩散的复原方法所存在的先前局限性。
对于现成的基于扩散模型的头像修复方法[26, 45],ReFL框架创新性地将其潜在扩散去噪过程重新诠释为参数化迭代生成器。通过对该过程的参数化,ReFL使应用附加优化约束成为可能。这使得对预训练头像修复模型的参数进行细粒度调整成为可能。因此,经过微调的模型能够生成具有增强面部纹理细节、更高整体视觉真实感,以及更重要的是,保持身份一致性的图像。ReFL框架的核心组件是一个能够准确评估图像质量的 Reward 模型。
为此,作者精心标注了数据并构建了一个面部 Reward 模型(FRM)。该模型是评估恢复后面部质量的关键组成部分,它提供的反馈信号在引导面部恢复模型的优化过程中发挥着关键作用。基于ReFL的训练过程中的一个常见挑战是恢复模型可能受到 Reward 攻击。这种情况发生在恢复模型发现并利用 Reward 模型中的“漏洞”而不是提升图像的实际感知质量时。为解决这个问题,作者进一步提出了一种在训练过程中动态更新FRM的策略。通过这种方式, Reward 模型可以持续适应恢复模型的演变,从而更精确地引导其在真实面部图像的流形空间中的探索和优化,有效避免过度拟合特定的 Reward 函数现象。
此外,作者还引入了两种约束来进一步提升图像恢复性能。首先,作者结合了结构一致性约束,以确保恢复后的图像面部结构与原始身份紧密对齐,从而有效保持身份一致性。通过这种方式,它有效地保障了身份一致性,防止面部特征出现显著差异。其次,作者采用权重正则化项来限制当前模型参数偏离初始值的程度。通过这一机制,它维持了基础模型的固有生成能力,确保输出多样性不受影响。
总之,以下是作者的主要贡献:
- 作者通过引入ReFL,在BFR领域进行了开创性的探索,设计了一种专门针对基于扩散的面部复原模型的定制化ReFL优化机制。
- 作者定制了一个数据管理流程,用于创建一个能够准确评估修复后面部图像感知质量的FRM。此外,作者引入了一种动态更新策略,以避免 Reward 攻击问题。
- 作者引入两种约束以进一步提升恢复性能,包括结构一致性约束和权重正则化器。
- 作者提出的名为DiffusionReward的框架提升了基础模型的面部复原质量,并与其他先进方法相比达到了最先进的性能。
2 相关工作
盲人面部恢复早期盲人面部恢复(BFR)方法主要依赖于几何先验,例如面部关键点[4, 17]、解析图[2, 35]和成分 Heatmap [50],以提供结构指导。然而,这些先验在恢复细粒度细节(如皮肤纹理)方面存在局限性,并且难以处理严重退化的输入。
生成式面部先验已成为高质量人脸修复的重要途径[21, 41]。预训练的StyleGAN模型[14, 15]蕴含丰富的面部纹理和细节,有助于实现逼真的人脸修复。例如,GFP-GAN[40]和GLEAN[1]将StyleGAN先验整合到编码器-解码器架构中,利用退化人脸的结构特征指导修复,显著提升了细节恢复效果。然而,退化输入可能映射到潜在空间的次优点,导致保真度不足或产生不良伪影。基于码本的方
去噪扩散概率模型(DDPMs)[37, 10] 近期已成为BFR领域的一种新兴范式,这得益于其强大的生成能力和训练稳定性。DR2 [42] 首先通过添加噪声对退化人脸进行初步处理,随后进行去噪,生成粗略的输出,再由其他人脸修复模型进行细节增强。DiffBIR [26] 将BFR解耦为两个独立阶段:退化去除和生成优化。在退化去除阶段,采用如SwinIR [24] 等High-Level修复模块。随后在生成优化阶段,利用IRControlNet [26] 引导潜在扩散模型进行细节生成。DifFace [51] 从低质量(LQ)图像构建到高质量(HQ)图像的分布,借助预训练扩散模型的误差收缩特性,以稳健地处理未知退化。
尽管基于扩散的方法具有优势,但其多步采样过程往往导致推理速度较慢。为提升推理效率,已出现若干采用蒸馏技术实现单步推理的基于扩散的图像修复方法。值得注意的是,OSEDiff [45] 通过变分分数蒸馏技术微调 Stable Diffusion [33],实现了单步推理的高质量修复。在本工作中,为验证llm-DiffusionReward_2505在基于扩散方法上的泛化能力,作者选择 OSEDiff 和 DiffBIR 作为基础模型,分别代表单步扩散范式和多步扩散范式。
Reward 反馈学习在文本到图像(T2I)生成领域ReFL中包含两个主要阶段。首先,通过使用人类偏好数据,如成对比较或评分,训练 Reward 模型,以捕捉和量化人类偏好,例如感知图像质量、文本图像对齐以及其他美学标准。随后,训练好的 Reward 模型通过利用其分数派生的梯度来指导T2I模型的优化。
先前工作[48, 19, 25, 54]为T2I任务构建了偏好数据集和相应的 Reward 模型。此外,一些研究探索了利用 Reward 模型派生的反馈来有效优化T2I模型的潜力。ImageReward[48]评估在特定去噪步骤预测的图像,并将这些分数的梯度反向传播以直接微调扩散模型参数。相比之下,DRaFT[5]和AlignProp[31]等方法通常仅评估最终去噪图像并相应地优化扩散模型参数。R0[28]通过最大化 Reward 实现了最先进的T2I生成,但据作者所知,在探索ReFL在恢复任务中的应用方面仍存在显著的研究空白。
3 扩散 Reward
3.1 脸部 Reward 模型
通用 Reward 模型通常基于人类对自然或艺术图像的评分进行训练,其中包含的正面图像评分有限,导致在提供与面部相关的修复任务可靠且准确的评估时存在显著偏差。为解决这一问题,作者设计了一个构建面部 Reward 模型的流程,该流程包含两个关键阶段:偏好数据集的标注和面部 Reward 模型的训练。
偏好数据集标注构建偏好数据集时,作者从人脸数据集[47]中选取19,590张多样化的人脸图像,涵盖各种姿态和表情。然后,作者使用LLaVA[27]为每张图像生成相应的文本描述,形成19,590个图像-文本对。随后,作者将盲退化核(详见第4.1节)应用于高质量图像
,生成它们的低质量(LQ)版本
。作者采用三种盲人脸修复方法[56, 26, 1]来修复这些LQ图像,共计生成58,770张修复后的人脸图像
。最后,这些修复图像与原始的19,590张真实图像相结合,构成包含78,360张人脸图像的偏好数据集
,为后续的偏好标注提供全面的数据基础。
给定原始面部图像
及其三个恢复版本
,作者对这些图像进行两两比较,从而得到六组偏好对。在标注阶段,任何包含
的偏好对都被分配一个固定标签,表明对真实图像的偏好,从而将
视为理想且最优的结果。其余的偏好对,即涉及不同恢复结果之间的比较,则采用混合策略进行标注,结合人工手动标注和自动标注。
完全依赖人工标注将导致成本过高。为解决这一问题,作者开发了一种高效的混合标注策略。人工标注者对图像对的一个子集进行标注,而剩余图像对则由偏好预测器自动标注,如图2(左)所示。对于每对图像,作者计算了六个评估指标:SSIM [43]、PSNR、LPIPS [53]、MUSIQ [16]、NIQE [30]以及CLIP-IQA [39]。这些指标随后被向量化(即图2中的
和
),并输入到标注预测器中。使用人工标注的偏好标签训练SVM [6]分类器。借助该分类器,剩余的偏好图像对被自动标注,显著降低了标注成本。
Reward 模型训练从头开始训练 Reward 模型效率低下。作者采用微调预训练的HPSv2模型[46],该模型基于CLIP架构[32],并在大规模图像数据集上进行预训练,提供了适用于适配人脸偏好数据的鲁棒图像质量评估先验。作者使用117,540对人脸偏好图像-文本对微调HPSv2,以优化其预测人脸图像相对质量的能力,训练过程如图2(右)所示。为提高训练效率,作者将图像编码器的最后20层和文本编码器的最后11层设置为可训练,而冻结其余参数。
给定恢复后的图像
和
,作者可以通过相同的图像编码器
收集它们对应的嵌入
和
。然后,作者使用文本编码器
将输入文本
表示为
。接下来,作者分别计算
和
,它们分别表示
与
之间的余弦相似度。随后,将
和
连接起来并经过softmax操作,作为偏好概率。最后,作者最小化偏好标签(由支持向量机分类器结合人工标注得到)与概率
之间的交叉熵损失
。在推理阶段, Reward 模型仅需输入图像及其对应的文本描述即可计算偏好分数,从而完成图像质量的评估。
3.2 噪声去除过程的建模
作者在Stable Diffusion [33]模型基础上开发了用于BFR任务的模型。利用预训练的自动编码器[18, 33],作者将
通过图像编码器
转换为潜在向量
(即
),再使用解码器
进行重建(即
)。在扩散和去噪过程中,在时间
时向编码后的潜在向量
添加方差为
的高斯噪声,生成含噪潜在向量:
,其中
,
,且
。当
足够大时,潜在向量
近似服从标准高斯分布。通过学习网络
,在随机时间步
条件下,基于
预测噪声
。如图3所示,人脸修复的去噪过程有助于后续梯度信息的引入,以优化修复模型的参数。因此,这种条件去噪过程可解释为潜在空间中的参数化生成模块
。因此,潜在扩散模型的优化定义为如下:
在此框架下,不同的BFR方法在去噪网络
的具体实现及其对条件
的利用上存在差异。对于DiffBIR [26]等多步推理模型,
指的是带有ControlNet [52]的UNet [34]。其初始输入为原始噪声
,条件
被集成到每个去噪步骤中。对于OSEDiff [45]等单步推理模型,
指的是带有LoRA [11]模块的UNet。通过拼接操作,条件
直接注入初始噪声
。因此,它无需迭代注入。
3.3 ReFL: 训练目标和策略
作者引入了三个额外的目标函数,包括 Reward 损失、结构一致性损失和权重正则化损失,以优化生成模块
,从而提升恢复后人脸的感知质量和身份一致性,如图3所示。
Reward 损失。为了增强与人类对恢复后面部的偏好的一致性,作者利用预训练的面部 Reward 模型
(参见第3.1节)提供评估反馈。面部 Reward 模型以恢复图像
和对应原始图像
的文本描述
作为输入,其中
通过解码最后一步去噪的潜在变量获得:
。因此, Reward 损失
定义为:
通过最小化
,作者鼓励
生成与人类偏好具有更高一致性分数的恢复人脸。
结构一致性损失。为了保持对真实人脸结构特征的较高保真度并提高身份一致性,作者引入了结构和感知层面的约束,这些约束包含两个子组件:
LPIPS损失:LPIPS [53] 是一种广泛应用的指标,用于评估两张输入图像之间的感知相似度。与传统的像素级指标(例如MSE、PSNR)不同,LPIPS利用深度神经网络从图像中提取层次化的语义特征,更贴近人类的视觉感知。作者采用LPIPS来测量
与原始图像
之间的感知相似度。
低频损失:鉴于像素级损失(例如,
,均方误差)在提升图像的鲜明和复杂细节方面存在局限性,作者应用离散小波变换(DWT)以确保恢复图像的低频分量与原始图像保持一致。此外,作者仅对图像的低频分量(即更好的结构一致性)进行约束,允许恢复模型在高频分量(即更好的细节)中自由探索。令
表示提取低频分量的函数;
定义为:
权重正则化损失。为了防止
中的参数
过度偏离其初始状态
(例如扩散模型的预训练权重),作者引入了Kullback-Leibler散度的正则化项:
最终目标是加权组合:
其中
、
、
和
是平衡超参数。
的参数
基于总损失
进行更新。梯度在整个生成过程中进行传播,类似于循环神经网络中的时间反向传播(BPTT)。然而,过长的反向传播链会显著增加计算开销 [5]。为解决此问题,作者采用截断反向传播,将梯度传播限制在最后
个去噪步骤。在作者的工作中,作者设置
。
** Reward 攻击**。 Reward 攻击是 ReFL [5, 36] 中常见的问题,并且在面部复原任务中也持续存在。它表现为复原模型生成对抗性样本以获得更高的 Reward 分数,这些样本缺乏多样性、表现出一致性,并包含不自然的伪影,从而偏离真实面部样本。为应对此问题,作者提出一种动态更新面部 Reward 模型
的策略,该策略与生成器
的训练同步进行。具体而言,在生成器
的每次
训练迭代后,作者对
进行一次更新步骤。在此更新步骤中,作者利用最新的生成器
生成一批高质量的复原图像
。对于每个
,作者都有其对应的原始图像
和文本描述 T。遵循 HPS v2 [46],作者利用
计算文本描述与每张图像之间的相似度分数:
,
。这些成对分数随后被转换为偏好概率。
令
(首选的“赢家”图像)和
(次选的“输家”图像)。在 Prompt
下,
相较于
被偏好的概率,通过对其得分应用类似softmax的函数进行表述:
为了更新
的参数,作者鼓励这个概率较高,反映出对
相对于
的固定偏好。因此,作者使用熵损失的简化版本作为作者的目标函数:
通过仅将偏好分配给
,作者确保
被约束在真实人脸图像的流形空间内,从而减轻了 Reward 攻击的发生。
4 实验
4.1 实验设置
作者以DiffBIR和OSEDiff为基础,分别应用llm-DiffusionReward_2505。有关实现细节,请参阅补充材料。
训练与测试数据。作者使用FFHQ数据集[13]进行训练,其中包含70,000张高质量的人脸图像。在训练过程中,这些图像被调整为512×512大小。在训练期间,作者从高分辨率(HQ)图像合成低分辨率(LQ)人脸的策略如下:
,其中高分辨率图像首先与高斯核
卷积,然后以因子
进行下采样,接着添加高斯噪声
。随后,图像进行质量因子为
的JPEG压缩。最后,将低分辨率图像重新调整为原始的512×512大小。这里,
,和
分别从区间[0.1, 12]、[1, 12]、[0, 15]和[30, 100]中随机采样。遵循先前的工作[40, 7],作者采用合成数据集CelebA-Test以及两个真实世界数据集(即LFW-Test和WebPhoto-Test)来验证llm-DiffusionReward_2505。
评估指标。在Celeba-Test数据集上,作者使用了五种参考指标:SSIM [43]、PSNR、LPIPS [53]、CLIP Score[8]、Deg. [29]以及LMD [7],以及四种非参考指标:MUSIQ [16]、MANIQA [49]和FID [9]。为了评估CelebA-Test数据集上生成的人脸图像的美学质量,作者利用LAION-AI美学预测器来预测美学分数,这些分数与人类偏好相关 [20]。此外,作者使用预训练的FRM对恢复的人脸图像进行评分,记为FaceReward。
对比方法。作者不仅与基础模型进行了比较,还与最新的前沿方法进行了比较,包括GFPGAN [1]、CodeFormer [56]、VQFR [7]、DR2
SPAR [42]、RestoreFormer [44]、DifFace [51]、OSEDiff [45]以及DiffBIR [26]。
4.2 主要结果
在合成数据集上的评估。作者首先在表1中展示了在CelebA-Test上的定量比较。作者采用了11个指标来全面评估每种方法的整体性能。初看括号内的数值,可以发现与基础模型相比,llm-DiffusionReward_2505在几乎所有指标上均实现了性能提升。与最先进(SOTA)方法相比,OSEDiff(
ours)和DiffBIR(
ours)在大多数指标,如Deg.、LMD、Aesthetic和FaceReward上取得了顶尖排名,这表明作者提出的ReFL框架能够在保持身份一致性的同时提升感知面部质量。如图4所示的质量比较,llm-DiffusionReward_2505展现出更优的身份一致性和皮肤纹理细节。
在真实数据集上的评估。表2展示了定量结果。作者发现作者提出的ReFL框架提高了审美评分和MUSIQ,后者用于衡量图像质量。与其他方法相比,OSEDiff(
ours)在两个数据集上均取得了最佳性能。从图5中的定性结果来看,展示了基础模型与ReFL之间的定性比较。作者观察到,当面对真实世界退化时,基础模型往往无法恢复面部细节,导致面部平滑。llm-DiffusionReward_2505克服了这些问题,并生成了细节更丰富的逼真面部。
4.3 消融研究
作者在CelebA-Test数据集上基于DiffBIR进行了主要的消融研究。首先,作者手动标注了360对面部图像,并计算了HPS v2和作者的FRM的偏好预测准确率。作者的FRM显著优于HPS v2(即87.78% v.s. 63.05%),这表明其与人类偏好高度一致,并具有更优越的人类感知能力。此外,当作者将作者的FRM替换为ReFL框架中的原始HPS v2模型,并保持相同的训练配置时,作者的FRM明显优于HPS v2,如表3所示。
其次,作者将所提出的ReFL框架分解为四个组件,包括结构一致性约束(SC)、权重正则化约束(WR)、使用 Reward 反馈(Rwd)和更新 Reward 模型(RU),由此产生三种变体。如表4所示,变体1(采用SC和WR而不包含FRM组件)提高了身份保留(LMD),但降低了感知质量(MUsIQ),导致人脸过于平滑(见图6(a))。在变体1中添加Rwd得到变体2后,作者发现感知质量(MUsIQ)有明显提升,并恢复了更精细的面部细节(见图6(a)和表4)。从整个ReFL框架中移除WR(即变体3)导致感知质量、身份一致性和美学评分下降(见表4)。这归因于预训练先验的破坏和生成能力的减弱,变体3中头发细节的丢失就是明证(见图6(b))。
最后,作者验证FRM(RU)的动态更新机制对于 Reward 攻击至关重要。在图6(c)中,变体2表现出 Reward 攻击现象,生成带有典型伪影的面部图像,如痤疮痕迹。引入RU消除了这些伪影,提高了生成质量,并在表4中优于变体2。
参考
[1]. DiffusionReward: Enhancing Blind Face Restoration through Reward Feedback Learning