PiSA-SR:双 LoRA 架构下的像素语义双维度超分辨率优化 !

大模型向量数据库云通信

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

基于扩散先验的方法在实际图像超分辨率(SR)中取得了令人印象深刻的成果。然而,现有方法在训练过程中将像素级和语义级的SR目标纠缠在一起,在保证像素级保真度和感知质量之间难以取得平衡。

与此同时,用户对SR结果的偏好各不相同,因此需要开发一种可调的SR模型,在推理时可以根据不同的保真度-感知偏好进行调整而无需重新训练。

作者提出了像素级和语义级可调节SR(PiSA-SR),该方法在预训练的稳定扩散(SD)模型上学习两个LoRA模块,以实现改进且可调节的SR结果。

首先作者将基于SD的SR问题表述为学习低质量输入与高质量输出之间的残差,然后展示学习目标可以分解为两个独立的LoRA权重空间:一个是通过-损失来刻画像素级回归的特征;

另一个是通过LPIPS和分类器分数精馏损失来提取预训练分类和SD模型中的语义信息。默认情况下,PiSA-SR可以在单个扩散步骤中完成,从而在质量和效率方面均达到领先的实际SR结果。

通过在两个LoRA模块中引入两个可调节的指导尺度来控制推理时的像素级保真度和语义级细节强度,PiSA-SR可以根据用户的偏好提供灵活的SR结果而无需重新训练。

相关代码和模型可在https://github.com/csslc/PiSA-SR获取。

  1. Introduction

单张图像超分辨率(Single Image Super-Resolution, SR)[50]旨在从其低质量(Low-Quality, LQ)且遭受多种退化(如噪声、模糊、下采样等)的对应图像中重建出高质量(High-Quality, HQ)图像。由于在重建细节时固有的模糊性问题,SR 是一个困难的病态问题 [3, 27],因此开发了各种深度神经网络(Deep Neural Networks, DNNs)来应对这一挑战。像素级回归损失(如 和 损失)对于保持 SR 输出的像素级保真度至关重要,但它们往往会导致细节过度平滑 [3, 27]。结构相似性(Structural Similarity, SSIM)和感知损失可以缓解这个问题。具体来说,SSIM 测量 SR 图像与 ground-truth (GT)图像之间的局部结构相似性,而感知损失 [15] 利用预训练分类模型 [37] 提取语义特征以提高 SR 结果的感知质量。生成对抗网络(Generative Adversarial Network, GAN)相关的对抗损失提供了一种比 SSIM 或感知损失更有效的解决方案,用于使 SR 图像与自然图像分布对齐,从而产生更接近真实的 SR 结果。然而,这种方法同时也引入了许多不必要的视觉伪影 [27],因为对抗训练不稳定,并且 GAN 模型在描述自然图像空间方面的能力有限。

近年来发展起来的大规模稳定扩散(SD)模型[35],这些模型在文本到图像(T2I)任务上进行预训练,展示了强大的语义理解能力,并且已经在许多下游任务[33, 64]中得到成功应用,包括单张图像超分辨率(SR)。虽然基于SD的方法相较于基于GAN的方法,在感知上表现出了更真实可信的超分辨率结果,但它们通常会混淆像素级保真度和语义级增强的目标[43, 53, 54],这两种目标在优化过程中可能会出现矛盾。因此,这些方法难以在最终的超分辨率输出中平衡像素 Level 的保真度和语义级感知。尽管一些方法[28, 40, 57]设计为了先执行像素级恢复再进行语义级增强,即按顺序进行,但后者阶段的表现很大程度上依赖于前者的准确性。

除了像素级保真度和语义细节之间的权衡外,用户在实际应用中对超分辨率(SR)结果的偏好也各不相同:一些用户更注重内容保真度而非细节生成,而另一些用户则偏好丰富的语义细节而非像素 Level 的保真度。这种用户偏好的多样性强调了在推理过程中需要一种更加灵活的SR方法来满足个体口味的重要性与需求。尽管一些先前的方法[9, 32]已经探索了交互式SR方法以控制恢复强度,但这些方法主要局限于降级程度的调整(例如噪声和模糊),导致生成的结果要么更为锐利要么更为平滑。几种基于多次采样的SD(Super-Resolution)方法[28, 54, 57, 59]在每一步采样时采用指导策略[12]来实现不同程度的语义丰富性,但这些方法往往难以实现精确控制和高效运作。

在本文中,作者提出了像素级和语义级可调的超分辨率方法,即PiSA-SR,该方法通过预训练的SD模型将像素级和语义级增强分离到两个独立的低秩 Adapter (LoRA)[14]权重空间中,从而为各种用户需求提供有效的超分辨率模型。作者首先将基于SD的超分辨率问题形式化为学习LQ和HQ潜在特征之间的残差。借助这种形式化,不仅可以加速模型训练的收敛速度,还可以在模型输出上引入缩放因子,在推理阶段灵活调整超分辨率结果而无需重新训练。

然后,通过引入专门用于像素级回归和语义级增强的两个独立LoRA模块对预训练的SD模型进行微调。具体而言,对于像素级回归的LoRA模块使用了损失,而对于另一个LoRA模块则使用了LPIPS[65]和分类器分数蒸馏(CSD)[60]损失,利用预训练的VGG分类模型[37]和SD图像生成模型[35]中编码的语义先验。

提出了一种解耦训练方法,用于训练像素级和语义级LoRA,有效提升了语义信息的同时保持了像素级的保真度。

作者的实验表明,PiSA-SR 不仅在超分辨性能上优于现有的基于SD的模型,还能为用户提供根据个人喜好调整超分辨风格的有效途径。图1给出了一个示例。

picture.image

横轴和纵轴分别表示像素级和语义级增强的比例。提高像素级增强比例能够有效地减少噪声和压缩伪影,但过强的比例会导致图像细节过度平滑。相反,提高语义级增强比例可以丰富图像细节,使图像在视觉上更加逼真。然而,语义级增强比例过高则会引入过度增强的视觉伪影。PiSA-SR可以根据用户偏好灵活调整像素级和语义级增强的比例。

  1. Related Work

图像超分辨率。早期基于深度学习的超分辨率(SR)方法旨在提高诸如信噪比(PSNR)和结构相似性(SSIM)等图像保真度指标。通过使用双立方降采样生成低质量-高质量(LQ-HQ)图像训练对,开发了多种方法来提升超分辨率性能,例如密集型[41]、残差[67]、递归连接[20]、非局部策略[44]以及注意力机制。尽管这些进展显著提升了超分辨率性能,但具有复杂退化的真实世界LQ图像增强起来更加具有挑战性。虽然研究行人提出了收集真实世界的LQ-HQ配对数据集[4, 52]来训练超分辨率模型,模拟真实的LQ-HQ配对是一种更为经济的方法[47, 63]。BSRGAN[63]随机混排一些基本退化操作符以合成LQ-HQ图像,而RealESRGAN[47]则实现了高阶退化建模。相较于像素级损失,感知损失[15]和生成对抗网络(GAN)损失[22, 45]在提高图像感知质量方面更为有效。然而,对抗训练也导致了超分辨率结果中不自然的视觉伪影。许多后续工作从频率分割[23]、网络优化[68]、不同损失函数权重[46]和图像局部统计[27]的角度出发,致力于减少GAN生成的伪影。

基于扩散模型的超分辨率。最近的研究探索了使用扩散模型(DMs)[13, 35] 进行超分辨率(SR)。早期的方法通过梯度下降调整预训练的 DM 的反向转换[18],从而提出了无需训练的解决方案,并假设了图像退化的先验知识。ResShift[61]从头开始在配对的LQ-HQ数据上训练一个DM。近年来,由于它们强大的图像先验知识,预训练于文本到图像(T2I)任务的SD模型已被广泛应用于SR任务。StableSR[43]引入了一个可训练的编码器,并且将LQ图像作为条件输入给SD。DiffBIR[28]首先应用一个修复模块以减轻退化的影响,然后使用SD增强细节。

PASD[57]采用编码器去除退化,并引入像素感知交叉注意模块将低级和高级图像特征融合到SD过程中。SeeSR[54]通过降级感知的标签式 Prompt 增强了语义鲁棒性,以指导扩散过程。考虑到多步扩散过程会增加计算成本并增加合成不忠实内容的风险,研究行人开始开发具有较少步骤的DM基SR模型。SinSR[48]应用一致性保持的知识蒸馏方法缩短ResShift的扩散过程。OSEDiff[53]直接使用LQ图像作为输入,消除了随机噪声采样的需求。它采用VSD损失[51,58]从多步扩散过程中蒸馏生成能力,提供了一步DM基的SR解决方案。

然而,上述所有方法都面临着像素级和语义级增强之间的矛盾,大多数方法缺乏根据多样化的用户偏好调整超分辨率风格的灵活性。

  1. Methodology

本节首先将基于SD的SR建模为一个残差学习模型,然后介绍了双LoRA方法以区分像素级回归和语义级增强的学习目标。最后,提出了像素级和语义级指导以生成灵活的SR结果。

在作者后续的发展中,分别用和表示LQ图像和HQ图像,并用和表示它们对应的潜在代码。假设和分别为一个训练良好的变分自编码器(VAE)的编码器和解码器,作者可以近似得到,,和。

3.1.Model Formulation

类似于SD [35]的方法采用一个T步前向过程,逐步将初始隐码转换为高斯噪声,这一过程共进行T步。在每个时间步,带噪的隐码通过直接向添加噪声得到,公式为,其中是控制时间步处噪声水平的累积参数。在反向过程中,基于SD的多步超分辨率模型[2, 28, 34, 43, 54, 57]通常执行一个步去噪过程,逐步将高斯噪声转化为条件为低质量图像的高质量隐码,并借助ControlNet [64]进行控制(见图2(a))。在第阶段,可以通过SD UNet预测的噪声和当前隐码计算出隐码,具体公式如下:

picture.image

然后,在时间步处的潜在变量可以从中采样,其中和分别表示的均值和方差。

然而,这些基于多步DM的超分辨率方法计算成本高昂,并且由于扩散过程中采样的随机噪声经常导致不稳定的结果[40, 54]。为了解决这个问题,OsEDiff [53] 从低质量的潜码 出发,仅通过一个扩散步骤完成超分辨率过程(参见图2(b)),从而提高效率和稳定性。 和 之间的转换可以描述如下:

请注意,作者在上述公式中省略了时间步,因为可以被视为一阶扩散过程中的常数。

基于深层学习的方法已经在低质量特征(LQ)和真实特征(GT)之间的残差学习中取得了成功应用[62, 67]。然而,去噪模型(DMs)通常需要多步迭代,使得传统的残差学习难以直接应用。最近开发的OSEDiff方法[53]通过单步扩散实现端到端的超分辨率训练,使得采用残差学习策略成为可能。

在这里,作者将超分辨率问题表述为学习和之间的残差,如图2(c)所示。由于去噪模型在逆向扩散过程中被训练用于去噪,作者在此使用全局残差连接中的减法操作。这种残差学习形式有助于模型专注于从高质量(HQ)潜在特征中学习所需的高频信息,简化了从低质量(LQ)潜在特征中提取不相关信息的任务,并且还可以加速模型训练过程[10]。此外,在推理时,作者可以引入一个缩放因子来调整添加到LQ潜在特征的残差,其表达式为:

用户可以根据自己的偏好调整输出结果,使用较小的(即保留更多的原始内容)或较大的(即更加激进地增强细节)。

3.2. Dual-LoRA Training

以往基于SD的方法大多在训练过程中将像素级和语义级增强紧密结合在一起[43, 53],这使得内容保真度和持久质量之间的平衡难以掌握。一些研究工作则通过两个单独的网络依次进行像素级和语义级的增强[28]。然而,早期阶段产生的错误可能会传播到后续阶段,从而限制了整体性能。此外,使用两个单独的网络增加了计算负担和内存需求,使这种方法不够高效。该方法已在定制的T2I任务中成功应用,通过为不同的生成风格使用不同的LoRA模块[16, 36, 39]。受此启发,作者提出了一个解耦的训练方法,利用预训练SD模型中的两个LoRA模块分别针对像素级和语义级增强进行SR任务。作者的方法,简称Dual-LoRA,在训练过程中仅引入少量额外参数,并且可以在推理时将这些LoRA参数合并到预训练的SD模型中。

图3(a) 揾示了作者方法的训练过程。作者冻结预训练VAE的参数,并在SD的UNet中引入两个可训练的LoRA模块。由于低质(LQ)图像受到噪声、模糊和下采样等退化的影响,作者首先优化像素级的LoRA以降低这些退化的影响,随后再优化语义级的LoRA。作者通过像素级损失函数训练像素级的LoRA,表示为。与预训练的SD参数一起,完整的参数集可以表示为。然后,作者可以估计出高质量的潜在变量,并通过VAE解码器进行解码得到。为了进行语义级增强,作者通过语义级损失函数训练另一个LoRA,表示为。为了分离像素级和语义级的目标,作者固定已经训练好的像素级LoRA,并将其与语义级LoRA结合起来进行训练,形成一个PiSA-LoRA组(见图3(a))。请注意,在此阶段,只有PiSA-LoRA组内的语义级LoRA模块会被更新。这确保了优化过程专注于语义细节,不受像素级退化的影响。在此PiSA-LoRA训练阶段,完整的参数集可以表示为。经过该阶段后的高质量潜在变量为,然后通过VAE解码器进行解码得到。

picture.image

3.3.Pixel-level and Semantic-level Losses

作者使用损失来训练像素级LoRA。如图4中的所示,损失能够有效地去除退化并增强边缘,但不足以生成语义 Level 的细节[22, 27, 45],导致超分辨率输出较为平滑。LPIPS损失[65]可以通过与预训练分类VGG网络[37]对齐高层特征来激活语义细节,不过该方法仅在有限的图像类别上进行训练。GAN损失[22]通过对抗训练捕获语义信息,促使生成器产生更为逼真的图像。然而,在训练过程中,GAN损失可能会不稳定,并生成大量伪影[27]。

picture.image

近年来开发的SD模型[35]在生成具有增强语义细节的开放类别图像方面表现出色。作为一种条件生成模型,SD可以用于形成一个隐式的分类器[12]来建模后验分布,其对生成图像的梯度如下:

其中, 是文本 Prompt , 是当前时间步,且 。SD 模型通过参数 来预测噪声,从而建模条件概率 和无条件概率 的分数函数 [38]。通过对等式(4)中的梯度在所有可能的时间步 上取期望,作者得到 CSD 损失,该损失最初用于 3D 生成任务中,以优化渲染图像后验概率与文本 Prompt 语义内容的一致性。

受CSD损失在生成任务中功能的启发,作者研究了CSD损失在SR任务中用于语义层次增强的应用。借鉴[53, 58]的研究,并为了后续文本的清晰性,作者将CSD的梯度形式化为潜在空间而非噪声域。具体来说,CSD损失的梯度可以表示如下(详细的推导过程见补充材料中的相关内容): Eq. (5)

其中,梯度期望考虑到所有扩散时间步,噪声是从中采样的,由计算得到,是从提取的文本 Prompt ,是等式(1)中的函数,是依赖时间步的标量权重,表示带有CFG项的预训练输出,的定义与等式(4)相同[12, 60]。

请注意,VSD损失[51, 58]也可以在潜在空间中对齐增强图像和自然图像的分布,已被OSEDiff[53]验证有效用于超分辨率。VSD损失的梯度可以写为:

其中, 表示与合成图像分布相匹配的微调过的好望角SD的输出。带有权重 的 VSD 损失可以分为两个部分:一个是 时的 VSD 损失,即 ,另一个是 CSD 损失。结合 LPIPS 损失,作者在图4 中可视化了这两个 VSD 组件的语义级 LoRA 优化结果。作者发现,使用正常指导比例 的 CSD 损失对语义增强贡献更大。相比之下, 时的 VSD 损失则削弱了语义细节。更重要的是, 需要进行双层优化,这导致内存占用大且训练不稳定[29]。相比之下,CSD 损失无需进行双层优化,显著减少了内存占用并提高了训练稳定性。因此,作者整合了 LPIPS 和 CSD 损失来进行语义级 LoRA 优化。

3.4. The Inference Process of PiSA-SR

图3(b)展示了PiSA-SR的推理过程。在默认的推理设置下(由绿色虚点线表示),仅使用合并了像素级和语义级LoRA模块的PiSA-LoRA与预训练的SD模型共同处理输入,从而在一步扩散中实现了最优的超分辨率性能(参见第4.3节中的作者的实验)。为了实现具有多样用户偏好的灵活超分辨率,受CFG[12]的启发,作者引入了一对像素级和语义级引导因子,分别用和表示,用于控制超分辨率的结果如下:

在式(8)中, 是仅使用像素级LoRA得到的输出,而 是同时使用了像素级和语义级增强得到的输出。两者之间的差异,即,能够很好地表示增强的语义细节(请参见图4中的可视化)。因此,如图3(b)中黑色虚线所示,通过调整和的值,作者可以控制像素级LoRA和语义级LoRA的贡献,并最终实现具有不同风格的超分辨率(SR)结果,如图1所示。

  1. Experiments

4.1. Experimental Settings

训练设置。作者基于SD 2.1-base训练PiSA-SR用于超分辨率任务。借鉴SeeSR [54] 和OSEDiff [53] 的做法,作者将LSDIR [24] 和FFHQ [17] 数据集中的前10,000张图像作为训练数据。使用RealESRGAN [47] 的退化Pipeline生成配对训练数据。批量大小设为16,训练 patch 大小为。采用Adam优化器 [21],学习率为5e-5。像素级和语义级的LoRA模块分别进行了4千次和8500次迭代的训练。

比较的方法。作者将PiSA-SR与基于多步DM方法的领先方法StableSR [43]、ResShift [61]、DiffBIR [28]、PASD [57] 和 SeeSR [54]、基于单步DM方法的SinSR [48] 和 OSEDiff [53],以及基于GAN的超分辨率方法RealESRGAN [47]、BSRGAN [63] 和 LDL [27] 进行比较。所有比较结果均使用官方发布的代码或模型获得。由于篇幅限制,与基于GAN的方法的比较详见补充材料。

测试数据集和评估指标。按照先前的研究[43, 53, 54],作者使用合成和实际数据来评估竞争方法。合成数据集包含从DIV2K [1] 中裁剪的3000张图像,每张图像大小为,并通过RealESRGAN退化流水线[47] 进行退化处理。实际数据集从RealSR [4] 和DrealSR [52] 数据集中中心裁剪获得,用于低质量图像的数据大小为,高质量图像的数据大小为。计算通道在YCbCr空间中的峰值信噪比(PSNR)和结构相似性(SSIM),用来衡量超分辨率(SR)结果的真实度;计算RGB空间中的LPIPS [65] 和DISTS [7],用于评估SR结果的感知质量;FID [11] 用于评估真实图像和恢复图像分布之间的距离;NIQE [31]、CLIPIQA [42]、MUSIQ [19] 和MANIQA [56] 用于评估图像质量,无需参考图像。

接下来,作者首先展示PiSA-SR在像素级和语义级可调超分辨率方面的能力,然后将其(默认设置下)与竞品方法进行比较,并进行复杂性分析和消融研究。

4.2. Experiments on Adjustable SR

作者固定一个引导比例( 或 )为1,改变另一个变量以观察重建图像的变化。作者使用PSNR、LPIPS、CLIPIQA和MUSIQ来评估性能。其中,PSNR衡量像素级的一致性;LPIPS通过参考GT来评估图像感知质量;而CLIPIQA和MUSIQ则不使用参考来测量图像质量。实验结果如表1所示。首先,作者发现增加像素级比例会导致无参考指标CLIPIQA和MUSIQ的持续改进。这是因为增加可以去除图像退化并增强边缘,这对这两种指标是有利的。然而,基于参考的指标PSNR和LPIPS则表现出先升后降的趋势。PSNR在时达到峰值,表明最佳的像素一致性。LPIPS在时取得最优值(0.2612),这表明在这个点上,恢复的图像在细节丰富的情况下与GT最为相似。进一步增加会降低PSNR和LPIPS的分数。其次,增加语义级比例也会导致CLIPIQA和MUSIQ的持续改进,但其上限高于像素级调整。这是因为增加能够合成更多的语义级细节(参见图1)。

picture.image

然而,随着的增加,PSNR降低,而LPIPS先改善并在(0.2465)时达到峰值,之后下降。这是因为过多的语义细节可能会引起图像内容的变化,从而降低像素 Level 的保真度。同时,过度增强的图像可能包含许多与GT不同的细节,使得基于参考的LPIPS指标恶化。

图1展示了不同像素语义尺度的视觉对比。更多比较内容可参见补充材料。从下至上,随着像素尺度的增加,模型逐步从低质量输入图像中去除退化,从而产生更为清晰锐化的视觉输出。然而, 过高会导致细节丢失,减弱语义改进的效果,如图1右上角所示。从左至右,增加语义尺度 提升了图像的语义丰富性,使阿尔伯特·爱因斯坦脸部皱纹、胡须和头发的细节更加鲜明。然而,语义水平过高,例如会引入不自然的伪影,使得超分辨率结果显得不够真实。通过PiSASR 的灵活性,用户可以根据具体需求自定义偏好,既可以选择保留更多保真度,也可以强调更丰富的语义增强。

4.3. Comparisons with State-of-the-Arts

如式(8)所示,当令 和 时,作者得到 PiSA-SR 的默认版本,这可以在一步扩散过程中完成。在这里,作者将这个默认版本的 PiSA-SR 与竞争方法进行了比较。

定量比较。表2比较了默认PiSA-SR模型与其他基于DM的Real-SR方法的性能。可以得出以下结论:ResShift [61]及其精简版本SinSR [48]在无参考度量标准中表现出有限的效果,表明其感知质量较差。PASD [57]和SeeSR [54]利用预训练的SD作为基础模型,并提取额外的高层次信息 [69]来提高图像的感知质量。它们的无参考度量标准得分,例如MUSIQ和CLIPIQA,得到了显著改进。然而,多步推理使得它们效率较低。此外,它们相对较低的LPIPS和DISTS分数表明它们对GT的重建不够忠实。OSEDiff [53]通过VSD损失 [51, 58]将多步DM的生成能力压缩为单步扩散。尽管有效且高效,但其无参考度量标准仍受到限制。而作者提出的PiSA-SR仅需一步推理即可展现出高效性,同时在像素级保真度和语义级感知质量方面表现优异。它不仅在以参考为基础的度量标准如LPIPS和DISTS上超越其他方法,在无参考度量标准如CLIPIQA、MUSIQ和MANIQA上也表现更佳。

picture.image

定性比较。作者在图5中给出了视觉上的对比。ResShift和SinSR由于其生成能力有限,无法生成更丰富的纹理和细节。StableSR和DiffBIR能够生成更细腻的细节(例如,在第二个例子中生成了更为真实的企鹅羽毛),这得益于利用了强大的SD先验知识。PASD和SeeSR结合了高层信息引导,从而导致了更为全面的细节。然而,PASD和SeeSR固有的随机性可能导致过度增强(例如,由SeeSR生成的不自然的企鹅羽毛)或过度平滑的细节(例如,由SeeSR生成的木质凳子模糊的纹理)。OSEDiff在两个例子中都能生成更为一致的结果,但恢复的细节可能会受到限制。相比之下,提出的PiSA-SR提供了高质量且真实的超分辨结果。通过双重LoRA设计,恢复的结构与输入的LQ图像高度对齐,提供了更准确的保真度信息,并生成更加自然且丰富的细节。更多可视化对比可以在补充材料中找到。

picture.image

复杂性对比。作者在表3中比较了基于DM的SR模型的竞争者的参数数量和推理时间,其中PiSA-SR-def. 和 PiSA-SR-adj. 分别表示其默认设置和可调设置。推理时间是在使用单个NVIDIA A100 80G GPU对 SR任务中的 低质量(LQ)图像进行测量的。ResShift因未使用预训练的SD模型从头开始训练,因此具有较少的参数。SinSR继承了其父模型ResShift的参数。在基于SD的SR方法中,PiSA-SR-def. 的参数最少且推理速度最快。与OSEDiff不同,PiSA-SR-def. 在推理过程中不需要语义提取器(例如RAM [69])。相反,它通过CSD将语义信息提炼到语义 Level 的LoRA中。需要两个扩散步骤来从像素级和语义级LoRA模块计算输出的PiSA-SR-adj.,在默认设置的基础上稍微增加了推理时间。尽管如此,这一微小的时间增加为用户提供了根据其特定需求生成个性化SR输出的优势。

picture.image

  1. Conclusion and Limitation

在本文中,作者提出了PiSA-SR,这是一个新颖的超分辨率框架,通过在预训练的SD模型上学习两个LoRA模块来解开像素级和语义级的目标。通过将学习过程分解为两个独立的空间,PiSA-SR有效平衡了像素级回归和感知质量。

常用的小二乘损失用于优化像素级LoRA,而LPIPS和CSD损失则用于优化语义级LoRA。PiSA-SR在效果和效率上均表现出色。此外,它还提供了在推理过程中可通过调整指导尺度进行高度灵活的自定义,使用户能够在不重新训练模型的情况下定制超分辨率结果。

参考

[0]. Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach .

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论