备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
在本文中,作者提出了一种新的框架,用于使用潜在图像扩散模型解决高分辨率视频逆问题。
基于近期在视频逆问题中使用图像扩散模型的时空优化方面的进展,作者的方法利用潜在空间扩散模型来实现增强的视频质量和分辨率。为了应对处理高分辨率帧的高计算需求,作者引入了一种伪批一致采样策略,使其能够在单个GPU上进行高效操作。
此外,为了提高时序一致性,作者提出了批一致反演,这是一种初始化技术,能够从测量帧中整合具有信息量的潜在特征。通过与SDxL集成,作者的框架在多种时空逆问题中实现了最先进的视频重建效果,包括复杂的帧平均组合以及各种空间降解,例如去模糊、超分辨率和修补。
与先前的方法不同,作者的方法支持多种宽高比(风景、垂直和正方形),并在单个NVIDIA 4090 GPU上少于2.5分钟的时间内实现了超过
的高清分辨率重建。
- Introduction
扩散模型已经在生成建模领域确立了新的基准,能够生成高质量的样本。这些模型已成为各个领域发展的基石,例如可控图像编辑[34]、图像个性化[8]、合成数据增强[24],甚至从脑信号重建图像[14, 25]。
此外,基于扩散模型的逆问题求解器(DIS)可以解决多种图像恢复任务,例如除模糊、超分辨率、图像修补、着色、压缩感知等。DIS 的一个关键特征是其即插即用能力,使得扩散模型可以在不同的逆问题中灵活应用,而无需进行任务特定的训练或微调。
近年来,已经提出了几种从图像扩散模型扩展的方法,用于解决视频逆问题。直接将图像扩散模型应用于视频可能会破坏时间一致性。为了解决这个问题,这些方法通过利用批次一致采样策略[13]并应用光学流引导来扭曲潜在表示[33]或噪声先验[5],从而保持时间一致性。
尽管这些创新的方法使得强大的图像生成模型能够以显著减少的计算需求解决视频逆问题,但在这些方法中仍有改进的空间。基于光流的方法[5, 33]报告了一个关键限制:它们的表现高度依赖于光流估计模块的准确性[26, 31]。当极端降质使估计过程复杂化时,这种依赖性会成为一个问题,从而限制了它们在更广泛的恢复任务中的应用范围。此外,这些方法需要特定任务的恢复模块[33]或对扩散模型进行微调[5]。从这一角度来看,批量一致采样策略[13]成功地解决了多种时空降级问题,而无需进行特定任务的训练或微调。然而,这种重建分辨率被限定在
,因为它使用的是由ADM[6]提供的无条件像素空间扩散模型。
为了克服这些限制,作者提出了一种新的框架,用于使用潜在图像扩散模型解决高清晰度视频逆问题。借鉴了像素空间图像扩散模型[6]中在去噪批次内解决时空优化问题的成功经验,作者引入了一种新的方法,通过使用潜在空间扩散模型[17]来解决时空优化问题。具体来说,为了应对批量处理的高度计算需求(例如,在[13]中使用的16帧批次),作者采用了伪批量一致采样的策略,这种方法有助于管理增加的内存需求,从而使该方法能够在单个GPU上运行。此外,作者还引入了批量一致反演方法,能够从测量帧中初始化具有信息量的潜在变量。这种初始化方法增强了时间一致性并提高了解决时空逆问题的效率。
通过整合这些组件,作者的框架利用SDXL [17] 实现了视频重建的最佳性能。作者将这些组件结合起来的方法命名为VISION-XL,即视频逆问题求解器,使用潜在扩散模型(带稳定扩散XL)。该方法支持各种长宽比,包括横屏、竖屏和正方形格式。得益于其高效性,作者的框架可以在单个NVIDIA 4090 GPU上在不到2.5分钟内重建分辨率为
的25帧视频(超过高清分辨率)。
作者的贡献可以总结如下:
-
作者提出了一种基于SDXL的高分辨率视频逆问题求解器,支持多种纵横比并实现了最先进的重建性能。
-
在这一新颖的框架中,作者引入了一种伪批次一致采样策略和批次一致逆向处理,从而能够更有效地从各种视频逆问题中进行视频重建。
-
Related Work
基于扩散模型的逆问题求解器(DIs)。扩散模型[9, 21, 23]试图基于高斯过渡来建模数据分布
。从几何视角来看[1],这些过渡通常描述为迭代流形过渡
,从噪声流形
移动到干净流形
。基于扩散模型的逆问题求解器(DIS)[2, 4, 11, 22, 28]旨在引导流形过渡以从后验分布
中采样,该分布代表了从前向模型
获取的测量值
中抽取
。在贝叶斯推理中,后验分布
被分解为似然性
和先验数据分布
。这种分解使扩散采样与使用前向模型
和测量值
的迭代指导相结合,从而实现了后验采样的高级、精确解决方案。这种方法利用了扩散模型的强大和灵活性,应用领域包括去模糊、超分辨率、修复、着色、压缩感知等。基于潜在扩散模型的逆问题求解器(LDIS)。大多数DIS[2, 4, 11, 22, 28]使用像素空间中的扩散模型,这使得与前向模型
和测量值
的集成变得简单,因为它们都定义在像素空间中。在潜在空间中集成前向模型则更具挑战性。潜在空间方法[3, 12, 20]在解码去噪潜表示后计算数据一致性项,然后在潜空间内更新这些指导。
在这一过程中,VAE 的映射误差会在迭代采样中累积,导致表示从干净流形
偏离。此外,大多数潜在扩散模型提供了基于文本条件的概率先验分布
,而在文本条件不可用的情况下(
),实现这一概率分布具有挑战性。因此,潜在空间方法主要追求两个目标:(i) 有效管理文本嵌入;(i) 保持更新后的潜在变量接近清洁流形
。对于文本嵌入,PSLD [20] 只使用空文本,而 TReg [12] 和 P2L [3] 则通过空文本优化或文本优化来提高重构性能。为了保持更新后的潜在表示的质量,使用了使像素空间和潜在空间对齐的正则化项来确保潜在可行性 [3, 12, 20]。
使用DIs解决视频逆问题。近年来,已经引入了几种DIS的扩展[5, 13, 33]来处理视频逆问题。将图像扩散模型直接应用于视频中,逐帧处理往往会破坏时间一致性。7这些方法通过采用批处理一致的采样策略[13]并利用光学流引导来扭曲潜在表示[33]或噪声先验[5],来维护时间一致性。
尽管这些创新方法使得基于Transformer的图像生成模型[6, 17, 19]能够以较低的计算需求解决视频逆问题,但仍存在改进的空间。光学流方法[5, 33]的一个关键局限在于它们对光学流估计模块的准确性高度依赖[26, 31]。这种依赖性在涉及严重退化的情景中尤为突出,可能会阻碍估计过程,并限制这些方法在更广泛修复任务中的适用性。此外,这些方法往往需要专门的任务恢复模块[33]或对扩散模型进行微调[5]。
相比之下,批内一致性采样策略[13]已经证明了其在无需任务特定训练或模型微调的情况下解决各种空间时域退化方面的有效性。然而,这种方法受限于256×256的重建分辨率,因为它是基于ADM[6]提供的无条件像素空间扩散模型。在这项工作中,作者提出了一种框架,通过利用潜在空间扩散模型克服了这一分辨率限制。
- High Definition Video Inverse Solver Using Latent Diffusion Models
本节介绍了一种新颖的方法,用于重建包含多种空时退化的高清晰度视频。该算法的整体流程图见图2。
考虑空间-时间降级过程表示为:
其中,
表示测量值,
表示第
帧的 GT 帧,
是视频帧的数量,而
表示描述时空退化过程的操作符。
作者的方法首先将初始测量框架反转,表示为
,并复制
次以初始化信息性的潜在变量
,确保批次内的一致性(步骤1)。接下来,作者通过并行采样每个潜在变量来构建相应的去噪批次
,然后进行解码(步骤2)。在步骤3中,通过应用
步共轭梯度(CG)优化[4, 13]来强制执行时空退化
的数据一致性,进一步细化相应的去噪批次
。在步骤4中,作者受到基于频率分析的频谱扩散研究[32]的启发,对更新后的批次
应用一个计划性的低通滤波器。然后,
被重新编码进入潜在空间形成
。最后,在步骤5中,作者通过将噪声添加回到编码后的潜在变量
来获得单步去噪的潜在变量
。随后,作者将详细描述每一步的具体内容。
第1步:初始化具有信息性的潜在变量。作者的一个关键见解是通过反转测量帧并复制它来初始化这些潜在变量,从而确保批次间一致的初始化(参见图3)。尽管这些潜在变量不能直接恢复GT帧,但反转后的潜在变量可以从测量帧中继承信息,提供良好的初始条件[30]。与SVI[13]使用复制的无信息性高斯先验
作为初始采样点不同,作者用复制的信息性先验
替换之。由于单个测量帧的反演时间(不到2秒)相较于采样时间可以忽略不计,这种方法不仅提供了良好的初始化,还减少了整体采样时间。复制的信息性先验
表示如下:
其中,
和
分别表示从预训练的 VAE 编码和 t 步骤的 DDIM 反演。步骤 2:去噪批次估计。初始化后,作者引导采样路径以确保数据一致性条件。在 t 步骤
时,作者通过并行使用 Tweedie 公式 [7] 和潜变量扩散模型
对给定的潜变量
进行采样,从而得到去噪批次
。与以往工作 [5, 13, 3] 不同,作者并行采样潜变量帧,这只需在采样过程中存储单个帧所需的内存。这一特性使得最近先进的潜变量扩散模型可以在不设帧限制的情况下在此框架中运行。作为概念验证,作者在 25 帧视频上进行了实验。
考虑在时间方向上并行采样潜在扩散模型:
去噪后的潜在变量
使用Tweedie公式[7]计算得出:
其中
是在扩散模型的高斯过程 [9, 16] 中定义的噪声调度。然后使用 VAE 编码器
从去噪潜在变量
中解码出去噪批次
。
第三步:像素空间的DDS更新。受到批一致采样策略[13]的启发,通过批一致反演初始化潜在扩散模型,以确保时间一致性。随后,通过应用
步CG优化对去噪批次
进行整体细化,以增强从时空退化
中恢复的数据一致性。这可以形式化地表示为:
其中,
表示与给定逆问题相关的
维 Kylov 子空间 [4]。多步共轭梯度法使每个时间帧能够多样化,从而增强数据一致性并实现更快的收敛,而无需进行内存密集型的梯度计算 [13]。在本文中,作者将这种采样方案称为伪批次一致采样,因为作者将并行采样的潜在变量视为一个批次来进行优化。
第四步:低通滤波编码。近期对扩散模型的频域分析表明[10, 32],最优去噪器在早期去噪阶段首先恢复低频分量,而在后期逐步添加高频细节。基于这些发现,作者观察到在早期阶段对更新批次
应用调度的低通滤波器可以产生更为自然和精细的结果。
基于去噪器在噪声尺度
减小的过程中恢复高频细节的观察,作者将滤波器宽度
设定为噪声尺度的函数 [16],定义为
,并在
时趋于零。应用低通滤波器
后,作者重新编码
至隐空间中。具体地,重新编码后的隐变量表示为:
其中,
表示 VAE 编码器。
第5步:重新噪声处理。在编码之后,更新后的潜在变量
重新添加噪声处理:
其中,
由批次一致的噪声[13]和确定性噪声[21]组成。
总之,所提出的方法初始化了具有信息量的潜在变量,并通过多步共轭梯度迭代细化解码批次,以满足时空数据一致性。作者随后应用低通滤波编码以提高重建质量。大量的实验结果表明,该方法有效地解决了各种时空降级问题,在高清视频的视频重建方面达到了最先进的性能,并支持了其他工作中未曾涉及的一系列比例。图4展示了采样路径演变的几何示意图,完整的算法见算法1。
对于横向视角,分辨率为768×1280;垂直视角,分辨率为1280×768;正方形视角,分辨率为1024×1024,每段视频包含25帧。
逆问题。作者使用以下空间退化测试作者的方法:
- 去模糊:使用标准差为 3.0 的 61×61 大小高斯核对图像进行高斯去模糊处理;
- 超分辨率:通过 x=4 平均池化实现超分辨率;
- 修复:基于 50% 随机 Mask 进行修复。此外,作者还使用以下时空退化测试作者的方法:
- 增强去模糊:结合 7 帧平均值和时间均匀模糊核 (参见 [13]) 进行去模糊处理;
- 增强超分辨率:结合 7 帧平均值的超分辨率;6) 增强修复:结合 7 帧平均值的修复处理。
Baseline 对比。本研究的主要目标是通过隐空间扩散模型提高视频逆问题求解器的性能。因此,作者的评估主要比较使用图像扩散模型的视频逆问题求解器。
作为一个新兴领域,目前只有几种方法:sVI [13]、DiffIR2VR [33] 和 Warped Diffusion [5]。值得注意的是,DiffIR2VR 和 Warped Diffusion 无法解决时空降级问题,而 DiffIR2VR 在作者本文中涉及的逆问题中仅支持超分辨率(SR)。作者与 sVI 和 DiffIR2VR 进行了比较,但排除了 Warped Diffusion,因为其当前尚未开源。sVI 官方支持的分辨率为
,而 DiffIR2VR 支持
。为了确保分辨率一致且公平的比较,作者采用了块重建的方法。
此外,作者还按照 sVI [13] 的标准协议,与经典的优化方法 ADMM-TV 进行了比较。
为了定量比较,作者关注两种广泛使用的标准指标:峰值信噪比(PSNR)和结构相似性指数(SSIM)[29]。此外,作者还评估了两种感知指标:学习感知图像块相似度(LPIPS)[35] 和弗雷切视频距离(FVD)[27]。计算FVD时,视频被调整至
分辨率,作者遵循开源项目中的协议?
- Experimental Results
4.1. Experimental setup
数据集。作者使用了四个高分辨率(分辨率达到1080p以上)的视频数据集进行评估,来自DAVIS数据集和Pexels数据集。从DAVIS数据集中选取了100个视频并调整至
分辨率,包含25帧,并且原始格式为横屏。Pexels数据集是一个大型开源的高分辨率素材视频和图像集合,广泛应用于创意和研究目的。对于Pexels子集,作者收集了共计120个视频:其中45个为横屏(Pexels (landscape)),45个为竖屏(Pexels (vertical)),30个为正方形屏(Pexels (square))。
这些子集均被调整至相同的分辨率以便实施。实现细节。尽管作者的方法适用于一般的潜在扩散模型,但在本文中作者以当前最先进的文本到图像扩散模型——Stable Diffusion XL 1.0(SDXL)[17]为例进行了概念验证。所有实验中,作者使用了
,
,
,以及
等参数,所有实验均在一台NVIDIA 4090 GPU上完成。
4.2.Results
表1展示了各种时空逆问题之间的定量比较。所提出的方法在大多数指标上均优于 Baseline 方法,尤其是在解决时空退化方面表现更为出色。值得注意的是,在所有数据集中,作者观察到FVD有显著下降,表明与次优方法相比,作者的方法具有更高的视频感知质量。这一改进也在图5所示的定性结果中有所体现。虽然SVI [13] 在处理时空退化方面表现良好,但它往往难以维持时间一致性,导致诸如帧亮度恢复错误(第一行)和背景细节丢失(第二和第三行)等问题。这表明,进一步在表3中的消融研究中探讨的批处理一致噪声初始化[13]可能不足以完全保留时间一致性。此外,它有限的支持分辨率需要进行块重建,这可能会引入块内不一致并导致性能下降。经典的优化方法ADMM-TV 在重建静态背景或静止目标方面表现出色,但在重构动态场景或目标时却存在问题,如图5所示,这也反映在其较低的指标上。与DiffIR2VR [33] 在超分辨率任务上的比较(图6)显示,DiffIR2VR 经常会在背景中产生不需要的伪影或者过度生成物体的细节。这些问题很可能是由于测得的光学流估计存在困难所导致。
尽管这些 Baseline 方法在不同逆问题上面临各种挑战,但作者的方法能够稳定地实现高质量的重建,无需进行块重建,这一点从总体结果中可以得到证实。支持分辨率、总采样时间和内存消耗的进一步比较见表2。表中数据显示,作者的方法在采样时间和内存使用效率上均达到最高。此外,包括去模糊、修复和其他任务的重建结果在内的更多可视化效果可在随附视频中进一步评估:https://vision-xl.github.io/supple/。
4.3.Ablationstudies
在本小节中,作者对方法中的关键组件进行了详细的分析。
初始化(步骤1)的影响。在表3中,作者使用Pexels(风景)数据集进行了消融研究,以探讨批内一致反转对初始化的影响。从表可以看出,批内一致反转有效地提取了信息量较大的潜在特征,用于重建视频,这表现为与SVI[13]中的批内一致噪声初始化以及随机噪声初始化相比,约提高了1.8dB和3.5dB的PSNR。值得注意的是,批内一致反转将FVD降低至亚军的八分之一,表明其在时间一致性方面的显著改进。这些结果也在图7中可视化消融研究的图示中得到了体现。
使用随机噪声和批内一致噪声初始化进行的重建结果无法准确地重建云彩的颜色,并且存在时间上的不一致性。相比之下,作者的方法成功地重建了云彩的颜色,并且结果具有时间一致性。此外,由于单帧快速反转(例如,τ:0.30T时在两秒内完成),批内一致反转能够通过减少大约三分之二的采样时间来高效地实现这一点。多步CG指导与批内一致反转协同作用,在单个NVIDIA 4090 GPU上实现了不到2.5分钟的高清视频重建。
优化步骤 l(在步骤 3 中)对效果的影响。在表4 中,作者进行了消融研究,探讨了 CG 更新步骤
的影响。表证实了 CG 更新对于增强数据一致性至关重要。作者发现至少进行 5 次 CG 更新可以得到满意的结果,而 10 次迭代则产生最佳效果。
LPF
(步骤4中的低通滤波器)的影响。表5展示了低通滤波效果的消融研究。结果显示,低通滤波确实提升了重建质量,所有评价指标均得以验证。具体来说,与未进行低通滤波的情况相比,低通滤波导致FVD下降约20点,并使PSNR提高了0.3dB。这种改进在图8的可视化结果中也非常明显。在该图的第二行中,如果没有应用低通滤波,会观察到一些不必要的伪影。相反,在第三和第四行中,随着参数
的增加,这些伪影得到了有效消除。从频率角度来看,作者相信低通滤波有效地引导更新后的潜在变量保持在所需的去噪流形
内,并有助于减轻来自VAE的误差累积。
参考
[0]. VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models .