点击下方 卡片 ,关注 「 AIWalker 」 公众号
深度视觉干货,第一时间送达
文本驱动的扩散模型在各种图像编辑任务中越来越受欢迎,包括修复,风格化和对象替换。然而,采用语言视觉范式更精细的图像处理任务 (如去噪,超分辨率,去模糊和压缩伪影去除)仍然是一个开放的研究问题。在本文中,我们开发了TIP:一个文本驱动的图像处理框架,利用自然语言作为一个用户友好的界面来控制图像恢复过程 。我们从两个维度考虑文本信息的容量。
- 首先,我们使用内容相关的提示提高语义对齐 ,有效地减轻身份模糊的恢复结果。
- 其次,我们的方法是第一个通过语言支持精细级恢复强度的框架 ,而不需要明确的特定任务的设计。
此外,我们引入了一种新的融合机制,增强现有的ControlNet架构,通过学习重新调整生成先验,从而实现更好的恢复保真度 。我们广泛的实验表明,与最先进的技术相比,TIP具有上级恢复性能,同时提供了基于文本的控制恢复效果的灵活性。
本文方案
基于LDM框架,本文提出了一种新的图像恢复范式:文本驱动的图像恢复 。我们的方法的目标是基于条件,,恢复图像 。具体地:表示退化图像条件,是描述干净图像的语义提示(例如, “A Panda Is Sitting by the Bamboo”或“A Panda”),并且是描述关于操作和参数的退化细节的恢复提示(例如, “使用sigma 3.0去模糊”)。我们使用(,)来表示将干净图像x变成其退化的退化过程。
上述文本驱动的图像恢复模型,,可以使用配对数据来训练。我们使用文本图像数据集Pali :每个干净的图像具有与之成对的语义提示;然后,使用Real-ESRGAN合成退化数据 ,,产生最终的配对训练数据.
为了有效地学习潜在分布,,,我们进一步将条件解耦为两组:
- 一组用于已经灌输在预训练LDM模型中的文本到图像先验,
- 另一组用于从合成数据中学习和。
这种解耦策略防止了预训练扩散模型中的灾难性遗忘,并实现了对扩散感知模型的独立训练 。
本文实验
- 受益于所设计的提示指导和架构改进,我们的完整模型实现了最佳的FID,LPIPS,CLIP-Image评分 ,这意味着更好的图像质量和语义恢复。
- 与现有方法不同,我们的完整模型在训练和测试阶段都考虑了语义提示 ,退化图像和恢复提示,这使得其结果与所有条件更加一致。
相比于空字符串的盲恢复,我们的框架可以重建尖锐和真实的结果 。这说明:对象标识准确地遵循来自用户的语义提示,而全局布局和色调与输入保持一致。
AIWalker聚焦底层视觉与基础AI技术,兼顾上下游相关技术领域。扫描下方二维码加微信: AICVerX2 ,添加「小二」微信,第一时间获取深度视觉相关论文。
请备注研究方向+学校/公司+昵称 。
▲
扫码或加微信号: AICVerX2,获取最新底层视觉论文
▲点击上方卡片,关注AIWalker公众号