图像处理新框架 | 语义与复原指令双引擎,谷歌研究院提出文本驱动图像处理框架TIP

火山方舟向量数据库人工智能与算法

点击下方 卡片 ,关注 「 AIWalker 」 公众号

深度视觉干货,第一时间送达

picture.image

文本驱动的扩散模型在各种图像编辑任务中越来越受欢迎,包括修复,风格化和对象替换。然而,采用语言视觉范式更精细的图像处理任务 (如去噪,超分辨率,去模糊和压缩伪影去除)仍然是一个开放的研究问题。在本文中,我们开发了TIP:一个文本驱动的图像处理框架,利用自然语言作为一个用户友好的界面来控制图像恢复过程 。我们从两个维度考虑文本信息的容量。

  • 首先,我们使用内容相关的提示提高语义对齐 ,有效地减轻身份模糊的恢复结果。
  • 其次,我们的方法是第一个通过语言支持精细级恢复强度的框架 ,而不需要明确的特定任务的设计。

此外,我们引入了一种新的融合机制,增强现有的ControlNet架构,通过学习重新调整生成先验,从而实现更好的恢复保真度 。我们广泛的实验表明,与最先进的技术相比,TIP具有上级恢复性能,同时提供了基于文本的控制恢复效果的灵活性。

picture.image

本文方案

picture.image

基于LDM框架,本文提出了一种新的图像恢复范式:文本驱动的图像恢复 。我们的方法的目标是基于条件,,恢复图像 。具体地:表示退化图像条件,是描述干净图像的语义提示(例如, “A Panda Is Sitting by the Bamboo”或“A Panda”),并且是描述关于操作和参数的退化细节的恢复提示(例如, “使用sigma 3.0去模糊”)。我们使用(,)来表示将干净图像x变成其退化的退化过程。

上述文本驱动的图像恢复模型,,可以使用配对数据来训练。我们使用文本图像数据集Pali :每个干净的图像具有与之成对的语义提示;然后,使用Real-ESRGAN合成退化数据 ,,产生最终的配对训练数据.

为了有效地学习潜在分布,,,我们进一步将条件解耦为两组:

  • 一组用于已经灌输在预训练LDM模型中的文本到图像先验,
  • 另一组用于从合成数据中学习和。

这种解耦策略防止了预训练扩散模型中的灾难性遗忘,并实现了对扩散感知模型的独立训练

本文实验

picture.image

picture.image

  • 受益于所设计的提示指导和架构改进,我们的完整模型实现了最佳的FID,LPIPS,CLIP-Image评分 ,这意味着更好的图像质量和语义恢复。
  • 与现有方法不同,我们的完整模型在训练和测试阶段都考虑了语义提示 ,退化图像和恢复提示,这使得其结果与所有条件更加一致。

picture.image相比于空字符串的盲恢复,我们的框架可以重建尖锐和真实的结果 。这说明:对象标识准确地遵循来自用户的语义提示,而全局布局和色调与输入保持一致。

AIWalker聚焦底层视觉与基础AI技术,兼顾上下游相关技术领域。扫描下方二维码加微信: AICVerX2 ,添加「小二」微信,第一时间获取深度视觉相关论文。

请备注研究方向+学校/公司+昵称

picture.image

扫码或加微信号: AICVerX2,获取最新底层视觉论文

▲点击上方卡片,关注AIWalker公众号

整理不易,请点赞和在看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论