AI图像合成新流程,借助LLMs等实现实例级精确操作,无需微调与辅助信息 !

大模型向量数据库机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

文本到图像合成的进步引入了能够从文本 Prompt 中创建逼真图像的强大生成模型。然而,对图像属性的精确控制仍然具有挑战性,尤其是在实例 Level 。虽然现有方法通过微调或辅助信息提供了一些控制,但它们通常在灵活性和准确性方面存在局限性。

为了解决这些挑战,作者提出了一种利用大语言模型(LLMs)、开放词汇检测器、交叉注意力图和扩散U-Net中间激活的实例级图像操作流程。作者的方法能够检测出 Prompt 中提及且在生成的图像中出现的目标,从而实现精确的操作,无需大量训练或输入 Mask 。

通过引入交叉注意力图,作者的方法确保了操作图像的一致性,同时控制目标位置。作者的方法能够在实例 Level 实现精确操作,无需微调或如 Mask 或边界框之类的辅助信息。

代码可在https://github.com/Palandr123/DiffusionU-NetLLM获取。

  1. 引言

在人工智能(AI)领域,随着算法的进步和计算能力的提升,作者见证了机器学习和深度学习的飞速发展。本文旨在概述AI的发展历程,探讨其未来趋势,并分析其对社会的潜在影响。通过回顾已有研究成果,本文旨在为读者提供一个全面而深入的AI学术研究概览。

文本到图像合成,作为计算机视觉和自然语言处理交叉领域的分支,致力于从文本描述中生成视觉逼真的图像[9, 13, 16, 28, 29]。该领域具有巨大的应用潜力,从革新人机交互到创意内容生成。研究界已经认识到其重要性,这一点从日益强大的文本到图像模型的发展中可见一斑,例如Imagen [31]、DALL-E 3 [5]和Stable Diffusion 3 [11]。

然而,这一领域存在一些挑战。当前模型往往难以捕捉文本描述的全部细微差别,导致生成的图像缺乏细节或包含无意义元素。此外,确保生成图像的逼真度和语义一致性仍然是一个难题。克服这些障碍至关重要,因为它将为人类能够通过文本无缝地传达其创意愿景、机器作为其能干的艺术家伙伴的未来铺平道路。应对这些挑战可以弥合人类想象力与视觉表现之间的差距。

在这些挑战中,尤其重要的是,创建精确的 Prompt 来生成所需的图像可能很困难。所有期望的图像属性都应通过文本传达,包括那些本质上复杂或难以准确表达的属性。因此,设计一种精确的图像编辑方法是文本到图像合成领域的一项关键任务。

先前的研究试图解决图像编辑中控制受限的挑战。然而,一些方法依赖于对预训练模型的微调[6, 12, 18, 30],这计算成本高昂,需要大量数据,并可能限制编辑范围。其他方法,如[35],通过注入扩散特征和自注意力图来生成新图像,同时保留源图像的细节和外观,限制了可能的编辑范围。一些方法通过编辑交叉注意力图以零样本方式实现图像编辑[10, 14],仅限于目标类型,而非实例 Level 的操作。其他方法采用辅助信息,如 Mask [1, 3, 25],但这并非总是可行的,或者生成它[8]以更好地定位感兴趣区域,限制了结果的编辑集。Wu等人[37]提出了自我校正的LLM控制扩散(SLD),该算法能自动将生成的图像与用户 Prompt 相匹配。首先,它使用大语言模型(LLM)和开放词汇检测器检测用户 Prompt 中描述的物体。然后,LLM找出用户 Prompt 与检测结果之间的一致性问题,并提出修改建议。接着,它执行潜在操作来编辑图像。此循环会重复进行,直到LLM不再建议任何修改。这种方法不仅可以用于将图像与 Prompt 相匹配,还可以直接进行图像操作。然而,编辑需要通过文本表达,这限制了操作精度。

为了解决上述问题,作者提出了一种新颖的流程。首先,作者利用大语言模型(LLM)和开放词汇检测器来检测 Prompt 中提及的以及生成图像上呈现的目标,其方式与[37]中的描述相同。这使得在不要求用户提供任何辅助信息的情况下,能够进行实例 Level 的操作。然后,作者执行用户指定的实例 Level 操作。与使用无监督分割进行潜在操作的方法[37]相比,作者的方法利用了跨注意力图和扩散U-Net的中间激活的指导。这使得在保留原始图像细节的同时,能够精确地操作诸如位置等属性。因此,作者的流程能够在不进行微调或提供辅助信息的情况下,执行精确的实例 Level 操作,同时确保保留原始外观。

  1. 背景 & 相关研究

在探讨人工智能领域的具体应用和进展之前,了解其背景和相关研究是至关重要的。这一部分将概述人工智能的发展历程,以及与本研究主题密切相关的先前工作。通过对现有文献的梳理和分析,作者可以更好地定位本研究在人工智能领域的位置,并探讨其创新点和潜在贡献。

本节提供了相关研究的必要背景和概述。第2.1节阐述了扩散模型背后的理念,第2.2节描述了指导原则,第2.3节对基于扩散的图像编辑的相关研究进行了概述。

2.1 扩散模型

扩散模型通过文本 Prompt 和序列采样从噪声中生成高分辨率图像 [16, 19, 33]。其目标是逆转一个随时间变化的破坏性过程,其中噪声会破坏数据。神经网络

估计去噪后的图像或添加到创建噪声图像

中的噪声

。训练涉及最小化损失函数:

中,通常采用具有不同分辨率下的自注意力和交叉注意的 U-Net 架构,并融合了条件信号

,例如文本[29, 31]。一旦模型训练完成,该模型可以根据条件

生成样本。具体方法是通过设置噪声

,然后利用 DDIM [32] 或 DDPM [16] 等技术迭代地估计噪声并更新含噪图像。

2.2 指导原则

扩散模型通过引导实现训练后的调整,涉及得分函数的合成[9, 22, 33]。可以使用分类器引导生成条件样本,将无条件的得分函数

与分类器

结合,得到

[9, 33]。在采样过程中的分类器引导调整了估计的误差项

在设定了5个指导强度后,这会将采样偏向于分类器认为更可能的图像[9]。此外,扩散采样可以通过任何能量函数

进行引导,而不仅限于分类概率。整合此类引导能够生成根据函数

评估具有低能量的高质量文本到图像样本。

表示

的额外引导权重。

2.3 基于扩散的图像编辑

图像编辑是计算机图形学中的一个基本任务,它涉及通过整合各种额外元素(如标签和参考图像)对输入图像进行操作。近年来,文本到图像扩散模型在图像编辑任务中的应用得到了扩展,包括局部和全局编辑。

一些方法尝试通过重新训练或微调扩散模型来解决这项任务。例如,InstructPix2Pix[6]使用GPT-3[7]、Stable Diffusion[29]和Prompt-to-Prompt[14]生成图像编辑数据集,然后在这个数据集上训练扩散模型,根据源图像和编辑 Prompt 来编辑图像。Imagic[18]首先优化文本嵌入到输入图像,然后微调扩散模型以进一步提高保真度,并在原始嵌入和优化嵌入之间进行插值以生成结果图像。DreamBooth[30]微调扩散模型以重建特定目标及其类型的图像,只需3-5张该目标的图像即可生成该目标的新图像。相比之下,Gal等人[12]提出了优化与特定目标相关的向量嵌入,而不是扩散模型,以最小化重建损失,给定该目标的3-5张图像。然而,所有这些方法都需要重新训练或微调扩散模型或优化文本嵌入,这计算成本高昂,可能会限制可能编辑的范围。相比之下,作者的方法不通过指导来改变扩散模型权重和文本嵌入。一些方法尝试以零样本方式执行图像编辑。Tumanyan等人[35]在生成过程中注入自注意力图和扩散U-Net的特征,以保留原始外观和细节。Prompt-to-Prompt[14]通过在生成过程中添加、删除或替换相应的交叉注意力图来实现某些类型的图像编辑,如单词添加、删除和替换。Self-Guidance[10]利用交叉注意力图和扩散U-Net的中间特征进行指导,以操纵位置、大小、形状和外观等属性。然而,由于这些方法仅基于交叉注意力图,它们只能在目标类型 Level (即操纵与单词相对应的所有目标,而不是特定目标)执行图像编辑,但不能在实例 Level 上执行。相比之下,作者的方法可以通过使用LLM和开放词汇检测器从图像中提取目标来执行实例 Level 的操作。

混合扩散[1]将CLIP引导[27]的潜在变量与每个扩散图像中的原始图像结合,使用用户指定的蒙版实现基于区域的图像编辑。混合潜在扩散[3]进一步发展了这一想法,通过在潜在空间而不是像素空间中应用相同的操作。DragonDiffusion[25]通过操纵扩散模型的中间特征来执行不同类型的编辑,如位置变化、调整大小和目标粘贴,前提是有必要的编辑蒙版。然而,这些方法都需要指定感兴趣区域的蒙版作为输入,而这并非总是可行的。DiffEdit[8]根据源 Prompt 和 Query Prompt 之间的差异自动生成编辑蒙版,然后,在扩散步骤的某些阶段,它将 Query Prompt 的生成结果与源图像混合。然而,生成的蒙版不够精确。这种方法也不支持实例级操作,并限制了可能编辑的范围。相比之下,作者的方法使用LLM和开放词汇检测器提取 Prompt 中提到的每个目标的边界框。这使作者能够提取精确的兴趣区域,而不会限制可能编辑的集合。

大语言模型(LLMs)与扩散模型的结合,显著推动了受控图像编辑的进步。基于LLM的扩散模型(LMD)[21]通过LLM引导的图像布局生成,提升了 Prompt 的理解能力。SUR- Adapter [39]对简单和复杂 Prompt 的语义表示进行对齐,并将LLM知识转移到图像生成上,以提升生成效果。尽管这些方法利用LLM来增强 Prompt 的解释,但作者的方法利用LLM和开放词汇检测器,以实现精确的实例级编辑。

自纠正型大语言模型控制扩散(SLD)[37]采用了不同的方法。首先,它使用大语言模型从 Prompt 中提取一组目标,并在图像中检测到它们。然后,LLM建议必要的编辑,使图像与 Prompt 保持一致。最后,它执行相应的潜在操作以编辑图像。这个过程会重复进行,直到图像完全匹配 Prompt 。作者采用该方法中的目标提取和检测部分,因为它能够精确地定位需要操作或保留的目标,无需辅助信息。然而,编辑部分仅限于基于文本的图像操作,不够精确。为了实现更精确的编辑,作者利用了基于扩散U-Net特征上的交叉注意力图进行指导。

自定义扩散模型[20]引入了一种微调框架,允许在单个扩散模型中对多个概念进行定制,例如特定的狗和月亮门。该方法仅针对用户提供的概念,优化了跨注意力层中关 Key和Value 投影矩阵的新文本 Token 。此外,作者还 Proposal 添加一组具有相似标题的真实图像,以保持模型生成多样化图像的能力。

同样地,Break-A-Scene [2] 研究了从单一图像中提取多个概念的方法,能够将复杂场景分解成独立可操作的元素。这是通过一个两阶段定制过程实现的,该过程涉及优化文本嵌入和模型权重,同时采用 Mask 扩散损失和独特的交叉注意力图损失,以防止概念交织。这种方法擅长捕捉图像中每个概念的独特特征,使得后续生成阶段能够进行多样化和灵活的操控。然而,这两种方法侧重于通用概念的定制,而不是针对特定实例的编辑,即它们的目标是生成带有新学习概念的全新图像,而不是编辑已有的图像。相比之下,作者的方法通过集成大语言模型和开放词汇检测器,实现了精确的实例级操控,从而能够进行更具针对性和灵活性的图像编辑,无需重新训练或微调模型。

ControlNet [38] 通过引入条件输入,在不需对整个模型进行微调的情况下,提供了一种控制生成图像特定属性的方法。这种方法利用了预训练的扩散模型,并实现了更精细的条件生成。尽管这种方法提供了高水平的控制能力,但它主要关注于引导生成过程,而非直接编辑现有图像。相比之下,作者的方法通过整合引导技术和利用大语言模型(LLMs)以及开放词汇检测器(openvocabularydetectors),能够在不改变模型权重的情况下,实现对图像中目标的实例级操作。

动态 Prompt 学习(DPL)[36]通过优化对应名词词的词嵌入来解决扩散模型中跨注意力图不准确的问题。作者提出最小化三个损失,以防止跨注意力的背景泄漏,使它们相互分离并专注于图像的特定部分。该方法通过减轻由跨注意力错位引起的非期望变化,提高了基于文本编辑的精度,实现了更准确和可控的修改。该方法解决了一个相关但仍然不同的问题,专注于细化文本 Prompt 与视觉特征之间的交互,以实现高质量的编辑。

  1. 研究方法

作者的方法概述如图1所示。请注意,此流程仅使用预训练模型,无需任何训练或微调。首先,大语言模型(LLM)从给定的 Prompt 中解析出目标。接着,开放词汇检测器在生成的图像上检测解析出的目标。然后,根据用户编辑,作者利用基于交叉注意力图和扩散U-Net特征的指导进行图像编辑。第3.1节描述了LLM解析和开放词汇检测,第3.2节描述了带有指导的图像编辑。

picture.image

3.1 基于大语言模型(LLM)的目标检测

在作者的方法中,基于大语言模型(LLM)的目标检测技术能够提取出 Prompt 中提到的、在生成的图像中出现的物体。作者采用了与Wu等人[37]相同的方式。首先,LLM从 Prompt 中提取出提到的物体及其属性和数量。然后,开放词汇检测器[24]在图像上检测之前步骤中提取的物体。与Self-Guidance[10]等在物体层面操作且无法提取独立物体的方法不同,这些步骤使得作者的方法能够精确地定位所有感兴趣的物体,而无需用户提供如 Mask 等辅助信息,与DragonDiffusion[25]等方法不同。随后,利用获取到的边界框,可以对图像在实例 Level 上进行编辑。

图1:作者流程的概述。首先,大语言模型(LLM)从 Prompt 中解析出目标。接着,一个开放式词汇目标检测器在图像上检测这些目标。最后,通过指导使用对图像进行编辑。请注意,此流程仅使用预训练模型,无需任何训练或微调。

3.2 带有指导的图像编辑

在获取检测结果后,用户需要指定需要操作的目标。这使得与仅允许基于文本操作的方法(如SLD[37])相比,可以进行更精确的编辑。然后,使用基于交叉注意力图和扩散U-Net特征的引导进行图像编辑。只能操作位置,但该方法可以扩展到其他操作。研究表明,引导能够实现对图像生成过程的精确控制[4, 15],而最近的研究表明,交叉注意力图中包含有关目标位置和形状的信息[10, 14],而中间扩散特征包含有关目标外观的信息[25, 35]。因此,这可以在保留图像外观的同时,更好地控制位置,与直接将目标注入潜在向量的方法(如SLD[37])相比,后者会降低图像的真实性和保真度。

3.2.1 位置

考虑到原始目标边界框

和偏移量

,可以通过以下引导项来操纵位置:

在图像编辑过程中,

是与 Token

对应的交叉注意力图,

是与原始边界框对应的 Mask ,

是通过将

平移

得到的,其中

表示逐元素相乘。第一项旨在最小化模型对原始位置的聚焦,即从该位置移除目标,而第二项旨在使模型聚焦于目标位置,即使目标出现在目标位置。

3.2.2 目标保留

对于未被操作的其他目标,作者计算在原始生成过程中获得的扩散U-Net中间激活(记作

)与在操作过程中获得的中间激活(记作

)之间的均方误差。

3.2.3 总指导项

考虑到目标集

和操作目标

,总的引导项如下:

本指导术语用于根据公式更新噪声估计。

  1. 结果与讨论

作者选择了Gemma-7b指令模型[23]作为作者的大语言模型(LLM),它在性能上优于其他最先进的模型,如Mistral-7B-Instruct-v0.2[17]和Llama 2[34]。对于开放式词汇检测器,作者使用了OWLv2[24],这是零样本开放式词汇目标检测中的最佳表现者。作者在Stable Diffusion XL模型[26]上测试了作者的流程,这是一个领先的扩散模型。作者的方法将方程5中的位置引导项应用于扩散U-Net的第一上层块中的所有交叉注意力图,以实现精确的位置和形状信息;将方程6中的保留引导项应用于第三上层块的特征,以实现精确的外观和细节。

作者对比了作者的方法与Self-Guidance [10],后者提供了一种操纵位置的方法,尽管它仅在目标类型 Level 提供操纵,而不是在实例 Level 。作者还将其与DragonDiffusion [25]进行了比较,后者允许在实例 Level 操纵属性,如位置,但需要以 Mask 或边界框形式提供的辅助信息。与Self-Guidance相比,作者的方法可以实现实例 Level 的操纵。与DragonDiffusion不同,作者的方法不需要任何辅助信息。作者没有将作者的方法与SLD [37]进行比较,因为SLD仅允许使用文本指定操纵,这限制了图像编辑的特异性。作者也没有将作者的方法与Custom Diffusion [20]、Break-A-Scene [2]和ControlNet [38]进行比较,因为前两种方法解决了多个概念定制的问题,而ControlNet解决的是可控图像生成的问题,而不是像物体重定位这样的特定实例 Level 操纵。其他使用扩散模型进行图像操纵的方法不能实现实例 Level 编辑,也不能操纵位置。第4.1节突出了作者方法在实例 Level 操纵物体位置方面的精度,展示了其在Self-Guidance和DragonDiffusion等当前最先进方法之上的优越性。第4.2节呈现了对不同保留术语的比较分析,显示了使用中间激活与使用交叉注意力图在保持操纵期间外观保真度方面的影响。设计一个用于评估图像编辑技术的指标尚未得到解决,尤其是对于操纵属性(如位置)的方法。因此,作者像以前的方法[3, 10, 14, 25, 30]一样,在两个实验中都使用了定性(即视觉)比较,以直接可视化结果并评估作者的方法。

图2:位置操作示例。坐标变化用(x,y)表示。

picture.image

4.1 位置

图2展示了位置操控的示例。作者的方法在实现精确位置操控的同时,在很大程度上保留了被操控物体的外观保真度。值得注意的是,它能够操控特定实例的目标,而Self-Guidance [10]则控制目标类型而非单个实例。例如,作者的方法可以操控单个猴子,同时保持它们独特的外观,而Self-Guidance对任何猴子都会给出相同的结果,无法区分同一类型目标的实例。与DragonDiffusion [25]相比,作者的方法在操控图像中保持了保真度和现实主义,尤其是在目标重新定位的情况下。虽然DragonDiffusion可能在保持外观的精确度上更为出色,但作者的方法在保持现实主义和保真度方面表现卓越,这对于需要现实修改的应用至关重要。更多示例和定量评估可以在补充材料中找到。

尽管作者的方法具有这些优势,但仍有一些方面需要改进。虽然它通常能很好地保留外观,但偶尔会出现偏差,例如猴子等物体上的颜色变化或摩托车细节的微小变化。此外,移动物体的外观也会完全改变,因为公式5中的位置项使用了只包含一般位置和形状信息的交叉注意力图,而不包含外观信息。

另一个问题是,每次操作都需要仔细选择超参数,这在实际应用中可能颇具挑战性。权重需要调整,因为某个组合对于一种物体可能效果良好,但对另一种物体则可能无法达到满意的结果。

此外,作者的方法,与Self-Guidance和DragonDiffusion类似,在处理大型物体时存在困难。例如,尝试将图2中的摩托车重新定位并没有导致任何位移,突显了在不牺牲图像真实性的情况下处理重大变化的能力局限。尽管DragonDiffusion设法将摩托车向上移动,但它未能将其从原始位置移除。

4.2 不同保留期限的消融研究

作者比较了方程6中的两种保留术语:一种是使用交叉注意力图作为方程5中的位置操纵术语,另一种使用扩散U-Net的中间激活。如图3所示,交叉注意力图仅保留了大致的位置和形状,显著改变了外观。相比之下,扩散U-Net的中间激活保留了位置、形状和外观。

picture.image

五、结论与未来工作

本文通过深入探讨人工智能领域的关键问题和最新进展,对现有技术进行了全面分析,并提出了相应的解决方案。研究结果表明,人工智能技术在提高工作效率、优化决策过程以及促进社会发展中扮演着越来越重要的角色。

然而,尽管取得了显著成果,人工智能领域仍存在诸多挑战和问题。未来工作应着重于以下几个方面:

  1. 算法优化:进一步研究高效、鲁棒的人工智能算法,提高模型性能和泛化能力。
  2. 数据质量:加强数据预处理和清洗工作,确保数据质量,为人工智能模型的训练提供可靠的数据基础。
  3. 可解释性:提高人工智能模型的解释性,使决策过程更加透明,增强用户对人工智能技术的信任。
  4. 安全性:加强人工智能系统的安全性研究,防范潜在的安全风险,确保人工智能技术在各个领域的应用安全可靠。
  5. 应用拓展:推动人工智能技术在更多领域的应用,如医疗、教育、金融等,为社会带来更多价值。

总之,人工智能技术的研究与发展前景广阔。通过不断攻克技术难题,加强跨界合作,我国人工智能产业必将迎来更加美好的明天。

在本文中,作者提出了一种实例级图像处理的流程。该方法利用大语言模型(LLMs)和开放词汇检测器,检测出 Prompt 中提及并出现在生成图像中的目标,从而实现精确的实例级控制,无需进行昂贵的微调或辅助信息,如输入 Mask 。此外,作者的方法还保持了图像的外观,确保了图像的一致性。

未来工作将集中于降低作者的方法对超参数选择的敏感性。消除对每个操作进行超参数调整的需要将极大地提高用户便利性。此外,作者将关注在操作过程中提高被操作目标的保真度,以及改善大型物体的位置操作。作者的方法和先前的方法都没有解决这些问题,解决这些问题将进一步增强图像编辑方法的精度。最后,作者将探索将作者的方法与DPL[36]相结合,因为它可以提高交叉注意力图的精度,从而可能增强作者 Pipeline 的编辑组件。

参考

[1]. LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论