点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
文本到图像的扩散模型(DMs)发展得飞快,得到了深入的理论探索和实证分析的支持。然而,DMs与自回归模型(ARMs)之间的差异使得实现视觉和语言生成的统一目标变得复杂。
最近, Mask 生成Transformer(MGT)作为DMs和ARMs之间的一个有前景的中间体,通过预测随机 Mask 图像 Token (即 Mask 图像建模),将DMs的效率与ARMs的离散 Token 性质相结合。
然而,作者发现关于MGT推理的全面分析几乎没有,因此作者旨在提出一些积极的设计选择来填补这一空白。作者修改并重新设计了一组基于DMs的推理技术用于MGT,并进一步阐明了它们在MGT上的性能。作者还讨论了纠正 Token 分布以提高推理的方法。
通过大量实验和实证分析,作者得到了具体而有效的设计选择,这些设计选择可以合并以实现进一步的性能提升。
例如,在提高推理方面,作者与纯采样相比,在HPS v2上的获胜率达到了约70%,与最近的SOTA MGT Meissonic相当。作者的贡献有可能进一步提高MGT的能力和未来发展。
1 Introduction
生成模型的快速发展在计算机视觉和自然语言处理领域成功地激发了深度学习的创新。自然语言处理中大型语言模型(LLMs)的出现,以及它们在跨域和任务上的强泛化能力[27, 43, 46],得益于自回归模型(ARM)与Transformer解码块[52]。相比之下,文本到图像(T2I)合成的主导范式是扩散模型(DM),它采用多步去噪过程从高斯噪声中合成高质量图像。ARMs和DMs在训练和推理之间的显著变化阻碍了计算机视觉和自然语言处理中的生成范式的统一。近年来,一些ARMs在视觉生成方面的成就,如LlamaGen [42],Lumina-mGPT [21]和Fluid [8],表明DM并不是实现图像生成的唯一选择。这种范式可以合成极其高质量的图像,但合成一张图像需要数百或数千次函数评估(NFEs)[44]。相反, Mask 生成Transformer(MGTs)[5]在每个正向传播中预测多个 Mask Token ,从而在DM和ARM之间取得权衡。这种方法保留了DM的效率,同时稳定了图像向离散 Token 的转换,与LLM[34]的部分特征描述相吻合。
最近,Meissonic [3] 进行的最新 MGT,首次在 10241024 分辨率下实现高质量图像合成,在 HPS v2 [49] 上达到最先进性能,比 SD XL [29] 优0.69。这一现象证实了 MGT 合成高分辨率图像的能力,并提出了开发商业级生成模型(如 FLUX [16])的潜力。然而,与 DM 领域广泛的理论研究和实证分析相比,学术界对高分辨率 MGT 的探索和理解仍属空白,这阻碍了 MGT 在训练和推理方面的进一步发展 [3, 5, 6]。
为了填补这一差距,本文专注于MGT推理阶段,旨在通过在高分辨率图像合成场景中的实证分析,识别出能增强视觉质量和实现高效采样的有效设计选择。_首先_,作者阐明了在DM中广泛应用的无训练方法,并阐述需要重新设计以确保其有效性。如图2和表1所示,MGT的采样过程与DM的采样过程具有显著相似性,因此将DM中的算法直接应用于MGT是合理的。作者在此背景下探索了DPM-Solver [23, 24],TomeSD [4],以及Z-Sampling [2]算法,但发现这三个算法都需要针对MGT的特征进行特定修改,以降低NFE、加速推理或实现性能改进。
以Z-Sampling为例,作者发现,如果将DDIM Inversion [26](在DM中使用),并采用随机 Mask ,在某些情况下将不起作用,除非将 Mask 限制在低置信预测 Token 。特别是,作者的实验结果表明,在这三个算法中,DPM-Solver和TomeSD对MGT的影响相对较小,而像Z-Sampling这样的重排算法可以获得显著的性能提升。此外,作者还调查了MGT中的噪声计划,类似于EDM [14],并发现,在某些条件下,余弦噪声计划是次优的。这些发现表明,DM和MGT的训练和推理机制不一致,可能导致在DM上增强的推理算法对于MGT并不有效。
第二,作者关注由 Backbone (即Transformer)生成的概率分布,进而发展出几种“便宜”(即没有显著计算开销)但有效分布校正算法,包括噪声正则化和(低熵)差分采样。具体来说,噪声正则化根据在应用软max之前的时间步数,动态地(高斯)扰动 Backbone 输出,以增强合成图像的多样性。另一方面,差分采样计算两个相邻时间步输出之间的Kullback-Leibler(KL)离差,并重新采样与Transformer输出过于相似的 Token ,从而避免信息冗余并提高视觉质量。
第三,作者还研究了Meissonic上的模型量化以实现高效的内存使用。作者的结果表明,Weight4Activation16(W4A16)量化在实际中无法减少内存使用,而W4A8量化会导致推理崩溃。为解决这个问题,作者只对幅度较小的激活值层进行量化,将内存占用从11.98 GB减少到4.57 GB(无显著性能损失)。
第四,作者使用各种指标(包括ImageReward [50],HPS v2 [48],PickScore [10, 19],和AES [17])来验证作者提出的布局选择在HPD v2基准测试中的有效性。如图1所示,这些策略显著提高了合成的图像质量。此外,作者引入了Challengebench,包括220个 Prompt 来评估Meissonic [3]在具有挑战性的案例中的鲁棒性。结果表明,与SD XL [29]相比,Meissonic在Challengebench上的性能提高了,而不是在HPD v2基准测试上。
2 Preliminaries
作者首先回顾了在视觉合成领域不断增长的三个生成模型:扩散模型(DM)[12],自回归模型(ARM)[42],以及 Mask 生成Transformer(MGT)[3]。然后,作者概述了MGT的简单采样过程,该过程由MaskGIT[5]引入。
视觉生成模型的推理机制
自注意力机制(DM)是一种近年来得到广泛应用且成功扩展到大规模、高质量视觉合成的技术,而注意力机制(ARM)和多 Mask 生成(MGT)仅最近才显示出合成高分辨率图像的可行性。如表1所示,它们都采用多步去噪范式,在推理过程中逐步生成高质量图像。给定潜在变量(见表1定义),它可能遵循高斯分布(针对DM)或包含 Mask Token (针对ARM和MGT)。这些方法主要希望在训练阶段拟合(抽象)估计器(),从而在推理过程中实现顺序采样,其中表示采样步骤的数量。请注意,可以在具有不同关注点的各种模型中得到实现:在DM中,它表示预测一个得分函数;在ARM中,它代表预测一个 Token ;而在MGT中,它涉及预测所有 Mask Token 。在DM和MGT中,都使用了仅包含编码器的Transformer来预测完整的得分函数或全部 Token ,从而允许它们的采样过程得到优化为。
纯文本采样过程(MGT) MGT的采样过程由MaskGIT [5]给出,随后由Muse [6]和Meissonic [3]遵循。如图2所示,MGT的完整采样过程与DM的对应部分非常相似,尽管它们在几个关键方面有所不同。具体来说,给定初始的 Mask Token ,它会在多个步骤中进行采样,以获得“干净” Token 。以Meissonic为例,每一步包括:_1)_ MM Transformer给出预测 Token ; 2) 将中的 Mask Token 替换为预测 Token ,然后根据其概率值对不确信 Token 进行 Mask 。MGT和DM的采样过程之间的主要区别在于:_1)_ MGT的每一步都是非确定性的(见表1),强制确定性采样可能会降低性能(见附录8.1的详细信息); 2) 在MGT中,预测 Token 只替换 Mask Token ,而不影响未 Mask Token ; 3) MGT中的 Mask 如何执行取决于概率值,而DM则是随机的。
3 Enhanced Inference
第3节和第4节将分别讨论作者关于增强和高效的推理的研究。在本节中,增强推理涉及对已知DM方法的适应,以及根据MGT属性设计的新算法的应用。请注意,为了更合理地介绍作者的研究,作者将以渐进探索的形式介绍作者的方法和实验。对于后续内容,作者采用表1中的定义。除非另有说明,所有实验都是在HPD v2子集(见附录7)上的Meissonic-1024×1024进行的。
Convexity Exploration of Noise Schedule
所有已知的MGT模型在训练和推理中都使用表1中的余弦学习率来确保一致性。为了调查是否存在更好的推理噪声计划,作者探索了具有不同凸性的曲线(见图3)。曲线设计受到了Karras噪声计划[14]的启发。具体来说,当设置为1,设置为0时,表达式和可以简化为和。作者在图4和表2中呈现了实验结果,其中采样步数设置为64。
从图4中可以得出一个关键结论:在之上,其中大多数指标在左右达到峰值。值得注意的是,某些指标甚至超过了基础采样的性能。基于这一观察,作者在区间内更密集且均匀地采样以获得更精确的结果,这体现在表2中。
当时,表现出比标准余弦调度更优的行为。这表明,即使在训练期间使用余弦调度,推理阶段可能存在更好的噪声调度。作者还提供了不同值和基准的附加实验结果(见附录9.1)。
Masked Z-Sampling for MGT
Zigzag扩散采样(Z-Sampling)[2, 25]的核心思想是通过在采样过程中提前引入“未来”语义信息,使用“zigzag”路径来提高MCMC的采样质量。作者的目标是将已在MCMC中证明有效的此算法扩展到MGT,以提高合成的图像保真度。Z-Sampling的逻辑可以通过图5顶部给出的方程进行说明。在获得潜在的后,它使用“特定”的 Mask 算法(对应于MCMC中的DDIM反向)回溯到=i-1,并从=i-1到=i再次进行采样。
很遗憾,在实验中,将随机 Mask (即图5中的基本Z-Sampling)应用于模拟DDIM反转在受限制的DM中降低了推理性能。作者认为这是由于随机 Mask 错误地从潜在空间中移除了一些对合成图像有显著贡献的 Token 。例如,图5中的第一轮前采样获得的紫色 Token 可能被掩盖,尽管这些紫色 Token 通常代表最“未来”的信息。因此,作者采用了一种与采样机制一致的新 Mask 流程进行回溯,即在i步时用低对数概率(即图5中的被掩盖的Z-Sampling) Mask 预测 Token 的一部分。作者还需要提到一个重要参数:反向分类器无关的指导(CFG)规模,它指的是在 Mask 阶段用于生成选择低置信度的 Token 的CFG规模。作者研究了反向CFG规模如何影响合成图像的质量。如[2]所述,选择一个理想的反向CFG规模可以最大化语义信息注入的积极影响,从而产生一个“恰到好处”的CFG间隙。
作者在图6(左)中呈现了消融结果。从黑色虚线(即平均指标)的变化可以看出,反向CFG规模在-1和9附近表现最好。为了降低计算成本,作者在实验中设置反向CFG规模为0(即不使用CFG),将标准CFG规模设置为9,从而通过减少NFE避免额外的计算开销。
作者进一步在HPD v2数据集上验证了 Mask Z-Sampling,结果如图6(右)所示。可以看出,作者的算法在几乎所有领域和指标上都显著优于普通采样,这说明 Mask Z-Sampling可以持续提高MGT的性能。
Noise Regularization
根据作者的研究,MGT与DMs之间一个显著的区别是,MGT可以通过调整模型输出的概率分布来提高合成的图像的视觉质量和多样性。因此,作者提出了噪声正则化和差分采样的方法。在这里,作者首先介绍一种简单而有效的噪声正则化方法,该方法可以描述为
其中 是 的输出,黄色部分代表噪声正则化。如图7(左)所示,纯随机取样通常导致当 接近 0 时出现与 相同颜色的水平条纹,当 接近 1 时出现与 相同颜色的垂直条纹,这表明其采样过程存在冗余性。噪声正则化将随机性引入采样过程,消除了相同颜色的条纹,从而增强了预测 Token 的多样性。
在作者的定义中,超参数 是一个随时间 动态变化的函数 。为了实证地确定实证最优的 ,作者测试了各种曲线,并计算了相对于纯样品的四个指标(PickScore、HPS v2、AES 和 ImageReward)的筛选率。结果如图8 所示。作者发现,当 设置为 时,效果最佳,当 接近 0 或 1 时,达到较大值,而在中间部分达到较低值。这一观察很有趣,因为在采样结束阶段注入噪声会显著降低在 DM 上的推理性能,而对 MGT 有正面影响。此外,如 图7(右)所示,噪声正则化在采样阶段修改了分布的熵,使其更倾向于 "U" 形结构,这与 的形状相似。HPD v2 的结果请参见附录 9.3。
如图9(顶部)所示,这种方法可以显著降低相似性的传播,并有效地引入多样性到采样过程中。此外,作者对超参数z进行了消融实验,结果如图10所示。当z从0增加到100(z=0表示普通采样)时,采样性能起初提高,然后下降。有趣的是,即使应用于所有 Token ,差分采样仍然优于普通采样,突显了差分采样的鲁棒性。此外,实证结果表明,当z设置为75时,性能最佳,作者在附录9.4中给出了差分采样在HPD v2上的性能。
4 Efficient Inference
另一种作者探索的路径是确定如何实现对MGT的高效推理。作者考虑模型量化[13], Token 合并[4],以及类似于DM[23, 24, 30]中使用的调度策略。
Secondary Calibration for Quantization
实现内存效率的最有效方法是将生成模型的 Backbone 应用模型量化,这种技术在FLUX [16]和SD 3.5 [40]中已经成功使用。然而,这种方法在Meissonic-10241024上不起作用,原因有以下两点:
- Meissonic-10241024的模型参数数量有限(仅10亿个),其压缩层会积极减少 Token 数量至1024。这些限制导致在应用W4A16后量化(PTQ)时出现问题,使得合成正常图像的能力受限。
- 由于Meissonic引入了多模型 Transformer 块,过于复杂的架构设计在实际中无法显著减少量化内存。一个简单的解决方案是量化激活值。然而,这种操作将进一步降低模型性能。
为解决这些问题,作者提出了二次量化校准(SCQ)方法。作者的核心贡献包括:
1)使用Meissonic合成的图像进行量化感知训练(QAT),以校正量化的值范围;
2)引入一种二次校准策略,记录每个层次在第一次校准后的幅度,然后只对幅度较小的激活值进行量化,进一步校准它们。
在作者的实验中,作者默认只量化激活值的1/3,从而将 Backbone 网络的内存使用从3.34 GB降低到2.24 GB。
表3中呈现了SCQ实验结果。其中,“A8W4-QAT & Calibration”表示对QAT衍生出的Transformer(即 Backbone 网络)执行的一次校准。为了进行公平比较,在“A8W4-QAT & Calibration”中,随机选择了激活值的三分之一进行量化。此外,“CPU offloading”表示先使用Transformer获取所有,然后将分词器解码器加载到将转换为合成图像。从表3可以得出,QAT和辅助校准策略都是关键且有效的。
Introducing TomeSD into MGT
将 Token 合并应用于加速推理是自然的,因为MGT的基础是 Transformer 。不幸的是,Meissonic只有1024个 Token ,比SD XL的注意力层中的4096个 Token 还要少。众所周知,注意力层的计算复杂度会随着 Token 数量呈指数增长, Token 数量较少会降低 Token 合并的潜在效益,导致作者实现的TomeMGT在实验中观察到的效果不明显。因此,作者专注于应用TomeSD到MGT的挑战,该方法已在SD XL上表现出有效性,以实现加速推理,并相应地探讨应用场景。
主要挑战有两个方面。首先,将 Token 合并到单个transformer可能导致推理失败,而它在多模态transformer中是有效的。其次,Meissonic中的RoPE(用于编码位置信息)也需要合并。对于前者,作者在多模态transformer上仅执行 Token 合并,而对于后者,作者在附录9.5中提供了关于作者处理RoPE的详细信息。在这里,作者只在表5中提供了合并比率的消融研究。比较实验提供在附录9.6中。
### Momentum-based Solver
受到DDIM[37]和DPM-Solver[24]在MG上的成功启发,作者旨在在MGT中实现类似的机制。由于DPM-Solver的第一阶形式等于DDIM,作者重点关注实现DPM-Solver。作者将MGT中DPM-Solver的实现称为Momentum-based Solver,因为这些算法基本上都使用动量进行加速采样[32, 38, 53]。分析图10:差分采样的z%的消融研究。
1st和2nd阶方程可以表示为:
作者的推导可以在附录9.7中找到。使用公式4的挑战在于在不同的时间步执行加/减操作。作者采用一种简单而有效的方法,将操作转换为概率分布,然后根据这些分布进行 Token 替换。例如,由于,对于第一阶解算器,作者从中选择的 Token ,从中选择的 Token ,然后简单地合并它们。
对于 Token 选择规则,作者遵循高置信度标准,从中选择置信度最高的Top 个 Token 。此外,对于二阶解算器中的梯度,作者使用与DPM-Solver相同的差分展开形式。作者在图12中展示了消融实验,结果表明Momentum-based Solver对于=16和=20提供了性能提升,但对于较大的性能不如原始采样。作者认为这是由于 Token 值的离散性,这限制了加/减运算的有效性,与DM中的情况不同。
5 Challengebench and Additional Evaluations
作者进一步分析了MGT在具有挑战性的 Prompt 上的性能。作者使用SD XL [29]合成了150k张图像,计算了HPS v2得分,并选择了最低得分的1.5k个 Prompt 。经过人工和GPT-4o [1]选择后,作者在Challengebench上形成了220个语义上连贯的 Prompt ,命名为 Challengebench 。
作者在Meissonic,SD XL [29],FLUX.1-schnell [16]和SD-3.5-Large [40]上进行了实验,并在表4中呈现了结果。作者观察到Meissonic在Challengebench上的改进(0.1838 0.2116)大于其在HPD v2上的改进(0.2888 0.2957)
原始论文表明,MGT在具有挑战性的 Prompt 上更具鲁棒性。在Challengebench上,FLUX.1-schnell和SD-3.5-Large的得分降低,表明其提供了对泛化的强健度量。作者通过组合设计选择在Table 11中获得了约70%的获胜率,与纯随机取样的基本采样相比。更多的实验请参见附录9.9。
6 Conclusion
作者的方法基于 Mask 生成 Transformer ,旨在确保增强和高效的推理,这是对非自回归模型的有意义探索。
在未来,作者将尝试统一并改进 Mask 生成 Transformer 的训练过程,以克服这一生成范式的 Bottleneck 。
[0]. Bag of Design Choices for Inference of High-Resolution.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」