内容自适应 Tokenizer（CAT）：提升图像 Diffusion Transformers 训练效能！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

现有的大部分图像 Token 器将图像编码为固定数量的 Token 或图像块，忽视了图像复杂性的固有可变性。

为了解决这个问题，作者提出了内容自适应 Token 器（Content-Adaptive Tokenizer，简称CAT），它能根据图像内容动态调整表征容量，并将简单的图像编码为更少的 Token 。

作者设计了一个基于描述的系统进行评估，该系统利用大语言模型（LLMs）预测内容复杂度，并确定给定图像的最佳压缩比，同时考虑了影响人类感知的关键因素。

在具有不同压缩比的图像上进行训练，CAT在图像重建方面表现出稳健的性能。

作者还利用其可变长度的潜在表征来训练用于ImageNet生成的扩散 Transformer （Diffusion Transformers，DiTs）。

通过优化 Token 分配，CAT在相同算术运算量（flops）的固定比率 Baseline 训练中提高了FID评分，并将推理吞吐量提升了5%。

引言

尽管现有的大部分分词器效果显著，但它们通常采用固定的压缩比，将图像编码为相同维度的特征向量，而不考虑其内容。然而，不同图像的细节程度各异，这表明一种适用于所有情况的压缩方法可能并不理想。实际上，即使是设置为相同质量水平的传统编解码器如JPEG[8]，也会根据图像的空间频率产生不同的文件大小。

此外，对所有图像使用相同的表征能力可能会损害分词器的质量和效率。过度压缩复杂图像可能会导致重要视觉细节的丢失，而不足够压缩简单图像则可能导致训练下游模型时的低效，因为额外的计算资源被浪费在处理冗余信息上。一些近期的研究提出了在推理时根据计算预算调整使用的 Token 数量[10]。然而，这些方法在训练分词器时忽略了图像固有的复杂性。此外，它们在分词器设计时没有考虑到下游应用场景。例如，图像分词器通常用于为潜在扩散模型（LDMs）[11]生成输入，并执行文本到图像的生成，而在推理时只有用户的文本 Prompt 可用。尽管如此，现有的研究都要求在执行自适应分词时提供图像输入。

在这项工作中，作者提出了内容自适应分词器（Content-Adaptive Tokenizer，简称CAT），该分词器根据图像的复杂度动态分配表示能力，以提升压缩质量和计算效率。为了实现这一点，作者提出了一种基于文本的图像复杂度评估系统，该系统利用大语言模型（LLMs）根据图像描述预测最优压缩比率。随后，作者训练了一个单一统一的变分自编码器来生成不同形状的潜在特征（见图1）。

picture.image

作者的复杂度评估系统旨在准确反映内容复杂度，同时兼容多种下游任务，包括使用LDMs的文本到图像生成。具体来说，作者利用图像的文本描述来 Prompt 一个大语言模型（LLM），并生成一个复杂度分数。文本描述包括图像标题以及一系列以感知为导向的 Query 的答案，例如“是否存在人脸/文字”，这些 Query 旨在帮助识别对人类感知敏感的元素。根据复杂度分数，图像被归类为8倍、16倍或32倍压缩之一。更高的比率意味着作者可以更激进地压缩简单图像。

随后，作者开发了一种嵌套变分自动编码器（VAE）架构，能够在单个模型中实现多级压缩。这是通过将编码器下采样块的中间输出路由到一个共享的中块来生成可变维度的高斯分布实现的。从这些分布中，作者可以采样不同空间分辨率的潜在特征。

作者在具有不同复杂度的图像上训练嵌套变分自编码器，特别是使用作者的LLM评估器产生的压缩率。作者分析了它在多个数据集上的重建性能，包括自然场景（COCO[9]、ImageNet[12]）、人脸（CelebA[13]）以及文字密集型图像（ChartQA[14]）。在包含人脸或文字的复杂图像上，CAT显著提升了重建质量，在CelebA上相对于固定比率 Baseline 将rFID降低了12%，在ChartQA上降低了39%。在类似于ImageNet的自然图像上，CAT在减少16%的token的同时保持了重建质量。

作者验证了通过训练潜在扩散 Transformer （DiTs）[15]在图像生成中应用CAT（内容自适应表示）的有效性。与固定比例的 Baseline 相比，CAT由于其内容自适应的表示，更有效地捕捉了图像数据集中的高层次和低层次信息，从而加速了扩散模型的学习过程。作者展示了CAT在类别条件下的ImageNet图像生成中实现了4.56的FID值，超过了使用相同fops训练的所有固定比例 Baseline 。此外，CAT通过提高推理吞吐量实现了18.5%的提升。在质量和速度改进之外，作者还表明CAT能够在不同的复杂度 Level 上实现可控的生成，允许用户根据实际需求指定代表图像的 Token 数量。

总结来说，作者提出了CAT，一种图像分词器，它实现了以下功能：

（1）自适应压缩：根据内容的复杂度将图像压缩成可变长度的潜在表示，利用LLM评估器和嵌套VAE模型；

（2）更快的生成学习：通过有效表示图像的高层和低层信息，提升了潜在生成模型学习的效率；

（3）可控生成：根据用户指定，实现不同复杂度 Level 的生成。

总体而言，CAT代表了高效且有效的图像建模的重要一步，具有扩展到其他视觉模态，如视频的潜力。

相关研究工作

视觉分词。现有的视觉分词器采用不同的架构和编码方案。连续分词器将图像映射到一个连续的潜在空间，通常利用变分自编码器（VAE）架构[2]来生成高斯分布以采样潜在特征。离散分词器，如VQ-VAE[16]和FSQ[7]，使用量化技术将潜在表示转换为离散的 Token 。虽然作者的实验集中于连续的潜在空间，但提出的自适应图像编码方法与连续和离散分词器都兼容。

自适应压缩。传统的编解码器，如用于图像的JPEG[8]和用于视频的H.264[17]，根据输入媒体和所需质量应用不同 Level 的压缩，从而生成不同大小的文件。在深度学习领域，有一系列研究通过 Patch 丢弃或合并[19-22]对视觉Transformer[18]进行自适应修补。Ronen等人[23]使用混合分辨率的 Patch 来获取可变长度的 Token 序列。然而，这些方法针对的是视觉理解任务，不能用于图像生成。

开发能够进行图像生成的自适应 Token 化器仍处于研究不足的状态。ElasticTok [10] 是与作者类似的一项研究工作，它采用了随机 Mask 策略，在训练 Token 化器时去除图像的尾部 Token 。这允许在推理时使用任意数量的 Token 来表示图像。然而，通过为训练图像分配随机的 Token 长度，ElasticTok 忽略了视觉内容的固有复杂性。另一项并行工作 ALIT [24] 通过迭代地将二维图像 Token 蒸馏成一维潜在 Token 来减少 Token 数量。与 ALIT 不同，CAT 是基于从标题中预测出的复杂度来压缩图像的。作者的方法仅使用文本描述即可实现表示能力的自适应分配，而无需直接观察图像。

多尺度特征提取。相关研究的最终一条途径是设计能够有效提取多尺度特征的神经网络。CAT在VAE的基础上发展，并加入了受U-Net[25]和玛特罗斯卡表征学习[26-28]启发的 Shortcut 。同时，在[29-34]中也探讨了基于Transformer的多尺度特征提取器。鉴于其在经验上的强大性能，作者选择了卷积 Token 器架构。

方法

在本节中，作者介绍了自适应图像分词的CAT方法。作者首先讨论了如何衡量和预测图像的复杂性。随后，作者介绍了CAT架构，用于在不同比率下进行压缩。

3.1. 概念验证

3.1.1. 作者实际上能压缩到什么程度？

本研究的关键问题是确定图像在多大程度上可以被压缩而不造成显著的质量损失。为了探究这一问题，作者分析了现有分词器在不同压缩率下的重建性能。作者选取了来自 [11] 的开源图像分词器，其压缩率分别为、和，并在 COCO 2014 测试集 [9] 中的 41K 张图像上计算了它们的重建均方误差（MSE）。作者的分析显示，对于的图像，压缩相较于压缩，MSE 仅增加了不到 0.001，同时将分词数量减少了 16 倍。作者还计算了每张图像在所有压缩率下的最佳 MSE，并确定了在容忍度下的最大可接受压缩率。也就是说，设压缩率为，作者希望找到

图2显示，56%的图像可以通过至少压缩到16倍而只产生可忽略的（0.0001）增加的均方误差平方（MSE²）。大量自然图像可以在保持与固定8倍tokenizer相同质量水平的情况下，进行更大幅度的压缩。

picture.image

另一方面，作者的视觉检查显示，与32倍压缩相比，包含细粒度元素如文本的图像在8倍压缩下具有更好的重建质量（例如，参见图3的第3行和第4行）。这表明，为了准确重建这类图像的低级细节，需要更多的 Token 。上述结果为开发具有自适应压缩比的 Token 器提供了强烈的动机。因此，作者将CAT的目标比率设定为8、16和32。

picture.image

3.1.2. 现有复杂性度量指标的局限性

接下来，作者希望确定一个用于预测给定图像最佳压缩比度的指标。作者探索了一些现有选项，这些选项被分为两组：

（1）由传统编解码器产生的指标，例如JPEG文件大小；

（2）基于预训练的的指标，包括重建均方误差（MSE）和LPIPS [35]，该指标测量原始图像与重建图像之间VGG Net [36]激活的L2距离。作者首先在COCO数据集上计算这些指标，并分析它们与下的最大可接受压缩比的相关性。然而，表2显示皮尔逊相关系数相对较低。

picture.image

随后，作者手动检查了具有较大JPEG尺寸和均方误差（MSE）的图像。作者注意到，具有重复图案的图像，如草地、森林以及长颈鹿和斑马等动物，其复杂度指标通常较高。事实上，JPEG压缩对于具有尖锐边缘和高对比度的图像可能效率低下。斑马图像中单像素的移动就可以在黑白像素值之间切换，这会显著增加像素级的MSE。然而，如图3的上排所示，较大的MSE并不总是显著影响视觉质量。例如，作者可以轻松地识别出斑马，可能不会察觉到由不同压缩比引起的差异。

相反，作者发现许多在考虑的指标上得分低的图像实际上保真度也低。这些图像往往包含人脸或文字等视觉元素，即使是轻微的扭曲也可能降低视觉质量（图3底部行）。尽管如此，这些图像的均方误差（MSE）却很低，可能是因为关键元素仅占图像的一小部分。因此，JPEG尺寸、MSE和LPIPS等指标可能无法有效地捕捉到对人类感知至关重要的细节。与预期的复杂性相反，作者实际上希望对于文本密集型图像使用较小的压缩比，而对于斑马图像则使用较大的压缩比。

最后，所考虑的指标都要求以图像作为输入，无法用于测量文本到图像生成任务的复杂性，因为在推理时没有可用的图像。鉴于现有指标的所有这些局限性，作者寻求一种新的方法，该方法独立于像素数据，并与人类感知相一致，以预测图像的复杂性。

3.2. 通过标题和大语言模型进行复杂度评估

图像生成通常涉及用户提供描述所需图像内容的 Prompt 。为了更好地与这类实际应用场景相匹配，作者利用图像的文本描述来衡量其内容复杂性。

作者提出了一种三阶段的复杂度评估系统：（1）获取文本描述，（2） Prompt 大语言模型输出复杂度评分，（3）将评分分类为压缩比。文本描述包括图像标题以及对一组预定义的以感知为重点的问题的回答，“是否存在[物体]? 其中。这组问题可以根据不同需求进行扩展。当有图像可用时，作者使用InstructBlip [37]生成标题和回答。否则，用户需要以文本形式提供所需描述。

在第二阶段，文本描述通过大语言模型（LLM）进行处理以评估复杂度。在本研究中，作者使用了Llama 3 70B Instruct [38]。为确保评分的一致性，作者设计了一个详细的 Prompt ，包括评估指导、输出范围（即从1到9的整数分数，分数越高表示复杂度越大）、评分的重要因素，如语义复杂度（物体、场景）、视觉复杂度（色彩、光照、纹理）和感知复杂度（面部和文本的存在）；最后，为每个分数提供具体示例以供演示。作者在附录7中提供了所使用的 Prompt 。

作者将分数划分为三个区间：、和，其中。在从大语言模型（LLM）获取分数后，作者将该分数分类到、和的压缩比率中，复杂度评分越高，相应的压缩比率越低。阈值点和的选择是为了使所有训练数据达到平均压缩比约为，从而允许作者与固定的基准进行公平的比较。

形式上，将训练分布表示为，输入分辨率表示为，图像的压缩比记为，目标平均压缩比设为。在收集所有训练图像的复杂度评分后，作者将调整以满足目标压缩比。

在实现目标压缩比方面，可能存在多组阈值。在第4.3节中，作者展示了更广泛的压缩比分布能带来更好的实证性能。在第4.1节中，作者讨论了所使用的具体训练数据和阈值选择问题。

最后，作者验证了所提出的标题复杂度确实能够很好地估计最优压缩比。作者计算了作者的复杂度评分与COCO图像可接受的最大压缩比之间的相关性，并发现它超过了所有现有的指标（见表2）。同时，根据作者的标题评分选择的压缩比与可接受的最大压缩比精确一致，达到了62.39%。作者还手动检查了图像，并确认感知上具有挑战性的图像被分配了较高的标题复杂度。

3.3. 嵌套变分自动编码器在自适应压缩中的应用

为了降低训练和存储成本，作者向标准VAE架构[2]中引入了嵌套结构，以实现在单个模型中实现多个压缩比。在标准VAE架构中，编码器由多个下采样块组成，随后是一个基于注意力的中间块。解码器由一个基于注意力的中间块组成，随后是上采样块。这种对称设计让人联想到U-Net[25]和套娃网络[26]在多尺度特征提取方面的应用。受这些工作的启发，作者利用下采样块的中间输出来实现自适应压缩。以下是对所提架构的描述。图1展示了该架构的示意图。

通道匹配的跳接。将最大压缩比下的特征形状表示为，其中为通道数。在标准的VAE编码器中，随着每个额外块的添加，中间输出的空间维度会减少2倍。这意味着第二个到最后一个下采样块的输出自然具有形状，第三个到最后一个下采样块的输出形状为。一个直接的想法是将这些中间输出直接路由到中间块以生成潜在特征。然而，由于这些中间输出的通道维度不同，作者利用ResNet块[39]进行通道匹配。设VAE的潜在通道维度为c。应用通道匹配使作者能够将形状为的中间特征转换为。这将形成潜在参数的形状。

对于解码器，同样地，作者添加了带有通道匹配的 Shortcut ，并将解码器中间块的输出路由到相应的上采样块。对于压缩比，作者绕过前个上采样块，以确保解码器的输出分辨率与原始图像相同。

共享均值/方差参数化。在编码器中，经过通道匹配后的特征被导向中间块以生成潜在分布的参数。对于CAT架构，作者为所有压缩比共享中间块，以保持参数化均值和方差的尺度一致性。中间块的卷积设计使其能够处理不同空间维度的输入，只要通道维度对齐即可。因此，对于所有，高斯分布的均值，方差和样本的形状为，这是以的比率压缩的原始输入。增加共享模块的参数分配。分配较小压缩比的小图像不会经过后续的下采样块，而是直接导向中间块。因此，中间块负责处理多尺度特征。为了提高其容量，作者通过增加注意力层的数量，为中间块分配更多的参数。

训练过程中，尽管现有的自适应分词器如 ElasticTok [10] 未考虑训练数据中存在的不同复杂度 Level ，但作者在训练过程中明确将内容复杂度纳入考虑，以学习不同粒度的特征提取。对于每个训练样本，作者首先从LLM评估系统中获取压缩率。然后，仅通过针对该压缩率专门设计的层来处理图像。

与先前的研究[1, 2]类似，作者采用了一个联合目标，该目标最小化重建误差、Kullback-Leibler（KL）散度和感知损失。具体来说，作者使用损失进行像素级重建。为了鼓励编码器输出趋近于正态分布，作者添加了KL正则化：，其中是编码器参数，。感知损失包括LPIPS相似度[35]和基于MoCo v2模型内部特征的损失[40]。除此之外，作者还以对抗性方式训练作者的 Token 器[41]，使用基于 Patch 的判别器。这导致了一个额外的GAN损失。因此，作者的整体目标为：

在本文中，代表每个损失项的权重。为了简化实现过程，作者首先为每个GPU采样一个压缩比，并确保一批训练数据包含具有相同压缩比的照片。然而，不同的GPU可能具有不同的压缩比。

图像重建

首先，作者对图像重建中的CAT进行评估。作者将在第五节中展示下游生成结果。

4.1. 设置

模型与训练。作者采用嵌套的VAE架构，包含六个下采样模块；输出通道分别为64、128、256、256、512、512。中间模块使用了8个注意力层。对于表1中的实验，潜在通道设置为16，但在表5中，作者将其效果作为消融研究进行了探讨。模型的总参数数量为1.87亿。

picture.image

在训练数据方面，作者使用了包含3.8亿张授权Shutterstock图片的集合，输入分辨率为512。在获得复杂度分数后，作者发现两组阈值点都实现了大约16倍的压缩率。然而，由于导致了更加多样化的分布和更好的实证性能（参见表3和第4.3节中的消融研究），作者在CAT的最终配置中采用了它。所有模型，包括 Baseline 模型，都是使用512个全局批量大小在64个NVIDIA A100 GPU上训练了1百万步。进一步的架构和训练细节（例如损失权重、优化器和学习率计划）可以在附录8中找到。

picture.image

基准。作者将CAT与使用相同VAE架构但无嵌套结构的固定压缩率基准进行比较。为了研究基于标题的复杂性的影响，作者训练了另一个嵌套VAE，使用图像的JPEG文件大小作为复杂度指标。作者确保所有模型都具有平均16倍的压缩率。更多基准细节请参见附录8.3。

评估数据集和指标。作者对四个数据集进行了重建性能评估：COCO [9] 和 ImageNet [12]，代表自然图像；CelebA [13] 和 ChartQA [14]，代表感知挑战性图像。作者以重建FID（rFID）、LPIPS和PSNR [42] 作为性能指标。

4.2 主要结果

表1展示了CAT与各种 Baseline 方法的图像重建结果。对于固定的压缩方法，8倍压缩比在性能上显著优于16倍和32倍压缩比，这表明降低压缩比是一种有效的策略，尽管会增加计算成本。接着，作者将作者的方法与固定的16倍 Baseline 进行比较。在COCO和ImageNet上，CAT通常优于 Baseline ，在ImageNet上的rFID略有下降。然而，CAT潜在特征的平均维度在COCO上是31.87，在ImageNet上是29.32，这两个值都小于 Baseline 的32维（见表2）。这表明CAT能够有效地学习自然图像的紧凑表示。在CelebA和ChartQA上，CAT在所有指标上都显著优于 Baseline 。在ChartQA上，CAT甚至超过了固定的8倍 Baseline ，证明了其在捕捉视觉细节方面的有效性。

作者也对比了CAT与训练相同自适应架构但使用JPEG大小作为复杂度指标的对比。在所有数据集中，CAT在rFID、LPIPS和PSNR方面均取得了更好的表现。尽管作者确保了两个 Token 器具有相同的训练压缩比分布，但评估数据集的压缩比分布差异显著（见表2）。值得注意的是，由于JPEG大小往往无法捕捉到感知上重要的因素（参见第3.1.2节的讨论），CelebA和ChartQA中的几乎所有图像都被分配了最高的压缩比。因此，CAT在这两个数据集上的表现显著优于JPEG，展示了基于描述的指标和LLM评估在确定图像内在复杂度方面的有效性。

图4展示了使用学习到的CAT VAE进行渐进式重建质量的质量示例，随着作者手动降低压缩比，并使用更多 Token 来表示每张图像。作者用红色突出显示了作者通过标题度量所选的压缩比。不同的视觉输入有不同的最佳压缩比。自然图像

picture.image

4.3. 消融研究

作者探讨了几个针对作者的分词器的设计选择。首先，作者研究了压缩率分布如何影响整体重建效果。为了达到平均压缩率16的目标，作者考虑将阈值设置为或。如表3所示，配置产生了更丰富的分布，而则导致分布更加集中，类似于固定的16倍分词器——这使得它成为一个不太吸引人的设置。表3还比较了这些配置的重建性能。阈值在所有数据集上产生了更好的重建指标，这可能是由于压缩率的多样性确保了模型的所有部分都得到了充分训练。因此，作者采用作为CAT的阈值。

通过更少的目标和更简单的模式，可以在的压缩率下准确重建，而具有视觉细节的复杂图像则需要更低的压缩率。因此，基于标题的CAT重建在自然图像上与固定的16x Baseline 质量相当，但在文本密集的图像上则超越了它。这些结果进一步证明了CAT的有效性。作者在附录9.4中包括了更多的可视化和与LDM VAEs的比较。

作者也调整了潜在通道维度，以研究其对分词器性能的影响。如表5所示，更大的导致更好的重建指标。然而，与先前的研究[11, 43]一致，作者观察到重建与生成之间的权衡：虽然增加可以提升分词器的重建质量，但这并不一定意味着第二阶段的生成性能会更好。作者将在下一节中详细阐述这一权衡。

图像生成

在本节中，作者利用CAT（计算机辅助翻译）技术开发了适用于ImageNet数据集的图像生成模型。鉴于CAT的连续性和适应性，作者采用扩散 Transformer （DiT）[15]作为第二阶段模型，它能够处理可变长度的 Token 序列。DiT以噪声化的潜在特征为输入，应用拼接技术进一步下采样输入，并使用 Transformer 架构来预测添加的噪声。

5.1. 设置

根据Peebles和Xie[15]的研究，作者采用了具有431M参数的DiT-XL模型，并设置了2x的块大小。作者处理输入分辨率为512的图像。在分词过程中进行16倍压缩，在块处理过程中额外进行2倍压缩，因此每个图像所代表的块数（在此称为“ Token ”）为。

由于ImageNet数据集本身并不包含文本标题，作者在训练过程中使用InstructBlip为每张图像单独生成标题。在推理阶段，作者使用标题“这是一张[标签j'的图像”。作者遵循作者的评分系统来确定生成目标 Token 的数量——具体来说，对于32x解码器为64个 Token ，对于16x解码器为256个 Token ，对于8x解码器为1024个 Token 。

关于 Baseline 模型，作者考虑了DiT-XL与开源的16x LDM VAE以及在前一节中训练的固定16x分词器搭配。作者使用相同的全局token批大小262,144进行所有模型的训练，这相当于在16倍压缩比下1,024张图像，并在16个NVIDIA H100 GPU上进行400,000步的训练。遵循原始的DiT工作，作者报告了在50K张图像上的FID[44]、滑动FID[45]、Inception Score[46]、精确率和召回率[47]，这些图像是通过250步DDPM采样和分类器无指导[48]生成的。详细信息请见附录9。

5.2 结果

表4总结了结果，显示与所有使用相同计算资源训练的 Baseline 相比，CAT在FID、sFID、IS和精度方面都取得了最佳表现。作者将这种出色的性能归因于两个因素。首先，自适应分配表示能力能够更有效地建模复杂图像，同时降低简单图像中的噪声。其次，对于简单图像使用更少的 Token 符可以提高处理效率，在相同的计算预算下实现更广泛和多样化的训练。具体来说，由于ImageNet主要由自然图像组成，只有少数包含行人或细粒度文本的类别获得了高复杂性评分。在训练数据集上，DiT-CAT每张图像的平均 Token 符数量为197.44，比使用固定16x Token 符的DiT的256个 Token 符低23%。在推理过程中，这个平均数增加到216，导致推理吞吐量（每秒样本数）增加了18.5%。

picture.image

作者研究了在生成过程中手动增加DiT-CAT中 Token 数的效果。表6显示，在图像生成过程中使用更多 Token 时，FID分数显著提高。作者进一步提供了定性的示例。如图5所示，使用更多 Token 会导致更复杂的图像，例如包含更多物体和更复杂的纹理。这突显了自适应 Token 化的一项附带好处：它能够在不增加额外训练成本的情况下实现复杂度可控的生成。

picture.image