腾讯 & 清华 & 南大提出 Open-MAGVIT2 实现自动登记视觉生成民主化的开放源代码项目 !

图像处理机器学习算法

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

作者提出了 Open-MAGVIT2,这是一个从300M到1.5B的自动回归图像生成模型家族。Open-MAGVIT2 项目产生了一个开源的 Google MAGVIT-v2 分词器的复制,这是一个具有超大规模词汇表(即,2的18次方个代码)的分词器,并在 ImageNet 256x256 上实现了最先进的重建性能(1.17 rFID)。 此外,作者在平面自动回归模型中探索了其应用,并验证了可伸缩性属性。

为了帮助自动回归模型以超大规模词汇进行预测,作者通过非对称分词因子分解将它们分解为两个不同大小的子词汇,并进一步引入了“下一子词语预测”,以增强子词语之间的相互作用,从而提高生成质量。

作者发布了所有模型和代码,以促进自动回归视觉生成领域中的创新和创造力。

1 Introduction

大型语言模型(LLMs)基于自回归 Transformer 在自然语言生成方面具有优势,主要归因于强大的上下文建模和可扩展性。受到这一启发,新兴研究将自回归模型引入视觉生成。这些方法首先使用向量量化器对图像进行标记化和解标记化,然后使用自回归 Transformer 对离散的图像标记序列进行建模。

尽管取得了很大的进展,但视觉生成的质量仍然落后于基于扩散的方法。主要原因是标记器性能的限制。标记器通常被视为视觉生成的上限,而性能较差的第三方标记器会导致生成质量较差。虽然已经进行了一些改进,但目前的标记器受代码表大小和使用的限制,重构性能仍然远远低于在扩散模型中使用的VAE。为了发挥标记器的潜力,MAGVIT-v2(Yu等人,2024a)提出了无需查找的量化器,以实现高度激活的代码表和超大规模的代码表,并实现了比扩散模型更好的生成质量。

然而,这样的视觉标记器是封闭源的,作者现在还无法访问它,这限制了学术社区的发展。

在本工作中,作者在两个方面推进了自动回归视觉生成的发展:

  1. 实现视觉标记器的复制:作者重新实现了MAGVIT-v2提出的先进的无需查找的量化器。据作者所知,作者的开源复制实现了MAGVIT-v2中声明的最接近的重构性能(在ImageNet 128x128上的1.18与1.15 rFID相比)。作者在Imagenet基准测试(Deng等人,2009年)上的性能优于所有其他方法。
  2. 将超大规模代码表与自动回归视觉生成集成:作者不仅仅是利用MAGVIT-v2中依赖视觉设计的标记器(即 Mask 生成方法(Chang等人,2022年)用于视觉合成)。

而是寻求在纯自动回归生成中利用这样的代码表的潜力。为了帮助自动回归模型预测的超大规模词汇,作者将它分解为两个大小不同的子词汇(通过非对称标记因子分解),并进一步引入"子标记预测"以增强子标记之间的交互,从而获得更好的生成质量。

在作者的实验中,使用强大的标记器和标准的视觉生成数据集ImageNet显示,配置强大的标记器的纯自动回归模型在可扩展性和优越性方面具有优势。

2 Method

Overview

Open-MAGVIT2由两个显著阶段组成。一个是强大的视觉标记器,它将输入视觉信号映射为离散标记表示。随后,向量量化的序列将被输入到自回归 Transformer 中,进行内标记关系模型化和标记关系模型化,最终用于视觉合成。

picture.image

初步。 视觉标记是多模式大型语言模型(MLLMs)中的关键组成部分,以理解输入视觉信号。受查找无CNN的量化查看的启发。受编码词表和代码嵌入维数之间关系的影响,MAGVIT-v2(Yu等人,2024年)通过将代码嵌入维度降至零,消除了嵌入查找的需要。具体来说,编码词表被缩小为一个整数集合,其中每个条目的潜在空间分解为单维变量的笛卡尔积(即,,)。如2所示,标记过程可以简化为:

其中,表示特征向量的量化表示。关于的标记索引为:

为鼓励对每个代码表条目进行自信分配并同时利用整个代码表,MAGVIT-v2 进一步引入了熵损失:

在第一阶段(第一阶段):图像首先由编码器编码,然后由无查找自由量化器(LFQ)转换为比特格式。在阶段II:对齐量化特征进一步映射为离散视觉标记并输入到基于Llama的自回归框架中,进行跨字符间关系建模。

在本文中,作者观察到,将传统的代码分配(即,配对距离)替换为无查找的量化和分类分布在作者的实验中使训练具有超大规模的代码库(即2^18个代码)成为可能,其利用率达到100%。关于架构改进的审查。直觉上,由于每个连续特征向量都将被量化为K位,这对编码器和解码器都产生了重大挑战。因此,作者重新实现了Yu等人(2024)中展示的架构改进技术。

1)在编码器中的降采样是带有学习核的步长卷积,而解码器中的上采样器则是深度到空间的操作。

2)遵循(Karras等人,2019;Peebles和Xie,2023;Huang和Belongie,2017),作者重新实现了一种自适应组合归一化层,它将量化的向量与解码器中每个残差块的输出相加。

Auto-Regressive Transformer

初步。给定从视觉分词器得到的一序列离散标记 ,自动回归 Transformer 在考虑前一个标记 的条件下预测下一个标记 。

picture.image

自回归架构。考虑到自动回归 Transformer (即,从约3亿到10亿)的不同尺度,并与有限的学术训练数据,直接优化这样的大型词汇(即,218个代码)是不切实际的。因此,作者提出了一种不对称标记细分技术,以帮助模型在连接的代码书中执行“下一个标记预测”。具体而言,LFQ标记的潜在空间被分为M个子空间 ,, ,其中每个子空间都包含2^{k_{m}}个标记。

如图2所示,每个子空间分别嵌入,并它们的和作为 Transformer 输入。通常,在子空间中执行自回归的直观解决方案是利用M个独立的类别分布模型。然而,由于子标记和父标记都源于相同的潜在空间,这种简单的运算可能忽略它们之间的内部关联。因此,灵感来自于(Lee等人,2022),作者将自动回归范式改革为同时建模内部和标记间的依赖关系,这基本上是“下一个子标记预测”。这样,超大型词汇表的表示能力在自动回归生成中可以展现巨大的潜力

picture.image

  1. Intra-token关系:作者进一步利用具有L个内块的 Transformer ,自回归地预测位置t的每个子标记( , , ..., )。形式上,在t位置,预测每个子标记的条件分布的表达式为:

因此,自动回归似然度可以表示为:

这里指定在位置t处的一组子标记。

3 Experiments

Dataset and Metrics

视觉标记器(Visual Tokenizer)和自回归 Transformer (Auto-regressive Transformer)的训练都在ImageNet上进行(Deng等人,2009)。具体而言,作者在128x128和256x256分辨率上训练标记器。

对于视觉重建,采用重建FID(Heusel等人,2017)来衡量重合图像的质量,使用代码库利用率、代码使用百分比以及ImageNet 50k验证集上的PSNR。同时,作者使用FID、IS(Salimans等人,2016)和精确率/ recall(Kynkaanniemi等人,2019)来衡量图像生成的质量。

Implementations Details

视觉分词器设置。Open-MAGVIT2遵循与Yu等人(2024年)提出的视觉分词器相同的架构。为了提高计算效率,作者删除了梯度惩罚损失,并采用PatchGAN(Isola等人,2017年)作为判别器,而不是StyleGAN(Karras等人,2019年)。所有对应不同分辨率的模型都采用类似的设置:初始学习率为,Adam优化器具有,,总批数为至,从到个周期,包括重建、GAN、感知(Zhang等人,2018年)、熵惩罚(Yu等人,2024年)、承诺损失、LeCAM正则化(Tseng等人,2021年)用于训练稳定性,以及 Nvidia V100 / Ascend 910B。

自回归Transformer设置。如图所示,作者提出不对称词符因子分解,以帮助自回归Transformer模型在具有大型词表中进行精确预测。需要注意的是,作者经验性地设置,,。由于作者的主要关注点是民主化可扩展自回归视觉生成,所以作者使用简单的自回归Transformer,排除了引入归纳偏差的技术,如AdaLn。具体来说,作者采用了Llama基础架构 ,SwiGLU(Shazeer,2020),RMSNorm 技术,这在(Sun等人,2024年)中已被证实有效)。类嵌入表示一组可学习的嵌入,作为开始标记。Open-MAGVIT2遵循了(Sun等人,2024年)提出的简单扩展原理,在表1中。所有模型采用类似的设置:每个256行的大小为的基学习率,AdamW优化器具有,,权重衰减,总行,300至个周期,梯度裁剪,的输入嵌入、FFN模块和条件嵌入,至 Nvidia V100 / Ascend 910B。

Main Results

视觉重建。如图2所示,通过将(余等人,2024年)中的所有有用设计纳入Open-MAGVIT2,只需0.03 FID间隔,Open-MAGVIT2便可以在ImageNet 128x128上与原始MAGVIT-v2的性能相匹配。此外,作者在Tab.3中还将作者的Open-MAGVIT2与在ImageNet 256x256上的 previous视觉分词化模型进行了比较。得益于超大规模的无查找量化的代码表格,Open-MAGVIT2在公平的设置下,超越了所有前后的图像分词化模型。此外,作者在图3中提供了可视化对比。如所述,作者的视觉分词器在细节感知以及精确的面部和中文字符重建上更优越。

视觉生成。MAGVIT-v2使用非自回归框架进行图像合成,并取得了具有竞争力的性能。考虑到自回归模型的可扩展性以及它在MLLM(团队,2024年)中的显著成功,作者选择专注于探索结合超大规模代码表的自动回归视觉生成的潜力。如图4所示,Open-MAGVIT2在利用纯自动回归方法进行图像生成的情况下,超过了所有之前的图像生成模型。这得益于代码表规模的扩展所带来的更高的表示能力。然而,作者认为这种大规模代码表的优势仍然被低估,因为存在数据瓶颈和模型大小问题。作者希望作者在构建如此强大的视觉分词器的努力有助于未来研究对统一的MLLM图像生成的深入探索。

picture.image

Qualitative Results

作者在ImageNet目标上呈现了定性的结果,分别为视觉重建(请参见图4)和视觉生成(请参见图5)。

picture.image

4 Related Works

Visual Tokenizer

表4:在ImageNet上进行类条件生成 。 表示生成的图像为 且被缩放到 256×256 进行评估。评估协议和实现与 ADM 相同。

picture.image

视觉分词器是将图像映射到紧凑离散词,这些词随后被输入生成模型以进行序列建模。早期的先驱 VQVAE(Van Den Oord 等,2018)首先引入了可学习的词表机制用于2D词的生成。然后,通过规范化(Yu 等,2012)和多尺度量化(Yu 等,2022)分别改进了 VQVAE。

最近, LlamaGen (Sun 等,2022) 对 vanilla 分词器(Esser 等,2022)进行了重新检验,发现了合成图像的保真度和词表大小之间的冲突。因此,遵循简单直观的思想(Yu 等,2022)——减少词表维度会限制单个词的表示能力,MAGVIT-2 (Yu 等,2022) 提出了一种高级视觉分词器,通过无查找表量化将词表大小增加到 。

视觉生成

给定一组紧凑离散的图像词,有两种常见的框架用于随后的图像合成,包括非自回归生成和自回归生成。

非自回归框架。MaskGIT (Chen等,2022) 使用了BERT风格的变形器(Devlin等,2018)并通过 masked-prediction 机制并行生成所有视觉词。MAGVIT (Yu等,2022,2024a) 采用相同的架构,但具有额外的嵌入词表以获得更好的生成质量。

自回归框架。自回归基于的多模态大语言模型(Liu等,2022; Li等,2022)在多种视觉理解方面取得了显著的成功。然而,视觉生成的进展仍然不满意。最简单的方法 VQGAN(Esser等,2022) 采用了 tiny GPT2 (Radford等,2019)(约 3 亿参数)进行 next-token 预测。VAR (Tian等,2024) 将图像生成方法改革为 next-scale 预测,并 simultaneously 揭示出扩展性原理。

然后,LlamaGen (Sun等,2022) 扩展了 VQGAN 并引入了 Llama (Touvron等,2023) 架构,明显提高了保真度。然而,现有自回归模型的词表尺寸可能限制了它们的表示能力(例如, )。

因此,考虑到视觉词表大小与视觉合成的质量之间的高度相关性(Yu等,2022a),作者将过大的自动回归方法普及化。

5 Conclusion

在这项工作中,作者重新实现了强大的视觉分词器,与以前的方法相比,其性能处于最先进水平,并使其可供社区使用。作者并没有简单地遵循(如Yu等人,2024a)所利用的 Mask 生成 Transformer 进行视觉生成的方式,而是深入研究了一种更具前景的方法(即自回归视觉合成)。为了挖掘大量词汇的潜力,作者引入了“下一子词语预测”范式以及非对称词项分解技术。

实验表明,在强大的分词器作用下,简单的自回归模型具有优越性和可伸缩性。作者希望在开源社区中作出的贡献有助于加速自回归视觉生成的创新和创造性工作,最终在构建全能多模态框架方面产生影响。

局限性与未来工作。作者预计由于数据规模有限以及词项分解技术的表示能力牺牲,超大规模词表(即2^18代码)的有效性被低估了。作者相信,通过使用更多的训练数据(如文本条件图像生成、视频生成等),并将模型大小扩大到7B甚至更大,超大规模词表的AR生成的潜力可以极大地利用。因此,将Open-MAGVIT2扩展到更广泛的多模态生成应用将是作者在未来探索中的重要优先事项。

参考

[1].Open-MAGVIT2.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论