备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
本研究旨在探讨人工智能在医疗诊断领域的应用现状与发展趋势。通过对大量临床数据和现有算法的研究,本文分析了人工智能在疾病预测、辅助诊断和治疗方案优化等方面的优势与挑战。
此外,本文还探讨了人工智能在医疗伦理、数据安全和隐私保护等方面的问题,以及未来发展趋势。
有效的图像分词对于多模态理解和生成任务至关重要,因为其需要与离散文本数据进行对齐。
为此,现有方法利用向量量化(VQ)将像素投影到离散码本中,并从离散表示中重建图像。
然而,与连续的潜在空间相比,有限的离散码本空间显著限制了这些图像分词器的表达能力。
在本文中,作者提出了高斯分词器:一种以二维高斯扩散作为解决方案的有效图像分词器。作者首先将编码样本表示为多个具有位置、旋转角度、缩放因子和特征系数的灵活特征二维高斯分布。
作者对高斯特征采用标准量化,然后将量化结果与其他内在高斯参数在相应的扩散操作和后续解码模块之前进行拼接。
一般来说,高斯分词器将二维高斯分布的局部影响集成到离散空间中,从而增强了图像分词器的表达能力。
在CIFAR、Mini-ImageNet和ImageNet-1K上的有竞争力的重建性能证明了作者框架的有效性。
作者的代码可在以下网址获得:https://github.com/ChrisDongTHU/GaussianToken。
- 引言
本研究旨在探讨人工智能在现代社会中的应用与发展,分析其带来的机遇与挑战,并对未来发展趋势进行预测。随着信息技术的飞速发展,人工智能逐渐成为推动社会进步的重要力量,对各个领域产生了深远的影响。本论文将围绕人工智能的定义、发展历程、关键技术、应用领域等方面展开论述,以期为我国人工智能产业的发展提供理论支持和参考。
大语言模型(LLMs)最近在自然语言任务中展现出强大的统治力,这得益于其卓越的模型容量和可扩展性。此外,一系列视觉和多模态研究尝试利用LLMs的自动回归架构和预训练知识来解决视觉相关任务。为了适应LLMs的离散输入格式,它们首先将图像进行分词以获取离散视觉 Token ,然后根据任务格式进行文本对齐和随后的自回归预测。因此,图像分词器的有效性直接决定了模型的最高能力上限。
向量量化(VQ)是图像 Token 的主流技术,它平衡了图像感知[2]、条件图像生成[23, 30]和多模态图像理解任务[16, 28, 35]的要求。具体而言,基于VQ的策略[9, 24, 32]包含一个包含预定义数量的可学习向量的离散码本。通过相似度计算将编码的图像特征与码本向量对齐,以执行最近邻匹配,从而使图像可以通过来自码本向量的离散 Token 来表示。然后,解码模块处理这些离散 Token ,在RGB域中产生重构结果。此外,研究行人引入了一个判别器模块,对重构图像施加与GAN相关的约束,以增强图像的真实性和视觉感知[9]。然而,与朴素VAE[14]的连续潜在空间相比,码本空间的大小显著限制了在离散空间中建模分布的能力。因此,这种约束导致图像重构指标下降,训练过程中存在冗余。某些方法可能通过增加码本数量或构建无查找映射[20, 42]来扩展离散空间,但它们本质上仍然局限于有限的离散空间,并需要更渐进的训练过程以实现收敛。
为了解决这个问题,作者提出了一种有效的图像分词器,名为高斯分词器(GaussianToken),通过2D高斯喷溅技术来丰富代码簿空间,从而提高建模能力,如图1所示。作者提出一个二维高斯嵌入模块,将编码后的图像特征参数化为多个高斯分布。每个高斯分布由其位置、旋转角度、缩放因子和特征系数所表征,能够学习自适应独立参数。随后,作者提出使用标准离散代码簿通过最近邻匹配来量化特征系数,并将高斯分布的其他参数(位置、旋转角度和缩放因子)与量化结果拼接。然后,作者采用二维喷溅模块将这些组合的高斯参数投影回图像特征空间。
最终步骤包括一个特征解码器,用于重建原始图像,以及一个判别器以进行进一步优化。与传统的基于VQ(矢量量化)的方法相比,GaussianToken呈现了一种更灵活的潜在建模策略。特征表示由原始离散代码簿确定,而局部特征属性(如位置)则通过二维高斯分布进行自适应学习。
因此,GaussianToken通过连续的高斯分布构成了离散空间中的多样化组合,从而扩展了原始离散空间的表征能力。作者在各种数据集上进行了广泛实验,以评估所提出的GaussianToken的有效性,包括CIFAR [15]、MiniImageNet [34]和ImageNet-1K [26]。在类似设置下的竞争性重建性能证明了作者框架的优越性。
- 相关研究工作
图像分词器。两种典型的图像分词器包括直接的 Patch 嵌入和编码器-解码器架构。其中,视觉Transformer(ViTs)[5, 7, 31]中的 Patch 嵌入操作旨在将原始图像转换为可以被Transformer结构处理的 Token 。这种方法在图像分类等仅需要全局感知图像的视觉任务中更为常见。
相反,具有编码器-解码器结构的图像分词器适用于密集感知和生成任务,这一概念最早在VQ-VAE[32]中被提出。它们通常使用一个离散的代码簿,通过图像特征的最近邻匹配来提升重建图像的质量,并利用轻量级的判别器[9]。为了进一步提升模型性能,各种方法用视觉Transformer(ViT)或混合结构替换原始的CNN Backbone 网络,以加强特征提取能力[9, 33, 41]。其他策略则侧重于在代码簿匹配过程中的迭代和精细改进[16, 27]。此外,MAGVIT-v2[20, 42]将可学习的代码簿替换为无查找格式的格式,通过数值比较直接映射,从而扩大等效代码簿的数量,以最大化潜在空间。
然而,这些方法仍然将图像的潜在表示压缩到一个与代码本大小相关的离散空间中,根据单个代码本在空间维度上匹配特征,这直接限制了表示能力和重建质量。为了克服这一弱点,GaussianToken通过使用二维高斯喷射引入了一个更适应的量化过程,它可以自适应地学习空间局部信息,例如量化特征的定位和缩放因子,从而扩展离散空间以实现更优越的性能。
高斯分层渲染。高斯分层渲染[12]首次应用于3D场景重建,能够解决神经网络辐射场(NeRFs)[21, 22, 40]中模型训练和渲染的实时性问题。3D高斯分层渲染研究行人采用显式的高斯椭球体和可微的光栅化操作,实现了高质量且高效的渲染过程,这有助于3D真实场景重建和3D场景编辑[10, 11, 37]任务的完成。此外,一些研究也探讨了高斯分层渲染在2D图像数据[43, 44]中的应用。例如,GaussianImage 在RGB域引入了2D高斯分层渲染,以实现高效的图像表示。Image-GS[44]进一步利用2D高斯分层渲染对单个图像进行高效压缩,同时实现高质量的重建结果。
尽管如此,这些方法仅仅在单个图像上执行高斯学习,无法推广到其他样本进行压缩和重建。此外,高斯建模表示一个连续的潜在空间,这无法整合或与诸如文本等离散数据模式对齐。在本文中,作者提出的GaussianToken在VQ-VAEs中引入了2D高斯喷射的局部建模过程。GaussianToken通过自适应学习高斯特征分布,丰富了离散空间的图像建模能力,同时确保了模型的一般化能力和潜在空间的离散性质。
- 提出方法
在本节中,作者详细阐述了基于二维高斯喷溅的GaussianToken方法。首先,作者简要介绍了VQ-VAE,其离散码本空间本质上限制了其表达能力。为了弥合这一差距,作者提出了一种新颖的量化方法,采用特征二维高斯(即GaussianToken)作为基本量化单元,为原本的离散空间赋予一定的连续性,同时每个单元的特征系数仍保持离散。
接着,作者详细阐述了关键的Gaussian Embedding框架,该框架能够从原始图像数据中高效地学习作者提出的 Token 表示。最后,作者提供了GaussianToken的整体框架及其有效性的分析。
3.1. 前言:变分量子自编码器(VQ-VAE)
VQ-VAE[32]是一种独特的变分自动编码器,它采用矢量量化技术来获得离散的潜在表示。其关键实现在于其潜在嵌入空间
,其中
表示离散潜在空间(也称为代码簿大小),
是每个潜在嵌入向量
的维度。形式上,给定一个高维图像
,编码器
首先用于生成低维潜在表示
。请注意,
是一个特征图,在此阶段,它由许多连续的潜在变量组成。与典型的自动编码器不同,VQ-VAE随后将
通过量化模块,并将其等价地转换为一系列索引表示,形成量化后的
。索引值对应于原始特征
的嵌入
,对于
,通过使用共享代码簿进行最近邻查找来确定,如下所示:
在量化操作
中,最终解码器
将
反映射回图像域。
可训练组件(
,
和
)通过最小化以下目标函数进行优化:
表示停止梯度算子,
是损失平衡的超参数。VQ-VAE 将连续的潜在空间离散化为代码簿,其中训练的嵌入向量可以被视为构成图像的基础视觉元素或内在特征。然而,这一特性意味着代码簿的表征能力高度敏感于代码簿的大小及其利用率,这仍然是基于VQ的生成模型研究者们努力解决的核心挑战。
3.2.2 二维高斯量化
考虑到上述弱点,作者提出了一种新的特征量化范式,引入了二维高斯分布的概念。作者将原始的量化向量
,它仅包含单个特征,扩展为一个描述特定区域内局部特征的二维高斯量化单元
,而不是固定的网格。作者不是直接用相应的量化向量
替换特征向量
的量化,而是在位置
处,聚合所有量化单元
(其中
)的贡献
。
K代表高斯单元的数量。具体来说,每个特征2D高斯单元由其位置
、协方差矩阵
以及额外的特征系数
来表征。因此,
的贡献可以用2D高斯分布的概率
来表示,具体如下:
由于高斯分布的协方差矩阵
必须是正半定的,因此在数值优化过程中确保有效的矩阵值是必要的。因此,作者选择通过一个旋转矩阵
和缩放矩阵
的乘积来细化协方差矩阵的分解表示。
和
是根据旋转角度
和缩放因子
求得的,具体如下:
作者采用了第3.3节中详细阐述的框架,将RGB域的图像数据转换为一组上述提到的二维高斯特征单元。
在本文中,
表示一个单元的本质,其中
代表其总参数维度。作者首先采用与常规VQ-VAE相同的方法对特征系数
进行量化,同时保持它们的位置和协方差矩阵的连续性。在这种情况下,模型能够优化单元在特征图上的任何位置和尺度,这使得二维高斯能够根据区域复杂性自适应地分配计算和存储资源。随后,通过使用CUDA高效实现的二维高斯Splatting函数,将这些量化单元聚合到量化特征图中,实现超快速渲染。
3.3 高斯嵌入
基于上述讨论的二维高斯量化,作者进一步提出一个高斯嵌入模块,用于通过图像特征学习有意义的的高斯表示。如图2所示,作者的流程从两个主要信息载体开始:原始图像特征和二维高斯目标。本质上,作者将高斯嵌入模块作为信息交换的渠道,通过一系列操作不断优化所学的属性。下面,作者将深入探讨相关操作的复杂性和原理。
提升模块。作为后续模块的准备工作,提升模块将两个主要的信息载体分别转化为统一的向量。为了适应注意力架构,特征提升器将编码器
输出的特征图
展平成一个特征序列
。注意,
的维度显著大于期望量化特征图
的通道维度
,以便为高斯表示学习保留更多的图像信息。此外,作者还将与余弦位置嵌入连接到该序列,从而使模型具备辨别顺序的能力。另一方面,高斯提升器启动了特征 2D 高斯 Anchor 点
及其相关的高维 Query
的属性。由于每个 Anchor 点
以目标高斯参数的形式进行细化,作者维持一个多层线性感知器(MLP)以获取嵌入特征
,以确保与 Query 的无缝交互。最终,作者在潜在空间中获得了两个实体统一表示,其嵌入维度为
,并采用自注意力机制。
作者在视觉特征序列
上采用自注意力层以进一步压缩图像信息,并在 Query
上采用自注意力层以引入 2D 高斯 Anchor 点之间的交互。请注意,当处理视觉特征序列时,作者用可变形注意力(DA)[46]替代了 Transformer 注意力[13],以降低
的高计算复杂度以及处理高分辨率特征所带来的挑战,这些内容将在下一模块中详细阐述。
交叉注意力。随机初始化的二维高斯目标在基于DA的交叉注意力(CA)模块中提取视觉信息。具体来说,对于二维高斯 Anchor 点
,作者生成一系列偏移量
。然后,作者将这些偏移量与 Anchor 点位置
结合,进一步推导出一系列参考点
。接着,作者计算相应的注意力权重
,这些权重随后用于加权求和值。
表示自编码的图像特征,而
则代表将它们投影到数值上的线性变换矩阵。标量注意力权重
处于
范围内,通过
进行归一化。
和
都是通过对应 Anchor 点
的 Query 特征
进行线性投影获得的。在实现过程中,作者在模块输入之前将 Anchor 点
的嵌入特征
与 Query 特征
合并,这增强了它们之间的联系。
细化。作者利用细化模块,在先前交叉注意力模块的 Query 结果
的指导下,对 Anchor 点
的属性进行修正。具体来说,作者首先通过一个多层感知机(MLP)从
中解码出 Anchor 点
的属性调整量
。
在具体的调整策略中,作者采取了一种更为理性的方法,即直接将需要快速调整的变量
中的
替换,包括旋转角度
、尺度因子 s 和特征系数
,但位置
除外。考虑到
决定了受 Anchor 影响的特征图区域,频繁替换
可能会破坏所有其他属性的优化,导致训练过程中的不稳定。相反,作者通过向 Anchor 的
添加一个残差调整量
来细化
:
3.4 高斯 Token
作者展示了GaussianToken的整体框架,如图3所示。随后,作者从基本结构设计角度阐述了GaussianToken相较于先前方法的优点。
分析。首先,二维高斯分布的稀疏性促进了高效的表征能力。利用二维高斯分布的局部影响,每个GaussianToken可以影响周围区域内的所有特征
。因此,与等量的token相比,GaussianToken构建的离散表征空间比VQ-VAE[32]更具灵活性。实际上,作者可能通过较小的嵌入维度实现更优的重建性能。
此外,GaussianToken在训练过程中展现出有效的加速收敛速率。作者定义了单位
的二维高斯分布的有效覆盖区域(
)为
。在反向传播优化过程中传播到
的错误可以计算如下:
在CIFAR、Mini-ImageNet和ImageNet-1K上的构建结果中,f表示作者复制的结果。这里的求和是通过分布概率π_{k+i}进行数值缩放的。这表明作者的方法可以有效地利用区域误差和来优化每个单元g_{k},从而实现更平滑、更快的模型收敛。作者的实验结果充分证实了这一观点。
最后,作者针对特征2D高斯码本所构建的半离散表示空间,在潜在下游生成任务方面优于VQVAE[32]。具体来说,假设两种方法在图像分词阶段都学习到了固定数量的N个嵌入向量码本,VQ-VAE通常以自回归方式对编码索引矩阵
的先验分布进行建模,以实现逼真的图像合成。不同之处在于,GaussianToken对无序编码索引集
的先验分布进行建模,然后从索引特征向量中推理出GaussianTokens的剩余内在参数。理想情况下,VQ-VAE的自回归模型生成一个索引矩阵
,其最大可能组合数为
,这等同于生成图像的多样性。
然而,考虑到码本中分词表示的特定含义,这个数字显著降低。相比之下,如(4)所示,作者生成的特征图中的每个特征
都随着所有周围相关GaussianTokens的贡献而变化,从而产生了远超
的特征图多样性。请注意,本文重点在于图像分词器的设计,不包括生成任务的具体实验,作者将此视为未来的工作。
训练。高斯Token可以轻松地集成到现有的视觉Tokenizers中,只需对量化过程进行简单的修改。为了与最先进的VQ-VAE方法进行基准测试,作者将作者的方法通过简单地插入高斯嵌入模块到VQGAN [9]中来实现。整体损失由重建损失
、承诺损失
以及额外的GAN损失
组成,其公式如下:
和
平衡了这三个项。
- 实验
在本节中,作者进行了广泛的实验来验证所提出的高斯Token的有效性。作者分别在CIFAR、MiniImageNet和ImageNet-1K数据集上进行了图像重建任务。此外,作者还提供了深入的消融研究,以供分析和重建的可视化结果,以便进行更直观的比较。所有实验均在8块RTX 3090 GPU上完成。
4.1 数据集
CIFAR [15]数据集可以根据类别分为CIFAR-10和CIFAR-100,而在图像重建中作者忽略了类别因素。整个数据集包含60,000个样本,分辨率为
,其中训练集包含50,000张图像,测试集包含10,000张图像。Mini-ImageNet [34]是一个精心制作的少量样本学习数据集,来源于ImageNet-1K [26],其空间分辨率高于CIFAR。Mini-ImageNet包含100个不同的类别,每个类别有600张图像。作者使用了48,000张图像进行训练,剩余的12,000张图像用于测试。此外,ImageNet-1K包含1,000个类别,训练集包含超过1,280,000个样本,而测试集由5,000张图像组成。
4.2. 实施细节
作者方便地实现了高斯Token,通过在原始VQGAN[9] Baseline 编码器之后添加高斯嵌入模块,同时保持其他结构和超参数。作者将输入图像的分辨率设置为CIFAR的
,Mini-ImageNet和ImageNet-1K的
。三个数据集的下采样比分别为4、16和16。作者将嵌入维度固定为CIFAR的4,Mini-ImageNet和ImageNet-1K的8。对于CIFAR和Mini-ImageNet,作者使用1024大小的代码簿,而对于ImageNet-1K,作者将其设置为2048。在高斯嵌入模块中,作者采用默认设置
个transformer块来细化二维高斯属性。对于判别器和另一个高斯Token模型结构,作者分别使用了具有相同设置的Adam[6]优化器。作者将基础学习率设置为
,
,
,权重衰减为0。作者采用余弦调度,预热周期为1。考虑到训练时间,作者分别为三个数据集训练了30、30和20个epoch。
4.3 主要结果
作者将在类似设置下,将作者的高斯Token框架与现有方法在三个数据集上进行比较。作者确保了一致的空间分辨率(token数量)和下采样率。比较结果如表1所示。作者发现,与 Baseline 相比,高斯Token在效率方面表现出显著优势。例如,在CIFAR数据集上,具有4个嵌入维度和30个训练周期的GaussianToken在rFID上比VQGAN高14.01。
此外,与比较方法相比,GaussianToken还可以在Mini-ImageNet和ImageNet-1K数据集上实现更优的结果,且训练时间更短,嵌入维度更小。特别是,与LlamaGen [27]相比,GaussianToken在具有较小的嵌入维度(8 vs. 256)、较小的码本大小(1024 vs. 16384)和较少的训练周期(20 vs. 40)的情况下,在ImageNet-1K数据集上实现了更好的重建性能,FID值为1.67 vs. 2.19。这是因为GaussianToken利用高斯参数进行局部特征的自适应优化,在相似条件下,结果是一个具有更强表征能力的离散空间。
4.4 消融研究
为了更深入地理解作者的GaussianToken,作者进行了包括嵌入维度、码本使用、码本大小以及高斯数在内的各种消融研究,以验证其在CIFAR数据集上的有效性。
高斯Token的一个重要优势是它能够以相对较小的嵌入维度实现高效的重建。因此,作者分别使用了2、3、4和8作为嵌入维度,如表2所示。作者发现,随着嵌入维度的增加,模型的重建性能先升高后降低。此外,当维度等于3时,GaussianToken达到最佳性能。作者还在图4中提供了对应不同嵌入维度的代码本使用情况。作者观察到,较小的嵌入维度对应着更高的代码本利用率。因此,当嵌入维度为3时,GaussianToken在保持高代码本利用率的同时,没有完全压缩离散空间,从而实现了最佳性能。
代码本大小。作者验证了GaussianToken在代码本大小分别为512、1024、2048和16384时的重建性能。比较结果如表3所示。作者观察到,GaussianToken对代码本大小的变化不敏感,这是因为作者对有限的代码本空间进行自适应局部优化,从而固有地增强了离散代码本的表现能力。当代码本大小为2048时,GaussianToken在两个主要指标上达到最佳性能。随着代码本大小的增加,代码本的使用率逐渐降低,当大小达到16384时,使用率最终下降至50%以下。尽管代码本崩溃是传统向量量化方法在VQGAN中的一个主要缺点,但这不是本文的重点,因此不会进一步讨论。为了严格验证作者的方法,作者将代码本大小设置为1024作为主要实验设置。
高斯数量。高斯数量直接影响建模能力,作者将它从16调整到128,以比较表4中的重建性能。作者观察到,随着高斯成分数量的增加,性能逐渐提升,尽管提升的速度逐渐减慢。特别是,当高斯数量为64时,模型无需过高的计算成本就表现出相对优越的结果。
4.5 视觉化
作者在图5中展示了GaussianToken在ImageNet-1K上的图像重建结果。观察发现,GaussianToken能够重建出高质量的图像,与原始样本相比,其展现出更加真实细致的细节和纹理。
- 结论
在这篇论文中,作者提出了GaussianToken作为一款有效的图像分词器,采用了二维高斯喷溅技术。作者通过高斯位置、旋转角度和缩放因子自适应地学习局部量化特征范围,这增强了潜在离散空间的表征能力。
作者进一步通过图像解码器渲染所有高斯参数,并获得了最终的重建结果。作者验证了GaussianToken在图像重建任务中的有效性,并提供了相应的消融分析以进行比较性能。
参考
[1]. GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting .