在非欧几里得空间中进行数据表示已经被证明在实际的数据集上有效,这可以捕捉到数据集中的层次关系和复杂关系。
尤其是双曲空间,提供了对层次结构的高效嵌入。本文介绍了一种名为超曲视觉Transformer(HVT)的新颖视觉Transformer(ViT)的扩展,它将超曲几何集成到ViT中。
与传统的ViTs在欧几里得空间中运行不同,作者的方法通过利用双曲距离和Mobius变换增强了自注意力机制。这使得可以更有效地对图像数据中的层次和关系依赖进行建模。
作者提出了严格的数学公式,说明双曲几何可以被纳入注意力层、前馈网络和优化中。作者对使用ImageNet数据集进行图像分类的性能进行了改进。
1 Introduction
现代机器学习的基础是表示学习,使得模型能够从原始数据中提取有意义特征(Bengio等人,2014年)。尽管传统上欧几里得空间被用来模拟数据关系,但许多实际数据集(包括图像)表现出比欧几里得空间更好的层次结构,这种结构在非欧几里得空间中更易捕捉(Bronstein等人,2017年)。
图像固有地具有层次结构,包括多个不同尺度的结构:从像素到边缘,从形状到物体,最终到整个场景(Biederman,1987);Riesenhuber和Poggio,1999)。这种层次结构可以概念化为:
- 像素 :图像的基本单元。
- 边缘 :由具有显著强度差的像素组成。
- 形状 :由将边缘组合成简单模式形成的。
- 物体 :由形状组成的可识别实体。
- 场景 :其中物体在语境中交互的完整图像。
图像的层次特性意味着高级概念建立在低级特征之上,反映了类似树型结构。视觉 Transformer (ViTs) Dosovitskiy等人(2021年)通过将图像划分为标记,将每个标记视为一个标记来处理图像。这种基于标记的方法引入了层次表示,因为:
- 局部特征 :每个标记捕获局部模式,如纹理或边缘。
- 全局上下文 :通过在标记上进行注意,模型可以聚合局部信息以理解整体结构。
这反映了图像从局部到全局特征的层次构造。
超椭圆空间非常适合建模层次数据,因为它具有在最小畸变下嵌入树形结构的能力(Nickel和Kiela,2017年)。通过利用超椭圆几何和莫比乌斯变换,作者可以有效地捕获视觉数据中固有的多尺度依赖关系(Ganea等人,2018年)。具体来说,莫比乌斯变换在超椭圆空间中允许执行类似于加法和标量乘法运算,同时保留层次数据结构。
在这篇论文中,作者提出了一个将超椭圆几何集成到 Transformer 架构中的超椭圆视觉 Transformer 。作者的贡献包括:
- 超椭圆神经成分 :通过使用超椭圆版本的神经网络组件(如注意机制和线性层)将ViT扩展到工作在超椭圆空间中。
- ViT中的莫比乌斯变换 :演示了莫比乌斯变换如何在超椭圆空间中执行操作,同时保留层次数据结构。
- 理论和实证分析 :提供了一些启示和评估,表明在传统欧几里得方法上改善了层次结构的建模。
2 Related Work
本论文旨在探讨深度学习在自然语言处理领域中的应用,以及其与传统的机器翻译方法相比的优势。深度学习通过构建深度神经网络,能够更好地捕捉语言中的复杂模式,从而提高翻译的准确性和流畅性。本文首先阐述深度学习的基本原理和应用,接着介绍常用的深度学习构建方法,并针对机器翻译的具体问题进行深入探究。
最后,本文提出了一种新的基于深度学习的机器翻译模型,并对其性能进行了评估。本文旨在为深度学习在自然语言处理领域的应用提供一些启示和参考。
Hyperbolic Geometry in Machine Learning
近年来,超曲几何在机器学习领域得到了广泛应用,极大地改变了分层数据的建模方式。Nickel和Kiela(2017)利用Poincaré嵌入成功应用于此类数据,与欧几里得嵌入相比取得了显著提升。这一方法由Ganea等人的进一步改进(2018年),他们引入了语义锥的 hyperbolic 嵌入,有效地捕获了不对称关系。
Khrulkov等人(2020)和刘等人(2020)将这些概念扩展到视觉数据和零样本识别,分别说明了超曲嵌入在处理复杂视觉任务中表现出的一致性。最值得注意的是,Ermolov等人(2022)开发了Hyperbolic Vision Transformers (HVTs),这些嵌入被集成到视觉Transformer架构中,进一步提高了 metric learning。作者的模型通过将超曲几何集成到Transformer操作的整个过程中,从Mobius变换到超曲自注意力进行全面扩展。
Hyperbolic Neural Networks and Attention
Ganea等人(2018年)首次提出了双曲神经网络,其中引入了用于双曲空间的层和激活函数。这一基础由Bachmann等人(2020年)扩展,他们主要关注于优化这些网络的有效性。作者的方法通过将双曲层直接嵌入到transformer架构中,丰富了这一基础,提升了双曲操作的适应性和深度。
在Hyperbolic Attention Networks(Gulcehre等,2018年)中另一种方法与作者 differs primarily in how hyperbolic geometry is applied within the attention mechanism。Gulcehre等人专注于使用双曲球和Klein模型将激活映射到双曲空间,利用双曲匹配和聚合操作。相比之下,作者的方法将可学习的曲率内置于位置嵌入,头特定的缩放注意力,以及双曲层归一化,为捕捉层次数据提供了更多的灵活性和效率。此外,作者使用Poincare球模型是因为其在视觉任务中的计算适用性。
Vision Transformers
最初由Vaswani等人(2017年)为自然语言处理(NLP)设计的视觉 Transformer (ViTs),已经被Dosovitskiy等人(2021年)应用到了视觉任务上。Caron等人(2021年)和El-Nouby等人(2021年)提出的改进措施对ViTs进行了自我监督学习的完善。与这些基于欧几里得几何的模型不同,作者的双曲视觉 Transformer (Hyperbolic Vision Transformer)利用双曲几何有效地模拟了层次化和关系数据结构。
Comparison to Key Hyperbolic Methods
尽管Ermolov等人(2022)引入了关注于度量学习的双曲嵌入的HVTs,但作者的方法却完全将双曲操作集成到了 Transformer 的整个过程中,显著增强了其管理阶跃数据的能力,这在度量学习的目标之外。作者将应用范围扩展到将双曲几何嵌入到视觉 Transformer 的核心组件中,直接实现图像分类。
最近,杨等人(2024)提出了Hypformer,这是一种基于双曲几何Lorentz模型的有效双曲 Transformer 。Hypformer引入了两个基础模块——Hyperbolic Transformation with Curvatures (HTC) 和 Hyperbolic Readjustment and Refinement with Curvatures (HRC)——来定义超曲空间中的基本Transformer模块。他们还在超曲空间中开发了一种线性自注意力机制,以处理大规模图数据和长序列输入。
尽管Hypformer在双曲 Transformer 的开发上作出了重要贡献,特别是在处理大规模图数据方面,但作者的模型在几个关键方面有所不同:
- 模型关注和应用领域 :Hypformer主要设计用于图数据,强调处理大规模图数据和长序列时的可伸缩性和效率。相反,作者的模型专注于视觉任务,特别是图像分类,将双曲几何集成到视觉 Transformer 的整个架构中,以增强视觉数据中固有的层次和关系建模能力。
- 使用的双曲模型 :Hypformer基于双曲几何的Lorentz模型运行,而作者所使用的是Poincaré球模型。Poincaré球模型在视觉任务上有优势,因为它具有 conformal 属性,可以保持角度并更好地表示图像数据的几何结构。
- 创新组件 :作者的模型引入了诸如可学习位移嵌入中的曲率,特定头缩放,超曲率层正则化,梯度裁剪,乔治定理正则化和层缩放等独特组件,这些创新是为了增强超曲空间中视觉 Transformer 的性能。
- 注意力机制 :尽管Hypformer开发了处理大规模数据的线性自注意力机制,但作者的模型使用Mobic操作和超曲距离计算将标准自注意力机制扩展到双曲空间。这种方法使作者能够更有效地捕获视觉数据中的复杂关系。
通过在视觉 Transformer 框架中全面集成双曲操作,并专注于视觉任务的独特挑战,作者的模型提供了一种综合解决方案,性能优于包括Hypformer在内的以前双曲 Transformer ,并在图像分类领域取得了优越的效果。
3 Proposed Method
本文节介绍了超双曲视觉 Transformer 网络(HVT)的数学基础。作者涵盖了双曲几何学的关键概念,并描述了如何将视觉 Transformer 组件适配到操作在双曲空间中。作者的主要贡献包括引入可学习的曲率位置嵌入,注意机制中特定的缩放,双曲层归一化,梯度修剪,测地线正则化,以及用于训练稳定性的层缩放。
Hyperbolic Geometry Preliminaries
双曲空间,其特征为常负的曲率,嵌入了视觉数据中常见的一层分化和复杂结构。作者采用Poincare球模型,因为它具有计算上的便利性和适合表示图像数据结构的特点。
3.1.1 Poincare Ball Model
n维爱因斯坦-庞加莱球模型定义为:
其中 表示欧几里得范数。该流形的黎曼度量张量为:
其中 是欧几里得度量张量, 是形变因子,用于将欧几里得度量尺度缩放,以考虑超曲面空间的曲率。
3.1.2 Mobius Operations
为了将视觉Transformer组件适应到双曲空间,作者利用Mobius变换,这对于在Poincaré球模型中处理向量至关重要。
Mobius加法对于在实数域D^n的向量,Mobius加法的定义为:
其中表示欧几里得内积。Mobius加法将向量加法扩展到双曲空间,并确保结果仍在流形内。
Mobius标量乘法对于实数和向量,Mobius标量乘法定义为:
这种操作同时缩放向量并保持其方向,并确保缩放后的向量仍在Poincaré球内。
Mobius矩阵-向量乘法对于一个矩阵和一个向量,Mobius矩阵-向量乘法定义为:
这种操作将标量乘法扩展到线性变换,使作者能够在双曲空间中应用线性层。
Mobius ConCat 对于将多个向量结合在一起,作者使用Mobius ConCat :
Hyperbolic Neural Network Components
作者将双曲运算集成到作者的神经网络组件中,使视觉 Transformer 架构可以在双曲空间内运作。
3.2.1 Hyperbolic Linear Layer
传统线性层被调整为双曲空间,通过使用莫比乌斯矩阵-向量乘法 followed by 莫比乌斯加法与偏置:
其中 , , 和 . 这层允许作者在尊重双曲空间几何的同时进行线性变换。
3.2.2 Hyperbolic Activation and Normalization
在原切空间中应用激活函数和归一化,以利用熟悉的欧几里得运算。对映射定义如下:
对映射定义如下:
利用这些映射,作者定义了超平面版本的ReLU激活和Layer Normalization:
这种方法使作者能够在双曲空间内应用标准的激活和归一化技术。
3.2.3 Hyperbolic Layer Scaling
为在双曲空间中稳定残差连接,作者引入了一个可学习的缩放参数 :
其中 是输入, 是来自一层的输出, 缩放残差贡献。
Hyperbolic Vision Transformer Architecture
作者将双曲几何引入到视觉 Transformer 架构中,通过修改关键组件使其在双曲空间中运作。
3.3.1 Learnable Hyperbolic Positional Embeddings
位置嵌入是通过一个可学习的曲率参数 来更好地表示超复空间中的位置信息:
其中 是初始的位置嵌入。
3.3.2 Hyperbolic Self-Attention Mechanism
作者将自注意力机制扩展到双曲空间,使用Mobius操作和双曲距离计算。
(16)
作者将这些张量 Reshape 以适应多个注意力头:
双曲距离计算 双曲距离在Poincaré球模型中由距离函数计算:
为了保证数值稳定性,作者限制的参数:
然后,作者计算距离:
使用计算得到的距离,作者计算具有头特定缩放因子的注意力分数:
通过softmax函数对分数进行归一化,得到注意力权重:
每个头产生一个输出,通过将价值向量与注意力权重求和:
所有头的输出通过Mobius连接组合,并通过一个最终的线性层变形:
在训练过程中,使用概率p将attention权重进行DropConnect正则化。
带可学习缩放参数的残差连接与层缩放同上,作者使用一个可学习的缩放参数:
3.3.3 Hyperbolic Feed-Forward Network
在双曲空间中的前馈网络由两个双曲线性层组成,中间有一个双曲ReLU激活函数:
(28)
接着是一个残差连接和双曲层规范化:
Optimization in Hyperbolic Space
在双曲空间中优化神经网络存在独特的挑战,这是因为其非欧几里得性质。为了确保稳定和有效的训练,作者采用了几种技术。
梯度裁剪为了防止大的梯度破坏训练的稳定性,作者在切向空间中对梯度进行裁剪:
其中 是切向空间中的欧几里得范数, 是裁剪阈值。
黎曼阿达莫特优化器作者利用黎曼阿达莫特优化器,将阿达莫特优化算法应用于黎曼流形。更新规则如下:
其中 是学习率, 和 是裁剪的一阶和二阶矩估计, 是切在 。
欧几里得距离正则化为了增强类别分离并鼓励有意义的表现,作者引入了一个基于欧几里得距离的正则化项:
其中 是克罗内克德尔塔函数,指示样本 和 是否属于同一类别。总损失目标为 交叉熵。
层缩放和注意力缩放在剩余连接中引入可学习的缩放因子 ,在注意力机制中引入特定于头的缩放因子 有助于控制更新的幅度。这使得每个注意力头可以根据欧几里得距离自适应敏感性。
参数初始化使用Xavier均匀初始化,并针对双曲空间的空间进行调整。所有流形参数都初始化在Poincare球内,以确保有效表现和稳定训练。
Limitations
尽管超几何视觉Transformer改善了层次数据处理,但由于超几何运算的复杂性,它引发了更高的计算需求。增强的表达能力和可扩展性足以证明这种权衡。预计未来的硬件和优化算法方面的进步将减轻这些计算挑战。此外,Mobius操作可以近似以降低复杂性。
4 Experiments
在本节中,作者评估了所提出的超数维视觉Transformer(HVT)在ImageNet-1k数据集上的性能。作者将模型与标准视觉Transformer、其他最先进的卷积神经网络以及引入超数几何的模型进行比较,以证明将超数几何融合到视觉架构的有效性。
Experimental Setup
数据集 ImageNet 数据集 Deng 等 (2009) 是一个广泛用于计算机视觉领域的大型分级的图像数据库。它包含超过120万个训练图像和5万个验证图像,这些图像被归类到1000个不同的目标类别中。每个图像都与其中一个1000个目标类别相关联,为图像分类模型提供了具有挑战性的基准测试。
实现详情 作者使用PyTorch和Kochurov等人的geoopt库在双曲空间中的操作实现作者的HVT模型。HVT模型的结构基于Dosovitskiy等人(2021年)的标准ViT-Base模型,并对其进行了修改,以包含超曲几何在注意力机制和位置编码中。
所有模型都使用8个NVIDIA A100 GPU进行分布式数据并行(DDP)训练。训练超参数如下:
在训练期间,如随机裁剪、水平翻转和颜色抖动等技术应用数据增强技术。所有图像都被重新缩放到(224×224)像素大小。
Results and Discussion
作者比较了Base、Large和Huge架构,以评估标准视觉 Transformer (ViT)模型与作者提出的超bolic视觉 Transformer (HVT)变体的可扩展性和架构差异。表3总结了每个模型的重要架构参数和总参数数量。
如表3所示,HVT变体在层数、注意头、隐藏维度和MLP维度与相应ViT变体的配置相同。作者发现,超bolic版本的参数数量与各自对应的ViT版本相同。
图1:整体模型流程
关于架构对比的结论
架构比较和性能评估表明,HVT变体利用超bolic几何显著提升了标准ViT模型在所有规模上的性能。这种提升通过保持相同参数大小实现,证实了HVT架构在图像分类任务上的可扩展性和效率。
Ablation Study为了探究HVT中不同组件的贡献,作者进行了如表5所示的消融研究。作者评估了双曲位置编码对模型性能的影响。
结论作者的实验表明,将双曲几何集成到 Transformer 架构中,在ImageNet数据集上可以显著提高性能。
5 Conclusion and Future Work
在这项工作中,作者引入了超bolic视觉 Transformer (HVT),这是一种将超bolic几何集成到视觉 Transformer (ViT)框架中的新颖架构。通过利用超bolic空间的属性,HVT有效地模拟了视觉数据中的复杂、分层次关系,这对于像ImageNet这样的大规模图像分类任务尤其有益,这些任务具有这样的结构。
作者对ImageNet数据集进行了大量的实验,结果表明,将超bolic组件引入ViT框架可以显著提高性能。HVT始终优于标准的视觉 Transformer 和最先进的卷积神经网络,展示了超bolic几何在改进视觉任务深度学习模型方面的优势。
这项工作是探索超bolic图像分类机制的基础步骤。作者的初始实验的成功表明,超bolic几何对于改进视觉架构具有巨大的潜力,为这个领域的新研究和创新开启了大门。
参考
[1].HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space.