ViT 高阶关系破壁者 | Hypergraph Vision Transformer以动态超边实现1.9%分类跃迁 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

计算效率与语义建模的平衡 ：现有视觉Transformer（ViT）和视觉图神经网络（ViG/ViHGNN）在高阶关系建模中面临计算瓶颈或适应性不足的问题，本文提出了一种新的模型以解决这一矛盾。

动态超图构建 ：传统基于聚类算法生成边的方法存在显著计算开销，本文提出了一种无需聚类的动态超图构建方法。

高效语义提取 ：通过引入专家边池化机制，提升语义特征提取能力，同时保持模型紧凑性。

本文的核心创新是什么

超图视觉Transformer（HgVT）框架 ：将分层二部超图结构融入视觉Transformer，通过顶点-超边消息传递增强高阶语义关系建模能力。

动态超图构建 ：利用种群和多样性正则化策略，在不依赖传统聚类技术的情况下实现稀疏化连接，降低计算复杂度。

专家边池化 ：通过学习置信度分数选择性整合边缘特征，提升语义表征能力，同时避免特征拥挤问题。

层次化语义结构 ：引入虚拟顶点和超边，分离视觉信息与抽象信息，促进分层语义建模。

结果相较于以前的方法有哪些提升

图像分类任务性能 ：在ImageNet-1k数据集上，HgVT-Ti模型达到76.2%的Top-1准确率，比现有最先进技术高出1.9%，同时参数量减少6%，FLOPs相当。

图像检索性能 ：在ImageNet-1K检索任务中，HgVT-Ti模型的mAP@10指标超过基线方法MRL（ResNet-50）8%，且使用更紧凑的嵌入尺寸（d=2×128）。

消融实验验证 ：通过正则化、架构设计和池化方法的消融实验，证明了HgVT各模块的有效性和必要性。

局限性总结

复杂性增加 ：尽管HgVT在计算效率上有一定改进，但其动态超图构建和正则化机制增加了模型复杂性，可能对资源受限场景构成挑战。

特定任务适用性 ：HgVT在牛津与巴黎重访数据集上的表现略逊于多尺度卷积网络，表明其在细微地标差异捕捉方面仍有改进空间。

依赖训练技巧 ：实验中采用了一系列增强技术（如RandAugment、Mixup等），这些技巧对最终性能有较大贡献，可能掩盖了模型本身的局限性。

深入阅读版本

导读

近年来，计算机视觉领域的最新进展凸显了视觉Transformer（ViT）在各种任务中的可扩展性，然而在平衡适应性、计算效率和建模高阶关系的能力方面仍存在挑战。视觉图神经网络（ViG）通过利用基于图的方法提供了另一种选择，但其受到用于边生成的聚类算法计算 Bottleneck 的阻碍。为解决这些问题，作者提出了超图视觉Transformer（HgVT），该模型将分层二部超图结构融入视觉Transformer框架，以捕获高阶语义关系，同时保持计算效率。HgVT利用种群和多样性正则化进行动态超图构建，无需聚类，并通过专家边池化增强语义提取，促进基于图的图像检索。实证结果表明，HgVT在图像分类和检索方面取得了优异性能，将其定位为一个高效的基于语义的视觉任务框架。

引言

计算机视觉领域最近从历史上占主导地位的卷积神经网络（CNNs）[20, 28, 30] 转向日益突出的视觉Transformer（ViTs），后者迅速成为新的事实标准 [12, 38]。这一转变反映了Transformer在自然语言处理领域的广泛成功 [11, 54, 56]，并得益于ViT在各种任务（如图像分类 [53, 61]、语义分割 [26, 63] 和图像检索 [2, 29]）中的显著可扩展性。尽管出现了如分层注意力机制和CNN-ViT混合模型 [18, 19, 33] 等方法以平衡计算负载和灵活性，但挑战依然存在，特别是ViT更关注显著特征而非全面图像理解 [2, 9, 12, 40]。这凸显了持续需要提升计算效率与语义准确性的方法。

在新型架构的范畴内，视觉图神经网络（ViGs）[16]和视觉超图神经网络（ViHGNNs）[17]利用基于图的结构拓扑来推进图像处理。与通过密集连接的像素网格和重复卷积实现局部性和平移不变性的卷积神经网络（CNNs）不同，ViTs和ViGs将图像表示为一系列图像块。在ViTs中，每个图像块在最大连接的图中充当一个顶点，通过自注意力机制创建语义上较弱的连接。ViGs通过使用聚类算法检测边缘分组，并将图卷积应用于这些簇，从而增强这种能力，形成有意义的图像块关系。ViHGNNs通过采用超边来捕捉复杂的高阶关系，扩展了这些能力，从而丰富了图像的理解。这些方法在图1中进行了展示。

picture.image

基于图模型的视觉感知方法，如ViG和ViHGNN，虽然取得了显著进展，但在这些架构中存在两个关键性观察结果：

1. 现有的视觉图神经网络模型[16, 17, 35, 36]中，边特征主要用于基本的顶点到顶点的通信，并且未在连续的层之间进行整合：这种策略可以增强累积学习并提高分类精度。
1. 用于边缘生成的聚类算法（如ViG中的KNN和ViHGNN中的Fuzzy C-Means）相关的计算复杂度构成了显著的计算 Bottleneck 。MobileViG [35] 和 GreedyViG [36] 等方法通过静态图结构和添加动态 Mask 来尝试缓解这些挑战，但它们以牺牲适应性为代价换取效率，未能实现均衡的解决方案。

针对现有基于图的模型的局限性，作者提出了超图视觉Transformer（HgVT），该模型通过二部表示推进了超图的概念，其中超边特征和图像块（顶点）被连续处理。与传统使用图卷积的模型不同，HgVT采用结构化多头注意力机制进行高效的顶点-超边消息传递，并包含一个动态 Query 机制，该机制在

时间复杂度内构建图结构，其中

。该图结构随后用于注意力 Mask ，以平衡结构适应性与计算效率。此外，HgVT将虚拟元素集成到顶点和超边中，通过注意力 Mask 实现受限消息传递，从而构建分层语义结构，利用虚拟超边特征进行分类，如图1e所示。

作者的贡献总结如下：

• 作者提出了Hypergraph Vision Transformer

5，该模型在视觉Transformer框架内集成了层次化的二部超图结构。作者的各向同性

模型在ImageNet-1k分类任务上达到了76.2%的Top-1准确率，比现有最先进技术提高了1.9%，展示了基于超图的学习在视觉Transformer中的有效性。

• 作者引入了种群和多样性正则化策略，在

中实现动态超图结构构建，使模型能够在不依赖传统聚类技术的情况下egoSparse化连接。

• 作者实现了专家边缘池化，这是一种基于学习到的置信度分数选择边缘的池化方法，有助于高效表示剪枝和图提取。该方法在宏观类别中表现出强的语义聚类行为，与其他特征提取器相比，实现了具有竞争力的图像检索性能，同时保持了更紧凑的模型尺寸。

相关工作

视觉Transformer。视觉Transformer（ViT）由[12]提出，并由[2, 38, 53]改进，使用自注意力机制将图像块处理为序列，适用于复杂的数据集和任务。最近的ViT通过利用局部注意力[19, 33]、整合Sparse全局摘要[68]以及采用仿生建模来聚焦图像中的关键区域[49]，重新引入了空间层次结构。然而，当前的模型倾向于关注最显著的目标和块级相似性，忽略了全局结构。ΔHgVT通过引入二分超图来建模高阶关系，以改进语义理解。

基于图的视觉模型与聚类。图神经网络（GNNs）最初由[46]提出，通过视觉图神经网络（ViGs）[16]应用于视觉任务，在常见的视觉任务上展现出比ViTs更高的准确率。ViGs使用图卷积在图结构上对图像块关系进行建模，该图结构通常由KNN和模糊C均值等迭代聚类算法构建，这些算法引入了计算开销。最近的方法通过静态图结构避免聚类低效性[35, 36]，牺牲了适应性。

则引入了一种动态图构建方法，依靠从学习到的特征中获得的余弦相似度实现高效、非迭代、自适应聚类。

基于超图的方法。尽管超图先前已被应用于许多计算机视觉任务[15, 23, 24]，但最近超图已被引入视觉GNN中[17, 50]，从而提升了它们对复杂多关系建模的能力。然而，这些方法将超图视为一种中间工具，而非生成超图来表示底层图像，从而限制了它们在下游任务中的应用。

则通过后续网络层迭代优化超图，以生成结构化表示。

分层超图

图与基本符号。图是表示结构化信息的强大数学工具，适用于不同学科。一个图

定义为一个对

，其中

是一个顶点集，而

是一个边集，对于有向图，或者对于无向图有

。每条边

连接一对顶点

和

，其中

。邻接矩阵

是一个二进制矩阵

，表示每对顶点之间是否存在边（1表示存在，0表示不存在）。类似地，可以定义一个边权重矩阵

来量化这些连接的强度或容量。

图卷积网络（GCNs）。基于这一基础，GCNs利用顶点特征矩阵

来编码顶点属性。其核心机制——消息传递，通过学习到的投影矩阵

和非线性激活函数进行卷积，并受邻接矩阵

的指导，该矩阵指定了相邻顶点。邻接特征

6通常设置为

，能够动态更新

和边权重矩阵A，使图结构根据学习到的交互进行演化。然而，GCNs本质上受限于

中的成对边，无法捕捉多顶点关系。

3.1. 超图与二部图表示

为了克服传统图中固有的成对限制，超图通过将边的概念扩展为超边，提供了一种有效的解决方案，超边能够同时连接多个顶点。在一个超图

中，超边

每个连接顶点的子集，定义为

和

，其中

是包含在超边

中的顶点的索引集合。集合

直接对应于 incidenc 矩阵

的第

列的非零项，其中

表示顶点

包含在超边

中。这种结构有效地捕捉了顶点之间的复杂关系，使得超图在网络系统或分组交互需要深入理解的应用中尤为有价值。

超图也可以使用二分图表示，其中顶点集

和超边集

形成不同的组，通过关联矩阵

相连（参见图1d）。这种表示方式产生一个新的图

，其中

表示超图的原顶点，

中的元素对应超边。

中的边，记作

，当且仅当

时存在，其中

和

，将

和

连接起来。在二分图

中，对应的邻接矩阵可以简化为

对于

交互，以及

对于

。借鉴 ViHGNN [17] 中的原理，边权重矩阵 A 可以解释为模糊隶属度权重，实现分级交互并支持 GNN 层之间的多种通信策略。补充这一设置，特征矩阵被分为

和

，以及它们对应的邻接特征矩阵

和 Xad)，与传统 GNN 类似。

3.2. 在图像中施加层次结构

为增强超图在图像分析中的能力，作者借鉴了文献[8]中引入的注册 Token ，这些 Token 用于总结在视觉意义较低区域中表现为噪声的信息。类似地，本研究将虚拟顶点

与典型图像块顶点

相结合，并引入虚拟超边

与主要超边

，以提供语义特征聚合和关系抽象的多层结构。这些虚拟元素如图1e所示，并不对应特定的图像块；相反，它们是用于语义总结和捕捉高层抽象信息的可学习嵌入。

作者提出的超图，由图像

构建，记为

，整合了原始集和虚拟集，形成

和

，并具有静态 Mask 的通信路径以强制执行层次结构。原始超边

与所有顶点交互，以支持无限制的语义聚合，而虚拟超边

，用于类别预测，仅与虚拟顶点

连接。这些限制将视觉信息和抽象信息分离，从而产生适合下游应用的图结构。

超图视觉Transformer

超图视觉Transformer（HgVT）通过引入二部超图特征来改进标准视觉Transformer的架构，从而增强图像分析能力。与视觉Transformer类似，ΔHgVT以一个patch嵌入层开始，接着是一个由

个HgVT模块组成的各向同性堆栈，最后通过特征池化和分类头结束。二部超图由四个Whial edare danei

、

和

在每一个模块中表示。每个模块从

和

构建一个新的邻接矩阵

，从而实现对超图结构的灵活调整。如图3所示，这种模块化过程允许在每个HgVT模块中持续集成和处理这些矩阵。

picture.image

4.1. 超边作为通信池

每个

模块同时处理顶点和边信息，基于新构建的图结构对信息进行细化，并从前一模块中获取。初始阶段，邻接 Mask 计算（详见下一节）确定每个模块后续处理步骤的连通性，并根据前一模块更新后的特征矩阵动态调整。三个注意力层——顶点自注意力、边聚合注意力和边分布注意力——按顺序运行，以增强特征融合并促进在邻接计算步骤形成的超边上的有效消息传递。最后，独立的 FFN 分别处理顶点和边特征，确保对二部超图中的两个不同集合进行专门处理，保留每个集合的独特属性。这些组件的运行细节在附录A中进一步描述。

超图特征处理。在每个

模块中，两个独立的点式 FFN （FFNs）分别处理顶点和超边特征，与超图的二分结构相匹配。每个 FFN 通过全连接层整合元素特征及其对应的邻接特征，提升了模型合成关系的能力。在同一个 FFN 层中处理两种特征类型，可以直接处理邻接信息，避免了基于图的传递过程，提高了计算效率。此外，通过可选地绑定边和顶点 FFN 权重，可以降低参数开销。

超边作为通信池。超图GNN通常采用收集-散播机制处理顶点-超边交互，而

将超边重新概念化为通信池，以促进顶点及其关联超边之间的信息 Stream 。具体而言，顶点自注意力管理超边内顶点间

交互，边聚合注意力协调从顶点到超边的 Stream

，而边分布注意力处理反向 Stream ，即从超边回到顶点

。通过分割注意力操作，

高效地近似了超边内的全对全特征传递，如图4a所示，显著降低了全注意力机制相关的二次复杂度。

picture.image

Sparse与模糊注意力机制。基于动态通信池的概念，

采用Sparse和模糊注意力机制以进一步优化计算效率。顶点自注意力机制被选择性地应用于由共同超边连接的顶点对，如邻接矩阵

所定义，从而产生Sparse的注意力模式。随着网络深度的增加——如图4b所示——Sparse性提高，计算负载降低，同时仍与密集注意力机制在训练期间保持兼容。相反，边聚合和分布注意力机制利用顶点和边特征矩阵

和

之间的交叉注意力，并通过软邻接矩阵 A 进行调制。这种调制类似于ViHGNNs [17] 中的模糊C均值，根据对单个超边的软成员资格调整注意力logits，动态适应超图结构，并提供一种机制使梯度能够流入邻接矩阵生成。此外，通过在推理过程中对软邻接矩阵进行阈值化，边注意力机制可以转换为Sparse交叉注意力机制，从而降低计算开销。

4.2. 动态邻接形成

动态建立其超图结构以适应不同图像输入的语义和空间结构的差异。它采用余弦相似度，类似于注意力机制中的 Query -Key交互，来评估顶点与超边邻接特征之间的对齐程度。这种方法允许超边" Query "顶点以获取相关特征，提供一种尺度不变的评估，强调嵌入向量的方向性。随后，余弦相似度被通过一个锐化的Sigmoid函数转换为邻接成员关系：

此处，

表示Sigmoid函数，

是一个锐化因子，它将值从零推开，以在矩阵A中建立类似二元的隶属度值。这个软邻接矩阵进一步通过阈值处理来创建硬邻接矩阵

，它提供二元隶属度以促进Sparse注意力 Mask 。

4.3. 架构扩展

基于受DeiT [53]和ViG [16]启发的混合缩放策略，

在不同模型尺寸上实现了均衡的计算负载。表1规定了Transformer缩放超参数，并明确了不同顶点和边类型的分配方案，其中非图像顶点

按照ViHGNN [17]的 Proposal 被分配固定容量。此外，作者引入了Ti-Lite变体

，旨在帮助在受限的训练预算内实现计算高效的消融研究。

picture.image

强制语义结构

虚拟顶点和超边的特征矩阵，缺乏基于输入的直接初始化，存在收敛于同质解和坍塌表示的风险。此外，动态邻接计算无法自然地促进语义分组，与视觉GNN中常用的基于聚类的方法形成对比。为解决这些问题，作者引入多样性正则化以强制正交嵌入，并采用种群正则化来鼓励结构化Sparse超图。为增强分类中虚拟超边特征的语义区分度，作者结合专家池化策略作为均值池化的更鲁棒替代方案。

5.1. 基于多样性的特征差异化

为防止学习到的特征矩阵同质化，并鼓励生成具有丰富语义的嵌入，作者实现了一种多样性驱动的正则化方法。该方法旨在保持虚拟顶点和超边嵌入之间的最大正交性，通过惩罚不同特征向量之间余弦相似度的绝对值，使其接近零。通过使用归一化嵌入并屏蔽对角线以外的元素以保留自相似性，该方法防止模型收敛到同质化解或将单个向量推向零幅度。随后，作者对

、

及其邻接特征进行单独惩罚。

其中

表示仅包含虚拟节点的

的子集，

是克罗内克函数，确保不对自相似性进行惩罚，而

表示逐元素的绝对值，用于计算嵌入之间非正交关系的惩罚。

5.2. 种群正则化：学习Sparse性

与KNN或Fuzzy C-Means等强制固定聚类大小的聚类方法不同，HgVT的动态邻接计算允许灵活、自适应的超边种群。为防止超图过度Sparse或密集连接的相关风险，作者引入种群正则化。该方法基于从软邻接矩阵A计算得出的每个超边的软成员密度计算惩罚，确保每个超边保持适当的顶点种群，以避免过度泛化并保持超图完整性。

此处，

表示第

超边顶点连接的软密度估计，仅考虑

的非零项。

和

分别设定密度上限和下限，确保超边保持连接的优化平衡。若

超过

或低于

，则施加惩罚，以维持所需的Sparse性并确保超图的结构有效性。

5.3. 专家池用于语义专业化

为了有效结合多个虚拟超边（virtual hyperedges）的特征进行分类，HgVT采用了一种类似于专家选择（expert-choice）的策略，其中每个虚拟超边充当一个“专家”生成一个置信度分数。与平均池化（mean pooling）不同，平均池化有将不同特征合并成一个平均值的风险，从而可能稀释各个特征的贡献，这种策略则鼓励虚拟超边发展出独特且具有语义意义的表示。归一化的置信度分数

确定了每个超边

对分类任务的贡献的相关性，仅选择置信度最高的前-

个分数用于创建加权平均值和后续的类别预测。

此处，

表示仅包含虚拟超边的

的子集，并且通过

投影后，在专家门控集

上计算softmax。在训练过程中，

指导超边特征的加权平均。在推理过程中，二值阈值强制执行基于

的路由，根据其置信度选择性地整合最相关的超边输出。为防止任何单个虚拟超边被低效利用，应用了密度损失函数 [3, 14]，并辅以带标签平滑的交叉熵项以增加专家置信度。

6 实验评估与性能

本节介绍了Hypergraph Vision Transformer的评估结果，采用两种特定的模型配置，具体如表1所示：用于目标消融研究的HgVT Ti-Lite，以及用于与可比图像分类器进行基准比较的扩展变体。作者使用DeiT [53]建立的标准化增强技术，通过Timm库 [58]应用于所有数据集。具体包括：RandAugment [7]、Mixup [64]、Cutmix [60]、Random Erasing [66]和Repeated Augment [21]。

数据集。在计算机视觉分类任务中，作者遵循标准实践，使用ImageNet-1k数据集[10]，分辨率为

像素，用于缩放模型的评估。在消融研究中，作者采用ImageNet-100[51]，这是ImageNet-1k的一个包含100个类别的子集，图像缩放至

像素。这种选择提供了一个计算上易于管理的数据库，同时保持了足够的类别变化，并且与CIFAR-100（32x32像素）[27]等数据集相比，图像尺寸更大。然而，作者发现CIFAR-100对于评估正则化对超图结构的影响是有用的，具体细节见附录H。

超参数训练。与DeiT保持一致，作者使用权重衰减为0.05的AdamW优化器。在ImageNet-1k数据集上以1024的批处理大小进行训练，共300个epoch，遵循DeiT的设置。对于消融实验，作者按照[31]的建议，在ImageNet-100数据集上以512的批处理大小进行训练，训练时长缩短为200个epoch。学习率遵循余弦退火调度，在两个数据集上均达到1e-3的峰值，并按照DeiT进行缩放。此外，由于Exponential Moving Average（EMA）在DeiT中相对于每个训练步骤的额外开销，其性能提升微乎其微（仅0.1%），因此作者未使用EMA。所有模型均使用PyTorch在局部NVIDIA RTX A6000 GPU上以bfloat16混合精度进行训练，具体细节详见附录I。

评估指标。遵循标准协议，作者测量Top-1和Top-5类别预测准确率以评估整体性能。此外，作者利用每个图像上学习到的图结构（提取自最后一层），并测量：超边熵（HE）、类内相似度（ICS）、类间距离（ICD）和轮廓系数（SIL）[45]；有关图结构测量的更多细节可参见附录C。

6.1. 在ImageNet上的评估

表2展示了HgVT在ImageNet-1k上的top-1准确率，并与同等规模的各向同性模型进行了对比。由于缺乏空间对齐的虚拟 Token 下采样过程较为复杂，作者仅分析各向同性架构，排除了金字塔模型，因为这类模型通常由于层次化特征提取表现出更优的性能[16, 17]。在评估的模型中，HgVT-Ti展现出显著优势，其准确率比ViHGNN-Ti高1.9%，参数量减少6%，且FLOPs相当。HgVT-S模型的准确率与ViHGNN-S相当，这是因为在匹配参数量和FLOPs时减少了层数，同时受限于如注意力机制中的整数头数等缩放因子。

picture.image

此外，HgVT-S在ImageNet ReaL[1]上的准确率与DieT-B相当，并在ImageNet V2[43]上取得了具有竞争力的性能，而模型规模仅为DieT-B的四分之一。总体而言，这些结果突显了在视觉Transformer框架中集成超图结构的效率，表明HgVT为复杂视觉任务提供了一种资源高效的替代方案，同时不牺牲性能。

6.2. 消融实验

作者在ImageNet-100数据集上使用HgVT-Lt模型进行了一系列消融实验，报告了Top-1分类精度、平均超边熵和轮廓分数，以评估超图结构的质量。值得注意的是，作者观察到图质量指标与Top-1精度之间存在微弱的负相关性（参见附录H），这表明了目标的对立性。总体而言，消融实验分为三类：正则化、架构和池化方法，结果如表3所示。

picture.image

如表3所示，正则化的消融实验表明，随机路径dropout衰减[22]提升了Top-1准确率和轮廓分数，与ViG和ViHGNN[16,17]的结果一致。省略类别dropout也能提高准确率，与DeiT[53]的结论相符。此外，作者提出的多样性和种群正则化对于保持图结构至关重要；移除多样性会导致部分表征坍塌，而移除种群正则化则会导致接近零的Sparse性，实际上将

转化为一个网络复杂度更高的ViT。

在架构消融实验中，解除 FFN （FFN）的绑定可以提高准确率，但会显著增加参数数量，这使得这种权衡并不理想。将邻接特征和嵌入特征绑定（

）可以减少参数和FLOPs，但会降低性能，尽管解除FFN绑定或增加特征维度可以在一定程度上缓解这一问题，但参数的增加仍然不够理想。这表明邻接特征和嵌入特征（

和

）是相似的，但需要专门的特征空间来避免特征拥挤。

对于池化方法，专家边缘池化在准确性上优于平均边缘池化，而图像池化以牺牲图结构为代价实现了最高准确性。结合图像和专家池化能够恢复丢失的结构并提高准确性，每个输入专注于不同的语义层次（参见附录D）。此外，在分类器头之前丢弃池化的图像嵌入仍能保持中等性能，表明两条路径都对最终预测做出了有意义的贡献。

顶点自注意力与 Patch 嵌入的影响。作者评估了 Patch 嵌入方法和顶点自注意力的影响，比较了卷积主干（Conv2D-BN-GELU层[16, 17]）和一个更简单的 Patch 投影（像素重排 Patch 与仿射投影[2, 12]），跨越多种池化策略（平均、图像和专家），如表4所示。 Patch 投影始终表现不如卷积主干，这可能是由于模型尺寸较小限制了其有效性。省略顶点自注意力会导致进一步恶化，尤其是在没有卷积主干的情况下，这表明它在低维空间中有效分离特征至关重要。PCA显示，卷积主干需要71/128个通道来解释95%的方差，而 Patch 投影只需要19/128个通道，这表明卷积主干捕获了更丰富的表示。值得注意的是，图像池化显示出最少的恶化，这可能是由于其比边缘池化方法更直接的梯度流。

picture.image

6.3. 池化方法与图结构

为评估池化方法对图结构的影响，作者使用ImageNet-100验证集，通过三种策略测量了HE、ICS和ICD：图像池化、专家池化和图像

专家池化方法。指标采用图像顶点子集

或完整顶点集

，特征由DINOv2（S和G）[38]和

通过

邻接矩阵

生成。表5的结果显示，虽然所有方法使用

时均达到相似的图质量，但图像池化略微提高了相似性。然而，包含所有顶点

会持续增加ICD和熵，同时降低ICS，表明图1致性下降。这种效应在图像池化方法中更为严重，表明虚拟顶点

充当噪声元素，而非汇总点。

picture.image

对比DINOv2模型，所有池化方法都与DINOv2-G更为接近，其中在ICS和ICD之间取得平衡比单独最大化其中一方更可取。这一趋势，加上一致的HE，表明关注的是High-Level细节，不论较小的HgVT模型尺寸或池化方法如何。图像池化显示出与DINO模型稍强的关联性，表明高Low-Level语义都被编码在单一特征空间内，这与可以使用边缘通道进行High-Level概念的方法不同。值得注意的是，所有专家池化方法都表现出一种涌现的宏观类别预测行为，其中每个虚拟边缘

始终捕获更广泛的分类群组（例如，狗、鸟）。进一步的表示和宏观类别分析在附录

和J中提供。

6.4. 图像检索性能

为评估

捕捉语义结构的能力，作者进行了图像检索实验，比较了四种方法：池化相似度（PS）、体积相似度（VS）、自适应池化相似度（APS）和自适应体积相似度（AVS）。PS 通过余弦相似度（向量搜索）对池化嵌入进行排序，而其他方法则通过利用图结构来增强检索效果。体积相似度使用近似马氏距离计算椭球重叠度，并使用剪枝超边定义池化嵌入（质心）周围的分布范围。自适应方法通过在剪枝超边上使用图相似度度量进一步优化检索，从包含

个候选的短列表中进行重新排序。自适应检索中的计算效率通过质心哈希分桶和限制与最显著的

个 Query 超边进行比较来保证，最终复杂度为

。值得注意的是，作者剪枝到12个超边，并使用10个质心分桶；更多细节见附录G。

ImageNet检索。作者在ImageNet-1K数据集上评估检索性能，以评估

捕捉语义关系的能力，并比较四种检索方法：PS、VS、APS和AVS。主要指标是

C，由于MRL [29]具有自适应重排序方法，因此将其作为 Baseline 。作者还报告了1-NN-CLIP-L hitrate @ 1 0，该指标衡量CLIP-L [42]排名前1的结果在检索结果前10中出现的频率，为语义一致性提供额外见解。表6中的结果表明，尽管

显著小于MRL（ResNet-50）且使用相当紧凑的嵌入尺寸

，但其检索性能超过MRL超过8%。在HgVT中，PS和VS取得相似结果，而APS和AVS表现不佳，这可能是由于它们侧重于精确特征相似性和模糊类特征，从而限制了与ImageNet多样化数据集所需的High-Level语义的匹配。

picture.image

牛津与巴黎检索。为了评估超越简单类别检索的图像检索性能，作者使用牛津与巴黎重访数据集[39, 41]，该数据集为 Query /数据库对提供了三个难度递增的分割（简单、中等和困难）。作者报告了中等（M）和困难（H）分割的平均精度均值（mAP），基于短列表排序的AVS使用

，而VS作为 Baseline 比较提供了完整mAP和

。结果，如表7所示，表明

在规模相似的特征提取器中实现了具有竞争力的性能，尽管其在

牛津-M上的性能有所滞后。这一不足可能源于细微地标差异，而多尺度卷积网络和自监督学习能更好地捕捉这些差异，相比之下，

的分类器训练更侧重于显著特征。然而，AVS在ROxford-M上优于VS，展示了其在超图结构中揭示更细微特征相似性的能力。

picture.image

结论与未来方向

在本工作中，作者提出了Hypergraph Vision Transformer

框架，该框架将超图结构融入视觉Transformer中，以提升视觉任务中的语义理解能力。

在图像分类和检索任务上取得了优异的成果，在ImageNet-1k分类任务上超越了先前的小规模各向同性模型1.9%。HgVT，包括种群和多样性正则化以及专家边池化，通过动态超图构建提升了语义表征和效率。

未来工作将集中于探索超图结构的可扩展性，并整合自监督学习以进一步提高适应性，更好地将显著性从语义视觉图生成中解耦。

参考

[1]. Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image