上交大提出 GeoMix，利用几何信息将特征和标签进行插值，实现几何感知数据增强！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

Mixup方法在缓解图像分类中有限标记数据带来的挑战方面已显示出显著的成功。通过特征和标签的插值合成样本，Mixup有效地解决了数据稀缺的问题。然而，由于其不规则性和连通性，这种方法在图学习任务中很少被探索。特别是在节点分类任务中，Mixup在为合成数据创建连接方面存在挑战。

在本文中，作者提出了一种简单且可解释的Mixup方法——几何Mixup（GeoMix），它利用原地图编辑并有效利用了几何信息，与附近邻域的特征和标签进行插值，生成合成节点并为它们建立连接。

作者进行了理论分析，阐明了在节点Mixup中利用几何信息的合理性，并强调了局部性增强——作者方法设计中的一个关键方面的重要性。广泛的实验表明，作者这种轻量级的几何Mixup在多种标准数据集上取得了有限标记数据的最新成果。

此外，它在各种具有挑战性的分布外泛化任务中显著提高了底层图神经网络（GNNs）的泛化能力。

作者的代码可在https://github.com/WtaoZhao/geomix获取。

1 Introduction

基于理论分析，并认识到潜在的失败案例，作者进一步改进了作者的方法，并提出了几何混合（Geometric Mixup）。它不仅考虑了几何细节，还增强了局部信息，从而能够适应同质图（相邻节点可能具有相似标签和特征）和异质图（相邻节点倾向于具有不同标签）。此外，作者阐明了几何混合与图结构学习之间的联系，为作者的设计提供了更多的洞察和更好的可解释性。

在十二个数据集上的广泛实验表明：

(1) 在有限标注数据的同质图和异质图上，几何混合达到了最先进的结果；

(2) 在训练数据分布有限的各类分布外泛化任务中，它显著提高了底层图神经网络（GNNs）的泛化能力；

(3) 它帮助底层GNN学习更具鉴别性的表示，提高了预测性能。

作者工作的主要贡献包括：

作者提出了一种简单且可解释的混合策略，利用原地图编辑，这是一个新颖的视角。
作者的方法有效地利用了图几何信息，同时增强了局部信息，以适应同质图和异质图。
理论分析提供了关于如何利用几何信息进行混合的洞见，并强调了增强局部信息的重要性。
广泛的实验证实，在有限训练数据的挑战性任务中，几何混合有效提高了底层GNN的性能和泛化能力。

为了将作者的方法与现有方法区分开来，作者在表1中比较了几何混合与其他节点混合方法。

picture.image

Preliminaries

Semi-supervised Node Classification

设表示一个图，其中节点集合为，边集合为。每个节点都与一个特征向量和一个标签相关联，以独热形式表示为。记节点特征矩阵为，邻接矩阵为。节点分类任务的目标是训练一个分类器，该分类器能够基于和准确预测节点标签。在半监督设置中，分类器可以访问完整的特征矩阵和邻接矩阵，但仅限于对节点子集拥有标签，这部分构成了标记节点集（未标注节点集记为）。因此，半监督节点分类的标准损失函数为

其中通常是交叉熵损失。是对节点的预测。

Message Passing Neural Networks

信息沿着边传播以学习节点表示的传递神经网络，可以表示为：

其中，(\mathcal{N}(v)) 是节点 (v) 的邻域。AGGR 函数从邻近节点聚合信息，并将这些结果与中心节点的当前状态结合，以更新其表示。

Mixup

混合（Mixup）最初是针对图像分类提出的（Zhu等人，2017年）。它对样本的特征和标签进行线性混合，可以表示为

其中、是随机选取的样本对，。然而，将混合（Mixup）方法应用于节点分类并非易事，原因在于为合成节点定义邻近性存在挑战。

Methods

A Basic Geometry-Aware Mixup

尽管看似自然地将方程（3）和（4）应用于节点特征和节点标签以创建综合节点，但如何为综合节点建立连接仍是一个未解决的问题。受到消息传递的启发，该方法通过迭代结合来自相邻节点的信息来更新节点特征，作者提出了基于原位编辑的Mixup方法，其中节点的特征/标签通过其直接邻域的特征/标签的凸组合进行调整。它明确连接了综合节点，无需复杂的边缘预测模块，并有效地利用了给定图中的先前知识。

然而，半监督学习的挑战之一在于真实标签的稀缺，导致某些节点的邻域标签信息不完整或无法访问。为此，作者首先使用训练模型为每个未标注节点预测伪标签。为了后续推导的方便，记为：

如果

否则

在Mixup中利用几何信息的最基本方法涉及将节点的特征和标签更新为其邻居特征和标签的平均值。因此，任意节点的混合操作可以表示为：

其中，和是节点在第次操作后的特征和标签。是输入节点特征。。是由常见的归一化邻接矩阵（如和）给出的边权重，其中是度矩阵。作者对方程（6）和（7）进行了理论分析，以证明其插值效果，并提供关于这种基本形式的Mixup可能成功或失败的情境的见解。

关于图的假设。 为了简化分析，作者对图提出以下假设。记类的数量为。假设对于任何节点：(1) 其特征从与其标签相关的特征分布中抽取，表示其均值；(2) 的维度相互独立；(3) 中的特征值被一个正标量限制，即；(4) 由于缺乏真实标签和伪标签预测中的错误，的期望值为

其中是第个标准基向量（所有元素均为0，除了第个元素为1），与标签率和用于预测伪标签的模型的准确性相关。当标签率较大或模型高度可靠时，应接近0；(5) 它的邻居标签在给定的条件下是条件独立的，并且以概率与节点具有相同标签。它们属于任何其他类别的概率为。

作者使用来表示遵循上述假设的图。注意，作者使用下标来表示分布由所有具有相同标签的节点共享。然后作者有了关于混合特征的以下定理：

定理1 。：考虑一个图 i\in\mathcal{V}$，执行一次Mixup操作后其特征期望值为

对于任意，观察值与其期望值之间的距离大于的概率有界为

其中是特征维度。

同样地，对于混合标签，作者有

定理2 。： _对于任意和任意且的节点，执行一次Mixup操作后混合标签 \hat{\mathbf{y}}_{i}$ 的期望值为

对于任意，观察值与其期望值之间的距离大于的概率有界为

定理1和定理2的证明可以在附录中找到。上述定理揭示了两个事实。首先，当较大且较小时，节点的混合特征和标签在期望上与其输入特征和标签相对接近。其次，节点的混合特征/标签与其期望值之间的距离在高概率下是小的。二者共同表明，Mixup保留了局部信息，并证明了将更新后的节点放置在其之前位置的理由。此外，在方程(9)和(11)中，作者观察到了通过Mixup实现的期望的插值效果。

然而，当较小时，如在某些具有挑战性的异质图中所见，节点的混合特征/标签在期望上会与其原始特征/标签相去甚远。因此，局部信息没有得到很好的保留，将更新后的节点放置在其原始位置变得可疑。另一个由值较小引起的问题是，来自不同类别的节点的混合特征/标签的期望之间的可区分性降低。在极端情况下，当时，不同类别节点的期望特征/标签趋于同一点，这大大减少了混合特征和标签的多样性。因此，这种基本的几何感知Mixup在一些异质图中可能无法表现良好，作者将在下一部分提供解决方案。

Geometric Mixup: Locality-Enhanced Mixup with Structure Awareness

一种解决前文所述问题的可行方案是，通过添加残差连接来增强局部信息。对于节点，作者利用其在前一Mixup操作中的混合特征建立一个残差连接。这种局部强化产生了几何Mixup的第一个变体，

其表达式为方程（13）-（14），并在图1中展示。

picture.image

残差连接包含了从节点起跳步距离内的节点信息，从而有助于更好地保持节点的局部信息。是一个超参数，用于控制局部强化的效果。通过为选择合适的值，的期望值将相对接近其前一个值。因此，即使较小，局部信息得到了有效保持，来自不同类别的节点的期望特征/标签也不会收敛到同一点。因此，合成数据的多样性不会受损，且更新后的节点保持在原位置是合理的。需要注意的是，作者可以重复Mixup操作次，以向混合特征和标签中添加更全面的几何信息范围。在实践中，一次或两次连续的Mixup就能实现良好的性能。

一种更为激进且有效的选择是从输入图中保留局部信息，即使用节点的原始特征和标签来建立残差连接。

在具有挑战性的异质图关系中，这种方法可能因其更好地增强了输入图的局部信息而产生更好的结果，这将在实验部分得到证明。

在训练阶段，作者将混合特征（此处作者省略了不会引起混淆的上标）和邻接矩阵输入到GNN中，以预测标签。如方程（17）所示，损失函数由两部分组成。对于标记节点，作者使用真实标签作为监督信号；而对于未标注节点，作者使用混合标签进行指导。是一个超参数，用于平衡混合标签的影响。在推理阶段，作者不执行Mixup，GNN接受原始特征和邻接矩阵作为输入。

与结构学习的关联。 上文的Mixup在某种程度上与图结构学习相关联，它通过优化给定的图结构以满足一些期望的性质，如平滑节点特征和连通性[2]，从而帮助GNN学习。然而，在Mixup中，作者修改的是节点特征而非图结构。从这个意义上说，结合Mixup后的训练过程可以被视为一个双层优化问题。上层优化任务将GNN 视为决策变量，旨在最小化方程（17）中的标签预测损失，而下层优化任务是最小化一个正则化函数，该函数通过修改节点特征和标签来正则化学习的图，作者将在下文进行解释。

作为一个理论直觉和证明，Mixup操作（13）和（15）是两个不同正则化函数的梯度下降步骤，这些正则化函数评估混合节点特征的质量。假设节点特征是关于的连续函数，且，作者有以下定理：

和的梯度下降步骤。

其中与有关。

在第18和19式中的第一项促进了更新后的节点特征与其当前状态或原始状态之间的接近性，而第二项则鼓励相邻节点之间的特征相似性。作者可以针对混合标签获得一个类似的成本函数，其中操作在式(14)和(16)中旨在降低。

复杂性分析。 在混合操作(13)和(15)中，计算的计算复杂度为，其中是输入特征的数量。这是因为涉及的聚合部分可以作为一个稀疏矩阵与一个密集矩阵的乘积来实现。连续应用次混合操作会将存储和时间的需求乘以倍。在实践中，通常为2。同样，标签的混合操作的复杂度为，其中是类的数量。因此，包含几何混合后，整体GNN训练的复杂性仍然与常规GNN训练过程保持一致。### 将几何混合扩展到邻近区域之外：一种自适应方法

前几节提供的几何混合操作有两个限制。首先，聚合权重是非参数化的，即它们仅由邻接矩阵确定，无需训练。因此，当图结构包含噪声时，可能会分配不当的权重。其次，图结构的限制极大地减少了混合选择，因为一个节点永远没有机会与远距离的节点混合。

为了解决上述限制，作者允许一个节点与任何其他节点混合，并自适应地学习聚合权重，如式(20)所示。

其中是一个由稍后作者将指定的权重预测模块给出的特定时间框架的权重。由常见的归一化邻接矩阵给出。是一个指定自适应全对聚合结果权重的超参数。对称地，标签的混合操作为

为了自适应且高效地预测聚合权重，作者采用了简单的投影后点积方法，如方程式（22）所示。

其中

这里和（和分别是输入特征和隐藏特征的维度）是两个可学习的投影矩阵。方程式（22）与Transformer（Vaswani et al., 2017）的自注意力机制相一致。在这个范式下，每个节点都有可能将其特征/标签与那些投影特征相似的其他节点的特征/标签混合。这解决了之前几何混合中只有少数几个节点选择用于Mixup的限制。此外，可训练的参数和可以修正由输入图分配的不适当的聚合权重问题。

复杂性分析。 由权重在方程式（20）中引导的全对聚合操作可以写成以下矩阵形式

其中和是通过垂直连接和来构建的。通过使用矩阵乘法的结合律，上述方程等价于

通过首先计算和，而不是，作者将节点数量的二次复杂度降低到线性。方程式(25)的时间复杂度为，其中和分别是输入特征和隐藏特征的维度。结合第3.2节中的复杂度分析，方程式(20)中Mixup的总体复杂度为。通过类似的分析，方程式(21)中标签Mixup的时间复杂度为，其中是类别的数量。因此，这种几何Mixup变体仍然保持了传统GNN训练的复杂度顺序。

Experiments

在本节中，作者针对一系列节点分类数据集对几何混合（Geometric Mixup）进行了全面的实验评估。具体而言，作者关注以下研究问题：

1) 几何混合能否在有限的标记数据情况下，一致且显著地提高图神经网络（GNNs）在常见基准测试上的性能？此外，它能否处理同质化（相邻节点倾向于共享相似标签）（Gan等人，2017）和异质化（相邻节点倾向于拥有不同标签）？

2) 几何混合能否一致且显著地提高GNNs在分布外（OOD）泛化任务中的能力？即，在训练集中只有有限分布的数据，并需要泛化到与训练数据分布不同的数据集。

3) 几何混合提出的各个组成部分对于所取得性能是否有效且必要？

4) 几何混合能否帮助GNNs学习更具判别性的表示，从而改善类别区分？

实现细节. 作者实现了方程（13）、（15）和（20）中定义的三种几何混合方法，分别命名为GeoMix-I、GeoMix-II和GeoMix-III。除非特别说明，作者在几何混合和其他使用GNN Backbone 网络的竞争方法中采用GCN（He等人，2016）作为基础的GNN。在对标准GCN的结构相关超参数（包括层数和隐藏大小）进行优化后，作者为几何混合采用了相同的架构，以确保公平比较。为了减少超参数的数量，除少数情况外，作者将方程（17）中的设置为默认值1，因为这在不同范围的测试案例中一致产生了优异的结果。

Common Node Classification Datasets

作者首先在几个常用的图数据集上进行实验，包括三个引文网络：Cora、CiteSeer和PubMed（Yang等人，2019年）；两个合作作者网络：CS和Physics（Sou等人，2017年）；以及两个异质图：Squirrel和Chameleon（Sou等人，2017年），在这些图中，相邻节点倾向于具有不同的标签。对于引文网络，作者使用与（Yang等人，2019年）相同的数据划分，即从每个类别中选择20个节点作为训练集，总共1,000个节点作为验证集，500个节点作为测试集。对于两个合作作者网络，作者遵循（Sou等人，2017年）的划分，即每个类别的20个标记节点作为训练集，30个节点作为验证集，其余的作为测试集。对于两个异质数据集，作者遵循最近的研究（Sou等人，2017年），在原始数据集中过滤掉重叠的节点，并使用其提供的数据划分。

如表2所示，三种变体——GeoMix-I、GeoMix-II和GeoMix-III——在所有数据集上显著提高了其基础图神经网络架构GCN的性能。与其它先进的GNN相比，即使使用简单的GCN作为GNN基础架构，它们也一致地实现了更高的准确度。此外，三种提出的几何混合变体一致地优于现有的Mixup竞争对手。这些结果表明，利用几何信息进行Mixup在提高GNN性能和解决有限标记数据引起的问题方面非常有效。与随机配对节点的Mixup相比，它很可能产生更优的结果。

picture.image

Handling Distribution Shifts in Unseen Domains

作者继续测试几何混合（Geometric Mixup）在处理OOD（Out-of-Distribution）泛化任务中的分布偏移的能力。作者在Twitch-explicit数据集上进行实验，该数据集包含多个网络，其中Twitch用户作为节点，他们之间的相互友谊作为边（Sou等，2017年）。由于每个图都与特定区域的用户相关联，因此不同图之间存在分布偏移。作者在三个图（DE、EN、ES）上训练和验证作者的模型，并将数据随机划分为50%的训练集、25%的验证集和25%的内部分布测试集。训练完成后，作者直接在FR、PT和RU数据集上评估模型。

为了使作者的实验更加坚实，作者不仅将作者的方法与节点分类的最先进的Mixup方法进行比较，而且还包括了与EERM和DANN这两种针对分布偏移设计的最先进方法的比较。由于GraphMixup包含一个依赖于领域知识且不能有效处理分布偏移的边预测模块，作者在这部分不包含它。作者在表3中报告了结果。三种几何混合变体在最基本的OOD训练方法ERM上的性能有了显著提升。特别是，在Twitch-RU上，相对改进达到了惊人的17.09%。此外，几何混合在所有三个数据集上的表现都优于其他高级方法，从而验证了作者的设计在提高底层图神经网络泛化能力方面的有效性。（Sou等，2017年）指出，Twitch-explicit内的图表现出异嗜性特征。因此，本节的实验也强调了几何混合在处理异嗜性图方面的有效性。此外，表3中的结果表明，在这类图上，GeoMix-II的表现优于GeoMix-I。这一观察结果证实了第3.2节中的论断。

picture.image

表3. 在Twitch-FR、Twitch-PT和Twitch-RU上进行OOD泛化的测试准确率平均值和标准差。所有方法使用GCN作为基础图神经网络架构。

OOD Generalization in High Energy Physics

接下来，作者在高能物理（HEP）领域（Herb, 2018）的Pileup Mitigation数据集上测试了几何混合（Geometric Mixup）在OOD泛化方面的表现。这个数据集包含多个图，每个图对应于一束质子-质子碰撞。每个图中的节点代表了大型强子对撞机中这些碰撞产生的粒子，分为主要碰撞（LC）和邻近的束交叉（OC）。节点特征编码了这些粒子的各种物理特性。利用KNN方法（Krishna等人，2017年）从输入特征构建图。任务是要确定一个中性粒子是来自LC还是OC。分布偏移可以归因于两个来源：一是堆叠条件（PU）的变化，例如从PU10到PU30的泛化；二是粒子衰变类型的变化，例如从到的泛化。为了建立一个半监督学习环境，对于每个泛化任务，作者从源域中选择10个图，并将20%的中性节点（粒子）随机分配为训练集，剩下的80%形成验证集。对于目标域，作者使用20个图，并在所有中性节点上测试模型。

这个任务提出了双重挑战。首先，它需要对HEP领域内复杂的领域知识有深入的理解。其次，它涉及到条件结构偏移，这是（Krishna等人，2017年）识别的一种新型挑战性分布偏移。结果在图2中展示。尽管存在重大挑战，但GeoMix-I、GeoMix-II和GeoMix-III都在所有任务上显著提高了底层GCN的测试准确度。值得注意的是，在由不同物理过程引起的分布偏移中观察到了最为显著的改进，这比由PU条件变化引起的偏移更为苛刻（Krishna等人，2017年）。在和中，几何混合相对于ERM分别实现了高达7.22%和11.14%的相对改进。此外，几何混合在所有场景中一致地优于其他高级竞争对手。这些发现表明，在几何混合的帮助下，GNN可以有效从有限的训练数据中获取复杂的科学知识，以应对现实世界的挑战。它们还突显了几何混合在处理源图和目标图之间分布偏移的能力。

picture.image

Image and Text Classification with Low Label Rates

作者将实验扩展到包括STL10、CIFAR10和20News数据集，以评估在有限标记数据的标准分类任务中几何混合（Geometric Mixup）的性能。在（Krishna等人，2017年）提供的20News数据集中，作者选择了10个主题，并使用TF-IDF得分超过5的单词作为特征。对于STL10和CIFAR10这两个图像数据集，作者首先采用了无需使用任何标签进行训练的自监督方法SimCLR（Chen等人，2018年），来训练一个ResNet-18模型以提取作为输入特征的特征图。由于这些数据集本身缺乏内在的图结构，作者使用KNN方法构建输入图。更多细节请参见附录。

表4展示了实验结果。值得注意的是，在所有情况下，三种几何混合方法一致地超越了GCN（它们的底层图神经网络）、其他图神经网络，并且比三种最先进的混合（Mixup）竞争方法取得了更优的结果。这些发现强调了几何混合的广泛适用性，不仅适用于图结构数据集，也适用于图像和文本分类任务，在这些任务中图结构并不显式存在。

picture.image

Ablation Study

在本节中，作者进行了消融研究，以展示几何混合中某些设计选择的功效和必要性。首先，作者旨在评估在Mixup中利用几何信息所带来的改进。为了实现这一点，作者在保持与其他训练流程一致的前提下，随机地为Mixup配对节点。其次，

图2展示了在Pileup Mitigation数据集中的泛化任务下，不同PU条件和物理过程下的平均测试准确度及标准差。诸如PU10 PU30之类的表达式表示PU条件的转换。和则指物理过程的转换。

作者试图理解局部性增强的效果，因此作者在GeoMix-I中移除了局部性增强部分，而保持其他设计元素不变。

这些实验是在Cora、CiteSeer和Squirrel数据集上进行的，其中Squirrel是一个异质图。结果展示在表5中。当作者不融入几何信息时，性能出现了显著下降。一个可能的解释是，随机混合节点可能会引入不必要的外部噪声到每个节点的感受野中，从而在消息传递过程中负面影响信息交换的准确性。

picture.image

在禁用局部性增强后，CiteSeer和Squirrel的性能明显下降，而在Cora上没有观察到显著差异。这些结果可以归因于同质性（homophily）。如3.1节分析，同质性的降低会导致没有局部性增强的基本几何感知Mixup在保留局部信息和确保合成数据多样性方面不够充分，从而降低Mixup的有效性。根据（Chen等人，2020年）的研究，尽管Cora和CiteSeer都是同质图，但CiteSeer显示出较低的同类性比率。因此，与Cora相比，CiteSeer的性能下降更为明显。在异质图Squirrel的情况下，性能下降甚至更为显著，达到了6.59%。这些结果证实了几何混合对局部性增强的必要性。

Visualization

图3和图4展示了在Cora和CiteSeer数据集上，通过GCN和GeoMix学习到的最后一层节点表示，使用了T-SNE（Maaten和Hinton，2008年）。这些图揭示了使用几何混合方法学到的隐藏表示更具判别性，有利于聚类，因为来自同一类的节点更加紧密地聚集在一起，而不同类的节点则彼此更为疏远。这些高度判别的表示有助于提高类别预测的准确性。

picture.image

Results of Using Other GNN Backbones

在本节中，作者通过改变底层图神经网络（GNN）架构来研究几何混合（Geometric Mixup）的灵活性。具体来说，作者将GAT（Vaswani等人，2017年）和APPNP（Golov等人，2013年）作为基础GNN框架，并评估它们在使用三种不同变体的几何混合时的性能。结果展示在图5中。如图所示，几何混合一致地提高了GAT和APPNP在标准数据集以及分布外（OOD）泛化任务上的性能。

picture.image

Related Works

图神经网络图神经网络（GNNs）已成为建模图结构数据的实际方法。在众多类型的GNN中，基于消息传递的方法（Golov等人，2013年；Golov等人，2013年；Velickovic等人，2014年；Velickovic等人，2014年；Velickovic等人，2015年）通过定义图卷积和信息传播而受到重视。这些方法通过聚合节点自身的特征及其邻居的特征来生成节点的表示。作者的工作与它们正交，因为作者的模型无关Mixup操作作为一种数据预处理步骤，用于扩大训练集并拓宽数据分布，最终提高性能和泛化能力。

Mixup如前所述研究所示，Mixup是一种非常有效的数据增强技术，通过现有样本的插值生成训练样本。然而，Mixup主要在图像分类中使用，很少在图学习任务中探索，特别是在节点分类任务中。当考虑节点分类时，虽然对节点特征和标签进行插值以生成合成节点看似直观，但挑战在于如何有效地为这些合成节点建立连接。在此过程中必须小心，以避免向信息传播机制中引入过多的外部噪声，因为这可能会对GNN的性能产生不利影响。在这个领域，一些现有研究要么避免明确连接合成节点，要么引入复杂的边预测模块。前者在神经网络的层之间执行Mixup，并与训练模型紧密耦合，可能限制其通用性。相反，后者在效率和泛化能力上有所妥协。据作者所知，作者的研究是首次将图几何整合到Mixup操作中，这允许构建一个显式的增强图，其中合成节点系统地连接到相关节点。这种方法在保持Mixup技术效率的同时提高了可解释性。

图学习上的泛化由于现实世界测试和训练数据之间存在分布偏移，人们越来越重视提高GNN在分布外（OOD）数据上的有效性能。一项工作涉及应用对抗性训练来促进输出分布的平滑性，例如BVAT（Brandt等人，2016年）和GraphAT。一个更近期的不变性学习方法EERM（Zhu等人，2017年）引入了多个上下文探索器，这些探索器作为图编辑器并以对抗性方式进行训练。另一项近期工作提出学习一个可泛化的图结构学习者，该学习者可以增强在泛化到未见图时的输入图结构质量，从而提高下游GNN的性能。然而，值得注意的是，这些方法引入了显著额外的计算成本。相比之下，几何Mixup更为轻量级。它仅引入了少量的基于消息传递的Mixup操作，并且关于节点和边的数量在时间上是线性的。

Conclusion

本文提出了一种名为几何混叠（Geometric Mixup）的方法，通过利用几何信息，将特征和标签与其邻近区域的特征和标签进行插值，以用于混叠处理。

作者为这种方法在利用图结构方面的理论洞察提供了见解，并强调了增强局部信息的重要性，这是使作者的方法能够适应同质性和异质性图的一个关键设计方面。

此外，作者扩展了作者的策略以促进全对混叠，并动态学习混合权重，克服了给定图结构中噪声带来的挑战。

作者的大量实验表明，几何混叠显著提高了底层图神经网络（GNNs）在标准数据集和OOD泛化任务上的性能。

参考

[1].GeoMix: Towards Geometry-Aware Data Augmentation.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

上交大提出 GeoMix，利用几何信息将特征和标签进行插值，实现几何感知数据增强 ！

1 Introduction

Semi-supervised Node Classification

Message Passing Neural Networks

Mixup

A Basic Geometry-Aware Mixup

Geometric Mixup: Locality-Enhanced Mixup with Structure Awareness

Common Node Classification Datasets

Handling Distribution Shifts in Unseen Domains

OOD Generalization in High Energy Physics

Image and Text Classification with Low Label Rates

Ablation Study

Visualization

Results of Using Other GNN Backbones

参考