EFTViT: 在资源受限的边缘设备上对带遮罩图像的视觉变换器:(VisionTransformers)的高效联合训练！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

联邦学习的研究最近从卷积神经网络（CNNs）转向了视觉 Transformer （ViTs），因为ViTs具有更优越的能力。由于ViTs缺乏CNN固有的2D归纳偏差，其训练所需的计算资源更高。然而，如何在资源受限的边缘设备上高效地进行ViTs的联邦训练尚未得到社区的探索。

在本文中，作者提出了一种基于遮掩图像的分层联邦框架EFTViT，以在资源受限的边缘设备上实现高效的全参数训练，从而为异构数据的学习带来显著优势。

总体而言，作者将图像分割成块，并随机遮掩一部分块，观察到排除这些块对性能影响极小，而大幅降低了计算成本并增强了数据内容隐私保护。具体来说，EFTViT由一系列轻量级本地模块和一个更大的全局模块组成，它们分别独立地在客户端和中央服务器上更新。

本地模块在遮掩图像块上进行训练，而全局模块则在从本地客户端上传的中间块特征上进行训练，并通过提出的中位数采样策略来平衡，从而消除客户端数据分布的隐私性。作者分析了EFTViT的计算复杂度和隐私保护。

在流行基准上的广泛实验表明，与现有方法相比，EFTViT可以实现高达28.17%的准确性提升，将本地训练的计算成本降低多达2.8倍，并将本地训练时间缩短多达4.4倍。

在注重数据隐私保护的前提下，客户端设备能够有效地执行联邦学习。早期的联邦学习研究主要集中在卷积神经网络（CNNs）上[1, 20, 22]。

最近，研究重点逐渐转向视觉 Transformer （ViTs），其Self-Attention机制在捕捉图像内的长距离对应关系方面表现出色，已在诸如物体识别[8]、检测[6, 13]和语义分割[40]等视觉问题上取得了最先进的性能。

尽管ViTs具有令人印象深刻的能力，但由于图像中缺乏空间归纳偏差，训练ViTs通常会带来显著更高的计算成本和更长的训练时间[3, 30]，这使得资源受限的边缘设备面临巨大的挑战。

联邦学习（FL）旨在 enabling 多个数据分布在不同设备或服务器上时实现协作训练。

Introduction

在卷积神经网络（CNN）时代，一些研究者探索了资源受限的联邦学习（FL）问题。这些方法的工作流程总结在图1a中。通常情况下，模型异构方法[1, 4, 23, 37]根据客户端可用的资源训练不同规模的模型。然而，这些方法并不适合视觉 Transformer （ViT），因为它们无法从根本上减少客户端训练的计算需求。

picture.image

在本研究中，作者探索是否可以通过不显著牺牲联邦学习（FL）性能的方式来根本性地降低Vision Transformer（ViT）的训练计算成本。近期自监督学习领域的研究表明，通过随机遮掩输入图像中的像素并重建这些遮掩的像素， Mask 图像建模能够有效地学习到具有泛化能力的视觉表示[13, 32]，从而突显了图像中可能对识别不必要的大量冗余信息。为了验证这一假设，作者在无资源约束条件下进行联邦学习实验，使用遮掩图像来考察其对模型性能和训练计算成本的影响。在实验中，图像被均匀分割成非重叠的块，其中有一部分比例为的块被随机遮掩。仅使用未遮掩的块进行模型训练。

如图2所示，在FL环境中，数据异质性程度较高的情况下（，其中是从Dirichlet分布中得到的一个集中参数），作者进行了实验。结果显示，改变 Mask 比例对模型准确性的影响很小，但却显著减少了训练计算成本。例如，将从0.00增加到0.75，可以将计算负担降低高达5.2倍，同时准确性的下降也只有细微的差异。这些发现表明，在资源受限的边缘设备上使用 Mask 图像进行FL中的ViT训练是一种很有前景的方法。

picture.image

受这些观察的启发，作者提出了EFTViT，这是一种分层的联邦学习框架（如图1b所示），该框架利用 Mask 图像在资源受限的客户端上高效地训练ViT模型，并通过隐藏客户端数据内容来增强隐私保护。EFTViT包含轻量级的本地模块部署在边缘客户端和较大的全局模块部署在中央服务器上，旨在适应有限的客户端资源。

本地模块在 Mask 图像上进行训练。与从客户端聚合参数不同，全局模块接收来自本地模块的中间patches特征，使其能够学习适用于异质数据的通用表示。为了保持客户端数据分布，作者提出了一种中位数采样策略，在上传前将每个类别的patch特征计数调整到所有类别的中位数，从而提升性能并提高训练效率。

本项工作的主要贡献总结如下：

据作者所知，作者提出了EFTViT，这是首个利用掩蔽图像在多个资源受限客户端上高效训练ViT模型的联邦学习框架，同时也增强了客户端数据内容保护。EFTViT能够在客户端和中央服务器之间分层训练所有模型参数，展示了对异构数据的巨大优势。此外，作者引入了一种中位数采样策略，在上传到服务器之前模糊中间特征的分布信息。
在流行的基准测试中的实验表明，与 Baseline 相比，EFTViT能够提高准确性最多28.17%，降低本地训练计算成本最多2.8倍，并将本地训练时间缩短最多4.4倍，从而建立了新的最佳性能标准。
Related Works

2.1. General Federated Learning

联邦学习是一种去中心化的机器学习方法，通过在客户端设备上直接训练模型，并仅将模型参数传输到中央服务器来增强隐私性。大多数研究集中在解决FL中的数据异质性[11, 17, 20, 22]和隐私保护问题[2, 5, 27]。例如，FedProx[22]通过添加proximal项来优化局部更新，以解决数据异质性问题。

在隐私保护方面，Asad等人[2]将同态加密应用于联邦学习，使客户端能够使用私钥对其本地模型进行加密。Shi等人[27]提出了一个结合差分隐私（DP）的联邦学习方法。然而，这些工作依赖于理想假设，即客户端有足够的资源来处理模型训练过程。

2.2. Federated Learning on Edge Devices

资源受限客户端上的联邦学习方法可以分为联邦蒸馏（FD）和部分训练（PT）。FD 方法侧重于从异构客户端模型聚合知识到服务器模型。例如，FedGKT [12] 在客户端训练小型模型，并通过知识蒸馏定期将其知识转移到大型服务器模型中。PT 方法将全局模型分成可以在资源受限客户端上局部训练的小型子模型。

例如，HeteroFL [7] 随机从全局模型中选择子模型并分发给客户端。然而，这些方法是根据客户端的能力调整模型大小，而不是从根本上解决客户端训练的计算负担。

2.3. Parameter-Efficient Fine-Tuning

在处理基于Transformer的复杂模型时，参数高效微调（PEFT）提供了一种实用的方法，可以在各种下游任务中高效地适应预训练模型，通过固定大部分预训练参数并仅微调一个小子集来减少存储和计算成本[10]。一些研究[29, 38]已经探索了使用不同的PEFT技术来评估联邦系统中的性能改进和资源节省。

然而，在PEFT中有限的参数微调不可避免地限制了预训练模型对新任务的适应性，可能导致在数据异质性较强的联邦系统中出现次优性能。

Efficient Federated Learning with Masked Images

3.1. Problem Definition

作者采用分布在个客户端上的监督分类任务来表述作者的问题。每个客户端拥有一个数据集，其中表示数据样本，表示相应的标签。这里，表示数据点的数量，表示输入维度，而表示类别的数量。

3.2.Overview

如图3所示，EFTViT 在客户端和中央服务器之间采用分层训练机制，以实现隐私保护和高效的协作学习。每个客户端包含一个具有个Transformer层的本地模块、一个具有个Transformer层的共享全局模块以及一个分类头。本地模块和分类头在客户端上使用未遮掩的图像片段进行训练，实现高效的地方训练并生成代表局部知识的片段特征。

为了保护数据分布的隐私，在上传到服务器之前，客户端采用中位数采样策略创建平衡片段特征（BPF）数据集。随后，服务器使用来自客户端的BPF数据集对全局模块进行训练，以有效学习所有任务的全局表示。最后，服务器将更新后的全局模块参数传回客户端，以便进行下一轮训练。

picture.image

3.3. Training with Masked Images

为了在资源受限的客户端上实现高效的局部训练，作者提出了一种基于块的优化策略。首先，每个输入图像被分割成一系列规则、不重叠的块，并以比例的概率进行随机遮掩。未被遮掩的块，记为，随后用于训练作者的框架。作者将客户端中局部模块获取到的块特征定义为，其中，且表示从中随机遮掩图像块并丢弃选定块的操作。为了保留 ViTs 中的块顺序，剩余块的位置嵌入 [28] 被保留下来。

这种做法借鉴了图像内部冗余的特点，减少了模型需要处理的数据量，从而降低了计算复杂度。此外，这些块特征使得直接从非常小部分图像重建原始图像变得极其困难，这赋予了 EFTViT 内容隐私的优势。值得注意的是，整个图像用于每个客户端的推理过程中。

3.4.Data Distribution Protection with Median Sam pling

为了在EFTViT中增强隐私性，作者提出了一种中位数采样策略，在每个客户端生成一个平衡的patch特征数据集。该策略旨在确保每个客户端生成的patch特征包含相同数量的每个类别的样本，从而防止上传到中央服务器时泄露统计信息或用户偏好。在联邦学习中，客户端上的数据分布不均衡是一个常见问题，而中位数由于对极端值不敏感，非常适合解决这一挑战。

作者的中位数采样策略通过计算每个客户端上每类样本的数量中位数来区分少数类和多数类，然后通过对少数类进行过采样增加样本数量，对多数类进行下采样减少样本数量。具体来说，对于少数类样本，所有跨多个本地训练周期生成的patch特征都会保留；而对于多数类样本，则仅保留最终周期生成的patch特征。随后，通过下采样将每个类别的样本数量减少到中位数。实验结果显示，提高采样阈值会增加计算成本，但不会显著提升最终性能。

3.5. Hierarchical Training Paradigm

为了在不牺牲性能的前提下有效减轻客户端的计算负担，作者提出了一种新的层级训练策略，该策略旨在最小化分配给客户端的可训练参数数量。如前所述，作者的ViT模型由一系列轻量级局部模块、一个共享的大规模全局模块以及一个分类头组成。

在客户端训练。在客户端上，局部模块负责将图像片段映射为片段特征，而全局模块则将编码为表示向量。最终的分类 Head 将表示向量转换为与类别的数量相匹配的形式。

仅局部模块和分类 Head 的参数可训练，而全局模块的参数保持冻结，并通过从服务器下载进行逐步更新。对于客户端，所使用的本地训练损失函数定义为：

其中，是客户端的类别数，是标签的概率分布。参数、、分别来自局部模块、全局模块和分类头。因此，优化目标是使以下内容最小化：

其中和是可训练的。

在服务器上进行训练。服务器从客户端聚合异构知识以学习适用于多种任务的通用表示。最新的训练轮次中，来自参与客户端上传的均衡Patch特征数据集用于训练全局模块和分类头。损失函数可以表示为：

其中是总类数，是标签在数据上的概率分布。服务器上的优化目标是最小化

其中，和分别表示来自客户端上传的patches的特征和标签。

3.6. Collaborative Algorithms

作者的EFTViT的整体工作流程如Algorithm 1和Algorithm 2所示。在每一轮开始时，服务器会从个客户端中随机选择比例为的客户端参与训练。每个客户端使用从服务器接收到的参数更新其全局模块和分类头，并随后启动本地训练。此外，EFTViT还会上传对应于图像面积25%的 Patch 特征，这些特征的上传受到 Mask 率的控制，即使从理论上讲可以恢复原始图像，但这样做也极大地增加了图像原貌恢复的难度。如果需要进一步增强数据内容隐私性，还可以提高 Mask 率。

数据分布隐私保护。为了保护用户统计信息和偏好，在客户端上作者通过提出的中位数采样策略平衡了Patch特征，确保每个类别的样本数量相等。此外，作者的策略与其它隐私保护方法（如差分隐私[9]）相互独立，可以无缝集成到EFTViT中，从而提供更强的攻击防护能力。

中值采样应用于Patch特征，以掩盖局部数据分布并生成一个平衡的数据集。详细的处理过程见算法1。

picture.image

3.7. Privacy & Complexity Analysis

数据内容隐私。与以往的认知不同，近期的研究表明，在联邦学习训练过程中交换中间特征比共享梯度更为安全。这是因为攻击者只能访问不断演化的特征图，而非最终完全训练好的特征图，从而使得数据重建攻击更具挑战性。复杂度分析。以ViT模型为例，令表示原始图像的分辨率，表示每个图像片段的分辨率，为由此得到的数量，为潜在向量大小，而则表示Transformer层的数量。为了简化计算，假设、和的大小为。

每个客户端模型包含个Transformer层，分为层用于局部模块，层用于全局模块。模型在比例的图像片段上进行训练，其中为 Mask 比率。客户端前向传播的时间复杂度为。由于全局模块中的个Transformer层参数被冻结，因此反向传播的时间复杂度为。因此，客户端训练阶段的整体时间复杂度为。随着逼近且逼近1，模型在客户端的计算复杂度逐渐下降。作者的默认配置为、和，显著减轻了客户端的计算负担。

由于您提供的是一张图片链接，而图片中的内容无法直接显示或复制，因此我无法直接为您完成翻译。请您将图片中的文本内容复制或输入到这里，我将根据您提供的英文文本进行翻译。

Experiments

4.1. Datasets

为了全面评估EFTViT的表现，作者在两个广泛使用的联邦学习数据集中进行了实验，即CIFAR-10 [18]和CIFAR-100 [18]，以及一个更具挑战性的数据集UC Merced Land-Use [34]，用于遥感应用。CIFAR-10和CIFAR-100数据集各自包含60,000张彩色图像。

CIFAR-10按照10个类别组织，每个类别有6,000张图像（其中5,000张用于训练，1,000张用于测试），而CIFAR-100包含100个类别，每个类别有600张图像（其中500张用于训练，100张用于测试）。UC Merced Land-Use数据集包含21个土地利用类别，例如农业用地、森林、高速公路、海滩以及其他类别，每个类别有100张图像（其中80张用于训练，20张用于测试）。作者根据Dirichlet分布将样本分配给所有客户端，并设置浓度参数为以模拟高度异质性或低度异质性。

4.2. Implementations

作者使用在ImageNet-21K [26] 上预训练的ViT-B [8] 作为框架的主干网络。输入图像被调整为大小为，同时使用大小为的 patch 。

在训练过程中，应用了随机裁剪、翻转和亮度调整等数据增强技术。按照联邦学习的做法，作者将客户端数量设为100，并设置客户端选择比例。采用AdamW优化器，初始学习率为，权重衰减为0.05，并使用余弦退火的学习率调度，其中包含warm-up阶段。对于每个客户端，训练和测试时的批量大小均为32。

所有实验均在一台单块NVIDIA GeForce RTX 3090 GPU上进行。每一轮中，客户端在当地训练5个周期，而服务器额外执行2个周期。整个框架总共训练200轮，大约需要24小时。

4.3. Comparison with State-of-the-Art Methods

由于缺乏在资源受限客户端训练ViTs的研究，作者采用FEDBFPT方法[33]作为强 Baseline ，该方法最初是为自然语言处理任务设计的，并逐步优化较浅层的网络结构，同时选择性地采样较深层以减少资源消耗。为了建立额外的 Baseline ，作者将几种广为人知的PEFT方法适应到作者的联邦学习框架中：

(a) Fed-Head：仅训练 Head 层参数；

(b) Fed-Bias：应用偏差调整[36]，专注于仅训练偏差项；

(c) Fed-Prompt：结合 Prompt 调整[16]，向输入添加可训练的 Prompt 嵌入；以及(d) FedLoRA：通过向 Query 和值层加入LoRA模块整合LoRA调整[14]。这些方法使用FedAVG[24]进行参数聚合。除了这一点外，在联邦学习场景中，作者的方法和 Baseline 方法在设置上是相同的。

测试准确性。各种数据集和数据异质性水平下所有方法的测试结果在表1中有所呈现。需要注意的是，Fed-Full是指在没有资源约束的情况下，在客户端训练所有ViT参数，这作为比较的参考基准。相比 Baseline 方法，EFTViT在所有场景中均显示出明显的性能提升。例如，在β=0.1的情况下，作者在UC Merced土地利用数据集上的表现比第二好的方法高出超过7.61%。值得注意的是，作者的方法在高和低数据异质性设置中显示了一致的结果，并且在更高的异质性环境下性能甚至更好。

相比之下， Baseline 方法随着数据异质性的增加，其性能显著下降。这些发现强调了作者分层训练策略在有效处理数据异质性方面的重要性。

收敛性。作者在高异质性设置下，在CIFAR-10、CIFAR-100和UC 梅塞德斯土地用途数据集上报告了EFTViT、FEDBFPT以及其他 Baseline 在100轮训练过程中的测试准确性变化情况，如图4所示。在整个训练阶段，作者的方法在三个数据集上始终获得最高的测试准确性，并且收敛速度更快、更稳定。为了定量比较收敛速度，作者将目标准确性设为85%，并记录达到该阈值所需的训练轮数（# Rounds）。如表2所示，在UC 梅塞德斯土地用途数据集上，EFTViT显著加速了收敛过程，相比Fed-Prompt实现了27.1倍的更快收敛。

picture.image

计算效率。作者从两个方面评估了EFTViT在客户端的计算效率：训练过程中前向传播的计算成本以及客户端的最大局部训练时间。计算成本以十亿浮点运算（GFLOPs）为单位进行衡量。在目标准确率为85%的情况下，作者在三个数据集上报告了EFTViT与其他基准方法在本地训练中的最大局部训练时间（Time）。

表3的结果显示，作者的方法在这两项指标上都显著提高了计算效率。特别是，在GFLOPs方面，EFTViT至少比其他方法提高了两倍的效率。对于训练时间，与UC Merced Land-Use数据集上的FEDBFPT相比，EFTViT将本地训练时间减少了2.8倍。这表明，作者的 Mask 图像和分层训练策略有效地减少了客户端的计算量，使得EFTViT非常适合在资源受限环境中进行联邦学习。

picture.image

4.4. Ablation Study

作者进行了广泛的消融实验以探究作者方法的关键组件。

Mask 比例的影响。 Mask 比例(r_{m})决定了被 Mask 的图像片段的数量。较小的(r_{m})减少了输入数据量，从而在模型训练期间降低计算需求。表4提供了不同 Mask 率下的GFLOPs，显示增加 Mask 比例显著减少GFLOPs。然而，增加 Mask 比例也会影响整体性能。作者评估了EFTViT在不同 Mask 率下的效果。图5展示了当(\beta=0.1)时，EFTViT在CIFAR-100上的不同 Mask 率结果。结果显示，EFTViT可以支持广泛的 Mask 比例范围。当 Mask 比例从0%增加到75%时，准确率仍超过90%。然而，当 Mask 比例超过75%时，性能会大幅下降。因此，作者选择75%的 Mask 比例，在准确率和计算效率之间取得平衡。局部模块层数(M)的影响。层数(M)决定了客户端与服务器之间的可训练参数分配，影响客户端的计算负载及最终性能

。表5列出了不同(M)值下每个客户端的可训练参数数量(# Params)及其对应的模型准确率。结果表明，(M)对测试准确率的影响甚微，展示了EFTViT对于客户端资源的优越鲁棒性。鉴于较大的(M)值在客户端带来的更高计算成本以及准确率的下降，作者选择(M=2)作为默认设置。采样阈值的影响。如第3.4节所述，采样阈值决定了上传至服务器用于训练的平衡片段特征的数量。因此，较高的阈值会增加服务器训练的成本。作者研究了在EFTViT中使用中位数或较高采样阈值的影响，如图6所示。结果显示，提高阈值带来的性能改进微乎其微。为了提高服务器端的计算效率，作者在方法中选择了中位数作为阈值。

picture.image

参考

[0]. EFTViT: Efficient Federated Training of Vision Transformers with Masked Images on Resource-Constrained Edge Devices .

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

EFTViT: 在资源受限的边缘设备上对带遮罩图像的视觉变换器:(VisionTransformers)的高效联合训练 ！

参考