2023 年度总结之大模型的微调｜社区征文 - 文章 - 开发者社区

随着最近几年大模型在各行各业的广泛应用，人们逐渐意识到了大模型强大的任务处理能力。然而，在实践中，将这些大型模型用于下游任务时需要对每个模型都进行一个独立和完整的微调过程来适应不同的任务，但这种策略需要为每个任务存储和部署一个单独的主干网络参数副本。因此这种方法通常成本很高且不可行，特别是基于 Transformer 架构的模型会比卷积神经网络大得多。这限制了它在不同视觉领域的可移植性。

为了应对这一挑战，人们采用了许多对大模型进行微调的方法，其中较为受到人们关注的是依靠冻结参数的 Visual Prompt Tuning，Adapter-Tunning 等。其中 Visual Prompt Tuning（VPT）方法的研究者受到最近 prompt 方法以及高效调整大模型方法的启发，提出一种优化 Transformer 的有效方案。其在不修改或微调预训练 Transformer 大模型本身的情况下，通过在 Transformer 大模型的输入中引入少量(不到模型参数的 1%)的可训练参数，同时保持模型主干冻结的方法来改善大模型的性能，使得大模型对下游任务有极大的提升效果。具体如图 1 所示。

picture.image

图 1：Visual Prompt Tuning

接下来我们再来说说最为特殊的是 Adapt-Tunning。它引入了轻量级模块，在仅向大模型中添加不到 2%的额外参数的同时它能够在不更新其原始预训练参数的情况下增加大模型的可转移性，且效果显著优于现有的完全优化的模型。其次，它可以在不同的 Transformer 大模型中即插即用，并可扩展到许多视觉任务。具体如图 2 所示。

picture.image

图 2:之前的完全微调和我们的 AdaptFormer 微调的比较。AdaptFormer 在概念上很简单，用 AdaptMLP 替换原来的 MLP 块，AdaptMLP 由两个分支组成，包括冻结分支(左)和可训练的 down→ up 瓶颈模块(右)。

为了更好地对比两种主流微调方法的性能，我们采用 ViT-Base (ViT-B/16)作为我们的主干模型，并使用监督和自监督方法对模型进行预训练，来对比两种主流方法的性能。

AdaptFormer 初始化：对于原始网络，我们直接加载在上游任务上预先训练的权重，并在微调过程中保持它们冻结/不变。对于新添加的模块，下投影层的权重初始化，而附加网络的偏差和上投影层的权重用零初始化来配置。其他层的零初始化的原因是，以这种方式，初始新添加的参数被初始化，使得新函数类似于微调阶段开始时的原始函数。

表 1 中将不同微调方法的性能与通过自我监督范例预训练的主干进行了比较。结果表明，AdaptFormer 始终超越 VPT 方法。具体来说，AdaptFormer64 在图像基准 CIFAR-100、SVHN 和 Food-101 上分别优于 VPT 3.46%、2.87%和 4.63%。在更具挑战性的视频动作识别数据集 SomethingSomething V2 上，优势变得更加显著，约为 15%。请注意，即使与全微调策略相比，AdaptFormer 在 SSv2 数据集上仍优于大约 5%的 Top-1 精度。总的来说，AdaptFormer 具有很高的参数效率，并且产生良好的性能，参数大小最多是完全微调方式的 2%。

picture.image 表 1:使用自我监督的预训练模型进行微调。对于可调参数，我们还在括号中报告了参数百分比。此外，我们报告了不同数据集上的最高精度，以及相对于全调优机制的绝对值和差距值。表示由于不稳定训练导致的 0.1 倍学习率。

因此，我们知道了 Adapter-Tuning 是一个适用性更广，效果也相对更好的方法，其能够给予最近比较火热的大模型进行更好地微调效果。

InfoQ 首发文章的原文链接：https://xie.infoq.cn/article/bad654b18b1319368bbe570f2