减少从头训练需求，PROFIT 针对预训练模型微调的优化器，在图像分类和运动预测任务上的表现优异！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

预训练模型的微调已成为计算机视觉和机器人领域的宝贵工具。近期的微调方法侧重于通过使用较小的学习率或冻结主干网络来提高效率，而非提高准确性。

为了重新关注模型的准确性，作者提出了PROFIT（Proximally Restricted Optimizer For Iterative Training），这是首款专门设计用于逐步微调已收敛模型在新任务或数据集上的优化器。

与基于随机初始化而几乎不做假设的传统优化器（如SGD或Adam）不同，PROFIT 利用了已收敛模型的结构来规整优化过程，从而取得了更好的效果。

通过采用简单的时域梯度正交化过程，PROFIT 在图像分类、表示学习以及大规模运动预测等多种任务上均优于传统微调方法。

此外，PROFIT 融合在优化器逻辑中，使其易于嵌入到任何训练流水线中，无需过多工程努力。像PROFIT这样的新型微调优化器可以推动微调和逐步训练的发展，减少从头开始培训模型的成本依赖。

Introduction

在解决计算机视觉和机器人问题时，对预训练模型进行微调已经成为一种普遍采用的方法。随着数据集和模型规模的不断扩大，为每一个新的应用场景和环境重新训练一个新模型很快就会变得不可行。想象一下，如果每次自主车辆需要在一个新的城市运营，或者每次需要识别一种新的物体时，都必须训练一个新的模型，成本会有多大。深度学习社区向微调方向的转变也受到了在大量数据上训练的大规模基础模型如CLIP [40] 和DINO [5] 的发展推动。确实，有迹象表明，深度学习正在逐步接近一个全新的范式，在这个范式中，只需要从头训练一些简单的模型。

同时，微调模型本身也伴随着一系列挑战。首先，当模型在新信息上进行微调时，已知模型往往会迅速遗忘旧信息，这一现象被称为灾难性遗忘 [16]。已经提出了一些缓解方法 [30]，但这些方法通常需要额外的数据工程和模型架构的修改。微调过程中仍然广泛依赖的是使用较小的学习率在新任务/数据上进行训练，或者冻结 Backbone 网络（两者兼有）。参数高效微调方法如LoRA [18]引入了可学习的 Adapter 模块以实现迁移学习，但主要目的是提高微调效率而不是准确性 [2]。在本工作中，作者旨在特别提高微调的准确性，同时保持过程的高效性，不引入任何额外的参数。

深度学习训练中一个普遍存在的元素，并且几乎总是以模块化方式实现的是优化器。大多数模型会选择一些非争议性的选项（例如Adam[24]、AdamW[34] 或 Momentum[47]）作为优化器。然而，当前所有的优化器都是为了从头训练设计的，这要求它们的设计假设关于问题设置的最少结构信息。相比之下，在微调设置中通常是从一个已经训练良好并收敛的模型开始的，作者对其已有信任。因此，作者提出的问题是：如何设计一个优化器，特别是当作者从类似领域的一个已收敛模型开始时？鉴于优化器在训练Pipeline中的普遍性和模块性，这样的优化器可以直接应用于任何微调场景中，并且很容易实现。

诸如 Learning Without Forgetting (LWF) [30]等研究通过迫使模型接近其旧状态来减轻灾难性遗忘，但这种方法需要额外的数据 Pipeline 和作为附加监督的模型快照，以确保模型保持在其旧“良好”状态。作者 Proposal 了一种不同的但同样有效的 Anchor 定方法，即在兼容约束下进行微调 Anchor 定。作者称这种方法为“近邻微调”，其中微调数据集来自与预训练相似的分布。尽管这一约束可能看起来有些限制，“近邻微调”在机器学习应用中却非常普遍。例如，自动驾驶汽车的轨迹预测网络可能需要使用相同的传感器对新类型的滑板车进行预测头的训练。

时间上，在每次优化器迭代中，作者可以远离平衡状态并利用梯度基多任务学习文献中的标准方法，平衡进一步远离平衡状态的步骤与模型返回平衡状态的愿望。最终得到一个系统，该系统模拟了数据驱动的 Anchor 方法（例如[30]），但无需实际进行数据处理，并用一个动态更新的灵活 Anchor 取代了其他方法中的刚性静态 Anchor 。

特别地，当模型在某个状态收敛时，它会按照标准优化器沿着状态进行。进一步的更新会使系统转向。然而，由于是一个“好状态”，模型也会受益于返回到。

因此，作者有两个潜在冲突的梯度方向（和），这是一个经典的多任务学习问题。作者借鉴[55]的做法，并将，其中表示正交化操作。然后作者将模型恢复到状态（如图1右上角所示的“翻译”操作），并沿正交化方向进行一步操作。

picture.image

PROFIT（近端限制优化器用于迭代训练）的操作依赖于微调和基准设置之间的兼容性，因为它旨在动态保持模型状态接近基准状态。PROFIT 在使模型适应邻近分布方面表现出色，因此这种兼容性是作者方法的关键组成部分。

这排除了一些通常称为微调的情况（例如，在ImageNet上进行预训练，在不相关的数据集上进行微调），作者将这些预训练场景与实际应用场景区分开来。作者称作者的方法为PROFIT，即近端微调，其过程示意图见图1。据作者所知，PROFIT 是专门为微调环境设计的第一个优化器。正如作者将要展示的那样，PROFIT 在这些情况下提供了显著的性能提升。

作者的主要贡献如下：

作者提出了PROFIT，这是一种专门用于微调良好 Baseline 模型的优化器，并且可以轻松地嵌入到任何深度学习训练框架中。作者证明PROFIT使作者能够在无监督的方式下进行训练，仿佛依然能够访问旧的数据/设置。
作者在多种场景中实验证明，PROFIT在从低维度玩具示例到图像分类再到自动驾驶大规模运动预测等多个领域均优于标准的微调方法。
Related work

在多任务学习（MTL）的详细背景介绍方面，作者参照了[59]中的相关内容。MTL [59]是一个优化问题，在该问题中作者通过训练一个模型来处理多个任务以利用共享神经网络的结构，从而提高泛化能力。其中一种方法是使用梯度下降法来优化联合多任务学习问题。作者的设置与这种方法有一些相似之处，但不同的是，作者将问题视为时间上的多任务学习。Ozan [44]将MTL问题表述为一个多目标优化问题，并学习动态变化的损失权重。

GradNorm [10]试图通过归一化梯度来平衡多个任务的学习。PCGrad [55]则提出，为了避免梯度方向冲突，作者应该将一个任务的梯度投影到其他任务梯度的法平面中。作者提出的技术类似于PCGrad，但在“邻近微调”设置中进行了核心设计的具体修改。

Adapter Adapter 引入了可学习的参数以帮助迁移学习。 Adapter 中的可训练参数数量远少于模型本身，这使得它们在实践中非常吸引人。已经提出了多种策略，例如视觉 Prompt 调优[21]、侧边 Adapter [57]、偏差调优[4]和残差 Adapter [41]，以便实现高效的迁移学习。LoRA[18]通过将注意力模块中的投影矩阵分解为低秩矩阵来更新这些矩阵。与作者的方法不同， Adapter 需要额外的参数，并且可能还需要假设特定类别的模型架构才能取得成功（例如，Transformer）。

基于优化器的微调针对特定数据集的微调是深度学习时代的一种常见技术。 practitioners 经常使用标准的优化器，如随机梯度下降（SGD）[3]、Adam[24] 和 AdamW[34]。

近年来，ViTs[5, 12, 40] 或 ConvNeXts[32] 使用 AdamW 进行微调，而 ResNets[17, 26] 类似模型则常用 SGD 进行微调，这主要是由于优化器的高效性。然而，SGD 和 AdamW 并不假设作者希望保持靠近模型的初始状态，因此在新数据上微调时会导致模型在老数据上的表现退化，这也被称为灾难性遗忘[37]。作者的方法作为一种正则化手段，旨在弥补现有优化器中的不足，以减轻这种遗忘问题。

连续学习为了应对这一问题，开发了多种方法，例如基于正则化的技术，其目标是在连续学习过程中保留过去任务学到的信息。特别是，Mirzadeh等人[19]展示了连续学习与多任务学习之间的联系，并且Farajtabar等人[14]提出了将新任务的梯度投影到先前任务梯度的空间中。Learning Without Forgetting (LWF)[30]建议存储旧模型在新任务/数据上的响应，并使用distillation损失监督新的模型以防止灾难性遗忘[36]。作者的工作借鉴了LWF的核心思想，即存储预训练模型的响应，但作者的目的是避免存储旧数据/预训练权重/统计信息。相反，作者使用每次迭代初始状态时网络的响应。另外两种应对灾难性遗忘的方法是回顾性方法，它们直接利用旧数据源，以及通过设计新架构来最小化任务间干扰的架构方法。这些方法增加了显著的基础设施开销，而作者所采用的方法因其实现简便而具有吸引力。由于作者的方法本质上是一个优化器，不需要额外的存储空间（不同于连续学习范式），作者没有将其与连续学习方法进行比较评价。

Method

3.1. The PROFIT Optimizer

作者将在算法1中描述PROFIT的完整算法。作者的方法易于理解且模块化，可以封装在一个优化器步骤的定义中。接下来，作者将讨论超参数并详细说明其实现，并最终概述PROFIT的假设及其限制。

PROFIT 的实现大致上涉及定义一个优化器包装器，该包装器以两个单独的标准优化器和作为输入参数。后者“参考”优化器会从平衡状态扰动系统，而前者“主”优化器则利用这种扰动进行最终更新。PROFIT 整个逻辑可以封装在这个优化器包装器类中，从而使方法非常便携、模块化，并且不受“主”优化器选择的影响。

给定一个基于权重的已训练模型，该模型是在对应旧任务的数据上进行训练的，而另一个数据源则来自相似领域且对应新的任务（具有任务损失）。作者的目标是通过微调使其在旧任务和新任务上都能表现出色。需要注意的是，作者对输入PRoFIT的模型要求它是收敛的；模型中的任何随机或未训练的权重都可能导致性能不佳。此外，作者的模型还需要两个具体的优化器：一个标准优化器和一个参考优化器。用户可以根据需要调整，而对于，作者建议使用SGD。优化器的工作步骤如下。首先，作者将当前的状态存储起来，通过将保存到中来实现。接着，作者从中逐批抽取个批次，并使用参考优化器迭代最小化。作者现在已经使系统偏离了平衡状态，接下来需要决定恢复这种平衡的最佳方式。

为了实现这一目标，作者首先计算，这是经过优化器的步优化之后作者原始位置的总位移。作者假设如果存储的平衡状态对应于原始模型的良好临界点，那么对应的就是能够恢复原始临界点的良性梯度方向。因此，作者有两个潜在冲突的梯度更新：一个对应于，另一个则是由下一步 Query 得到的更新，作者称之为 g。作者需要决定如何取一个既与这两个选项相一致的单一梯度步长。

作者借鉴了PCGrad[55]的一个想法，通过两两方式正交投影冲突的梯度来调和它们。关键的是，作者选择仅将投影到上，而不反过来投影，因为代表旧数据集上的一个梯度，可能已不再可用，因此需要更加谨慎地处理。因此，作者最终得到两个梯度更新和，并通过首先恢复，然后允许沿方向移动来执行这两步。这个过程直到训练完成为止重复进行。

有趣的是，这种表述使得作者可以将微调视为一种时间上的多任务学习，其中的两个任务分别是：(1) 预训练，和 (2) 微调。据作者所知，这是首次从这一角度进行观察，这一洞察可能为未来关于微调的研究开辟新的途径。

3.2. Hyperparameter Discussion and Tradeoffs

PROFIT 引入了三个主要超参数用于微调：、和。如前所述，控制参考优化器探索的程度，而控制每次参考步骤中的步长大小。的选择可以根据实践者的需要进行设置，但一般应将其设置为标准的 SGD，因为 PROFIT 所依赖的梯度计算在参考更新简单的情况下最为干净。

3.3. Theoretical Considerations

作者现在列出 PROFIT 的 few 个简单的理论性质，并附上证明的草图。作者首先证明 PROFIT 是“正确的”，即它能够降低旧模型的任务/设置上的损失。作者还通过列举所有稳定的 PROFIT 点来讨论 PROFIT 可能会失效的情况，但认为在实际应用中这通常不是问题。

（旧数据上的准确性。）考虑一个在旧数据上收敛并具有损失的模型，作者现在希望在这个模型上用新数据和新的损失进行微调。假设将参数映射到。在批量数据上应用 PROFIT 的单一步骤（使用足够小的学习率和），将会从处减少的值。

证明草图：如果模型在旧数据上收敛，那么它必然位于旧数据的局部极小点处。如果学习率足够小，那么必须指向定义在算法 1 中的方向，因此使用梯度的更新一定会减少的值。

先前的定理证明了PROFIT确实实现了其目标：即使旧数据不再可用，PROFIT仍然允许作者训练，就好像作者仍然可以计算旧数据的完整损失函数一样。随着系统远离旧平衡状态，作者可以通过这些正则化更新部分恢复旧平衡的功能。值得注意的是，有一种情况下，PROFIT会导致一个简单的更新。

(稳定点.) 假设一个模型具有权重，并且映射，其中是SGD。如果模型不是的临界点，则 PROFIT 将导致模型权重没有变化，当且仅当成立，其中表示与对应的单位向量。证明：在这种情况下，将指向方向，此时，所以从 PROFIT 得到的总更新将是的恢复更新。如果梯度相等条件不成立，则将导致非零的总更新。

（线性性迫使系统收敛到一个稳定点。）在定理3.3定义的情况下，如果损失曲面在与之间完美线性，则PROFIT将遇到一个稳定点。先前的定理和推论表明，当损失曲面在某一点变得完全局部线性时，PROFIT将无法移动系统。这几乎不会发生在高维损失曲面上，而高维损失曲面存在于深度模型中；即使在第4.1节描述的二维玩具示例中，作者也能观察到合理的性能表现。

3.4. Assumptions and Limitations

和之间的正交化意味着作者关注的是解决原始数据集和微调数据集之间的冲突问题。如果原始分布和微调分布差异显著，那么正交化的梯度方向可能对两个任务都没有益处，并可能导致破坏性的干涉。因此，作者的解释仅在原始数据集和微调数据集来自相近分布时才成立。假设 1 可能与典型的微调文献有所不同并显得限制性很强，但在实践中却极为常见。例如，一辆自动驾驶汽车不仅需要为一种新类型的滑板车训练分类头，还需要继续保持对之前观察到的车辆的良好性能。

假设2是必要的，因为作者的方法专门设计用于微调（这是基本原则之一）。尽管如此，作者在此处包括它，以强调读者PROFIT不能用于一般模型优化。

如第3.3节所述，PROFIT 每个迭代需要对批数据进行推理（对于，需要两批），因此其速度比标准微调优化器慢。实际上，作者观察到PROFIT 的收敛速度通常早于对应的 Baseline 方法（这些 Baseline 方法被允许训练更长时间以保证公平比较），这可能有助于缓解这一问题。此外，作者还注意到，典型的微调设置通常较短且不如从头训练那样复杂，这也可能进一步减轻这一顾虑。另一个限制是由于实例化两个优化器和 O]，作者的方法会略微消耗更多的内存。

Experiments

作者现在详细介绍了PROFIT在多种场景下的实验：从低维度玩具设置到图像分类、视觉任务适应以及大规模运动预测。作者主要关注与标准微调方法的比较，这些方法通常使用标准优化器（对整个模型或只是模型头进行微调），因为它们因已知的性能和易于实现而在行业中仍然最为常用。作者将展示，尽管PROFIT易于实现，但在所有情况下都能显著提升性能。

4.1. A Simple Toy Example

作者在本节中展示了在简单低维度玩具示例上的结果。作者发现，在低维度设置中测试新的算法总是很有启发性，并且能够让作者获得在更高维度实验噪声中难以获取的洞见。

具体来说，作者拟合了一系列简单的MLP模型到一个二维函数上。作者选择函数作为基准，因为无论是球对称还是周期性的函数，对于神经网络而言通常是更具有挑战性的拟合目标。此外，作者在输出中添加了噪声。尽管作者希望拟合一个低维的例子，但对于看到模型内部有趣的特性而言，问题仍然需要足够难，特别是在第3.3节讨论的维度要求下。原始数据集包含独立来自的输入坐标与输出配对，而作者希望对其进行微调的新数据集则来自的输入坐标。这同样是极具挑战性的，因为虽然这两个数据集的领域在区间[0.8, 1.0]上有重叠，但在很大程度上是不重叠的。

作者的MLP由三层组成，权重形状分别为，作者使用RMSProp作为基准优化器。基准模型仅在原始数据划分上训练了10000个步骤，学习率为1e-2，微调运行则在学习率为5e-4的情况下训练1500个步骤。有关训练过程的具体细节，请参阅补充材料。

图2可视化了实验结果。从视觉上来看，PROFIT的优势非常明显；在对整个模型进行微调时，生成的形状严重扭曲，与原始GT几乎毫无相似之处，即使仅对 Head 层进行微调，生成形状的整体高度也会产生显著变化。PROFIT仅在分布陡峭边缘处有轻微的回归的情况下，能够有效记住原始形状。

picture.image

从数值上来看，如表1所示，在使用不同技术进行微调后，PROFIT显然在保留原始数据集分布方面优于 Baseline 模型。尽管PROFIT调整了所有模型权重，但它相对于只微调 Head 的 Baseline 模型而言，显著减轻了遗忘现象，即使PROFIT作用于更多的权重。完全模型的微调会导致灾难性的后果，预测结果出现显著变形。PROFIT允许作者在不遭受灾难性遗忘问题的前提下享受全面模型微调的灵活性。

picture.image

尽管PROFIT部分受LWF [30]的启发，但值得注意的是，LWF不适用于数据集领域转移，因为它使用旧模型在新数据上的评估来生成额外的监督信息。对于大型输入域转移，这种监督信息的质量将会非常差。因此，这些实验还展示了PROFIT是一个相当通用的微调工具。

4.2. Image Classification

接下来，作者展示了PROFIT在图像分类任务上的有效性。CIFAR10和CIFAR100 [28] 是图像分类的事实标准基准数据集。该数据集包含大小为 (32 \times 32) 的输入图像，网络的任务是将图像分类到 (K) 个类别中的一个。

作者首先在CIFAR10上训练一个网络（预训练），然后在CIFAR100上微调该网络。如前所述，PROFIT的一个假设是近邻性，即预训练和微调数据集需要来自相似的数据分布领域。对于作者的选择而言，这一假设得到了满足，因为CIFAR10和CIFAR100都是Tiny Images [49]的带标签子集。

作者尝试了多种 Backbone 网络的选择，包括ResNet-18 [17]、ViT-Tiny和ViT-Small [12]。作者将PROFIT与多种 Baseline 方法进行了比较，例如随机梯度下降法(SGD)、Adam [23]、Lookahead [58] 和 Adan [54]。作者运行了三次实验并报告了最佳结果，但实验结果之间的差异较小。

作者的结果见表2，表中显示PROFIT在所有 Backbone 网络和优化器上都能更好地完成微调任务。此外，在经过微调后的CIFAR10数据集上，作者还获得了更高的准确率，这表明作者的方法更擅长保持旧任务的性能。例如，使用Adan优化器对ResNet-18进行微调可获得CIFAR10上的35.17%准确率和CIFAR100上的72.70%准确率，而采用PROFIT则显示出更好的原任务性能（CIFAR10上的35.26%准确率）和微调任务性能（CIFAR100上的74.70%准确率）。使用ViT-Tiny和Adam进行微调时，CIFAR10上的准确率为55.64%，CIFAR100上的准确率为61.35%，但作者的方法表现更优，分别达到CIFAR10上的58.53%和CIFAR100上的62.20%。使用Adam对ViT-Small进行微调时，CIFAR10上的准确率为58.60%，CIFAR100上的准确率为63.93%，然而，采用PROFIT可以分别达到CIFAR10上的59.02%和CIFAR100上的65.44%。

picture.image

作者在表4中展示了的变化情况。总体而言，作者发现增加可以提高原始任务的效果，但会牺牲微调任务的表现。这一现象符合作者在第3.2节中的讨论，因为控制着远离稳定点的探索程度。因此，作者建议从开始尝试。

picture.image

作者还在表4中消融了的表现，结果显示最佳选择可能会因backbone的不同而变化。一般来说，较大的值促进新任务准确性，而较小的值有效缓解灾难性遗忘。这些结果是合理的，因为较小的值相当于参考点更接近原始模型状态。然而，作者在老任务和新任务准确性上始终能够击败 Baseline 。

作者还使用这种设置来证明假设2（第3.4节），即假设PROFIT在未收敛的模型上表现不佳。当作者在CIFAR100数据集上从头训练一个ResNet-18模型并使用PROFIT时，作者得到的准确率为1.05%，这与随机猜测的准确性相当。

4.3.Visual Task Adaptation Benchmark

Visual任务适配基准（VTAB-1K）[56]是一个流行的表示学习基准，用于评估在各种分类任务中的泛化能力。该基准包括来自广泛领域内的19个不同的任务，旨在学习能在这些所有任务上表现良好的特征表示。性能通过计算每个19个任务上的分类准确率来衡量。

作者在实验中使用了带有ImageNet预训练的ViT-Base [20]作为 Backbone 网络。这种设置是一个原分布（ImageNet）和微调分布（VTAB-1K）显著不同的例子，违反了假设1（第3.4节）。虽然作者的方法在这种微调设置下可能不太理想，但在实践中这种情况很常见。在本节中，作者展示了如何在这种设置下利用作者的方法。

作者将在表5中展示作者的结果，并将作者的方法与使用整个模型微调的Adam W [34]（完整微调，第1行）以及仅最终层微调的方法进行比较（线性微调，第2行）。使用PROFIT进行的完整微调效果不佳，在基准测试中的19个任务上表现出较差的性能。

picture.image

然而，作者提供了一套在这些场景中使用PROFIT进行训练的方法。首先，作者使用带有10个epoch预热优化的AdamW对模型进行微调，使其适应目标分布，然后使用PROFIT再继续微调剩余的90个epoch（PROFIT预热）。直观地说，这会使模型的分布介于预训练和微调分布之间，使它更适合PROFIT的结构。这种方法的表现优于完全使用AdamW进行模型微调。因此，虽然如第3.4节所述，作者的方法不推荐用于非近邻设置，但在另一种优化器进行短时间预热的情况下，PROFIT能够显著优于使用标准优化器进行全面微调。

4.4. Large-Scale Robotics Motion Prediction

作者现在展示了PROFIT在具有大量高维度数据集的极其具有挑战性的基准测试中的表现。Waymo 开放运动数据集(WOMD) [13] 是一个大规模的驾驶数据集，来源于真实的场景。任务是在给定最后一秒的多模态观测信息的前提下，在接下来的8秒内预测一个智能体的未来轨迹，这些观测信息包括智能体的历史、附近智能体的历史、地图信息以及交通灯状态。预测模型采用了一种最先进的早期融合Transformer——Wayformer [38]，通过自注意力Transformer融合多模态输入特征，并使用学习到的潜在Query来预测未来的轨迹样本。

作者首先在汽车轨迹预测上训练一个模型，然后对该模型进行微调，使其适配相同类别（汽车）以及不同类别（行人）的数据。对于作者的 Baseline 方法，作者采用AdamW [34] 优化器。WOMD相较于之前的设置有一个重要的区别，即作者可以考察PROFIT在(1) 在相同数据上进行微调和(2) 在不同领域变换的任务上进行微调时的表现。例如，CIFAR100明确属于与CIFAR10相同的分布中，但行人的轨迹与汽车的轨迹在语义上有本质的不同。

图3和表6展示了实验结果。平均距离误差（ADE）衡量的是预测轨迹上每个点的实际路径与预测路径之间的平均距离，而最终距离误差（FDE）仅考虑预测轨迹终点处的误差。结果显示，在所有情况下，PROFIT 在性能上都优于 Baseline 模型，并且在车辆到行人的微调任务上优势尤为显著。这与在其他设置中的结果一致，仅微调 Head 分在车辆到行人的任务中表现不佳，而完全微调虽然效果较为理想但仍无法超越PROFIT。作者得出结论认为，PROFIT 能够更好地利用模型来适配新的相关应用场景。

picture.image

作者在卡沃-卡罗基准测试中也观察到了轻微但显著的性能提升，这表明PROFIT可以用于从已经收敛的任何模型中提取更多的性能。甚至可以设想一种情境，在这种情境中，使用PROFIT进行定期额外训练已成为标准模型维护实践的一部分。

4.5. Driving with Vision Language Models

DriveLM [46] 是一个视觉问答（VQA）基准，用于评估在自动驾驶环境下的视觉语言模型（VLMs）。DriveLM-nuscenes 数据集包含传感器输入和文本 Prompt ，网络旨在分别针对感知、预测和规划能力提供准确的文本回应。

DriveLM 基准测试利用多种视觉问答 (VQA) 指标进行评估。BLEU [39] 通过测量生成文本和参考文本的 n-克Gram 相似度来评估精确度。ROUGE L [31] 通过测量生成文本和参考文本之间的最长公共子序列来评估召回率。CIDEr [51] 通过计算生成句子和参考句子的 n-克Gram TF-IDF 向量之间的余弦相似度来评估质量。GPT 分数旨在通过使用 ChatGPT（GPT-3.5-Turbo）作为评估器来捕捉上述指标中遗漏的语义细微差别。除了这些指标外，还使用场景中的真实目标物体来评估感知准确性，而预测准确性则基于离散化的未来状态进行评估。匹配分数则评估 VLM 是否正确理解了在场景中需要关注其他智能体的顺序。基准测试的最终评分为这些指标加权平均值。更多细节，请参阅 DriveLM 挑战的评估标准 [11]。

作者使用了一个预训练的LLAMA-Adapter-v2 [15]，它对LLAMA-7B [50]进行了偏差调整。作者将PROFIT与AdamW [34]进行了比较，AdamW是用于微调大语言模型（VLMs）的事实标准方法。

作者在DriveLM验证集上的结果如表7所示。PROFIT在感知和预测准确性方面分别比AdamW提高了5.6%，比GPT高1.5%，比Match Score高1%，并使最终得分提高了2%。此外，PROFIT在VQA中的表现也更好，这从语言指标(BLEU-4, ROUGE L, CIDEr)的改进中可以看出来。作者提供了方法的推理可视化图（图4）。使用AdamW微调的基本模型无法检测到交通灯和黑色轿车，在这种情况下，它建议闯红灯，这是一个潜在的致命错误。而PROFIT能够成功识别出红灯，并且通过规划保持静止来遵守交通法规。作者得出结论，PROFIT是VLM时代提高性能的一种有用工具。

picture.image

作者在表8中消除了对PROFIT性能的影响，这是一个关键的超参数。一般来说，较大的值鼓励探索并提高微调任务的准确性。这遵循了第4.2节的内容，因为较小的意味着参考步骤与预训练模型的距离更近。

picture.image

Conclusion

作者提出了一种名为PROFIT的优化器，旨在模型微调过程中增强其稳定性。与无法假设太多训练环境的常规优化器不同，作者能够对模型先前状态的信心假设使PROFIT能够有效防止模型权重过度偏离其之前的良好状态。作者在以下场景中展示了PROFIT的表现：

(1) 在玩具示例中，从数据流形外的全新数据进行微调；

(2) 利用CIFAR10预训练的数据，从CIFAR10数据集到CIFAR100的微调；

(3) 在VTAB-1K中对新数据分布进行微调；

(4) 对全新任务进行微调，以及在大规模运动预测任务上对相同任务进行微调。在所有情况下，PROFIT均优于广泛使用的标准微调方法，同时与通用模型训练Pipeline的集成同样简便。

作者认为，PROFIT不仅应成为深度学习实践者的重要工具，还开启了关于开发一种新型优化器的讨论，这些优化器将在新的深度学习时代中至关重要地支持以微调为主要训练范式的深度学习。

参考

[0]. PROFIT: A Specialized Optimizer for Deep Fine Tuning .

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」