备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
随着其在各个领域和任务中的出色表现和强大的泛化能力,机器学习模型越来越受到广泛的应用。然而,其成功与否取决于大量标注数据的可用性,而创建这些数据通常具有劳动密集、耗时和昂贵的特点。
为了解决这些挑战,已经提出了许多主动学习(AL)方法,但它们往往无法充分利用AL的核心阶段的信息,例如在 Token 数据上训练和在 未标注 数据上 Query 新的 未标注 样本。为了弥合这一差距,作者提出了一种新的AL方法,即损失预测损失与梯度范数(LPLgrad),旨在有效地量化模型不确定性并提高图像分类任务的准确性。
LPLgrad在两个不同的阶段运行:
(i)训练阶段,旨在通过联合训练主要模型和辅助模型来预测输入特征的损失。这两个模型都使用 Token 数据进行训练,以最大化学习过程的有效性,这在以前的AL方法中往往被忽视。
(ii) Query 阶段,通过计算 未标注 数据中样本的熵值的梯度范数来量化主要模型的不确定性,从而指导样本选择。通过计算 未标注 数据集中样本的熵值梯度范数,选择具有最大梯度范数的样本进行 Token ,并将其添加到 Token 集中,从而在最小化 Token 努力的同时提高模型性能。
在实际数据集上的广泛评估表明,与最先进的方法相比,LPLgrad方法在少量 Token 图像上的准确率提高几个数量级,同时在多个图像分类任务中实现可比的训练和 Query 时间。作者的代码已发布在GitHub上。
I Introduction
由于其卓越的表现和泛化能力,机器学习模型正在迅速地应用于各个领域。这些模型依赖于数据和真实标签来取得成功。然而,获取真实标签通常具有挑战性。例如,在医学影像中,领域专家必须支付费用来标注数据点,而在语音识别中,将音频数据标签到词 Level 比实际语音持续时间要花费大量时间[1]。手动标注过程既耗时又费力[2, 3]。
主动学习(AL)通过智能选择最具有信息性的数据点进行 Token ,从而降低整体标注工作量[4]。在每个主动学习轮次中,选择一组新的 未标注 点进行标注并添加到 Token 集中,然后目标模型将在更新的 Token 集上进行训练(图1展示了一个典型的AL过程的概述)。近年来,提出了各种主动学习方法,通常可分为_不确定性采样_和_多样性采样_两大类。不确定性采样针对模型最不确定的类别数据点,方法如熵采样[5],边界采样[6]和最小置信度采样[5]等。而多样性采样则旨在选择代表整个数据集的最多样化样本,近年来包括Coreset[7],变分对抗主动学习(VAAL)[8]和Wasserstein对抗主动学习(WAAL)[9]等方法。
挑战 。尽管AL(自动标注)方法减少了传统的手动标注工作,但它们往往无法充分利用AL的核心阶段(如在标注集上训练和 Query 新的无标签样本)中的信息。例如,损失预测损失(LPL),这是一种不确定性采样方法,将损失预测模块与目标模型相结合,通过联合学习得到两个损失值——目标损失和预测损失。然后,选择具有最高预测损失值的未标注点进行 Token [10]。然而,损失预测模块中的超参数在大规模数据集(如Tiny ImageNet[11]和EMNIST[12])中可能非常敏感,导致性能下降[1]。此外,作者在实践中观察到,根据预测损失值选择点的方法相比根据其熵值选择点的方法效果较差(参见第IV节)。
另一方面,利用输出熵计算梯度范数的方法,如王等人[13]所提出,强调被选择样本与模型在测试数据上的性能之间的联系,从而指导样本选择。
贡献 在本文中,作者提出了一种新颖的AI方法(AL)名为 Loss Prediction Loss with Gradient Norm (LPLgrad)。LPLgrad 融合了一种基于熵的方法来量化模型不确定性,从而提高图像分类的准确性。具体来说,作者提出的 AL 方法受到 [10] 的启发,但在三个关键方面有所不同:
(i)在 Query 阶段,作者没有像 [10] 那样使用损失预测模块,而是将损失预测模块作为辅助模型与主模型只在训练阶段(见图2 中的绿色区域)集成;
(ii)在 Query 阶段,作者使用网络概率分数而不是输入特征,因为它们直接表示模型对预测的信心;
(iii)作者通过同时学习主模型和辅助模型进行增强训练,并计算 未标注 实例的输出熵和随后梯度范数作为不确定性的度量,而不是像
那样预测损失值,以捕捉训练和 Query 阶段的最佳方面。
总结起来,作者的贡献可以概括如下:
作者提出了一种名为LPLgrad的新颖AL算法,该算法利用损失预测模块学习输入数据特征,并基于梯度范数有效地量化网络在未标注数据上的不确定性。据作者所知,这是第一种同时利用AL的训练和采样阶段的信息来解决文献中常见的一个问题的方法,这使得样本选择的决策更加知情和审慎。
在训练过程中,作者整合了一个主模型,同时使用一个预测损失的辅助模型,以同时学习_参数辅助模型和主模型。这使作者能够有效地从数据中提取输入特征和复杂模式。随后,模型利用 未标注 样本的梯度范数作为不确定性的度量,在样本 Query 过程中进行明智的决策。
广泛的评估结果表明,在诸如图像分类等视觉任务上,与最先进的基于状态的算法相比,所提出的方法在不同的标注预算下表现出优越性能。
II Related Work
在本节中,作者将回顾最近在AI领域的相关工作,这些工作可以分为三个主要方法:不确定性采样、多样性采样和混合采样。
Uncertainty based Methods
此类AI方法通过评估目标深度网络对这些无标签数据点的不确定性来衡量无标签数据的 _信息效用_。它们优先选择这些无标签数据点进行标注,并将其添加到模型表现出显著不确定性的 Token 集合中。在这个背景下,Wang等人[5]提出了一种基于模型不确定性的数据选择度量,称为熵采样。这种度量是用于不确定性量化和数据选择的最广泛使用的方法之一。最近提出的一些主动学习方法的工作包括[14, 15, 16]。例如,[14]的作者提出了一种技术,该技术结合了已知和未知的数据分布来测量模型的不确定性。另一项工作[15]介绍了一种方法,该方法利用模型参数中的噪声稳定性作为不确定性度量。最近[16]提出了一种通过使用高斯过程(GP)模型作为基准神经网络学习者的替代物来估计模型的不确定性。另一项最近的工作[4]中,Verified Pseudo-label Selection for Deep Active Learning(VERIPS)由[16]提出,它使用一个只针对由神谕批准的数据进行训练的第二网络的伪标签验证机制,有助于丢弃可疑的伪标签。
尽管上述方法有效降低了标注工作量,但它们都存在一个共同问题:由于其高不确定性,它们容易筛选出异常值。此外,过分关注不确定点采样可能导致不可靠的模型预测和 Query 冗余数据,最终导致模型性能下降[2]。
Diversity based Methods
在这一类的AI方法中,学习者 Query 代表整个数据分布的示例,如[7,8]中的工作。在[7]中,作者提出了核集方法,这是基于多样性的AI中最突出的一种方法。它将AI视为核集问题,根据样本的几何属性选择无标签样本。尽管这种方法有效,但计算密集且采样时间延迟,因为它需要存储一个 Token 样本的数组与新样本进行比较。然而,[8]的作者提出了一种变分对抗AI(VAAL)方法,该方法利用变分自动编码器在潜在空间学习 Token 数据的分布,并结合一个区分 Token 和 未标注 数据的对抗网络。但是,VAAL需要多次训练VAE,使其计算密集。
尽管基于多样性的方法有效地捕获了潜在的数据分布,但它们可能无法充分利用 未标注 数据的信息,这些信息对于训练任务学习者至关重要。此外,这些技术可能对决策边界附近的数据点不敏感,尽管这些点对于目标模型 Query 至关重要[2]。
在本文中,作者提出了一种基于不确定性的AL算法,该算法通过利用训练和 Query 阶段来解决上述限制。作者的算法通过模型的联合训练有效学习输入数据的特征,从而从输入点中提取固有模式,并减少选择冗余数据的可能性。在选择阶段,它根据其_梯度范数值_选择 未标注 的点,这可以有效地降低测试损失。
III Proposed Methodology
在本节中,作者全面解释了组成作者提出的AL方法LPLgrad的组件。作者首先从问题定义和框架概述开始,然后详细描述了LPLgrad的两个主要构建模块:训练阶段和 Query 阶段。
Problem Formulation and Framework
给定一个无标签的数据样本池
,其中
是总样本数,作者的目标是解决具有
个类别的多分类问题。为此,作者首先通过从无标签池
中随机选择
个样本构建一个有标签的多分类
(
表示数据点
的标签)。这里,上标
表示当前的AL轮数,随着训练的进行,它增加1。然后,作者使用一组模型
,并在
上训练它们。训练过程涉及一种增强方法,其中主模型
和辅助模型
共同学习。
一旦在选定的集
上完成训练,作者计算
中所有样本的输出熵(仅包括未选择的剩余样本)。这些熵值代表
所承担的损失。然后,作者更新
的参数,并将每个样本的梯度范数存储起来。这些存储的值将被排序,并选择在下一个AL周期(
)中具有最大梯度范数的
样本进行标签。
在后续循环中,更新的 Token 和 未标注 集分别表示为
和
。然后,主模型和辅助模型将在
上进行训练,分别更新它们的模型权重为
和
。这个过程在后续AL周期中继续进行,直到达到某个准确度阈值,预定义的迭代预算用完,或达到任何其他终止条件。
以下,作者详细描述了作者提出的LPLgrad框架(参见图2中的红编号圆圈):
在每一轮AL(Alternating Loss)
中,作者选择一组 Token 图像
来同时喂给主模型
和辅助模型
。主模型
的设计目标是从选定的 Token 图像中提取特征,并将这些特征传递给辅助模型
。随后,主模型和辅助模型分别产生损失,这些损失共同学习以生成总损失
。
LPLgrad Training Phase
LPLgrad的训练阶段涉及两个主要模型:主模型
和辅助模型
。LPLgrad同时训练主模型
和辅助模型
,将辅助模型
集成到其架构中,以有效捕捉输入数据中的复杂模式和特征。这是如何工作的:
对于每个数据点
,作者得到两个值:一个是主模型的预测值
,另一个是特征图
,它通过辅助模型
处理后输出预测损失
。主模型的损失
采用交叉熵损失计算,将预测值
和样本
的真实标签
作为输入,可以表示为:
辅助模型的损失
是基于预测损失
及其对应的主观损失值
计算的,可以表示为:
这里,
是一个参数,用于表示在应用惩罚之前,预测损失与真实损失之间应相差多少。方程中的
用于确定边际惩罚的方向,其计算方式如下:
这确保了边际的正确调整,要么惩罚预测损失,要么不惩罚预测损失,这取决于预测损失和真实损失之间的相对差异。为了使辅助模型
对损失的整体尺度变化具有鲁棒性,作者从
中构建了一个包含
个示例的子批次。作者形成了
个数据对,表示为
,其中
表示一对示例
和
。上标
表示一对数据点的损失,分别表示为辅助模型和主模型的损失,如方程(2)所示,分别为
和
。
请注意,公式(2)中的
表示对配对中的特定样本的预测损失,该损失通过处理输入特征并经过
而获得,而辅助模型的整体损失用
表示。辅助模型
是通过比较每个数据对的主模型预测损失
和辅助模型预测损失
之间的差异而学习的。
训练阶段的总体损失计算如下:
LPLgrad 利用主模型
的多级输入特征提取,这些特征随后被输入到辅助模型
中。具体来说,
模型包含一系列与
模型中的层对应的块。每个块由两个不同的层组成:全局平均池化层和全连接层。这些块处理来自
模型层的特征图
,生成预测损失
的标量值。作者的目标是同时最小化由
模型生成的预测损失
和由
模型确定的实际损失
。这种优化策略使模型能够不仅识别相关输入特征,还能够有效地整合丰富的多级输入空间信息。
算法1概括了LPLgrad的训练阶段。
LPLgrad Querying Phase
在训练主模型
和辅助模型
之后,LPLgrad转向第二阶段,该阶段主要针对新的样本进行标签 Query 。尽管Yoo等人[10]提出的算法利用
模型来确定最具有信息量的点,但作者的实证结果揭示了一种更有效的策略。具体而言,根据熵值选择样本提供了一种稳健的替代方法。损失预测模块中的超参数在大规模数据集(如[11]和EMNIST[12])中可能非常敏感,导致性能下降。此外,由于该模型直接将模型置信度分数集成进去,而不是通过附加的损失预测模块进行计算,因此使用熵来更好地估计模型的不确定性。具体而言,根据梯度范数值选择样本提供了一种稳健的替代方法。
为了实现这一目标,作者首先从无标签集
中提取每个样本的嵌入
主
要
。然后,作者使用一个softmax分类器来获得后验概率
,可以表示为:
P(yi|xi)=∑P(yj|xi)ajj
其中,P(yi|xi) 表示给定样本
时,类别为
的概率;P(yj|xi) 表示给定样本
时,类别为
的概率;ajj 表示softmax分类器中每个类别的权重。
这些后验概率然后用于计算每个样本的输出熵,可以表示为
其中
表示在样本
下,类别
的预测概率,
是数据集中的总类别数。
作者将这个熵视为损失,并在损失函数上进行反向传播,计算每个样本
的
模型参数的梯度:
这些梯度的费波尼乌斯范数随后被计算,以评估网络对输入的敏感性。
这些所有输入的梯度范数随后被存储并排序,以识别最高值,可以表示为
在作者的 Query 阶段,作者遵循[13]中提出的理论见解,即从 未标注 集合中选择具有较大梯度范数的样本,可以导致总损失的上界减少。因此,作者通过优先选择具有最大梯度范数的样本进行标注来指导作者的选择过程。随后,这些选择的样本被添加到 Token 集合
中。值得注意的是,在新型样本的选择过程中,
模型的参数不会更新。
算法2总结了LPLgrad的 Query 阶段。
IV Experiments
在本节中,作者对LPLgrad在各种数据集上的性能进行了评估,并将其准确性与几种 Baseline 方法进行了比较。此外,作者还评估了LPLgrad的计算性能,包括 Query 和训练时间。
Experimental Setup
为了确保准确的结果,作者在5次实验中平均所有实验,并报告平均结果。以下,作者详细描述作者的设置:
数据集。 作者使用以下四个公开可用的基准数据集来评估作者提出的LPLgrad方法:CIFAR-10 [17],CIFAR-100 [17],SVHN [6],Caltech-101 [18],这些数据集在最新的(SOTA)比较中经常使用。此外,作者还将在另一个实际数据集上验证LPLgrad,该数据集为_综合灾害数据集(CDD)_ [19],以评估其鲁棒性。下面,作者将简要描述每个数据集。
CIFAR-10 & CIFAR-100 [17]: 这两个数据集,前者包含10个不同类别,后者包含100个类别。每个数据集包含60,000张彩色图像,这些图像均匀地分布在各个类别中。具体来说,在CIFAR-10中,每个类别有5000个样本,而在CIFAR-100中,每个类别有600个样本。这些图像的大小都是32x32像素,并具有各种目标,如动物、车辆等。
SVHN [6]:SVHN(街道视图房屋编号)数据集包含总共630,420张带有颜色的房屋编号图像,每种数字分为10类。这些图像的大小为32
32,类似于CIFAR-10和CIFAR-100。数据集分为三个子集:用于训练的73,257张图像,用于测试的26,032张图像,以及包含额外530,420张图像的额外子集。为了与其他AL方法进行公平比较,作者并未使用SVHN数据集中提供的额外子集。
Caltech-101 [18]: 该数据集包含101个类别中的物体图像,使其成为一个高度不平衡的数据集,超过100个类别。例如,每个类别有约40到800张图像,大多数类别约有50张图像。数据集中有5800张训练图像和2877张测试图像,每张图像的大小约为300
200像素。
综合灾害数据集(CDD)[19]:该数据集包含总共10,733张图像,分为火灾灾害、行人伤亡、土地灾害、水灾等。它分为两个主要子集:8,591张训练图像和2,142张测试图像,共6个类别。这是一个非常不平衡的数据集,每个类别的样本数量从29到1,668不等。这些图像的分辨率均为32×32像素。
Baseline 方法 作者将作者提出的LPLgrad算法与文献[10, 13, 20, 7]中讨论的最新AL方法进行比较。具体而言,作者考虑两大类:i)基于不确定性的方法,如LearningLoss [10],Ent-GradNorm [13]和熵[5],以及ii)基于多样性的方法,如coreset [7],这在第I和II节中进行了回顾。此外,作者将LPLgrad与非AL策略进行比较,其中 未标注 的样本被随机选择以扩充 Token 集。作者将这种方法称为随机取样(Rand)。
训练模型 。为了确保与 Baseline 进行公平的比较,作者将训练一个18层残差网络(ResNet-18)作为作者的主要模型
,在所有实验中进行图像分类。作者遵循 Baseline 研究的设置和超参数以重现他们的结果。此外,作者使用随机梯度下降(SGD)作为优化器,所有数据集的动量为0.9。每个数据集的其余训练设置如下:
对于CIFAR10和CIFAR100,作者使用学习率(lr)为0.1,训练
和
模型200个周期,在经过160个周期后,将lr降低为原来的0.1倍。
对于SVHN,作者使用lr=0.01,训练
和
模型200个周期,在40个周期后将lr减少0.1。
对于Caltech-101,主网络模型
和辅助网络模型
在50个epoch中进行训练,学习率初始为0.01,在40个epoch后衰减为0.1。
对于CDD,主模型
和辅助模型
均采用200个epoch进行训练,学习率初始值为0.01,在经过40个epoch后衰减为0.1。
对于训练ResNet-18模型,作者从大型未标注池中随机选择一组初始样本
进行标注并转换到标注集,然后将其添加到训练数据集中。然而,作者注意到这种随机选择可能导致每次都存在重叠的图像和相似的选择。为了缓解这个问题,作者采用了[21]中使用的技术,从未标注样本池中获取一个随机子集
。这种简单技术证明是有效的,因为它减少了冗余。作者根据每个数据集的总样本数量和
的大小调整
的值,考虑了数据集大小和类不平衡性之间的差异,因为数据集中的每个类别具有不同数量的数据点。
在表2中,作者详细列出了所有实验在所有数据集上的 Query 批次大小
,随机选择的集合
的大小以及标注预算(A)。A和
的值是根据AL文献[22,23,24,25]的标准做法选择的。表格的上部分提供了高A(如图3所示的图表)的详细信息,而表格的下部分对应低A(如图4所示的图表)。
Results
对比LPLgrad与 Baseline 。首先,作者在图像分类任务上评估LPLgrad方法与 Baseline 的性能,该任务的高A。在表3中,作者详细展示了LPLgrad在几乎所有数据集上都优于其对比方法的结果。值得注意的是,LPLgrad在所有数据集上都取得了显著的优势,尤其是在具有挑战性的数据集(如CIFAR100和Caltech101)上。例如,在Caltech101数据集上,该数据集具有超过100个类别的高度不平衡性,LPLgrad相对于所有 Baseline 明显具有优势,将准确率提高了约5%。学习损失[10]成为表现第二好的方法,有时甚至超过了Ent-GradNorm[13]。熵通常排名第三,Coreset和Rand紧随其后。有趣的是,Coreset在几乎所有场景下的表现都与Rand相似。
在图3和4中,作者呈现了LPLgrad在两种不同的标注预算(A)设置(高和低)下在各种数据集上的分类准确性。这些结果与作者的 Baseline 方法进行了比较。例如,在图3(a)中,作者展示了当分类CIFAR-10数据集时,作者的 Baseline 方法的准确性曲线。作者的方法LPLgrad在所有A值上都优于 Baseline 方法,最终轮次达到最高91%的准确性。LearningLoss[10]是次佳表现的方法,其次是Ent-GradNorm[13]和熵[5]。熵在前七轮落后于Ent-GradNorm,但在最后三轮中赶超。Coreset[7],唯一的基于多样性方法,在AL轮的前一半中表现不佳,最终与Rand相匹配。
对于CIFAR-100数据集,由于其包含100个细粒度类别,因此最为具有挑战性。图3(b)显示,LPLgrad在所有 Baseline 中表现最好,达到68%的高精度。在这里,Ent-GradNorm是表现第二好的算法,随后是熵采样,这说明它们在大规模数据集设置中的有效性。学习损失在结束前与熵表现相当。核心集和随机数是表现最差的两种方法。作为一种纯粹基于多样性的方法,核心集无法超越基于不确定性的方法,如熵、Ent-GradNorm和LPLgrad。
图3(c)显示了LPLgrad在SVHN数据集上的准确率曲线。所有算法在这个数据集上表现良好,包括作者的LPLgrad方法,实现了≥ 95%的准确率,除Coreset和Rand,其准确率为90%。学习损失在第一轮的表现比 LPLgrad差,但在后一轮略微领先。熵和Ent-GradNorm在第五轮时下降,但稳定下来,并与其他算法表现相当。最后,图3(d)比较了LPLgrad在Caltech-101数据集上的 Baseline 。LPLgrad明显优于其他方法,实现了57.4%的准确率。Ent-GradNorm紧随其后,成为最佳的第二名表现者。熵和LearningLoss最初表现不佳,但有所改善,并最终接近Ent-GradNorm。Coreset是第二差的AL方法,Rand紧随其后。基于不确定性的方法始终优于基于多样性的方法。然而,所有方法,包括LPLgrad,在Caltech-101数据集上的性能最低,这表明增加A可能改善结果,尽管需要更多的训练时间。
观察图4中低A的结果,LPLgrad始终实现了最高的准确率,在所有数据集上都优于所有 Baseline 方法。在加州理工学院101数据集中,Coreset方法最初在准确率上高于LPLgrad。然而,随着学习曲线收敛,LPLgrad再次在准确率上超越 Baseline 方法。
评估LPLgrad在具有挑战性的数据集上的准确性 。作者在图5中评估LPLgrad在更具挑战性的数据集CDD上的性能,以展示其在比 Baseline 更困难的数据集上的有效性。在图5(a)中,展示了一个高预算A的结果,LPLgrad的准确率约为64%。到了第一轮AL后,它超过了所有其他 Baseline ,并在所有轮次中持续获得最佳性能,达到近75%。学习损失也表现出了强大的性能,排名第二。熵也表现出了强大的性能,最终成为最佳表现算法。熵梯度Norm试图在几乎一半的轮次中赶上,但随后其性能显著下降。类似的趋势也见于熵。核心集和随机数都开始表现良好,但它们的性能随着轮次下降,核心集最终的表现甚至不如随机数。
图5(b)呈现了在低预算环境下CDD分类的结果。在这里,LPLgrad在所有AL轮次中始终优于其他方法,实现了69%的准确率。由于低预算环境,整体准确率相较于高标注预算场景较低。熵表现相当不错,获得第二好的成绩。有趣的是,Ent-GradNorm在这种情况下排名垫底。Coreset、随机和熵在最后阶段继续交替排名。
对比LPLgrad的计算时间与基准。在表4中,作者展示了LPLgrad在训练和 Query 阶段与作者的基准(使用Nvidia A100 80GB RAM GPUs)所需的计算时间。作者的观察表明,Coreset是最耗时的算法,因为需要存储所有数据并与存储的数据进行比较。另一方面,LPLgrad在某些情况下,其性能可与Entropy、Ent-GradNorm和LearningLoss媲美。虽然有些情况下,LPLgrad可能需要更多的时间进行反向传播和参数更新,但这种权衡带来了更高的准确性,使得额外的投入变得物有所值。
评估LPLgrad的特征嵌入。首先,作者在图6中展示了t-分布随机邻近嵌入(t-SNE)可视化LPLgrad,以说明输入特征在四个不同的AL轮次(2,4,6,8)之间的分布。该可视化明显表明,在仅进行8轮之后,LPLgrad已成功将CIFAR-10图像分入各自的10个类别。LPLgrad不仅在不同类别实例之间表现出强大的区分能力,而且在AL轮次逐步推进的过程中,还显示出更准确地分配这些实例标签的能力。
评估LPLgrad的置信度分数。接下来,在图7中,作者展示了模型对于CIFAR-10数据集的 Token 样本和 未标注 样本的置信度分数的频率分布,特别是在接近0.99的分数附近,跨越了相同的AL轮次(2,4,6,8)。作者在所有子图上绘制了10,000个 未标注 图像的置信度分数,而随后的每张图中 Token 样本的数量增加了1,000,从1,000开始。具体来说,图7(a)说明 未标注 样本的置信度分数在置信区间内分布更广。有大约4,000张图像的模型对其预测充满信心,但有1,000张图像的置信频率低于0.99。相比之下,对于 Token 图像,近700张图像的置信分数在0.99和1之间。图7(b)显示了第四个AL轮次的分数频率。显然,现在有6,000个 未标注 图像的置信度分数在0.99和1之间。同样,对于 Token 样本,有大约3,500张图像被正确预测,因此 Token 和 未标注 样本的置信度分数的分布都减小了。
移动到图7(c),作者观察到 bins 的分布进一步减小,表明模型对于 Token 和 未标注 图像的置信度都有所提高。它给大约7,500个 未标注 图像和6,000个 Token 图像的置信度分数在0.9和1之间。在图7(d)中,作者发现 Token 图像已经超过了 未标注 图像,分别有约8,500和8,200个图像的置信度分数在0.99和1之间。
评估LPLgrad在CIFAR-10数据集上所有10个类别的分类准确性。在图8中,作者分析了LPLgrad在四个AL类别下,在CIFAR-10数据集上的所有10个类别的分类准确性。具体来说,图8显示了第二个AL轮的结果,其中模型缺乏信心,最高准确率仅达到55.7%。转向图8(b),描述了第四个AL轮,作者观察到所有类别的显著改进,模型达到峰值准确率80%。图8(c)说明了第六个AL轮,其中模型的熟练程度继续提高,达到最高的准确率88.6%。最后,图8(d)显示了第八个AL轮的结果,其中模型全面理解了数据集,在所有类别的准确率上保持了一致的高水平,最高准确率达到了93.3%。
Ablation Study
在本小节中,作者深入探讨了将辅助模型集成到训练 Pipeline 中以提高训练准确性的重要性。作者通过比较仅使用主模型
进行独立训练(即不使用辅助模型)和在使用辅助模型时获得的结果,来探讨辅助模型的影响。辅助模型的主要作用是增强主模型学习输入特征的效率和处理能力。它通过引入一组与主模型同时训练的额外层来实现这一点。这种设置允许辅助模型捕获数据的补充信息和细微差别,而主模型可能无法注意到这些。通过这样做,作者旨在提高主模型的整体性能、鲁棒性和泛化能力。以下各节将详细介绍并分析这些方法,以突出将辅助模型纳入训练方案的实际效益。
在表5和VI中,作者分别针对两种不同的标注预算设置A,在四个不同的数据集上进行了比较。这些结果表明,辅助模型在整个训练过程中始终支持主模型,使其性能得到提高。具体而言,辅助模型的引入导致了大约8%的准确率提升。这一提升在所有训练周期中都有所体现,显示出辅助模型在提高主模型性能和稳定性方面的有效性。表格提供了辅助模型对准确性和结果一致性积极影响的详细证据,无论训练阶段如何。
V Conclusion and Future Work
在本文中,作者提出了LPLgrad,一种新颖的AL方法,旨在解决文献中一个常见的问题:AL核心阶段的低效利用,特别是训练和 Query 阶段。
为了充分利用 Token 数据,作者采用了一种增强方法,其中两个模型(主模型和辅助模型)一起训练,以最优地学习输入数据的特征。此外,为了有效地 Query 最有信息的样本,作者计算了 未标注 集合的熵值,并反向传播这些值以获得损失值。
这个损失值最小化,并且计算主模型参数的损失值与梯度。然后计算Frobenius范数,排序,并用于识别具有最高梯度范数值的样本,这些样本被选中进行 Token 并添加到 Token 集合中。
作者在各种图像分类数据集和一个实际数据集上广泛评估LPLgrad,以验证其有效性。作者的发现表明,LPLgrad通过实现更高的准确性和更少的 Token 数量以及更少的计算时间,超越了最先进的方法。
[0]. LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training.