点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
超参数选择是机器学习流水线的关键方面,它极大地影响着模型的鲁棒性、稳定性和泛化能力。考虑到神经网络所关联的复杂超参数空间以及计算资源和时间的限制,优化所有超参数变得不切实际。
在这种背景下,利用超参数重要性评估(HIA)可以提供宝贵的指导,从而缩小搜索空间。
这使得机器学习从业者能够专注于对模型性能影响最大的超参数进行优化,同时节省时间和资源。本文旨在利用N-ReliefF算法量化卷积神经网络(CNN)中一些超参数的重要性权重,为深度学习领域应用HIA方法奠定基础。
作者通过在十个热门图像分类数据集上训练超过一万CNN模型,获得了包含超参数配置实例及其对应性能指标的综合数据集。
实验表明,在所研究的超参数中,CNN模型最重要的前五个超参数是卷积层数、学习率、dropout率、优化器和迭代次数。
1 Introduction
随着深度学习和自动化机器学习框架的普及,超参数优化(HPO)技术已从手动、经验调优演变为自动化方法,如随机搜索[2]、贝叶斯优化[12]和进化算法[9]。然而,由于计算资源和时间的限制,优化大型搜索空间中的所有超参数通常是不切实际的。此外,无论使用哪种HPO算法,作者都需要手动定义超参数搜索空间[4],通常依赖缺乏严谨性的常识规则。超参数重要性评估(HIA)[5]可以通过关注最具影响力的超参数来指导用户。然而,由于超参数的多样性以及收集多个配置性能数据的需求,其在深度学习中的应用尚不充分。
为了填补这一差距,本研究旨在探讨一种称为N-RReliefF的HIA方法[13]是否能为卷积神经网络(CNNs)中的一些超参数提供重要性的洞察。通过将HIA引入深度学习领域,作者的研究可以增强对神经网络模型内部复杂运作的理解,通常被称为“黑 Box ”。尽管作者的方法并不直接解释输入数据和模型输出的联系,但它通过揭示超参数对性能的影响,提高了模型的透明度,从而在模型开发过程中帮助模型开发者做出更明智的决策。本文的主要贡献如下:
在10个图像分类数据集上训练超过10000个卷积神经网络模型,并记录它们的超参数配置以及相应的性能数据,这些数据也可以用于未来的研究,例如分析模型复杂性和效率,以及进行架构分析。
使用N-RReliff来评估CNN中的11个超参数的个体重要性,根据重要性权重生成一个排名。
评估所研究超参数对对的重要性权重。
进一步探讨超参数的重要性权重(具有依赖关系的超参数,如“不同卷积层中的滤波器数量”和“层数”。
2 Related Works
当提到如何量化超参数的重要性时,另一个类似领域可能首先浮现在脑海中,即特征选择[8]。特征选择是在开发预测模型时降低输入特征维度的过程,以节省建模的计算成本,并在某些情况下提高模型性能[17]。它可以使用统计度量来评估每个输入特征与模型性能之间的相关性,以选择最相关的特征[17],这非常类似于HIA的目标。研究发现,以前的研究已经将特征选择方法应用于传统机器学习模型的HIA。
在HIA的初期,Bartz-Beielstein等人[1]使用了轮廓可视化来探索交互参数。然而,这种方法无法处理算法配置场景中由离散超参数形成的配置空间。离散超参数是指参数以离散值取值,例如选择不同的优化器、激活函数或网络结构。这些参数的离散性质使得应用传统假设连续空间的算法变得困难。在2007年,Nannen等人[9]提出了一个用于参数相关性估计的进化算法。
这种方法假设一个平滑的超参数响应面,可以处理连续超参数,但在处理许多超参数配置方面仍有限。为了解决离散超参数的问题,Hutter等人[5]使用基于模型的技术研究超参数和超参数交互的重要性。他们提出了前向选择算法和功能分析变异(ANOVA)算法。前向选择算法迭代地将最小二乘平方误差在验证集上的贪心超参数添加到回归模型中[16]。功能ANOVA(FANOVA)将方差分解应用于随机森林模型,以评估超参数的重要性[5]。这些算法在处理算法配置空间的维度和分散性方面表现出色,但需要迭代构建模型,从而导致时间复杂性增加。此外,本研究仅在一个特定数据集上评估了超参数的重要性。因此,在另一篇论文中,Rijn等人[14]进行了实证研究以获得更代表性的结果。他们将在100个数据集上应用此方法,以确定随机森林和AdaBoost的最重要超参数。
为减轻引入的时间复杂度问题,以了解算法本身的超参数重要性顺序,孙等人[13]提出了一个名为N-RReliefF的算法,这是Relief家族算法的扩展。孙等人[13]将N-RReliefF、正向选择和函数方差分析应用于评估SVM和随机森林分类器的某些超参数的重要性。最终结果表明,这三个方法产生的超参数重要性排名是一致的。对于SVM, "gamma"是最重要的超参数, "complexity"是第二重要的超参数,而 "imputation"是最不重要的。对于随机森林, "split criterion"和 "bootstrap"是最重要的两个超参数,而 "imputation"是最不重要的。此外,实验还揭示出N-RReliefF需要比其他两种方法显著更少的计算时间,这突显了其效率优势,而无需牺牲结果的质量。
3 Algorithm Derivation
Estimation of in the Probabilistic Framework
缓解算法的关键思想是通过评估属性值(即超参数)如何区分最近邻实例的输出,来估计属性(即超参数)的质量(即模型性能指标的影响)。缓解算法对 的估计可以表示为这两个概率之间的差异的近似值[7]。
在公式1中,第一项衡量了将一个实例与来自不同类的最近邻之间的超参数值差异程度。相反,第二项衡量了该实例与其来自相同类的最近邻之间的值差异程度。
然而,Relief是在假设模型输出是离散类别的前提下设计的。实际上,性能度量是一个连续变量,因此在HIA中,“同一类别”和“不同类别”的概念并不适用。为了解决回归问题的这个挑战,一种名为RReliefF的变体被提出[11]。与它的前身不同,RReliefF不依赖于确切地知道两个实例是否属于同一类别。
相反,它采用了一种概率方法来量化模型输出的差异,这导致需要重新表述在这个上下文中。以下将推导RReliefF框架中的修订形式。根据等式1,作者可以将重写为等式2的形式,适用于回归问题。
由于模型的输出是连续变量,作者可以评估给定实例相对于其邻域内最近的邻居的输出 的变异性。这种变异性由公式 3 量化,其中反映了模型输出值在邻域实例之间的差异程度。
同时,作者还可以得到等式4,表示在特定范围内与一个实例及其所有最近邻居进行比较时,超参数的值差异程度的概率。这个概率衡量了在相邻实例之间的变化程度。
此外,作者可以用方程5来定义另一个重要的条件概率。这个概率量化了在最近实例的超参数之间存在差异时,发生变化的概率。具体来说,它展示了超参数变化与模型输出的变化之间的关联性。
根据贝叶斯定理,作者可以得到方程2的第一项:
在概率框架内,作者可以承认:
Eq.7 可以使作者可以推导出 Eq.2 的第二项:
考虑到 diff() 和 diff() 不是独立事件:
将这些派生概率相结合,在ReliefF框架中,的最终表示为:
在对所有超参数执行上述过程后,作者可以得到所有超参数的重要性权重 。此外,为了计算超参数组合的重要性权重,作者应用了一个增强的归一化公式。这种方法旨在按照单个超参数权重之和的指数来缩放权重,从而便于对它们组合影响力进行比较分析[13]。改进的归一化公式如下所示:
Approximating Key Terms in N-R ReliefF
在完成N-RReliefF公式的推导后,作者发现要估计方程10中的W[Θ],只需近似三个项:公式3、公式4和公式9。三个权重,即,和和是这三个项的近似值。
表示随机采样实例的性能指标与每个相邻实例的性能指标之间的累积差异情况,其中相邻实例的数量为。
表示在特定超参数 上的随机采样实例 与每个相邻实例 之间的差异的累积。
同时考虑了在随机选择的实例 和每个相邻实例 之间,性能指标 和特定超参数 的累积差异。
实验设置
Implementation Procedures
实验过程如图1所示,附有每个步骤的详细解释。所有实验在一台配备NVIDIA GeForce RTX 3070Ti GPU、12代Intel(R) Core(TM) i7-12700KF处理器(3.60 GHz)和32 GB RAM的机器上进行。
第一步是数据生成,以准确性为主要衡量标准。作者在十个图像分类数据集上训练了超过10,000个卷积神经网络模型,同时采用随机搜索和BOHB(贝叶斯优化与超调)[3]以7:3的比例进行训练,以确保性能数据分布的平衡。随机搜索倾向于关注低性能区域,而BOHB可以快速识别高性能区域。这种混合方法实现了高效的数据生成,支持了对超参数重要性的强大评估。
随后,作者进行了探索性实验,以评估单个和联合超参数的重要性权重,使用了N-RReliefF(算法1)。作者还固定了卷积层数量,以评估过滤计数的影响。
对于结果验证,作者采用了重复实验策略,通过随机取样生成了10个子集。利用类内相关系数(ICC)[15]对这些子集进行分析,值在0.75至0.90之间表明了作者的结果的稳健性[6]。此外,FANOVA[5]被用于与N-RReliefF进行比较分析,进一步验证了结果的可靠性。
Hyperparameter Configuration Space and Network Structure of CNNs
该实验研究了11个超参数的个体和联合重要性,指出其中一些具有依赖关系,例如卷积层数和每层核数。依赖超参数不能单独分析,而应与影响它们的超参数一起分析。因此,作者在研究“子”超参数时,提出在“父”超参数固定的情况下进行调整。例如,为了比较不同层 Kernel 数的差异,作者首先固定层数。表1列出了超参数、数据类型、配置空间和默认值。
### Network Structure
CNN模型在数据生成阶段其结构会动态变化,但有一些细节是固定的:
(1)每个卷积层后面跟着一个ReLU激活函数和一个池化层。当结构超参数,卷积层数量大于1时,还需要额外的图1:超参数重要性评估的工作流程图 。
(1) 在每个卷积层后添加了ReLU和池化层。
(2) 每个池化层都一致地使用最大池化策略。
(3) 最终输出使用Softmax函数生成。
(4) 在Softmax函数之前,有两个相同的组合按顺序排列,每个组合都包含一个dropout层和一个全连接层,其中超参数dropout rate在两个dropout层之间共享。
(5) 第一个全连接层后跟随一个ReLU函数。
(6) 除另有说明外,所有相关层中的超参数(如填充、步长或dropout rate)应用一致。
Selected Datasets
由于要评估的模型是卷积神经网络(CNN),这是最常用于图像分类的模型,作者从公开可用的来源中选择了十种经典且广泛使用的基准图像分类数据集来生成超参数配置和相应的性能数据。这些数据集旨在代表各种场景。为了评估输入通道数量对CNN模型性能的影响,这些数据集包括五种颜色和五种灰度系列。表2提供了每个数据集的详细信息。在HIA输入数据生成阶段,作者遵循了将每个数据集的训练集和验证集以8:2比例分割的惯例。
5 Evaluation and Results
Initial Data Exploration
在数据探索的初始阶段,作者从各个图像分类数据集产生的数据量入手。图2显示,对于每个数据集,超参数配置的数量以及相关的性能数据都成功超过了1000个实例的阈值。
进一步分析所有十个图像分类数据集产生的数据,整体数据分布如图3所示。如图所示,分布呈现双峰趋势,倾向于性能的极端,而中间性能段的数据量相对较少。
Verifying the Reliability via ICC
为了确保数据的均衡分布,特别是考虑到中性能区间通常数据量较小的情况,作者采用了重复随机子采样策略输入到HIA算法(N-RReliefF)中,每个性能区间限制为最多600个数据点,这一限制是基于每个性能区间生成的数据量而确定的。作者进行了十次子采样,得到了十个不同的子集。将这些子集输入到HIA方法中,作者得到了图3所示的生成数据分布。
然后作者计算了类内相关系数(ICC)来衡量算法在不同迭代中输出的一致性。如图4中的点图所示,对于相同的超参数,重要性权重的聚类非常紧密,ICC值为0.9889。这个高ICC值加强了N-RReliefF方法评估CNN超参数重要性的可靠性。
Importance Wights of Investigated Hyperparameters
最后,作者在整个数据集上执行了N-RReliefF,将K设置为30,以确保通过考虑一系列邻居得到稳定的重要性估计,同时最小化对异常值的敏感性。表3中的结果表明,卷积层的数量、学习率和 dropout率是卷积神经网络(CNN)模型中最重要的超参数,其中卷积层的权重最高。这证实了网络深度是模型性能的关键因素,而学习率和 dropout率在泛化和防止过拟合中也起着重要作用。相比之下,全连接层中的滤波器数量和批量大小对性能的影响最小。
表4中的FANOVA比较分析(4)证实了这些发现,揭示了超参数重要性的相同排名。尽管数值权重不同,但两种方法都强调了卷积层数、学习率和 dropout 率对CNN性能的至关重要影响。
### Joint Importance of Hyperparameter Pairs
由于涉及大量的超参数组合,因此仅展示前十大排名结果。表5进一步证明了架构的深度在确定卷积神经网络(CNN)模型性能方面发挥的关键作用。
### Importance of Filter Counts Across Convolutional Layers
通常,不同超参数之间存在相互依赖关系,这些超参数会影响网络结构。例如,当卷积层数量为3时,第三个卷积层的滤波器数量和第二个卷积层的滤波器数量必须设置。但如果卷积层数量为1,则不存在这两个超参数。因此,本节将探讨不同卷积层“滤波器数量”超参数之间的重要性排序。
在卷积神经网络包含两个卷积层(表6)的情况下,第一层中过滤器数量的重要性权重(0.510872)略高于第二层(0.489128)。这表明在模型性能方面,第一层相对于后续层的配置具有微小但显著的偏好。
当网络深度增加到三卷积层(表7)时,这种趋势变得更加明显。在这里,第一层(0.627518)中的滤波器数量的重要性权重显著超过了第二层(0.366161)和第三层(0.006321)的重要性权重,这强调了滤波器在离输入层越近的层对模型有效性影响越大的明显模式。
6 Conclusions and Future Work
在本研究中,作者调查了N-RReliefF作为一种HIA方法,在深度学习领域的有效性。作者的分析涵盖了我国10个不同图像分类数据集上超过10,000个CNN模型的训练,产生了大量超参数配置及其对模型性能的影响。
为了确保N-RReliefF的可靠性,作者在我国数据集的10个不同子集中计算了Intraclass Correlation Coefficient(ICC)。
作者还使用了FANOVA进行了比较分析。尽管在重要性权重上存在数值差异,但超参数的排名顺序保持一致,这证实了作者的发现具有稳健性。
作者的分析表明,卷积层的数量、学习率和dropout率是最具影响力的超参数,这与机器学习从业者所观察到的最佳实践相符。这不仅验证了该领域常用的经验法则,还提供了它们的定量依据,增强了它们在优化CNN模型中的可靠性和适用性。
此外,关于卷积层中滤波器相对重要性的发现,揭示了明确的趋势:与输入层更接近的层相关的超参数更具影响力,这支持了网络早期层在性能结果中起着更关键作用的原则。
尽管本研究对CNNs的超参数重要性提供了宝贵的见解,但仍有改进的空间。未来的工作将专注于将HIA应用于著名的CNN架构,如LeNet、AlexNet、GoogleNet和ResNet,从而将调查范围扩展到更广泛的深度学习模型,并更深入地理解HIA的适用性和有效性。
[0]. Efficient Hyperparameter Importance Assessment for CNNs.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」