面向实时视觉跟踪的DCF追踪器优化:通道剪枝与浓缩方法 !

大模型数据安全机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

去深追踪器在视觉追踪领域取得了成功。通常,这些追踪器使用最优预训练深度网络来表示所有多样化物体,这些网络从固定的某些层中获得多通道特征。

所使用的深度网络通常经过训练以从大量用于物体分类的数据中提取丰富的知识,因此它们能够很好地表示通用的物体。但是,这些网络过于复杂,无法表示特定移动目标,导致泛化效果较差,并且计算和内存成本较高。

本文提出了一种名为通道蒸馏的新颖和通用的框架,以帮助深追踪器。为了验证通道蒸馏的有效性,作者以判别相关滤波器(DCF)和ECO为例。作者证明了将集成公式可以使特征压缩、响应图生成和模型更新集成为一个统一的最小化能量问题,以适应性选择有用的特征通道,从而提高实时的移动物体追踪效率。

通道蒸馏可以准确地提取好的通道,减轻噪声通道的影响,并总体上减少通道数量,同时适应性泛化到不同的通道和网络。所得到的深度追踪器是准确的、快速的,并且具有较低的内存需求。在流行的基准测试上的广泛实验评估清楚地展示了作者框架的有效性和泛化性。

I Introduction

高效视觉跟踪在许多实际场景的计算机视觉和多媒体应用中起着举足轻重的作用,包括视频分析、视频监控、自动驾驶以及人机交互等。最近,最先进的视觉跟踪器通常基于深度网络,在各种流行的基准测试中表现突出。例如,利用在ImageNet [13]上进行物体分类的深度网络VGG-M [12],具有目标分类的最高5个百分点准确率为84.1%,ECO跟踪器 [10]在OTB100基准测试 [14]上的精确度达到了91%,C-COT跟踪器 [9]在VOT2017基准测试 [15]上的高预期平均重叠(EAO)为0.281。

尽管深度网络在表示能力上具有优势,导致高精确度,但这些跟踪器通常具有高计算和内存成本,降低了跟踪效率,并阻碍了在资源有限设备上的实际部署。这些巨大的成本来自于使用深度网络对通用目标中表示特定跟踪物体的冗余性。一些提出的直接解决方案 [11, 8, 16]应用在线模型更新以适应深度网络已学习目标分类或检测的跟踪。尽管它们表现良好,但这些方法是昂贵的且效率低下。因此,有必要在保持准确性的同时开发高效深度跟踪器。为了提高视觉跟踪效率,已经提出了许多深度跟踪器,可以根据其特征处理方案分为三类:学习、加权和管理压缩跟踪器。

学习

深度跟踪器直接从大量的有标注视觉数据中学习新的压缩深度网络,用于跟踪的特征表示。例如,Bertinetto等人 [17]在ILSVRC15数据集上通过离线训练一个全卷积Siamese网络来追踪视频中的目标。与目标分类学习的深度网络相比,训练好的Siamese网络对各种目标的适应性更强。Valmadre等人 [18]将相关滤波器转换为深度神经网络中的可分化层,并端到端学习深度特征,与相关滤波器紧密相关。总的来说,学习基础的深度跟踪器需要从大规模数据中获取额外的海量训练,并且这些方法中的最重要组成部分是在跟踪过程中,将各种目标上的知识迁移到特定目标。然而,在这些方法中,需要仔细解决的关键问题是如何在适当的方式下自适应地转移而不是完全转移已学习的目标知识。

权重

深度跟踪器根据自适应地测量层的影响,对预训练在目标分类上的深度网络的深度特征或响应进行加权。例如,Ma等人观察到早期层提供更精确的定位,而较后的卷积层编码目标的语义信息。他们然后提出了通过融合它们的置信响应分层利用这两个方面的方法[6]。相反,Qi等人提出了一个自适应对冲方法,将来自不同深度层的特征集成到包含大量通道数(3,072)的多通道特征中[7]。一些深度跟踪器使用注意力机制[19],空间可靠性[20],强化学习[21]或多个模板[22]进行加权。通常,这些跟踪器在跟踪非常不同的物体时具有令人印象的准确度,但特征通道数仍保持很大。

压缩

深度跟踪器减少或压缩特征维度。Danelljan等人使用经典降维技术,如主成分分析(PCA)来减少多通道特征[23]。后来,他们[10]提出了因子卷积以加速深度网络推理中的主要卷积计算。Choi等人提出了基于上下文感知方案的多专家自编码器进行快速跟踪的深度特征压缩[24]。基于压缩的跟踪器的主要目标是以降低网络参数的数量,因此并未克服进行深度特征提取所需的高内存复杂性。

总之,大多数深度跟踪器中使用的用于描述不同视图中物体的多通道特征对于不同的跟踪目标是一致的。对于视觉跟踪,核心问题是(i)如何自适应地从大量数据中学习的通用知识中提取正确的知识,以及(ii)如何在飞行中将知识转移到特定目标跟踪。固定特征通道设置降低了跟踪性能。在本论文中,作者调查了通道选择对跟踪性能的影响,并发现通过选择具有信息量的通道并删除噪声通道,可以显着提高精确度和成功率。基于这一发现,作者提出了一种新颖的通道选择框架,称为“通道稀释”,以学习最佳二进制权重以压缩特征。为了验证通道稀释的有效性,作者以标准DCF为例并集成它们。通过这种方式,特征压缩,响应图生成和模型更新可以在统一的集成公式中得到优化。作者在流行的基准测试videos的广泛评估中证明了集成作者的通道稀释框架可以提高测试的深度跟踪器。

作者的主要贡献如下:

  1. 首先,作者研究了多通道特征选择对跟踪性能的影响,并发现不同被跟踪物体的特定最优通道。
  2. 其次,作者提出了一种渠道蒸馏方法来适应性地选择好的通道,并通过示例使用DCF来构建集成框架作为能量最小化问题,从而提高准确度、速度和内存存储。
  3. 最后,作者进行了全面的评估和分析,以展示渠道蒸馏的有效性和普遍性,这可能有助于开发用于实际应用的高效深度跟踪器。

II Related Work

Multi-channel Deep Features

视觉追踪器中采用的特征类型显著影响了追踪性能。受深度学习[25]的鼓舞,近期的视觉追踪器主要使用来自深度特征而不是早期深度协作过滤器[26, 27]中的单一或多通道手工制作特征。

马等人[6]采用多卷积层来提高追踪精确度,通过在DCF框架的早期和最后几层分层利用来自。丹elljan等人[9]使用-通道的多分辨率深度特征图以连续形式来提高追踪性能。总的来说,这些深度跟踪器的表现显著优于使用手工制作特征的其他追踪器,并获得了更高的准确度。一些方法喜欢混合或组合特征来改进它们。奇等人[7]使用自适应hedge方法将来自不同卷积层的特征融合到一个层中。他等人[28]采用通道注意力机制来对不同通道进行加权。

王等人[29]提出了一种残差注意力Siamese网络来改革内部关联滤波器的Siamese跟踪框架,并引入了不同类型的注意力机制以适应模型,无需在线更新模型。宋_等人[11]将判别性关联滤波器(DCF)改为一个单层卷积神经网络,使用VGG-16作为特征提取器。在[30]中,作者为每个特征块的卷积响应权重进行加权,然后将这些权重相加以产生最终置信度得分。

黄等人[31]提出了一种提高深度追踪器速度的方法,通过自适应处理便宜的像素特征和困难的特征,以及使用便宜的像素特征处理困难的特征。王_等人[32]提出了两种网络,从VGG-16的不同层在线选择特征图。丹elljan等人[9]使用连续多分辨率深度特征图。陆等人[33]应用残差连接将多个卷积层以及它们各自的输出响应图融合在一起。Choi等人[34]引入了一个深度注意力网络,根据跟踪目标的动态属性选择相关滤波器的子集。通常,这些方法提高了追踪精确度,但使用加权或组合的方法不能减少原始特征的计算和存储要求。

总之,来自良好预训练网络的深度特征通常足以表示通用目标,并且目前的深度追踪器通常使用固定特征通道。然而,这些深度特征通常包含大量的冗余,固定通道中的特征通常会引发巨大的内存和计算成本。因此,有必要减少冗余以提高追踪效果。

Feature Compression Methods

通道裁剪 。注意到多通道特征可以从不同的视图用不同的通道描述一个物体,给定的物体可能具有某些特定的通道特征。因此,已经提出了一些方法来裁剪通道以减少特征表示。通道裁剪方法最近被用来从深度卷积神经网络的特征图中去除冗余通道。这样,训练好的深度模型可以被压缩,推理时间可以减少。为了加速非常深的模型,He等人[35]提出了一个迭代、两步算法来对每个层进行通道选择和最小二乘重建以进行通道剪裁。这种方法在目标分类上的速度提高了两到五倍,而精度损失非常小。

同样,Liu等人[36]提出了一个网络瘦身方法,通过自动识别和裁剪无意义的通道来强制执行通道 Level 稀疏。Wang等人[37]提出了一种将目标分类特征转移到跟踪域的方法,通过卷积通道减少。他们把通道减少看作是一个具有特定任务的特殊卷积层。这种方法不仅提取了跟踪性能的有用信息,而且还显著提高了跟踪速度。一些使用知识蒸馏的模型压缩方法[38, 39]修改深度网络以提高效率。

维度减少 。除了通道裁剪之外,一些最近的工作试图压缩特征维度以提高速度并减少内存占用。Danelljan等人[23]提出了fDSST,通过PCA压缩HOG特征,以在单个CPU上达到54.3 fps。后来,他们提出了ECO[10],该方法使用因子卷积运算符压缩深度特征,并以高端GPU的8 fps运行。

Xu和Lu[40]报告了一个多通道压缩特征来描述物体。他们的方法结合了多个通道的丰富信息,然后将其投影到低维压缩特征空间。Gundogdu和Alatan[41]提出了一种将先进深度网络卷积部分进行微调并在关联滤波器跟踪器中集成此模型的方法。Chen和Tao[42]提出了一个使用单卷积层学习视觉跟踪的回归模型。

Choi等人[24]提出了一种利用多个专家自动编码器进行特征压缩的上下文感知方案。通常,这些特征压缩方法主要针对目标分类中的深度特征进行裁剪或压缩。由于深度特征提取的计算开销,这些跟踪器仍然具有较高的内存成本。

受到这个启发,并且与那些通过加权或减少深度特征来改善多通道特征表示的方法相反,作者在这里通过能量最小化适应性地选择深度特征中的代表性通道,以提高跟踪精度和速度,而消耗的内存较少。

作者的通道蒸馏框架是一种通用特征通道选择方法,可以轻松地集成到其他框架中,以提高不同目标在视频中跟踪性能。作者以DCF为例,将其集成到一个同时处理特征压缩、响应图生成和模型更新的统一公式中。

III Our Approach

在本节中,作者首先回顾了通用的信道蒸馏公式。接着,作者通过实验研究信道剪枝和选择对跟踪性能的影响,并演示了存在特定目标跟踪的良好信道。基于这个发现,作者将信道蒸馏并将其作为能量最小化问题,通过将其并入到DCF和ECO框架(见图1)中。最后,作者提出了一个交替优化算法来解决这个问题。

picture.image

Channel Distillation Formulation

频道压缩旨在通过适应地选择最佳频道来提取有用的频道,并删除噪声频道,从而使压缩的频道特征通道具有提高跟踪性能的强大功能。

对于一个在包含k帧的视频[v]中跟踪的物体o,特征通道选择旨在找到一组特征通道

,以实现最佳的跟踪性能,其中

。在实验中,作者根据空间和时间稳定性的实际考虑进行通道选择,即所选特征通道在跟踪物体时更具区分性且在时间上稳定。

这里,空间鉴别意味着特征通道在度量目标特征方面更加显著或"好",以便可以从背景分扰中识别物体,而时间稳定性则表示连续两帧中的目标特征一致,从而使物体能够稳健地跟踪。作者将一个物体o在一个视频v中的所选特征通道称为其"好通道",并以其"友好度"表示通道的优先级。通道的友好度反映了其对跟踪性能的贡献。

为此,作者通过以下四个阶段选择特征通道:

  1. 视频中的物体o的 Patch 从第i帧图像 截取,根据其真实边界框 进行裁剪,然后输入到预训练的VGG-19生成多通道特征 。
  2. 在两帧目标之间计算通道的空间判别和时间稳定性,分别为和,其中为通道元素的数量。这表明,通道具有较大的和更有可能成为好通道。在这里,作者通常将具有较大激活的突出特征通道视为好的空间判别,因为它们在相关滤波中可以产生更多的有益影响,从而通过特征向量的模测量空间判别。
  3. 通道友好性通过将和结合而计算,表示为,其中较大的表示在追踪第i帧时,好通道优先选择第l通道。然后,在所有连续的帧中,将总通道友好性求和以获得平均通道友好集,其中。
  4. 按照平均通道友好性从降序对特征通道进行排序。然后,通过迭代地剪除具有最小平均通道友好性的通道,直到性能降低或达到最大迭代次数,来评估跟踪性能。最后,将具有最佳跟踪性能的好通道作为通道集返回。

在选择后,作者研究其有效性。与所有层上原始固定通道设置的固定通道设置相比,具有良好通道的全视频总追踪精度得到提高。主要原因出自分类中预测目标类别标签和跟踪中任意类别的目标定位之间的冗余(如[8]中声明),即方程(1)中的通道蒸馏可以避免学习那些包含微弱能量的相关滤波器。这会导致跟踪精度提高(如[10]中声明)。

此外,作者还发现好的通道主要集中在特征往往更加明显的空间和时间上保持一致的通道。如图2所示。这些发现意味着:

  1. 在视频中跟踪一个目标时,存在一个特定的好的通道集;
  2. 有些噪声通道应该被舍弃或修剪以提高性能;
  3. 类似的目标(例如,人)分享一些相似的好的通道,说明通道选择性可能源于特定目标在出现,运动等方面类似的变异。

picture.image

总之,视频跟踪存在一些有用的好的通道,以提高跟踪性能。作者接下来探讨如何为跟踪选择这些"好的通道"。

Channel Distillation in DCF

尽管存在好的渠道,但在事先不知道跟踪帧中的目标的情况下选择它们是有挑战性的。因此,作者应用通道浓缩来解决这个问题。由于视觉跟踪中标准DCF(离散词袋模型)的受欢迎程度和有效性,作者首先使用标准DCF作为示例,并将其整合到通道浓缩中,可以将其表示为联合优化问题:

其中表示圆周卷积,表示好渠道的数量,跟踪模型是一个多通道相关滤波器。第一个项用于衡量互相关输出和真实输入图像之间的理想所需相关输出之间的过滤成本,而第二个项用于正则化相关滤波器。根据Parseval公式,该问题可以转化为频域形式。将离散傅里叶变换(DFT)算子记为,则方程(2)可以重写为:

其中表示逐元素乘积,是共轭算子。请注意,很难解析求解方程(2)或方程(3),作者用交替优化来解决它:

第一步 在这一步中,目标是在给定h或时,最小化方程(3)中定义的损失。注意到a是一个离散二进制向量,包含在方程(3)的第二项的两个分母中(该项不是线性),因此方程(3)没有解析解。进一步,完全搜索非常耗时且不切实际。因此,作者采用启发式搜索的方法如下:

  1. 受到通道选择性分析的启发,作者首先评估跟踪历史(当前帧之前的预测)并将其编码为-维二进制向量,作为初始的好的通道。

在此,作者固定良好的渠道数量为,并将优化问题转化为:

其中是一个标量,且和是两个-维向量。在这里,是将矩阵转换为向量的操作符。

3)利用种子,作者进行迭代搜索以找到使等式(4)最小化的最优设置。注意,是排序的,其补集可以表示为,作者首先从的最后元素开始,依次将其与中的元素交换,以评估等式(4)的新的良好通道设置。如果损失降低得最多且降低到比当前设置更低的程度,则作者丢弃,并更新良好通道。该迭代过程适用于中的所有元素,并生成最终的良好通道,该通道可以编码为二进制通道选择向量。

第2步。 在此步骤中,给定通道选择向量,可以使用Fourier域中的标准DCF有效解决相关滤波器或。定义和良好通道,其中。然后等式(3)可以重写为:

(5),

其中 是每个良好通道的DFTs的超向量。假定

其中是将向量转换为对角矩阵的运算,然后,作者可以用[44]得到如下解:

图2:从两个视频序列中选择的两个连续帧的多个通道特征。第一行和第二行可视化两个连续帧的多个通道特征。第三行显示在白色中选择的优良通道,这些通道在空间上显著,而在时间上一致。这意味着在具体跟踪目标的视频中存在良好通道。

,其中 是单位矩阵。正如[44]所指出的, 是稀疏的带通的,并可以由解 个独立的 线性系统得到,其中 是信号长度(通道元素的数量)。这导致计算成本为 ,内存成本为 [44]。最后,通过学习相关滤波器,作者可以通过交叉相关输入图像 并生成响应图 搜索图像的感兴趣模式:

其中 是逆DFT运算符,。通过检查可能的相关峰的,可以确定跟踪目标的位移:

其中 表示坐标偏移。

该算法循环直到达到给定的最大数,或损失不再改变。在初始化步骤中,作者仅在两帧中进行通道选择,这在作者的实验中仍然有效。

可以看出,channel distillation可以节省内存,因为在DCF(深度卷积分数)中,不需要存储整个最后一层的所有特征,最后一层通常包含比早期层更多的通道,而减少的通道数则会进一步减少特征计算和匹配所需的内存。

Channel Distillation in ECO

在这一节中,作者以ECO [10]为另一个代表示例,并结合通道蒸馏将其应用,以展示所提框架的通用性。ECO应用了一种称为SRDCF的空间正则化版本DCF来在最近的流行基准测试上实现非常出色的性能。因此,许多包含几乎零能量的滤波器产生的不帮忙特征通道激发了很多新颖的想法。受此启发,ECO Proposal 使用一种因子卷积操作器,通过提取深度特征后学习投影矩阵,减少跟踪模型中的滤波器或参数数量。因此,ECO可以表示为损失函数的最小值

picture.image

Tracking Scheme

在图1中展示了作者跟踪方案,该方案将信道降浊集成到通用的DCF跟踪框架中,以提取良好信道并剪除噪声信道。首先,根据第一阶段中选择的优秀信道,将输入图像提取的多通道特征传递给信道降浊操作符,生成优秀信道特征。然后,通过快速傅立叶变换(FFT)在频域上与学习的相关滤波器进行交叉相关性操作。然后,根据响应图预测目标位置。

之后,使用新目标更新相关滤波器和跟踪历史,用于搜索和更新良好信道。在作者方案中,在跟踪一帧后固定优秀信道的数量。这种方法在ECO [10]中得到有效利用。由于训练示例数量较少,这种信道选择方法非常有效。

IV Experiments

在本节中,作者提出了一套全面的实验来验证通道蒸馏的有效性和效率。作者将通道蒸馏整合到标准的DCF和最新的ECO [10]公式中,并生成作者的深度跟踪器DeepCD和ECO-CD,分别对应于DeepCD-DCF和ECO-ECO-CD。因此,作者将深度跟踪器CF2 [6]作为DeepCD的基准,因为它遵循标准的DCF公式,而ECO则作为ECO-CD的基准。

接着,作者在两个流行的数据集OTB100 [14]和VOT2017 [15]上评估通道蒸馏的深度跟踪器,并对额外13个代表性最强的 state-of-the-art 深度跟踪器进行进一步基准。此外,作者研究了从不同通道和小深模型蒸馏的结果,以证明其通用性和适应性。作者还分析了结合通道蒸馏的不同框架的影响。这些跟踪器总结在表1中。在实验中,通道蒸馏在第一和第二帧进行。

picture.image

Baseline Trackers and Evaluation

本实验选取了两个代表性深度跟踪器CF2[6] 和ECO[10],并对基础算法进行改进,分别称为DeepCD--和ECO-CD,其中指代深度网络(如VGG-19等)并在中选择候选通道。同理,对CF2简化为CF2--的表示。CF2使用预训练的VGG-19模型[12]从不同层提取多通道深度特征进行独立关联滤波,并将响应融合到一起,以获得最终输出。ECO压缩VGG-M预训练特征以实现优化跟踪器。

在[6]中,使用的CF2-V-34+44+54具有1,280个特征通道。而DeepCD-V- 则是从VGG-19模型的一部分中选择和合并良好的通道。VGG-19和VGG-M都是在ImageNet上进行物体分类训练的,它们在各自的类别上分别实现了90.1% 和84.2% 的精确率。

作者将DeepCD-V-11+12+21,该模型是从早期层中进行蒸馏,作为基准进行比较,作者还研究了从各种层进行蒸馏的跟踪器。

State-of-the-art Comparison

接下来,作者在OTB100上与最新十五种跟踪器进行比较:两个 Baseline (CF2和ECO),五种加权跟踪器(DeepSRDCF [46],HDT [7],ADNet [21],DSLT [33]和TM-deep [22]),四种学习跟踪器(SiamFC [17],CFNet [18],DCFNet [48]和RASNet [29]),以及四种压缩跟踪器(C-COT [9],TRACA [24],CFCF [41]和CRT [42])。结果表明,相比其他跟踪器, DeepCD-V-11+12+21 在精度方面也具有优势,如图6和图7所示。在更先进的 ECO 框架上进行提取, ECO-CD 在精确率和成功率方面都超过了所有跟踪器,同时比 ECO 跟踪器更快。此外,即使在提取较早的层,较小的 DeepCD-V-11+12+21 仍实现良好的性能。对于 ECO 跟踪器的提取,得到的 ECO-CD 在精确率和成功率方面均超过了所有跟踪器,同时比 ECO 跟踪器更快。

picture.image

picture.image

在 VOT2017 上,作者对七个最新状态跟踪器进行了比较:两种加权跟踪器(DeepSRDCF [46]和 RASNet [29]) ,三种学习跟踪器(SiamFC [17], CRT [42]和 CFCF [41]) 和两种压缩跟踪器(C-COT [9] 和 ECO [10])。如图8所示。提取的标准 DCF 跟踪器的 DeepCD-V-11+12+21,其 EAO 值高于其 Baseline CF2-V-11+12+21,所需通道更少。在更先进的 ECO 框架上提取, ECO-CD 在精确率和成功率上均超过所有跟踪器,表明将通道提取纳入 DCF 框架可以持续提高跟踪性能。

picture.image

Efficacy Analysis

接下来,作者研究速度和内存提升,验证了通道蒸馏可以在不同卷积层提高跟踪性能。

作者研究了两种 Baseline 跟踪器:DeepCD-V-11+12+21 和 CF2-V-34+44+54,如图4所示。跟踪速度主要源于深度网络推理和关联滤波的模型匹配,而内存消耗很大程度上取决于存储特征图和跟踪模型的通道数量。

picture.image

首先,DeepCD-V-11+12+21 在早期的三个卷积层(卷积11、12和21)上进行前向推理,所需的特征计算比采用后期三个卷积层(卷积34、44和54)的CF2-V-34+44+54 要少得多。此外,通道蒸馏显著减少了模型计算和匹配时的交叉卷积的复杂性。因此,通道蒸馏实现了显著的速度提升。

当DeepCD-V-11+12+21 从 VGG-19 的三个浅层(卷积11、12和21)提取特征时,这三个层中的优秀通道平均数分别降至28.4、27.7和44.3,而分别为64、64和128。另外,前两层通道较少的特征映射由于尺寸较大,导致内存减少较大。因此,DeepCD-V-11+12+21的内存成本为12.2MB。

相比之下,CF2-V-34+44+54代表具有三个更深层次的特征,因此由于这些更深层次的特征映射都需要存储,导致内存成本较大。这表明作者的方法在内存成本上获得了有效的降低。特征通道数的大量减少在跟踪器运行期间和实际应用中都具有极大的益处。

作者将它与两个基于Siamese的更快速度的跟踪器进行比较:SiamFC [17] 和 RASNet [29]。它们都采用预训练网络进行物体表示,分别占用9.4MB和18.6MB内存。作者的DeepCD-V-11+12+21的内存成本为12.2MB。

Distillation from Different Channels

尽管深度追踪器具有很高的准确性,但由于来自某些深度层的特征表示通常会导致计算资源和内存消耗,这使得它们的部署变得更加困难[6,7,18]。为了为其实际部署提供有用的指导,作者在选择不同的深度特征通道时研究了通道蒸馏对跟踪性能和速度的影响。图9展示了一些在OTB100上的结果。作者注意到以下几点:通道蒸馏始终优于 Baseline ,当在早期层进行蒸馏时(它们包含更多的噪声通道),通道减少和性能提升更加明显。

选择来自更多层数的特征可以提高准确性,但会降低性能。因此,根据部署条件,特征通道应从某些层选择。例如,仅一层DeepCD-V-11在仅需7KB的情况下保留了竞争力(0.757)的精度(58 fps)和速度(30 fps),使其非常适合资源受限的部署。如果存储空间充足,从VGG-19的三个早期层选择DeepCD-V-11+12+21(大小为 Baseline (71MB)的 smaller,即0.14MB)的精度更高(0.851),速度仍然非常快(30 fps)。当从更多最终的层进行蒸馏时,精度达到0.906,高于C-COT(0.898)且与ECO(0.910)相当。

picture.image

Distillation from Small Deep Networks

为了进一步验证通道蒸馏的有效性和泛化性,作者在小型深度网络(例如 SqueezeNet [51])上研究其性能。SqueezeNet 是一个具有 4800 万参数的小型目标分类网络,在 ImageNet 上具有顶级 5 精度 80.3%。它包含一个卷积层,八个Fire模块和一个最终的卷积层。一个Fire模块开始于一个具有1x1过滤器的挤压卷积层,并结束于包含1x1和3x3卷积滤波器的扩展层。作者在特征提取之前蒸馏所有层,从而得到一个深度跟踪器 DeepCD-S-All。

如图10 所示,DeepCD-S-All 实现了最高的精度和速度,同时只需要 123 个通道。另外,DeepCD-S-All 在重叠阈值小于 0.32 时也实现了最高的成功率,尽管总成功率比 CFNet 稍低一些。

picture.image

通道蒸馏还显示出更好的泛化性。例如,通过使用通道蒸馏,DeepCD-S-All 实现了与 DeepCD-V-54 类似的表现(精度提高了 2%,成功率下降了 2.9%)。然而,直接使用小网络(例如 SqueezeNet)的深度特征而不进行蒸馏,CF2-S-Fire3(使用 SqueezeNet 的 fire3 模块层)的精度急剧下降至 CF2-V-54(精度下降了 10.8%,成功率下降了 8.3%)。

尽管使用更强大的深度网络(例如 VGG-19)可以获得更高的精度,但 CF2-V-54 计算更昂贵,消耗了更大的内存。这表明没有进行蒸馏的深度网络对特定动态目标的表示能力较差,得到的深度跟踪器严重依赖预训练的深度网络。相比之下,通道蒸馏可以从海量数据中学到的通用知识中适应性蒸馏正确答案,并在飞行中跟踪特定目标。

Distillation on Different Frameworks

本文进一步研究了在三个不同的DCF框架(一个标准的DCF在CF2中,基于VGG-19的深度特征;一种最新高级的DCF称为CACF[47]以及具有HOG特征和ECO的SRDCF)上的结果。为了实现这一目的,作者进一步将通道蒸馏(channel distillation)融入CACF,从而得到了CACF-CD。结果表明,在OTB100上的各通道蒸馏版本DeepCD-V-11+12+21,CACF-CD和ECO-CD,在30 fps时的成功率分别为0.619,12 fps时的成功率为0.551,以及11 fps时的成功率为0.692。与 Baseline CF2-V-11+12+21(18 fps时的成功率为0.483)和CACF(12 fps时的成功率为0.511)、ECO(8 fps时的成功率为0.691)相比,性能一直更优。这暗示着应用的框架的鲁棒性和特征提取器的鲁棒性对于提高跟踪性能至关重要。

例如,使用标准DCF和深度特征的CF2在性能上比使用先进SRDCF框架的ECO更差,但比使用手工编写的HOG特征的CACF更好。作者认为,适当地选择更好的特征并将其纳入更先进的框架,可以让视觉跟踪器有效地跟踪指定的目标。此外,作者将CACF-CD应用到TC128基准[50]上,以验证所提出方法的一般适用性,并实现了0.584@success的144 fps,超过了基准CACF(116 fps)。

图10显示了在各种深度网络(即,使用不同的深层次网络将通道蒸馏应用于OTB100)上的跟踪结果。为了对比,提供了基于加权的目标跟踪器(HDT)和学习型跟踪器(CFNet)的结果。

除DCF框架外,作者还探索了非DCF框架(即,MDNet[8])上的通道蒸馏。MDNet首先通过预训练3个具有96、256和512通道的卷积层,以及两个512-way全连接层和多个特定于域的层得到一个通用特征表示,然后通过在线更新两个全连接层和一个特定于域的分类层进行跟踪。

作者在OTB100上进行实验,并与具有0.909@精确率和0.678@成功率的 Baseline MDNet比较。在作者的实验中,作者将通道蒸馏应用于第三个卷积层,然后在线更新接下来的两个全连接层和特定于域的分类层。最后,当将原始的512通道压缩到239通道时,MDNet-CD实现了0.912@精确率和0.692@成功率,这意味着通道蒸馏的一般有效性。

V Conclusions

已经提出了许多具有深度特征的DCF追踪器,在视觉跟踪方面表现良好。所使用的多通道深度特征通常完全固定,以表示不同的目标。

这种固定通道设置是次优的,降低了追踪性能,并慢。然而,可以选择对于跟踪目标更有效的良好通道。

本文研究了通道剪枝的影响,并提出了一种通用的方法选择良好通道。作者证明存在通道选择性,可以找到跟踪目标的良好通道,并且DCF框架在集成通道浓缩时,可以提高追踪准确性和速度,以及普适性。

作者认为,这个发现和通道浓缩方法将有助于在实际应用中发展高效的视觉跟踪。

未来的工作将包括深度跟踪器的联合浓缩和压缩以及其他通道浓缩的应用。

参考

[1].Distilling Channels for Efficient Deep Tracking.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论