点击下方卡片,关注 「AI视界引擎」 公众号
现有工作通常采用编码器-解码器结构进行多任务密集预测,其中编码器提取任务通用的特征,多个解码器为预测生成任务特定的特征。作者观察到,低级表示具有丰富的细节和高级表示具有丰富的任务信息,它们都没有参与多任务交互过程。此外,当前多任务学习架构还存在低质量和低效率问题。
在本工作中,作者提出了一种从任务通用和任务特定特征全局学习综合中间特征的方法。作者揭示了一个重要事实,即这种中间特征,即桥接特征,是解决上述问题的良好解决方案。基于这一事实,作者提出了一种新颖的桥接特征中心交互(BREI)方法。作者设计了一个桥接特征提取器(BFE),用于生成强大的桥接特征,并应用任务模式传播(TPP)以确保高质
1 Introduction
许多领域都收到了关于像素级标签预测的密集预测任务(如自动驾驶、监控等)的大量关注。在卷积神经网络(CNNs)的帮助下,许多密集预测工作在最近取得了巨大的进步,包括姿态估计(如姿态估计、语义分割(如语义分割、深度估计等。然而,这些工作主要关注一个特定的任务,而不同密集预测任务之间的相关性尚未充分探索。
任务学习(MTL)旨在同时学习多个不同的任务。最近,基于深度学习的MTL方法在多个密集预测任务上取得了巨大的进步。通过共享重图像编码器的参数,MTL方法可以在高效的同时实现不同任务的联合训练和推理。此外,通过设计任务交互模块,可以进一步探索不同密集预测任务之间的关联性,从而实现多任务性能的相互提升。
根据任务交互发生的场所,现有的多任务工作大致可以分为编码器关注和解码器关注的方法。特别是,编码器关注的方法在编码阶段进行不同任务的交互,如图1(a)所示,任务特定的特征直接与共享 Backbone 生成的任务通用特征相互作用,从而从多任务共享表示中获得知识,实现间接跨任务交互。由于图像 Backbone /编码器通常初始化带有丰富先验知识的预训练参数,并在训练过程中受到所有任务梯度的监督,它可以生成具有丰富低级细节(例如边界和分组信息)的表示。
对于像素级密集预测任务(如语义分割),这些表示在获得像素关系并形成准确语义掩膜方面至关重要。然而,在多任务学习情况下,这些编码器特征是任务通用的,这意味着它们只包含与每个特定任务相关的通用密集预测模式,但缺乏与每个特定任务相关的可区分的较高层次表示。直接基于任务通用特征进行交互是不最优的,因为对判别性任务特定特征的挖掘不足,从而限制了跨任务交互的作用。
为了缓解上述问题,开发了解码器关注的方法,在这些方法中,任务预测首先由初步解码器在早期解码阶段以深度监督的方式产生,旨在解耦通用编码器特征并发现相应的任务特定表示。然后,通过多模态蒸馏或ATRC等模块基于任务特定特征进行跨任务交互。这些方法试图通过提取和转移基于任务特定特征的有用任务知识,如图1(b)所示,从一组任务到另一组任务进行建模,以实现任务对关系,其中大多数方法在性能上优于编码器关注的方法。
尽管这些方法在性能改进方面具有前景,但它们仍然面临挑战:
- 跨任务交互存在不完整性和低质量参与者的问题。首先,交互缺乏具有丰富多任务细节的基本低级表示。在先前的作品中,要么使用任务通用的特征进行交互,要么使用任务特定的特征进行交互。虽然在前解码阶段可以获得具有高级表示的任务特定特征,但由于监督信号的直接需求不高,基本低级表示逐渐消失。然而,在后续任务交互阶段,只有任务特定特征参与,而作为重要多任务先验的基本低级表示缺失,导致交互不完整并限制了模型性能。
其次,作者观察到由初步解码器产生的任务特定特征通常质量较低,这影响了后续交互,如图4所示。由于任务通用的特征中的任务模式和表示通常高度纠缠,且不同任务具有显著不同的优化目标,仅对初步解码器施加深度监督并不能解决任务模式纠缠问题。因此,需要一种更有效的将任务特定特征与任务通用特征解耦的方法,以确保获得判别性和解纠缠的任务表示。 2. 交互方式效率低下且扩展成本高。如图1(b)所示。由于先前的解码器关注模型需要考虑成对的任务关系[3, 50],随着任务数量增加,任务交互的复杂性将以的速度增加,这限制了先前的方法在不同的任务设置上的扩展。
为此,作者专注于从上述三个方面改进交互质量,并提出了一个新颖的框架,即桥接特征中心交互(BFCI)模型。如图1(c)所示,为解决第一个挑战,作者提出了一种新的中间特征提取和利用方法,该方法包含丰富的低级和高级表示,即桥接特征,以确保特征交互的完整性。作者还提出了一种通过联合学习和为对应任务分配任务模式的方法来解开任务模式,以生成高质量的特定任务特征用于交互。
为解决第二个挑战,作者提出了一种直接在桥接特征和每个特定任务特征之间进行交互的方法,该方法仅涉及的任务交互复杂性。具体而言,作者的方法包括一个用于生成任务通用特征的任务通用特征共享编码器,早期解码阶段具有Task Pattern Propagation(TPP)的初步解码器生成高质量的任务特定特征并处理任务模式纠缠问题。特设计的桥接特征提取器(BFE)具有基于 Transformer 的交叉注意力结构,全局 Query 任务特定特征与任务通用特征,以选择出高级表示并注入具有丰富低级表示的任务通用特征中,以生成多尺度桥接特征。提取的强大桥接特征包含高级任务特定和低级任务通用的表示,并通过对任务特征优化器(TFR)的最终预测的形成进行滋养。整个架构称为桥接特征中心交互(BFCI)。
工作主要有三个方面:
- 重新检查了现有多任务密集预测架构的交互策略,并揭示了桥接特征的重要性,这些特征包含丰富的低级和高级表示。设计的架构,即BFCI,基于强大的和代表性的桥接特征进行全面的交互。据作者所知,桥接特征首次用于提取并参与多任务密集预测,以传递跨任务知识和优化最终预测。
- 设计了一种基于 Transformer 的桥接特征提取器(BFE),用于从任务通用的和任务特定的特征中提取桥接特征,并应用任务模式传播(TPP)模块避免任务模式纠缠问题并获取高质量的任务特定表示。然后,应用任务特征优化器(TFR)利用桥接特征优化最终的任务预测。
- 作者提出的算法在各种密集预测任务上进行了广泛评估,包括语义分割、深度估计、表面法向量估计、显著性估计和边缘检测。在纽约大学数据集(NYUD-v2)和帕斯卡尔上下文(PASCAL Context)数据集上的实验结果和深入分析表明,所提出的架构在最新技术水平之上实现了优越的性能。
2 Related Works
随着深度卷积神经网络(CNNs)的快速发展,许多多任务学习(MTL)工作已经取得了令人瞩目的成果。如第一节所述,现有的MTL工作大致可以分为编码器关注和解码器关注的两类架构。此外,网络参数的共享方式可以分为硬参数共享和软参数共享,分别对应直接共享的参数或通过正则化或损失间接约束的参数。编码器关注模型在[14, 29, 33]中专门设计了共享结构来探索编码阶段的任务通用特征,而解码器关注模型在[37]中采用硬参数共享来减少冗余参数和浮点运算(FLOPs),并特别关注解码阶段不同任务特定特征之间的交互。在本论文中,作者提出的方法基于解码器关注的架构,但同时利用了编码器关注模型的优点,即探索具有丰富低级表示的任务通用特征,并具有计算友好的多任务交互成本。
在多任务学习(MTL)中,一个任务学习的表示可能对其他任务有益,因此设计任务交互方式以促进互惠性能,并避免潜在的信息不一致性至关重要。在知识蒸馏领域,多任务学生网络通过几个单任务教师网络进行蒸馏,将多任务知识传递给学生网络并实现良好性能。然而,这需要预训练一组教师网络,这需要增加任务数量,从而导致成本高昂。典型的编码器关注模型在编码阶段通过共享参数空间进行交互,尤其是[23]设计注意力模块进行特征提取。另一组工作进一步研究了编码阶段的参数共享方案,并发展了分叉MTL,旨在手动或自动确定任务共享和任务特定分支以最小化任务不一致性。
相比之下,解码器关注模型如PAD-Net[48]在解码阶段使用基于深度监督的多模型蒸馏,其中辅助任务的特征被提取和传递到目标任务以提高其性能。MTI-Net[38]认为不同任务的信息只在一定尺度上相互促进,并将其多模型蒸馏扩展到多尺度形式。PAP-Net和PSD分别应用像素和模式结构 Level 的任务亲和力和交互。ATRC使用可自适应搜索源到目标任务关系的神经架构搜索(NAS)技术来自动设计自动寻找源到目标任务关系的神经架构。InvPT是第一个基于 Transformer 的全局空间交互和同时所有任务交互的联合学习架构。尽管解码器关注模型最近迅速发展,有许多变体,并实现了显著改进,但它们的交互仅基于任务特定特征。
此外,直接源到目标任务对关系建模的思想是低效的。为了应对这些方法的信息损失和高计算成本,作者采用了一种全新的桥接特征中心交互策略,该策略吸收了编码器和解码器的优点,以在可接受的资源成本下保持全面的任务交互。
近年来,许多多任务学习(MTL)架构采用了注意力模块来动态地从不同任务中选择信息。在[23]中,注意力用于从共享 Backbone 中提取不同任务的特征。 [48, 38]通过注意力来提取辅助任务的有用特征以供目标任务使用。由于自注意力可以考虑特征图中的全局相关性来捕获全局感受野,一些MTL工作直接将自注意力引入网络。然而,这些工作并未进一步探索不同任务之间注意力的分布和交互。
随着Transformer在视觉领域的应用,多头自注意力(MHSA)在处理视觉场景时由于其长程依赖性和上下文捕获能力而变得流行。作者进一步研究了不同任务之间的MHSA模式,并提出了任务模式传播(TPP)来在早期解码阶段产生具有判别性的任务特定特征以解决任务模式纠缠问题。基于 Transformer 的BFE通过全局交叉注意力在任务通用和任务特定特征之间产生桥接特征。与仅将注意力应用于MTL架构不同,作者专注于整个过程中任务特征的结构分析,并引入具有特殊设计的先验(例如低级表示,任务特定模式)。
3 The Proposed Method
Overview
所提出的BFCI的概述如图2所示,主要包括任务模式解耦的TPP,桥接特征提取的BFE和任务特定特征优化的TFR。在早期解码阶段,作者从共享图像 Backbone 中获取多级任务通用的特征,这些 Backbone 可以是卷积网络(例如HRNet,ResNet)或视觉Transformer(例如ViT)。任务通用的特征首先被分割成patch token并嵌入到解码维度。同时,实现了一组具有深度监督的初步解码器来生成任务特定的特征
,
其中表示总任务数量。
在将特征输入到初始预测头之前,TPP被应用以避免任务模式纠缠。然后,任务通用的和特定的特征都被输入到BFE以生成多级桥接特征。在桥接特征形成后,它们被TFR所使用,通过将桥接特征的有用表示转移到任务特定的特征来肥化任务特定的特征。BFE和TFR都应用于多个尺度,每个尺度的任务特定特征通过每个尺度的共享上采样层进行上采样。最后,经过优化的多级任务特定特征被聚合并输入到预测头以做出最终预测。下一节将详细描述这些结构。
Bridge Feature Extraction
在这个子节中,作者将讨论作者的关键组件——桥接特征提取器(BFE)的详细结构。BFE是一个基于 Transformer 的模块,旨在从所有任务特定特征中提取有用的较高层次表示并生成桥接特征。
BFE的核心部分是任务通用特征与所有任务特定特征之间的全局建模,该建模选择重要的高层次信息并将其转移到通用特征。BFE在每个尺度上连续堆叠以生成多尺度桥接特征,每个尺度的BFE块具有相同的结构。
如图3所示,假设输入任务通用和特定特征处于第i个尺度,即和,它们首先通过深度卷积或平均池化转换为patch token,其中步长为和。
其中和,表示空间维度的张量 flatten 操作。patch token 将进行空间降维,以控制后续注意计算的计算成本。然后,所有任务特定的 patch token 在空间维度上进行拼接。
为了进行交叉注意力,_query_ () 来自转换后的任务通用 patch token,_key_ () 和 value () 来自转换后的任务特定 patch token。、 和 的生成可以描述如下:
其中和,其中是注意力维数。然后,作者进行标准的交叉注意力:
在计算注意力图之后,交叉注意力的输出为:
然后, 被 Reshape 并上采样至 ,并输入到一个由层规范化(Layer Normalization)和MLP(多层感知机)组成的 feed-forward 网络中。最终的输出被 Reshape 为 ,作者称之为在尺度 下表示的桥接特征,即 。通过全局 Query 所有任务特定特征,任务通用特征通过选择在 中对任务通用特征响应最高的任务特定像素获得判别性高层次表示,同时保留低层次表示通过残差路径。
因此,提取的桥接特征满足作为多任务密集预测的中介需求。与直接在像素级上对任务通用和任务特定特征进行加法,如果在某些位置存在任务不一致性,可能会导致意外冲突,全局 Query 确保只选择最高响应的任务特定像素,避免潜在的任务冲突。
Task Pattern Propagation
对于多尺度任务通用的特征,高层次的特征包含更丰富的语义和上下文信息,通常以自上而下的方式指导预测的形成。同时,不同的密集预测任务在低层次表示上通常存在很多相似之处,但在高层次表示上存在显著差异。因此,共享 Backbone 网络最后几层生成的任务通用特征通常与不同任务的高层次表示严重纠缠,难以提取每个任务的判别性表示并执行交互。作者称之为任务模式纠缠问题。
如图4(左)所示,作者在语义分割和深度估计中分别可视化了软注意力分数的区域,其中深度注意力更关注空间和几何信息,而语义注意力更关注不同的物体和上下文。如图4(右)所示,编码器共享输出的模式隐式且纠缠,并不清晰地反映任务的特点。
为了应对任务模式纠缠问题,作者提出了一种任务模式传播(TPP)方法,该方法同时学习和分配不同任务模式到相应的任务,以帮助任务特定特征的形成。虽然学习并传播任务模式在先前的多任务学习工作中已经被讨论,但模式 Level 的纠缠问题仍然未被探索和解决,作者提出的TPP首次针对这个问题从任务模式 Level 进行解决。
如图5所示,首先,对于每个尺度3的任务特定特征图,作者生成了组_query_、_key_和_value_,其中。生成过程类似于3.2节。然后,通过点积计算组任务特定注意力,其中包含每个任务的模式:
其中表示注意力空间的维度。接下来,所有任务的注意力图被拼接在一起,并在共享空间中通过卷积进行压缩以对齐维度并共享任务模式。然后,通过与所有任务_values_的点积传播注意力图中的任务模式:
最后, 通过具有BFE相似结构的FFN进行处理,以增强学习到的任务特定高层次表示。由于不同的任务具有各种模式分布,因此需要进行模式传播以共享多个任务的任务注意力空间。经验上,匹配过程中会抑制无关像素,以避免负特征的传递,从而避免由任务不一致性引起的意外纠缠。
通过TPP,作者可以通过自注意力提取显式的任务模式并传播以避免潜在的纠缠并实现任务特定特征的清晰解耦,这也有利于BFE和TFR随后的特征交互。如图4(右)所示,TPP可以通过产生更有判别性的高层次表示显著增强任务特征。
Task Feature Refiner
为了在桥接特征和任务特定特征之间进行有效的特征融合,以便利用中的丰富表示,作者提出了一种任务特征优化器(TFR),如图5(b)的右部分所示。TFR利用桥接特征指导任务特定特性,并实现任务之间的有效交互。
TFR提供了一种相对灵活的配置,采用了一种级联结构,其中每个层都包含相同结构的TFR层。在每个层中,来自某个尺度的桥接特征需要与每个任务特定特征进行 ConCat ,然后通过TFR层进行融合:
在这个过程中,任务特定特征通过这些层得到渐进优化,由桥接特征不断引导,获得丰富的任务表示。这最终产生了高质量的任务特定特征,为生成最终的任务预测奠定了坚实的基础。
此外,作者的TFR层可以灵活配置。在最简单的情况下,作者可以使用只有一个卷积层来对齐连接的特征通道并生成预测。然而,这显然是不够的,因为单个卷积层缺乏必要的容量来进行非线性转换。相反,Transformer层可以用于全局关系建模,例如InvPT。然而,实验发现Transformer的复杂二次关系建模并没有显著提高任务特征的质量。这部分原因是特征图的尺度在这个阶段并不大,全局建模没有提供显著的优势。
此外,空间局部相似性是密集预测的更关键的先验。因此,在作者的方法中,作者使用深度可分膨胀卷积来形成作者的基本层。作者堆叠不同大小的膨胀卷积以确保足够的感受野,并避免膨胀相关的网格效应。同时,卷积带来的局部连接适合从桥接特征中提取重要的局部信息以生成最终预测。
4 Experiment
Experimental Setup
数据集: 作者在两个基准数据集上进行实验:NYUD-v2和PASCAL Context。NYUD-v2数据集主要用于在多任务学习(MTL)工作中进行室内场景分割和深度估计。该数据集包含1449张图像。遵循标准设置,作者使用795张图像进行训练,这些图像是随机选择的,其余用于测试。
PASCAL数据集是许多密集预测任务的热门基准,作者使用PASCAL Context的划分,其中包含10103张图像,其中4998张图像用于训练,其余用于测试。作者在两个数据集的多个任务子集上进行比较,包括语义分割(Seg.)、人体部分分割(H.Parts)、深度估计(Dep.)、表面法向量估计(Norm.)、显著性估计(Sal.)和边缘检测(Edge.)。
指标: 作者分别考虑不同的指标为不同的任务进行实验,并进行了广泛的实验以进一步验证作者的模型的有效性。指标的表示方法如下:
mIoU: 平均交并比。
_rmse: 根均方误差。(对于表面法向量估计,作者计算法向角的rmse。)
_mErr: 角度误差的均值。
max-F: 最大F度量值。
odsF: 最佳数据集尺度的F度量。
此外,为了更好地评估所提出的方法,作者考虑每个任务相对于其他任务的相对增益,对于任务,其中,相对增益可以被设计为:
其中表示如果任务的价值越低,性能指标的相对增益就越好,表示如果任务的价值越高,性能指标的相对增益就越好。
此外,作者使用[37]中的_多任务性能_ 来评估所有任务之间的相互促进,定义为:
实现细节: 作者在Pytorch上进行实验,使用一个NVIDIA Tesla V100 GPU。用于不同评估实验的模型在两个数据集上分别训练了40,000次迭代,批量大小为6。作者使用了各种 Backbone 网络来全面验证作者的方法。这些包括经典的单尺度CNN编码器,如ResNet系列,具有膨胀卷积;单尺度Transformer编码器,如ViT系列;
多尺度密集预测网络HRNet系列,以及多尺度可变形卷积系列InternImage。对于使用ViT和ResNet-50 Backbone 网络的模型,作者使用了Adam优化器,学习率为,权重衰减率为。对于使用HRNet Backbone 网络的模型,作者使用了SGD优化器,学习率为,权重衰减率为,动量权重为。对于使用InternImage Backbone 网络的模型,作者使用了AdamW优化器,对于_base_模型和学习率,对于_large_模型和学习率,权重衰减率为,优化器的系数为。
作者使用多项式学习率衰减调度器。作者保持了与[50]中设置的一致性,首先将 Backbone 网络的输出分辨率和平行通道数转换为多尺度特征金字塔。最后三层被用作BFCI的多尺度输入。相应地,BFE和TFR仅应用于最后三层的特征,以确保性能和推理速度之间的有利权衡。
对于ViT-base和ViT-large,初步解码器的输出通道数分别为768和1024。BFE和TPP中的多头自注意力设置为2。 Query 向量的下采样比为2,而Key和Value向量的下采样比为。对于HRNet系列模型,作者遵循之前的多尺度多任务方法的设置,利用所有四个尺度的特征。Key和Value向量的下采样比为。对于HRNet-w18和HRNet-w48,初步解码器的输出通道数分别为144和384。对于InterImage-B和InterImage-L Backbone ,初步解码器的输出通道数分别为896和1280。
关于TFR的尺度,作者建立了三种不同的尺寸:_base_具有2层,_large_具有4层,_huge_具有6层。每个TFR层遵循Hybrid Dilated Convolution (HDC)的标准设计,采用3层深度可分膨胀卷积,膨胀率为,以避免由多个膨胀卷积层带来的网格效应,并实现尽可能大的感受野。
遵循先前的研究工作,作者使用相同的基本设置,即使用一个简单的多任务基准,其中共享编码器并具有多个解码器。 Backbone 网络的输出特征直接输入到任务特定的解码器或预测头中,每个解码器或预测头都从其相应的任务中接收标签监督。
Comparison with SOTA Methods
4.2.1 Overall Comparisons
作者在NYUD-v2和PASCAL Context数据集上与各种最先进的多任务方法进行了比较。作者使用InternImage-L作为 Backbone 。
如表1所示,在所有比较任务中,作者的方法在所有任务上都显著优于以前的工作。在NYUD-v2数据集上,任务包括语义分割(Seg.)、深度估计(Dep.)、表面法向量估计(Norm.)和边缘检测(Edge.)。对于NYUD-v2的比较,作者使用了TFR-_Inge_,BFCI在所有任务上都优于以前的方法。在语义分割和深度估计方面,实现了显著的改进。
与InvPT相比,作者的方法分别提高了mloU和rmse。与先前的最先进的多尺度交互MTI-Net相比,作者实现了显著的改进,分别提高了mloU和rmse。这种改进是非常大的。其他两个任务的改进也相当明显。定性比较如图6所示,显然作者的方法对每个任务都产生了更好的预测质量。
在PASCAL Context数据集上,任务包括语义分割(Seg.)、人体部位分割(H.Parts)、表面法向量估计(Norm.)、显著性估计(Sal.)和边缘检测(Edge.)。作者使用TFR-_large_进行比较。由于任务数量的增加,在多个任务上实现性能平衡变得具有挑战性,并且保持相对于以前工作的所有任务的优势也不是容易实现的。
然而,即使在这些条件下,作者在所有任务上都实现了平衡的提升。在人体部位分割(H.Parts)和显著性估计(Sal.)方面,实现了显著的改进,分别提高了mloU和mErr.。
此外,作者还进行了定性比较,如图7所示。此外,作者还可视化了通过TFR优化的特定任务特征,如图8所示。与缺乏TFR结构的类似工作(如MTI-Net [38])相比,作者的方法生成的特定任务特征表现出更清晰的高层次语义,边界区域更锐利,整体连贯性得到提高。
4.2.2 Comparisons on Different Backbones
与专门为ViT Backbone 网络设计的InvPT不同,作者的方法适用于不同类型的 Backbone 网络。作者还采用了不同的 Backbone 网络来与各种已建立的模型进行比较,以确保作者的方法在不同条件下都具有有效性。作者使用了两种不同的ViTs大小,即ViT-base和ViT-large,以及两种不同的HRNet大小,即HRNet-w18和HRNet-w48,以及常用的ResNet-50d Backbone 网络,其中采用了膨胀卷积。如观察到的那样,作者的BFCI在各种 Backbone 网络上展示了强大的性能。
当使用HRNet系列 Backbone 网络时,作者的方法在Semseg任务中与其他方法具有可比性能,而在其他空间几何估计任务中展现出显著改进。在ResNet-50d上,尽管作者的方法实现了竞争性能,但不同任务之间的性能更为平衡,这意味着作者的方法不会倾向于牺牲一个任务的表现来提高另一个任务。
当使用如ViT系列等更大参数的 Backbone 网络时,作者的方法在像Semseg和H.Parts等高级语义理解任务中显示出了显著的改进。这种现象的原因是,当 Backbone 网络具有较少的参数时,其特征提取能力可能有限。更简单的几何估计任务(Norm., Edge.)可能并未达到饱和,允许模型从更丰富的语义任务(Semseg.)中学习有用的表示,从而提高性能。
相反,当 Backbone 网络具有更多参数时,它可以捕获精确的图像表示,在几何估计任务中达到饱和。在此时,进一步改进变得困难。然而,更大的特征空间和更丰富的表示对于需要高级信息(Semseg.和H.Parts)的任务是有利的。这种现象也观察到了。
4.2.3 Model Size Comparisons
为了进一步展示BFCI的优势,作者在考虑计算成本和模型参数数量的情况下,与一些先前的最先进工作进行了比较。如表3所示,在相同的ViT-large Backbone 网络下,作者的方法在大多数任务上明显优于以前的工作,特别是在Seg., Sal.和Norm.方面。BFE通过高效率的交互带来的好处,作者的BFCI比InvPT减少了24 GFLOPs,即使使用TFR-_large_配置。
对于不同的 Backbone 网络配置,作者的方法在InternImage Backbone 网络上表现更好,计算成本更低。与ViT-base相比,作者的方法在兼容的FLOPs和Params上在InternImage-B上表现更好。与ViT-large相比,作者的方法在InternImage-L上实现了更好的性能,即使参数更少(-57 MParams)和计算成本更少(-118 GFLOPs)。
Ablation Study
消融实验分为三个部分。在4.3.1节中,模型分析部分,作者深入探讨了构成BFCI的三个核心模块:BFE,TPP和TFR的重要性。作者在此提供了全面的视觉分析。在4.3.2节,特征优化策略分析中,作者探索了不同的特征优化方法如何影响最终的预测性能,包括不同的TFR大小和其他技术。在4.3.3节,任务集分析中,作者研究了在多任务学习中,模型性能如何随着不同任务组合的变化而变化。对于所有实验,作者使用ViT-base作为 Backbone 网络。
4.3.1 Model Analysis
这些实验是在NYUD-v2数据集上进行的。首先,作者在每个单独的任务上训练并测试单任务学习(STL)的性能。然后,作者计算多任务学习基准(MTL基准)的性能,并逐步将BFE,TPP和TFR引入其中。
比较结果如表4所示。显然,由于任务数量和它们之间的差异,每个任务都追求不同的优化目标。
因此,MTL基准在比较STL时表现出明显的性能下降。当引入BFE时,性能有所提高,接近像InvPT这样的先进模型在表2中的水平。然而,在这个阶段,如果没有TPP的帮助来获得更具判别性的任务特定特征,BFE生成的桥接特征的质量并不是最优的。因此,当引入TPP时,进一步的性能提升得以实现。
为了更好地利用桥接特征,简单的特征图像素加法是不够的。因此,在添加TFR之后,任务特定特征得到了更好的优化。
从表3可以看出,在四个任务中,Dep.任务上的性能提升最为显著。将作者设计的每个模块集成在一起,模型的平均多任务性能得到了提高。尽管在任务之间出现了负迁移,这阻止了在Edge任务上超越STL性能,但整体上多个任务的平均性能仍然有所提升。这强调了作者的模型设计是有效的。
作者还进行了全面的视觉分析。如图9所示,作者选择了桥接特征()并将其与不同尺度的任务通用特征()和任务特定特征()进行了比较。这些结果如图9所示。任务特定特征的分布类似于相应的标签,并倾向于强调受监督的区域。例如,它们突出了具有显著深度变化的区域,以及像地板、墙壁和橱柜这样的不同语义区域。这表明它们具有独特的任务特定感知能力。
另一方面,任务通用特征表现出丰富的低级表示,如边缘和纹理。桥接特征表现出任务特定感知能力和低级表示。这表明有可能作为多任务交互的中间介质,确保特征交互的完整性。
4.3.2 Refine Strategies Analysis
如图9所示,作者选择了桥接特征()并将其与不同尺度的任务通用特征()和任务特定特征()进行了比较。这些结果如图9所示。任务特定特征的分布类似于相应的标签,并倾向于强调受监督的区域。例如,它们突出了具有显著深度变化的区域,以及像地板、墙壁和橱柜这样的不同语义区域。这表明它们具有独特的任务特定感知能力。
另一方面,任务通用特征表现出丰富的低级表示,如边缘和纹理。桥接特征表现出任务特定感知能力和低级表示。这表明有可能作为多任务交互的中间介质,确保特征交互的完整性。
如在3.4节中讨论的那样,有几种方法可以执行任务精炼。在这里,作者比较了不同精炼方法以及大小不同的任务特征精炼器(TFR)的性能。结果如表4所示。简单地将任务特定特征和桥接特征像素级相加,或将其与单个卷积层连接并处理,会导致次优结果。
在添加的特征上应用InvPT进行全局空间和任务建模也不会显著提高性能。如在3.4节中分析的那样,桥接特征需要有效地将学习到的表示转移到任务特定特征,其中局部相关性更为关键,使得全局建模变得多余,甚至引入冗余参数和计算。作者的TFR-_base_,只有InvPT的一半参数数量,却优于使用InvPT进行精炼的效果()。所有大小的TFR都一致地实现了所有任务上的改进,有效地在性能和计算成本之间取得了平衡。
4.3.3 Task Set Analysis
多任务学习(MTL)中的任务内在特性对协作的有效性有显著影响。具有紧密关系的任务可能会相互增强性能,而具有显著差异的任务可能会导致负迁移和性能下降。在多任务密集预测领域,针对任务组合进行ablation实验的研究相对较少。在这里,作者对纽约大学数据集(NYUD-v2)和帕斯卡尔上下文(PASCAL Context)数据集进行了全面的实验,以分析任务组合的影响。
表6展示了在纽约大学数据集(NYUD-v2)上不同任务组合的情况。作者考虑了6个不同的任务集,包括涉及2、3和4个任务的情况。可以观察到,当任务数量较少时,任务之间的相互增强变得更加可能。
值得注意的是,最显著的相互增强发生在Seg.和Dep.任务之间(Seg. ,Dep. ),导致平均性能提高。这与一些研究的结果一致,表明深度估计和语义分割之间存在强烈的潜在相关性。然而,Seg.和Norm.任务之间的相关性较弱,导致相当大的负迁移效应(Seg. ,Norm. ),导致平均性能下降。
表面法向量与深度在空间中的梯度对齐,建立了这两个任务之间的强烈相关性,有助于相互增强(Dep. ,Norm. ),并实现平均性能提高。随着任务数量增加,由于各种任务对之间固有的不一致性,如Seg.和Norm.,性能往往会降低。例如,Seg.、Dep.和Norm.组合的结果为,Seg.的性能明显下降。
相比之下,Dep.、Norm.和Edge.组合表现出良好的性能,平均改进为,因为这三个任务都设计为学习空间几何,没有明显的冲突。
总体而言,在四个任务中,Dep. 显示了最显著的改进,因为其与其他三个任务之间的冲突最小,允许它从其他任务中提取足够的信息。相比之下,Seg. 和 Edge. 显示了相对温和的改进。Seg. 的潜在冲突阻碍了其改进,而 Edge. 的现象与ATRC中的分析一致,它从其他任务中获得的收益较少。
表7描绘了在PASCAL上下文数据集上的不同任务组合。作者也检查了6种不同的任务组合,包括2、3、4和5个任务。在这些组合中,Seg., H.Parts和Sal.任务之间的相关性较高。学习这些任务一起或成对并不会产生明显的负影响。Seg.和H.Parts是涉及不同粒度的分割任务,它们共享大量信息。这种显式信息共享显着地提高了Seg.的预测准确性,将Intersection over Union (IoU)从提高到。跨不同粒度的语义信息互动对两个任务都有利,导致平均性能改进。
类似地,Seg.和Sal.任务共享一些前景和背景信息,导致没有显著的负影响,平均性能变化为。将所有三个任务一起学习导致平均性能变化为,这是一个可以接受的折衷。然而,在除了这三个任务之外引入Norm.会导致收益显著减少,平均性能下降。这一观察与NYUD-v2数据集上的发现相符。
此外,引入Edge.会导致性能反弹,增强几乎所有任务的相对收益。这强调了Edge.对于大多数密集预测任务的重要性。当学习Sal., Norm.和Edge.这三个相对简单的任务时,平均性能提高。
5 Conclusion
在本文中,作者发现了先前多任务密集预测方法在任务间信息损失和多任务特征交互探索方面的局限性。为了应对这些挑战,作者提出了一种新颖的方法,称为桥接特征中心交互(BFCI)。具体而言,作者的方法使用共享的编码器 Backbone 网络来生成任务通用的特征。在早期解码阶段,使用具有任务模式传播(TPP)的初步解码器来生成高质量的任务特定特征。作者引入了桥接特征提取器(BFE),用于全局 Query 的任务特定特征与 Backbone 任务通用特征之间的交互,选择任务特定感知信息并生成多尺度桥接特征。任务特征优化器(TFR)注入桥接特征的表示,并迭代优化最终的任务预测,从而得到最终的任务预测。与先前的结构相比,作者提出的确保特征交互的完整性,在性能和成本之间取得良好的平衡。
在作者的实验中,作者在广泛使用的多任务学习基准数据集NYUD-v2和PASCAL上下文中评估了作者的方法。通过与单任务学习(STL)、多任务学习基准(MTL基准)、PAD-Net、MTI-Net、InvPT和作者的BFCI进行比较,作者观察到BFCI在多个任务上具有优越性能。此外,作者进行了全面的视觉分析,以证明桥接特征相对于其他两种类型(任务通用和任务特定特征)的优势。与生成和利用任务通用和任务特定特征的模型(如BMTAS和InvPT)相比,BFCI更深入地挖掘了重要的密集预测先验,从而实现了显著的性能改进。作者分析了在特征层面上作者的方法优越的原因。
此外,通过在模型组件上进行消融实验,作者分析了每个组件的有效性,并演示了针对密集预测任务的作者方法的优势。此外,作者在任务集上的消融实验从每个任务的本性出发,分析了任务关系,并研究了不同任务组合对多任务学习性能的影响。通过在任务集上进行这些消融实验,作者更好地理解了任务之间的交互,并为构建有效的多任务学习模型提供了指导。
总之,作者的研究通过引入BFCI方法解决了先前多任务密集预测方法的局限性。实验结果表明,BFCI在多任务学习方面实现了显著的性能改进,这进一步通过视觉分析和消融实验得到了验证。作者的工作为多任务密集预测领域的研究和实践提供了宝贵的洞察和指导。未来的研究可以进一步探索BFCI方法的应用和优化,以满足密集预测任务的更广泛需求。
参考
[1]. Rethinking of Feature Interaction for Multi-task Learning on Dense Prediction
点击上方卡片,关注 「AI视界引擎」 公众号