小目标神器TCI-Former出现 | TCIA注意力模块&TEM边界模块&边界Mask 监督，让小目标无处遁形 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

红外小目标检测（ISTD）对国家安全至关重要，并在军事领域得到了广泛应用。ISTD的目标是从背景中分割出小目标像素。大多数ISTD网络集中于设计特征提取块或特征融合模块，但很少从特征图演化的角度描述ISTD过程。

在ISTD过程中，网络的注意力逐渐转向目标区域。作者将这个过程抽象为通过卷积、池化和与周围像素的相互作用，特征图像素向目标区域的方向性移动，这可以类比为受周围变量和粒子约束的热粒子运动。基于这种类比，作者提出了基于热传导理论原理的受热传导启发的 Transformer （TCI-Former）。根据热动力学中的热传导微分方程，作者推导出图像域中的像素移动微分方程（PMDE），并进一步发展了两模块：受热传导启发的注意力（TCIA）和热传导边界模块（TEM）。

TCIA结合了有限差分法与PMDE以达到数值近似，从而可以提取目标主体特征。为了进一步去除边界区域的误差，设计了TCBM，并通过边界 Mask 进行监督，以细化具有精细边界细节的目标主体特征。在IRSTD-1k和NUAA-SIRST上的实验验证了TCI-Former的优势。

Introduction

红外小目标检测（ISTD）是具有挑战性的，因为目标太小，容易被通用的分割网络忽略。此外，红外图像对比度低、质量差，也给这项任务带来了挑战。由于通用的分割网络在此任务上表现不佳，作者希望探索一个新的视角，并设计一个精确且可解释的ISTD方法。

ISTD方法通常被分为传统方法和基于深度学习的方法。在早期阶段，由于缺乏公共的ISTD数据集，研究者们仅限于使用传统方法。然而，这些方法过于依赖先验知识和手工特征，因此在模型假设不一致的图像特性上不可避免地表现出非常有限的性能。

近年来，基于深度学习的方法成为了图像分割跟踪（ISTD）研究的焦点。基于深度学习的方法大幅提升了ISTD的性能，并且可以进一步分为基于卷积神经网络（CNN）的方法和混合方法（结合了视觉Transformer和CNN的方法）。然而，尽管模块设计不同，这些方法很少从新的视角审视ISTD，这一视角有助于构建可解释的ISTD网络并 Proposal 潜在的未来研究方向。为此，作者提出从热传导的角度理解ISTD的特征图演变过程。

在热力学中，具有不同热量的微观元素在封闭系统内随时间展现出不同的分布。受热源及其他外部因素的影响，热量会自发地从温暖区域传导到寒冷区域。同样地，ISTD过程可以被看作是一系列随时间变化受目标函数约束的特征图。ISTD与热力学的直观类比如图1所示。上部展示了ISTD过程中特征图的演变过程，这是一个从粗到精的过程，逐渐通过邻近像素信息强调目标。

具体来说，在卷积操作中，像素由前一层多个相邻像素决定。在ISTD过程中，图像中具有不同像素值的微观元素在目标函数的约束下移动，直到一些像素值较高的微观元素聚集在小型目标区域附近。这样，小型目标逐渐被突出显示。右上部分的三张连续图像可视化了这一过程。下部描述了从高温到低温区域的自发热传导。底部的右图展示了一个3-D微观元素中热能的流入和流出。这两个过程本质上是十分相似的，因此可以将一些热力学理论转移到ISTD上。

picture.image

在本文中，作者将ISTD过程中的像素移动类比为热力学中的热传导，并提出了TCI-Former这一新颖研究方法。基于热传导微分方程，作者在图像域为ISTD导出了像素移动微分方程（PMDE）。PMDE建立了一个时空约束来引导像素流动方向，因此作者根据它设计了TCI-Former。一方面，作者将有限差分法应用于PMDE，并提出了受热传导启发的注意力（TCIA）以帮助提取目标主体的特征。另一方面，仅关注目标主体区域在分割目标边界区域时不可避免地会产生误差，因此作者设计了热传导边界模块（TCBM）以细化目标主体特征，并带有精细的边界细节。

作者的贡献可以概括为4个方面：

作者是首先在ISTD中意识到热微元素与图像像素在特征图演变过程中的内在一致性的，在这个过程中，热分布随时间的变化类似于由于像素移动导致连续特征图序列中像素值的变化。作者将热传导理论转化为ISTD网络设计中，并提出了TCI-Former。
受到热传导微分方程的启发，作者推导出像素移动微分方程（PMDE），以在ISTD过程中建立像素值的空间和时间信息之间的联系。
作者采用有限差分法整合到PMDE中，并提出了受热传导启发的注意力机制（TCIA）来提取目标主体特征，但这会给目标边界区域带来轻微的误差。作为补充，作者还设计了热传导边界模块（TCBM），用以在目标主体特征中补充精细的边界细节，以弥补这些误差。
TCI-Former在IRSTD-1k和NUAA-SIRST数据集上，在评估指标方面优于其他方法。

Related Work

Infrared Small Target Detection Networks

ISTD网络通常被划分为基于CNN和混合类型。基于CNN的网络主要提取局部特征。Dai等人[1]发布了第一个公开的ISTD数据集，并提出了不对称的上下文调制来进行跨层特征融合。他们随后提出了AI-cNet以保留小目标物的局部特征。Wang等人首次将GAN应用于ISTD并提出了MDvsFA，在漏检和误报之间取得了平衡。DNANet设计了一个密集嵌套交互模块（DNIM），以逐步交互不同 Level 的特征。ISNet设计了一个受简单泰勒有限差分启发的块和一种双方向注意力聚合模块来检测目标。

然而，仅依靠局部特征不足以检测所有的红外目标，因为低对比度的背景使得许多小目标难以被发现。因此，研究者们转向混合方法，通过将ViT与CNN结合，用全局依赖性来补充局部特征。例如，Chen等人创新性地基于流体动力学构建了一个ViT-CNN结构，用于形状感知的ISTD。

上述的ISTD网络专注于构建特征提取块或融合模块，它们中没有一个是從特征图演化的角度提供对ISTD的新理解。在本文中，作者通过将高像素值的像素向ISTD过程中的目标区域的方向性移动抽象为热力学中从热区向冷区的热传导，开启了一个新颖的研究视角。

Thermal Conduction Differential Equation

热传导研究的是由于温差引起的热能传递的规律。无论在何处存在温差，都会自发地从高温物体向低温物体，或者从物体的高温部分向低温部分进行热能的传导。

作为热传导的基本定律，热传导微分方程表明单位时间内通过给定截面的热量与温度变化率以及与截面方向垂直的截面面积成正比。这是热传导温度场中温度分布微分形式的数学表达式。热传导方向与温度增加方向相反。该方程是根据热守恒定律和傅里叶定律建立的。

热守恒定律可以表示为，其中是物体进出口的热能差。是物体内部能量的增量。是物体内部热源形成的热。傅里叶定律描述了热导率与温度梯度之间的关系，表示为，其中是温度梯度，是热导系数。将热守恒方程重写为单位和空间微分形式，并将傅里叶定律代入热守恒方程，作者可以得到以下热传导微分方程：

其中是物体单位体积和时间内内部热源形成的热量。

Pixel Movement Differential Equation (PMDE)

在单位时间内，微元素的温度变化可以表示为：[输入热量与输出热量的差] + [内部热源产生的热能] = [热力学能量的增加]。输入热量与输出热量的差对应于流入和流出之间的特征图像素值差异（）。内部热源产生的热能对应于像素自身值的变化（）。热力学能量的总增加对应于像素值的整体变化（）。因此，在图像场中作者有：

类似于TCDE的推导，像素移动微分方程（PMDE）可以按如下方式导出。

Pixel Value Difference between Inflow and Outflow

在时间内，作者将沿轴和轴流入微元素的像素值分别表示为和。同样，也有像素值沿着两个轴从微元素流出，作者分别将其描述为和。随后，根据差分与导数之间的关系，并结合方向的像素值差和方向的像素值差，得到整个值差。

在文中，, , , 分别代表沿着 x 轴和 y 轴的流入和流出像素值强度，它们衡量了单位面积和单位时间内流入和流出的像素值。根据热力学中的傅里叶定律，该定律描述了热传导过程中热流与微元温度梯度之间的关系，, 可以按照以下方式计算：

Change in Pixel's Own Value

对于红外图像中的每一个像素，其自身的像素值随时间变化，并遵循公式。表示像素强度，即单位面积和时间内产生的像素值。是由于图像微元素内部点的自发像素值变化引起的像素值增加。在这里，作者只考虑导入和导出像素值之间的差异的影响，因此每个点的像素值是固定的，不会发生变化，这意味着。

Overall Change in Pixel Value

根据图像场中变量与热传导场之间的对应关系，作者可以得到在特征图演变过程中像素值变化率（）与整体像素值变化之间的关系。微元素像素值的变化可以表示为：

在这里，是一个常数。从方程式(2)到方程式(5)，作者可以得到在ISTD过程中像素值变化率与梯度之间的关系，这是像素移动微分方程（PMDE）的最终表达式：

在公式中，。PMDE构建了图像中像素值的空间与时间信息之间的联系。在下一节中，作者将使用该方程式来设计两个模块，分别关注目标主体和边界部分，以反映像素的流动。

Methodology

Overall Architecture

TCI-Former的概述展示在图2中。TCI-Former具有类似U-Net的编码器-解码器结构，其中编码器由一系列顺序堆叠的热传导启发的 Transformer （TCIT）块组成，而解码器基于三个简单的反卷积层构建，遵循常见的做法。

picture.image

在相应的编码器和解码器层之间增加了跳跃连接，以实现跨层特征融合。在解码器之后连接了一个全卷积分割头，以提供最终的预测。阶段块中添加的圆形表示输入 Token 的位置编码操作。具体来说，每个TCIT块包含一个热传导启发的注意力（TCIA）和一个热传导边界模块（TCBM）。TCIT具有全局注意力和卷积的并行结构，以同时结合它们在建模局部和全局信息方面的优点。TCIT块的全局注意力结构是TCIA，它像热传导一样从水平和垂直方向关注目标体的信息。TCIT的卷积结构是TCBM，它用边界细节细化目标体特征。

Thermal Conduction-Inspired Attention

有限差分法是一种数值常微分方程求解器。作者将该方法应用于PMDE以提取目标主体特征，这可以被视为对整个目标特征的近似。因此，作者提出TCIA来探索在特征图演化过程中目标主体特征提取的规律。在这里，作者使用二阶有限差分方程，表示为：

在公式中，表示第个特征图层中位置的像素值。将方程式（7）应用于方程式（6），作者得到：

定义，作者可以得到目标主体部分特征提取规则的最终表达式如下：

其中表示。等式（9）描述了在某一特征图层的特定位置上的像素值，由其前一层特征图中沿和轴周围的像素决定。

根据方程（9），作者设计了一种名为TCIA的算法，用于在特征图演变过程中提取小目标的主要本体特征。图3展示了TCIA的结构。TCIA的输入是，输出是，这是通过水平和垂直传导注意力和来聚合前一层的周围像素信息，并与进行逐元素相加得到的。在将每个通道组向不同方向移动+1或-1之前，将的通道分为四组。这样，经过空间适配后的的感受野是菱形的，对应于。

picture.image

作者可以通过残差操作得到，然后线性地将这一项投影到，，。水平传导通过在水平方向上取 Query 特征图的平均值来实现。同理，垂直传导在垂直方向上压缩 Query 特征图。和也执行相同的操作，因此作者可以得到，以及，。这两种传导注意力将全局信息保留在单一轴上，使得特征图上的每个位置仅传播在两个压缩的轴和轴特征上的信息。

然后，将向量输入到多头注意力中，并为水平方向和垂直方向的特性聚合相加，实现这一项。对于方程（9）中的最后一项，它通过 Transformer 块中的残差和层归一化操作进行相加。这样，基于方程（9）的TCIA得以实现。

Thermal Conduction Boundary Module

TCIA有助于提取目标人体的特征，但仅由TCIA分支提取的特征在接近边界区域并不足够精细，因为TCIA中使用的有限差分法是一种数值方法，这不可避免地会带来小的误差。在像素值移动过程中，由于数值不确定性，存在一定程度的分散。

为了解决这个问题，作者需要用精细的边界细节来完善粗糙的目标身体特征，以弥补不确定的误差。作者注意到，作者自己的PMDE已经包含了边界信息（二阶导数项），因此为了提取目标边界特征，作者基于PMDE设计了热传导边界模块（TCBM）。方程式(6)的微分形式可以描述为：

在ISTD过程中，提取的特征图按时间顺序排列。PMDE在特征提取过程中建立时间域（）像素值变化与二维空间域（，）之间的关系。将时间步长定义为1，作者可以探索两个连续特征图之间的边界特征演变规则。PMDE的具体表达式可以重写为：

在这里，表示第次残差计算。是第次和第次残差计算之间的步长。TCBM 利用空间信息来弥补编码器在特征提取过程中边界细化不足的问题。方程（11）的右侧分别是在方向和方向的二阶导数。

因此，通过这一项，作者可以获得作为时间信息（即前向提取过程中的信息）的残差补充的空间信息。和在边界区域具有较大的值，因此 TCBM 对目标边界敏感，并能对目标主体特征起到补充作用。TCBM将拉普拉斯算子融入到残差块中，其中拉普拉斯算子用于实现和项。

Loss Function

Dice 损失衡量了 Mask 预测与真实值之间的差异。它还可以缓解样本不平衡问题，定义如下：

在这段文本中，""代表1000ask 预测，而""是真实值。最终损失函数包含了作为主要的损失函数，以及目标边界损失()和内部主体损失()作为两个辅助损失函数。的计算方式如下：

和使用相同的作为真实 Mask ，而的是来自TCIA编码器分支的分割头输出，的是最终预测输出。的是来自TCBM编码器分支的分割头输出，而的是边界 Mask 标签。

Experiments

Experimental Settings

数据集。作者选择NUAA-SIRST和IRSTD-1k作为实验数据集。NUAA-SIRST包含427张不同尺寸的红外图像，而IRSTD-1k由1,000张尺寸为的真实红外图像组成。IRSTD-1k是一个更难的ISTD数据集，拥有更丰富的场景。对于每个数据集，作者使用80的图像作为训练集，20作为测试集。

评估指标。作者在像素 Level 和目标 Level 的评估指标上，将TCI-Former与其他SOTA方法进行了比较。像素 Level 的指标包括交并比()和归一化交并比()，而目标 Level 的指标包括检测概率()和误报率()。

衡量了在给定数据集中检测相应目标的准确性。是的归一化形式，它可以在红外小目标的结构相似性和像素准确性之间实现更好的平衡。和的定义如下：

在这里，和分别是预测和真实值之间交集区域和并集区域的面积。是样本的总数，是真正阳性像素的数量，和分别是真实阳性像素和预测阳性像素的数量。

计算正确预测的目标数量与所有目标数量之比。指的是错误预测的目标像素数与红外图像中所有像素数之比。和的计算方式如下：

优化。该算法使用Pytorch实现，优化器为自适应梯度（AdaGrad），初始学习率设为0.05，权重衰减系数设为0.0004。训练使用Titan XP GPU，批量大小设置为4。在SIRST和IRSTD-1k上的训练分别需要800个和600个周期。

Comparison with SOTA Methods

定量比较。作者选择了一些最新的ISTD方法进行对比。如表1所示，在两个数据集上，TCI-Former在像素级和目标级指标上均表现出最佳性能。

picture.image

对于像素级指标（），深度学习方法通常优于传统方法，因为与依赖先验知识和手工特征的传统方法不同，深度学习方法并不重度依赖它们。然而，深度学习方法对目标边缘的关注不足，这导致和受限。TCI-Former在和上都取得了最佳性能，这意味着由于TCBM，TCI-Former在形状感知分割性能上达到了最佳。

对于目标 Level 的指标（），如何在和之间达到平衡是具有挑战性的，因为这两个指标是相互排斥的。传统方法未能平衡这两个指标，但深度学习方法却做到了。TCI-Former在目标 Level 指标上取得了最佳结果，除了在NUAA-SIRST中，仅低于RKformer 外。然而，在更难的、场景更丰富的ISTD数据集IRSTD-1k中，显著优于它。结果表明，TCI-Former由于采用了模仿热传导来提取目标主体特征的TCIA，可以学习更好的表征，以找到被低对比度和噪声背景覆盖的小目标。

picture.image

视觉比较。不同方法的近距离视觉效果展示在图4中。如图4所示，大多数基于CNN的方法由于未能提取全局上下文，导致检测不完整。混合方法通常比基于CNN的方法表现更好，有较少的严重不完整检测情况，但仍然无法准确预测目标形状。与其他方法相比，TCI-Former显著减少了不良情况，并对小目标实现了更好的边界感知分割。这是因为TCI-Former不仅能够提取如热传导之类的目标主体特征，还能利用精细的边界信息来精化主体特征。

picture.image

为了展示TCIA的目标主体定位效应和TCBM的边界细化效果，作者在图5（a）中可视化了TCIA分支和TCBM分支的分割头输出。为了呈现从粗到细的特征图演变过程，作者在图5（b）中可视化了编码器（En：阶段1、2、3、4）和解码器（De：阶段3、2、1）所有阶段的中间特征图。作者可以发现，从小目标区域从解码器阶段3、2、1的特征图开始，逐渐像热量从热区传导到冷区一样被突出显示，这符合作者的类比。

Ablation Study

每个模块的影响。TCIA和TCBM的消融研究在表2中展示。 Baseline 使用基本的金字塔ViT [23]作为编码器。表2显示了两种设计的积极效果，将它们结合起来带来了最佳结果，这表明它们是相互补充的。原因是配备了TCIA的ViT块能够从正交方向上的周围区域提取主要目标身体特征，而TCBM则并行地用边界细节细化粗糙的身体特征，以提高检测性能。

picture.image

TCIA的影响。为了消融研究TCIA，作者将TCIA与多头自注意力（MHSA）、十字形窗口自注意力（CSWSA）以及多头关系注意力（MHRA）进行了比较。

picture.image

如表3所示，在所有指标上，TCIA都优于其他方法，显示出更优秀的小目标定位能力。其原因是TCIA中的空间偏移操作使编码块更能意识到边界，这有助于提取更完整的目标主体特征。TCIA的优越性证明了作者将ISTD过程与热传导过程之间的类比是有效的。

TCBM的影响。在表4中，作者比较了TCBM（拉普拉斯+残差块）与基本残差块以及带有Roberts算子的基本残差块，以检验不同设计对边界特征提取的效果。TCBM取得了最佳结果，原因是：

边缘算子帮助基本残差块提取边缘；
Roberts算子提取的边缘较粗且不够精确。

picture.image

Model Complexity Analysis

作者还比较了不同方法在参数数量（M）、FLOPs（G）和推理时间（s）方面的模型复杂性，如表5所示。

picture.image

与其它方法相比，TCI-Former参数不多，且FLOPs和推理时间是可以接受的。这是因为在TCIA中，在注意力操作之前作者压缩了的维度，这减少了模型参数并提高了效率。TCI-Former在不同模型复杂性指标之间达到了一种普遍的平衡。

Conclusion

受到在ISTD过程中像素移动与热力学中热传导类比的启发，作者提出了TCI-Former用于ISTD。首先，作者从热力学方程中推导出图像域的PMDE。然后，作者将有限差分法应用于PMDE并设计出TCIA，并将其嵌入到编码器块中，通过模拟热传导过程来提取目标主体特征。

作者还基于PMDE提出了TCBM，以并行地细化具有精细边界细节的目标体特征。在NUAA-SIRST和IRSTD-1k上的实验证明了TCI-Former的优越性，它探索了新的研究路径。

参考

[1].TCI-Former: Thermal Conduction-Inspired Transformer for Infrared Small Target Detection.

点击上方卡片，关注「AI视界引擎」公众号