Transformer 增强型 UNet 深度学习模型，用于复杂条件下目标检测！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

已有许多研究致力于从卫星图像中检测烟雾。然而，这些先前的方法在复杂背景中检测各种烟雾仍然不够有效。烟雾检测具有挑战性，因为烟雾在密度、颜色、光照以及背景（如云、霾和/或雾）方面的变化，还有薄烟雾的上下文特性。

本文通过提出一种名为VTrUNet的新分割模型来解决这些挑战，该模型包括一个捕获光谱模式的虚拟波段构建模块和一个捕获远程上下文特征的 Transformer 增强型UNet。

该模型以六个波段（红、绿、蓝、近红外和两个短波红外波段）的图像作为输入。为了展示所提出模型的优点，本文展示了各种可能的模型架构改进UNet的广泛结果，并得出了一些有趣的结论，包括向模型中添加更多模块并不总是能带来更好的性能。

本文还将所提出的模型与最近提出的相关烟雾分割模型进行了比较，并显示所提出的模型性能最佳，并在预测性能上有显著改进。

1 Introduction

野火在环境、经济和人民生命方面造成了重大损失。当野火较小或火点位置偏远时，直接检测野火是具有挑战性的。通过烟雾检测来检测野火是一种有效的方法，因为烟雾扩散和上升的速度更快，并且是野火的重要信号。从卫星图像进行烟雾检测具有覆盖偏远地区、不受白天光线影响的优势，已经吸引了大量研究。

关于烟雾检测的工作从卫星图像，到无人机图像[8]，陆地相机图像，以及视频。作者的工作是基于卫星图像的烟雾检测。

基于卫星图像的烟雾检测分为两个层次：像素级和场景级。像素级烟雾检测，称为烟雾分割，为图像的每个像素给出预测，以指示它是否为烟雾像素。相比之下，场景级烟雾检测旨在预测图像中的场景是否包含烟雾，而不关注特定像素。一种特殊的场景级检测是目标检测，它将通用目标检测方法如YOLO、Mask R-CNN应用于烟雾目标的检测。这类方法在场景级预测图像中是否存在烟雾，同时预测一个边界框来显示烟雾目标的位置。比较这两种方法，像素级烟雾检测的优势在于，检测结果更具有解释性，因为烟雾的规模在检测中清晰显示。同时，可以从检测到的烟雾像素推导出烟雾位置，这些位置对于进一步行动至关重要。本文专注于像素级火烟雾检测，即烟雾分割。

早期的分割方法用于烟雾分割时使用阈值[4, 53]。它们根据经验应用阈值于波段读数或其导数，以确定像素是否为烟雾像素。为了克服复杂场景获取阈值的困难，已经广泛研究了机器学习方法与深度学习方法。机器学习方法在为图像的区域导出属性后，应用如SVM、神经网络和随机森林的预测模型来预测像素是否为烟雾。在[53]中的工作使用波段读数及其导数的阈值来检测烟雾和云层。[25]中使用多阈值方法提取训练集，以训练神经网络分类器，合并烟雾区域。[16]中提出了一种自适应阈值方法，使用2D Otsu方法来解决固定阈值引起的遗漏问题。[47]中提出了一种方法，通过迭代结合超像素，然后使用SVP进行烟雾预测，以克服过度分割问题。[28]中使用超像素技术寻找像素相似的区域的区域，使用信息熵理论寻找截断距离，然后聚类中心。对区域应用SVM进行预测。[29]中将多层感知器（MLP）应用于卡利曼丹岛数据集。[48]中的研究是关于使用RF、SVM和阈值加权的融合进行烟雾亚像素分析。[36]中使用像素与其背景分布之间的距离来判断它是否为烟雾像素。[7]这篇综述论文于2022年发表，总结了更多之前的方法。

深度学习方法使用CNN和多种注意力机制直接预测像素是否为烟雾，而无需进行降维的预处理步骤。深度学习方法的主要优势在于，它们轻松应对图像的高维挑战。与其它先前方法相比，这些方法也取得了更高的性能。《文献[11]》提出了一种CNN模型，用于分割陆地摄像头拍摄的RGB图像中的烟雾。《文献[24]》提出了一种全卷积网络模型，用于检测卫星图像中的烟雾。《文献[45]》中的Smoke-UNet模型应用了四级UNet模型进行多光谱图像中的烟雾检测，并取得了更好的结果。《文献[50]》提出了一种CNN模型，包含两条具有不同卷积大小的残差路径，以捕捉不同尺度的特征。《文献[49]》的模型通过三个不同分辨率的阶段提取特征，将这些特征通过空间注意和通道注意后，最终进行分割预测。《文献[46]》的模型使用了四个阶段，并且最后阶段的输出进一步采样以降低特征图的分辨率。然后，所有这些特征都通过注意力机制进行最终的分割预测。《文献[40]》的研究针对的是监控摄像头拍摄的图像，其中已知有烟雾的图像和没有烟雾的背景图像。该研究提出了一种模型，给定了烟雾图像时，可以恢复烟雾及其背景。背景和烟雾的特征来自于结合编码阶段，但是有分开的解码阶段，并分别由已知的背景图像和已知的烟雾进行监督。分辨率和通道上的注意力在该工作中被大量使用。

烟雾分割与遥感图像中建筑物、道路和水面，尘埃[文献12；5]和火灾[文献34；33；20]等类型的目标分割有一些相似性。本文中使用的UNet也被用于，因其良好的性能表现。用于火灾检测的RAUNet[文献34]将残差块和注意力门集成到UNet每个 Level 的解码阶段中。用于尘埃检测的DAUNet[文献12]在UNet每个 Level 的两端重度使用通道-空间注意力。这个模型与用于火灾检测的GFUNet[文献20]相似。用于建筑物检测的MA-UNet[文献35]将基于自注意力的模块与UNet结合。MA-UNet使用UNet和自注意力，与作者的方法更为接近。除了Smoke-UNet，作者还将把作者的方法与关系密切的最新GFUNet和MA-UNet进行比较。

尽管上述描述了大量工作，现有方法/模型在检测复杂卫星图像中的烟雾像素方面表现不佳。检测性能低的原因在于，卫星图像中的烟雾可能有不同的光照条件，烟雾密度，不清晰的薄烟雾边界，背景气溶胶如云、霾、雾，或其他特殊的地球表面覆盖物，如森林、草地、裸地、建筑物和道路、海滩、水域等。图1展示了作者数据集中的一些情况。作者的数据集包含Landsat图像的六个通道：RGB、NIR（近红外）、SWIR1和SWIR2（短波红外）。其中一些图像包含薄烟雾（图中(a)和(d)区域标记的A），一些云及其阴影在(b)、(c)和(d)，未知地面覆盖(c)，不同颜色和密度的烟雾，以及不同的背景。

picture.image

检测性能低的另一个原因是，薄烟雾的作用取决于其与前景（检测目标）或背景的关系。具体来说，当薄烟雾在清晰背景上方出现时，它作为检测目标（例如，图1(a)）。当薄烟雾伴随有浓烟雾时，它就不再是检测目标（例如，图1(b)中A周围的薄烟雾），而是形成背景，目标转移到浓烟雾上。这种薄烟雾的性质称为上下文属性，从中得出的特征称为上下文特征。

这些原因引出了一个疑问：当烟雾在复杂图像中出现时，能否提高烟雾检测/分割的性能？作者的论文提出了一种方法来解决这一问题。

作者的方法是基于深度学习UNet模型的。UNet 因其优良性能，已被广泛应用于图像中目标的分割以及烟雾、火焰、土地覆盖的分割。作者的模型包括一个虚拟通道构建模块来扩展特征通道，以及一个基于自注意力机制的视觉 Transformer 嵌入UNet中。虚拟通道构建模块将输入图像扩展为具有更多通道，以便特定通道对齐光谱模式[51]。视觉 Transformer 被设计用来对比区域属性的区域均值和最大值，如同[40]中所做的那样。其自注意力机制提取区域间烟雾相关性和推导薄烟雾的上下文相关性，使模型有效。

本文的贡献如下：

提出了一个机器学习模型，称为VTrUNet，使用虚拟通道构建模块来扩展特征通道以捕捉光谱模式，并使用 Transformer 增强的UNet来捕获长距离和上下文特征关联。
提出了一种调整后的F1分数用于模型评估，该分数考虑了复杂条件下像素标记的质量，质量指的是标记像素的比例与未标注像素的比例。
通过架构框架，全面消融研究不同的注意力模块与UNet结合的方式，以验证作者模型的性能。
展示了与作者提出的模型与最新的烟雾检测相关方法，如GFUNet [20]，MA-UNet [35]，Smoke-UNet [45]和[24]中的CNN模型的比较。

结果显示，作者的模型是最佳表现者，在F1分数上比次佳模型提高了超过4%。

2 Method

在本节中，作者首先介绍作者提出的模型的结构。然后，作者展示了一种用于评估部分标记图像预测性能的度量标准。

作者的模型 VTrUNet

作者的方法是一种深度学习模型，它接收如上所述的6通道图像作为输入，并将图像中的每个像素分类为三个类别：烟雾、云和清晰。如图2所示，它被称为VTrUNet。它由两个模块组成：一个虚拟通道构建模块，用VC表示，以及一个 Transformer 增强的UNet模块，用TrUNet表示。

picture.image

虚拟通道构建（VC）模块接收6通道输入图像并输出64通道的张量。通过通道扩展，VC模块表示不同的光谱模式，比如特定颜色的物体，在不同的通道中进行有效的下游学习[51]。该模块的输出与输入具有相同的分辨率，并包含64个通道。选择64个通道是基于实验的。

VC模块还进行了改进，使用1x1、3x3和5x5大小的卷积来获取不同范围的特征。沿通道维度连接来自这些核的特征。同时，重复使用相同的一组核来捕获可能由非线性交互产生的特征。在这种设计中，来自大于5x5区域的特征由UNet和UNet中的 Transformer 处理。

如图2(b)所示的Transformer增强型UNet，即TrUNet，是通过在UNet模型[31]的每个层级中加入Transformer块TrfB而得到的。在每一层级，输入图像通过卷积块ConvB。输出图像通过两条路径向右传输。在顶部路径中，它通过Transformer块TrfB来提取长距离的相对特征。在层级底部的路径中，残差路径直接向右传输。在右侧，Transformer块的输出、来自残差路径的输出以及来自下一层级的TransConv输出被连接起来，并通过右侧的ConvB生成该层的输出。左侧ConvB的输出也通过MaxPool2d下采样向下传输到下一层级，以将分辨率减半并加倍通道数。在右侧，层级的输出通过转置卷积（TransConv）向上传输以增加分辨率并减少通道数。TrUNet的输入为256256c，输出也为256256c。如果TrUNet跟在VC块之后，c为64。如果TrUNet直接接收输入图像，c为6。

Transformer块TrfB源自用于图像数据分类的视觉Transformer（ViT）[1]。它已被用于遥感预测[22, 55, 44, 35]。在作者的ViT实现中，作者使用区域作为特征的通道均值和最大值（如[40]中）进行自注意力，以推导薄烟与其周围区域的相关性。特别是，这些特征有助于在两种对比环境中推导薄烟的上下文关系。在第一种设置中，薄烟是针对清晰背景的检测目标。在第二种设置中，薄烟作为围绕浓烟目标的背景。自注意力[41]已被证明是捕捉长距离关联的最成功技术之一。与之前的工作不同，作者在每个层级也将一个残差连接平行于TrfB向右传输。这个残差连接使左侧ConvB的输出与右侧TrfB的输出以最佳方式结合。根据实验，Transformer重复六次，一次接一次，以捕捉需要更高阶导数的超级关联。

用于像素预测的MLP（多层感知器）模块旨在预测图像中像素的类别。它由两个全连接层组成。MLP的输入为256256c，输出为2562563，即一个RGB图像。红色通道对应烟雾，绿色通道对应云，蓝色通道对应清晰地面。这个模块可以很容易地适应于需要预测超过三个类别的问题。

作者注意到尽管UNet在遥感相关分割领域已被广泛应用[45, 20, 35, 10]，但与作者的VTrUNet结构最接近的模型是建筑检测中的MA-UNet，因为两者在UNet的每个层级上都使用了 Transformer 。作者的模型与MA-UNet有两个不同之处。一是作者有一个VC模块来构建特征并增加通道，该模块对性能的贡献在消融研究中得到了证明。其次，MA-UNet将每个层级的 Transformer 输出直接指向右侧，而没有残差路径，而作者的模型将TrfB的张量和残差路径都发送到右侧。作者的模型允许残差路径中的短距离特征和输出中的长距离特征通过网络右侧的可优化参数进行合并。

作者还注意到，在深度学习模型中，空间注意力和通道注意力通常被用来提升性能[13]。空间注意力使用分辨率压缩和扩展来推导所有通道中相同像素的注意力因子。在UNet的情况下，这似乎是多余的，因为UNet在编码阶段（左侧）已经具有这种压缩，在解码阶段（右侧）进行扩展。通道注意力压缩分辨率以推导特定通道上所有像素的注意力因子。在稍后进行的消融研究中的一项实验中，作者在TrUNet之后附加了一个通道注意力模块以提高性能，但通道注意力的性能增益是负面的。更一般地说，作者的实验表明，当一个特定模块缺失时，架构中的模块能够补偿其角色，并且一个模块对性能的贡献取决于模型中还有哪些其他模块。更多细节将在消融研究部分呈现。

A moderated F1 score for model evaluation

模型训练和评估需要标记数据。这需要绘制边界线以指示图像中烟雾的位置。如图3的底行所示，在卫星图像中，烟雾与其周围气溶胶之间的边界可能不容易识别。这在烟雾较薄、在低光照条件下以及褐色背景中的烟雾情况下很典型。在这些情况下，将烟雾与周围气溶胶分开绘制边界线几乎是一项不切实际的任务。标记图像的一种实际方法是只标记标记者高度确定的烟雾、云和清晰背景，并让不确定的区域保持未标注。这些不确定的区域称为间隙。这种实际的标记方法称为部分标记[19]2。图3展示了一些用于训练（顶行）和评估（中行和底行）的标记图像。为了标记训练图像，只需标记确定的类别像素，但为了标记评估图像，应尽可能多地标记图像，以便检查模型在未标注区域的预测。现在，作者提出了一种在存在间隙时评估预测性能的修正方法。

picture.image

作者注意到，Jaccard指数（交并比 - IoU）（如在[23]中使用）无法正确捕捉间隙区域的预测。在IoU的精神中，如果被标记为类别A的像素被预测为类别A，它们就是真阳性。否则，它们就是错误。然而，在部分标记的情况下，当间隙中的像素被预测为类别A时，它们并不是错误。只有当标记为类别B的像素被预测为类别A时，它们才是错误。人们可能会考虑忽略间隙像素以进行IoU计算。不幸的是，这可能导致性能被夸大。为了使模型表现更好，标记者可能只为评估标记少量易于预测的像素，而不标记任何难以预测的像素。

作者提出的修正方法除了考虑预测错误的评估外，还考虑了间隙的大小。更具体地说，作者确定了两个条件：(1) 间隙中的预测不应被视为错误；(2) 在标记的清晰区域中，烟雾和/或云的预测仍然应被视为错误。作者注意到，为了区分这两种情况下的预测，清晰像素也必须像烟雾和云一样被标记和预测。

作者从标准的性能指标——标准F1分数开始，推导出一个调整后的F1分数，记为F1h，以反映标记质量。标准F1的定义如方程（1）所示，其中表示类别的所有标记像素，为间隙（未标注像素），表示所有预测的类别的像素，表示在间隙中预测的像素，表示类别的像素数量，表示图像的所有像素。图4说明了这些符号。

picture.image

作者设计了一个调节器，以反映每个类别的标记情况（第一项）以及整张图像的标记情况（第二项）。当一个类别被很好地标记时，第一项较小，因为这类像素不会出现在区域。当图像中的大多数像素都被标记时，第二项较小。总体而言，调节器值较小表示标记质量较好。调整后的F1分数如方程（2）所示。

众所周知，应该对所有类别评估性能指标。否则，指标值可能无法正确反映预测质量。例如，如果一个数据集包含两个类别和，其中10%的实例是类别（阳性），其余90%是类别（阴性），而一个模型预测所有实例都属于类别，那么该模型对类别的召回率是100%，对类别的精确度是90%，且 F1(N) = 0.95。这些性能测量数据非常出色。然而，如果类别表示疾病的 presence，模型未能检测到任何疾病案例。也就是说，模型未能充分执行。为了克服这个问题，应该对所有类别的性能指标进行评估，并使用相应指标的均值来表示模型性能。继续上述例子，F1(P) = 0，平均 F1 分数是 0.475，表明模型非常差。

采用这种方法，对图像中所有类别的指标取平均值以获得图像 Level 的指标。然后对所有图像的图像 Level 指标取平均值。所有类别和所有图像的最终 F1h、F1、精确度和召回率的平均值是作者用来衡量模型在数据集上性能的值。

3 Experiments and Results

Data and labelling

所用于实验的数据集是通过https://docs.dea.ga.gov.au/setup/Sandbox/sandbox.html的DEA沙盒从Landsat 5和Landsat 8收集的。数据集包含每个类别：烟雾、云和晴朗的900张图像。每张图像具有256x256的分辨率，并包含六个通道：蓝色、绿色、红色、近红外(NIR)、短波红外1(SWIR1)和短波红外2(SWIR2)，其波长范围分别为0.63-0.69、0.52-0.60、0.45-0.52、0.76-0.90、1.55-1.75和2.08-2.35。图像中的每个像素代表地面上30米。关于此数据集的更多详细信息可以在[52]中找到。数据集可应要求提供。

数据集中的某些图像，如图7(i)和图8(iii)，不适合标注，因为尽管这些图像来自烟雾区域，但几乎不可能区分烟雾和云。从数据集中选择了179张图像用于训练和14张图像用于评估。所选择的图像反映了所有类型的像素：浓烟和薄烟、白烟和黑烟、海上烟雾、云、云影、在雾霾中、清澈水域以及各种类型的晴朗陆地覆盖。用于标注的三个类别是：烟雾、云和晴朗，其中晴朗意味着像素不被云或烟雾覆盖。训练图像对典型的类别像素进行了标注，并具有大片的未标注区域，如图3顶部行所示。评估图像的标注尽量减少标签间隙，如图3中间行所示。评估类别分别标注的像素数为100万、2百万和5400万。用于训练的标注像素数量是评估像素数量的十倍以上。训练图像通过旋转和翻转进行增强。

picture.image

标注是使用Labelme [42]完成的，这是一个允许在图像上绘制不同类别多边形的工具。输出是一个描述多边形的JSON文件。JSON文件中的多边形然后转换为PNG文件中的红色烟雾、绿色云和蓝色晴朗的块。PNG文件用作训练和评估的目标。

Model training

作者训练了许多模型，如下一节中的消融研究中所示。这些模型是用PyTorch实现的。模型训练中使用的损失函数是预测值与标记像素之间的均方误差。选择了Adam优化器来训练模型。使用了动态学习率，初始值为0.0001，这是通过实验确定的。如果训练在10个周期内没有改进，如果学习率不低于1e-7，则将学习率减半。如果在20个周期内无法取得任何改进，则训练结束。每个模型的参数都是随机初始化的，并且训练10次以找到最佳模型。所有模型的训练会在70到150个周期之间达到最佳性能。在训练中使用了一块具有10GB内存的GeForce GTX-1080 GPU。VTrUNet模型的训练大约需要2个小时。批处理大小设置为4，因为作者的数据集和模型显示较大的批处理大小会减慢模型学习。

Model performance and ablation study

作者的消融研究遵循图5中的模型框架，使用特征导出模块VC、中间模块Mid和通道注意力模块ChA生成候选模型。生成的模型将被命名为VC-Mid-ChA，其中Mid是一个占位符。缺失的模块用''表示。如果一个模型中没有所有模块，该模型的名称为'--'，即MLP模型。在这种情况下，MLP模型将最左侧的6通道图像作为输入，预测像素的类别。如果只有VC缺失且Mid是TrUNet，那么模型为-TrUNet-ChA，而TrUNet将6通道图像作为输入。Mid的选项包括TrUNet、UNet、UNet+TrfB。在这里，UNet+TrfB意味着Mid被原始UNet和 Transformer 块TrfB的序列替换。这与TrUNet不同，在TrUNet中，TrfB在每个原始UNet Level 的附加路径上。

基于模型框架，作者消融研究中的模型列于表1中。在测试数据集上对模型的实验结果列于表2中。对于每个模型，作者报告了所有训练过程中平均F1h得分（avgF1h），以及在这些过程中以F1h为标准最佳模型的（F1h、F1、精确度、召回率）。avgF1h得分表示模型在所有10次训练过程中的平均性能。模型训练涉及到随机因素，如随机初始权重和随机批次。作者还报告了最佳模型的指标值，因为如果可以选择，作者总是倾向于选择性能最好的模型。模型通常会在精确度和召回率之间进行不同的平衡，而F1分数表示平衡的结果。F1h/F1的比率是标记质量的指标。更好的标记将导致比率值较高。

picture.image

虚拟通道构建模型VC非常重要。通过比较9:MLP和4:VC-0-0，可以看出VC极大地提升了性能。当比较1:VC-TrUNet-()和3:()-TrUNet-()时也是如此。这些比较表明，虚拟通道扩展是一个非常有效的模块，可以提升模型的性能。
增强型UNet，即TrUNet，非常重要。当比较1:VC-TrUNet-()和4:VC-()-()时，这一点显而易见。比较结果显示，经过Transformer增强的UNet在提升模型性能方面非常有效。
将Transformer块TrfB添加到UNet的每个 Level 比在UNet之后添加更有益。通过比较'1:VC-TrUNet-()'和'7:VC-UNet+TrfB-()'，以及'2:VC-TrUNet-Cha'和'8:VC-UNet+TrfB-Cha'可以看出这一点。这些比较证实了与在UNet后加上Transformer相比，选择增强型UNet是正确的。这是对之前关于增强型UNet点的进一步确认。
模块对模型性能的贡献取决于模型中还有哪些其他模块。如果作者比较'4:VC-()-()'与'5:VC-()-Cha'，以及'7:VC-UNet+TrfB-()'与'8:VC-UNet+TrfB-Cha'，Cha模块的贡献是很明显的。但是当比较'1:VC-TrUNet-()'和'2:VC-TrUNet-Cha'时，Cha的贡献是负面的。VC同理，当比较'1:VC-TrUNet-()'与'3:()-TrUNet-()'时，F1h的差异为0.056。当比较'4:VC-0-0'与'9:()-()-()'时，F1h的差异为0.344，大得多。这是一个有趣的结果。它表明，增加更多模块未必会提升性能；事实上，它可能会使性能变得更糟。此外，模块对模型性能的贡献取决于模型中存在的其他模块。尽管作者只需要向模型中添加正确的模块，但哪些是正确的模块还需要在将来进一步研究。
模型VC-TrUNet-()表现最佳。 F1h得分、F1得分和精确度都是所有模型中最高的。与'2:'相比，精确度和召回率得分更加平衡。平均F1h得分也是最高的，这使得这一结论非常可靠。### 与最新分割模型的比较

在本小节中，作者将作者的模型VTrUNet与最近提出的深度学习分割模型进行了比较。烟雾分割模型包括Smoke-UNet [45]（简称SUNet）、FCN [24]以及Frizzi的CNN（FrizCNN）[24]。SUNet的结构是基于UNet的，而FCN的结构与UNet非常相似。与FCN相比，SUNet在通道16和256上具有额外的层。作者选择实现更新和更深的模型，即SUNet。作者从https://github.com/rekon/Smoke-semantic-segmentation获取了SUNet模型的代码。作者自己实现了FrizCNN模型，因为论文提供了足够的信息来这样做。

最近，GFUNet [20]被提出用于火灾检测，而MA-UNet [35]被提出用于建筑物、道路和水的检测。尽管它们不是直接用于烟雾检测，作者仍然将它们与作者的模型进行比较，以观察它们在作者的数据上的表现。作者根据论文中的描述实现了这些模型。这些模型的输入层被适配为使用6个通道，并且输出被适配为3个以与作者的标注数据对齐。然后，这些适配后的模型的训练环境与VTrUNet相同。训练参数和过程设置为与训练VTrUNet模型相同。然而，作者测试并使用了这些模型的最佳学习率，以确保它们不会处于不利地位。对于每个模型，作者运行了10次训练会话，以获得10个使用作者数据的训练模型。

方法的性能值显示在表3中。这些值表明VTrUNet的性能最高，其次是GFUNet排在第二位，MA-UNet排在第三位。然而，在检查预测的图像时，观察到这些模型常常会遗漏薄雾。有趣的是，尽管SUNet的avgF1得分较低，但其在所有训练会话中的F1得分波动很大。在一次训练会话中，它实现了0.654的F1得分，但在其他几个中下降到了非常低的0.401。

picture.image

Effectiveness of VTrUNet

表4：图6中图像的评价得分

picture.image

作者通过评估标记的测试图像示例（图6）和无标记图像示例（图7）来可视化作者模型的性能。图6展示了示例测试图像，其评价得分在表4中显示。图像（i）被很好地预测，召回率很高，但由于大面积未标注区域，F1h得分和F1h/F1比值较低。图像（ii）获得最高的F1h得分。尽管一小部分棕色非烟雾区域被错误预测为烟雾，但总体预测非常准确，且标记质量也是最好的。图像（iii）呈现了一个具有许多小云块的有挑战性的案例，使得边界划分困难。然而，作者的模型表现良好，准确预测了所有云块和烟雾区域。在图像（iv）中，模型正确预测了标记为A的薄雾，这在标记过程中被遗漏了，同时也正确预测了其他标记像素。图像（v）也被很好地预测。

从这些评估图像来看，所提出的模型是有效的。不同颜色的烟雾被正确检测，烟雾和云层被准确分离。作者认为这种准确性和正确性是由于虚拟通道构建模块捕获的光谱模式和自注意力机制以及UNet捕获的长距离上下文特征。

图7展示了无标记图像以及作者的模型在其中检测到的烟雾示例。请注意，由于这些预测是无标记的，所以没有可用于这些预测的评价得分。案例（i）展示了受灌木火灾影响的邻近区域的烟雾蔓延至山谷，显示了模型检测重烟雾和厚云组合的能力。案例（ii）展示了检测不同密度烟雾的能力。案例（iii）呈现了一个简单的案例，显示了准确的检测。案例（iv）突显了模型在忽略薄雾的同时识别重烟雾的能力。案例（v）展示了模型在清晰陆地对比下识别薄雾的能力。

对于无标记图像的预测验证了作者的模型具有强大的功能。它能够在复杂条件下区分烟雾和云层。它能够正确检测薄雾作为目标和背景的作用。作者认为这是由于UNet中自注意力捕获的上下文特征和相关性。

通过可视化，作者得出结论，作者的模型整体性能非常准确。

Discussions

作者认为，通过更多的训练数据可以解决这些不足。然而，当前的数据集缺乏用于这些特殊区域（尤其是烧焦区域和阴影山坡）的图像，无法充分训练模型。

4 结论

在本文中，作者提出了一种基于UNet和 Transformer 的深度学习模型，用于在复杂条件下检测烟雾。该模型能够基于远程的特征和上下文特征关联来检测烟雾。

利用该模型，可以检测到在不同背景下，如晴朗背景下的浅色烟雾、在雾霾背景下的浓烟，以及被云和云影遮挡的烟雾。

作者还提出了一种用于评估模型的指标，当评估图像采用部分标记方法进行标记时。该指标考虑了标记是否标记了图像的所有典型像素，以最小化标签间隙。这项工作的实验表明，与文献中的最新方法相比，所提出的方法非常有效。

这项工作在几个方面需要改进。

首先，需要纠正沙滩上的假阳性预测。其次，需要纠正大片阴影中的假阴性预测，第三，需要区分棕色土地表面和烧焦区域。这些方向将在未来的工作中予以解决。

点击上方卡片，关注「AI视界引擎」公众号

Transformer 增强型 UNet 深度学习模型，用于复杂条件下目标检测 ！

1 Introduction

2 Method

A moderated F1 score for model evaluation

3 Experiments and Results

Data and labelling

Model training

Model performance and ablation study

Effectiveness of VTrUNet

Discussions

4 结论