降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

主动学习可以通过选择最具有揭示性的样本进行标记，从而提高标注效率，减少对大量人工输入的依赖。在语义分割领域，以前的方法主要关注单个像素或小区域，忽略了自然图像中的丰富模式和高级预训练模型的力量。

为了解决这些问题，作者提出了以下三个关键贡献：

首先，作者提出了实体-超像素标注（ESA） ，这是作者提出的一种创新且有效的主动学习策略，它利用了一个类无关的像素提出网络与超像素分组相结合来捕捉局部结构线索。

此外，作者的方法在每个目标域的图像中选择一组实体，并优先考虑具有高熵的超像素以确保全面的表现。同时，它关注的是少数关键实体，从而优化效率。

通过利用利用有利于标注者友好设计，充分挖掘图像固有结构，作者的方法显著超过了现有的基于像素的方法，在最少的 Query 下取得了优越的结果，特别是将点击成本降低了98%，并将性能提高了1.71%。

例如，作者的技术只需要40个点击进行标注，相比之下，传统方法需要5000个点击。

代码将在https://github.com/jinchaogjc/ESA。

1 Introduction

语义分割[29, 15]在各种应用中发挥了重要作用，例如自动驾驶[12]，医学影像和遥感[10]。它为图像中的每个像素分配目标类标签，提供了对视觉场景的详细理解。然而，图像 Level 的标注是一项要求高且成本昂贵的任务，需要大量的人力投入。为了解决这个问题，研究行人转向了主动学习，这是一种可以降低标注成本的技术。

主动学习从大量未标注数据中选择最有信息量的样本进行标注，从而最小化手动工作的需求。此外，主动学习在语义分割的域适应中尤为影响深远。它使用源域预训练模型对不确定的新目标域的像素进行识别和 Query 。这样，可以在保持最小标注工作量的同时，有效适应新的视觉语境。

尽管在语义分割的主动学习方面取得了近期进展，但仍然存在两个关键挑战。首先，现有方法仍然具有很高的标注成本，如图1所示。例如，RIPU的地区方法[31]只选择了图像的2.2%或5%进行标注，但未考虑点击式标注成本。在[6] Cityscapes数据集[6]的2.2%预算下，为单个图像进行标注，RIPU[31]需要 annotator 进行约 5,000 个 Query ，这与需要时间获取图像[6]预算的 Cityscapes 数据集标签的传统标签方法一样，该方法需要大约 9,000 个点击。

picture.image

其次，现有主动学习方法主要针对合成数据中充斥的虚拟领域。例如，某些方法[23]在 GTAV[22]上进行测试，这是一个模拟数据集，模仿了一个游戏环境，可能无法准确反映现实世界的条件。不幸的是，语义分割的主动学习方法仍然存在多个缺陷。它们往往忽略了标注不同语义区域（如小或细的物体）的难度各异，这可能导致对这些特定类别性能不佳。

目前活跃学习方法在语义分割方面的一个重要障碍是它们的标注成本高，这些成本并不浪费时间，但在资金和时间上成本较高。为了降低这些成本，作者提出了一种新颖的方法，该方法将实体为基础的方法与超像素为基础的方法相结合，以识别出最具有信息增益的区域进行标记。作者的方法以点击次数为单位，战略性地选择每个点击可以提供最大信息增益的 region。这种策略大大减少了所需的 Query 和点击次数，使得语义分割变得可行且易于应用。

作者的语义分割方法首先在整张图像上生成超像素和实体分割，然后使用作者的活跃学习算法确定最具有信息增益的超像素。作者引入了一种新颖的方法，称为实体-超像素标注（ESA），该方法将超像素标注（SA）与实体标注（EA）的 selectivity 相结合。ESA 方法在目标域中的每个图像中选择一组实体进行详细标注。它为这些选择的区域内的每个超像素打标签，确保全面的代表性，而 EA 方法则通过关注有限数量的关键实体来优化效率。为了增强学习到的表示的质量，作者加入了一种新颖的损失项，它针对超像素进行了调整。这种创新方法有效地缩小了源域和目标域之间的域差距。

作者的工作通过以下贡献推进了活跃域自适应语义分割方面：

作者引入了一种称为实体-超像素标注（ESA） 的新的主动学习语义分割方法。ESA利用超像素和实体来构建对于领域自适应语义分割至关重要的标签建议。与先前的方法相比，ESA需要 Query 的数量显著降低。此外，作者提出了两种对作者方法至关重要的基础过程：超像素标注（SA）和实体标注（EA）。
作者倡导将领域自适应（DA）技术应用于实际数据，从而拓宽语义分割的领域。迄今为止，重点主要集中在利用合成数据集进行街道场景的语义分割。作者的方法在测试了一个包括常见目标的实时数据集上，成功地在真实数据域转变中建立了新的基准。这标志着在主动学习语义分割的领域，传统场景的潜在应用场景的扩展。据作者所知，这是首次将实际场景融入主动学习语义分割领域的研究。
作者的实验结果表明，与DeepLab-v3+集成后，作者提出的ESA方法在领域适应度基准测试中获得了显著的性能提升，例如COCO向VOC的转换。与像素标注（PA）方法相比，ESA通过点击成本的98 %降低，同时提高了1.71 %的性能。

2 Related Work

超级像素生成 主要有两种方法：基于图的方法和基于聚类的方法。超级像素作为基础的低级图像表示，将视觉上相似的像素合并为连贯的段落。基于图的方法将图像概念化为一个图，并采用诸如规范化剪切[21]、FH[8]和ERS[14]等算法。这些算法在识别自然边界的同时，保持超像素内紧凑和均匀的结构。另一方面，基于聚类的方法利用聚类技术来合并像素。知名的例子包括SLIC[1]、SEEDS[3]和LSC[9]。这些方法尤其擅长捕捉细节，并生成平滑的边界。为了本研究的目的，作者选择使用SLIC[1]算法。

实体分割 是 Qi 等人[20]引入的一个概念，它指对图像中的所有视觉实体进行分割，区分实例（事物）和非实例（物品），无需预测它们的语义标签。该方法扩展了 FCOS[28]（一种广泛认可的一阶段检测器）的能力，使其能够在场景中统一检测各种实体。这种方法在开放世界场景中特别有效，在这些场景中，并不需要事先定义所有可能的物体类别。相反，它能够优雅地处理未知或边缘目标的存在，将它们纳入分割过程。这种策略消除了在嵌入空间中进行异常检测的需要，简化了检测流程并提高了其适应不同视觉环境的能力。

主动学习（AL） 试图在最小化标注成本和最大化模型有效性的之间取得平衡。当前的策略可以大致分为三类，每种方法都具有独特的为标记数据选择的方法：多样性为基础[2]、不确定性为基础[24]和混合技术[32]。多样性为基础的方法是通过从未标注数据中选择一个范围的代表样本来实现。这种方法要么通过根据其特征属性对样本进行聚类，要么通过识别一个核心样本集，其捕获了数据的变化性。不确定性为基础的方法识别出当前模型认为最具有挑战性的标记样本。它们选择模型的预测不确定性，使用诸如熵、预测的信心等级和由不同模型在集成中预测概率的方差等指标。混合采样利用 FCNs 的不确定性和相似性信息来建议最适合标记的区域，从而可能提供更平衡的主动学习方法。

主动学习在语义分割中的应用 语义分割是图像分析中的关键任务，主动学习可以显著提高其效率。在这个领域，根据标记的图像区域的粒度，可以将标注方法分为：全图像[26]，超像素[4]，多边形[16]，像素级[25]等方法。虽然存在各种语义分割标注策略，但其有效性通常没有考虑实际的标注成本。而忽略这个方面的重要性，因为详细的像素级标注的潜在成本可能具有不可行的性质。尽管这种方法可能具有潜在的优势，但主动学习在分割领域的应用尚未受到充分探索，这主要是由于密集像素级标记的高成本。然而，最近的研究试图缓和这个问题，通过利用域适应技术将模型从合成数据集转移到真实世界场景。例如，Xie等[31]的研究没有完全考虑标注的实际方面，如所需的用户点击次数。他们的研究结果表明，使用基于区域的选择方法无需额外处理的优势是有限的。这提出了关于超级像素级方法的效率的疑问，尤其是与更传统的“矩形+多边形”选择方法相比。作者的研究旨在通过深入挖掘超级像素级方法技术的潜力，来降低语义分割的费用。

域适应 [19]是一种广泛应用于机器学习的策略，以在应用到目标域时提高模型性能。该技术的核心目标是解决域转移现象，即源域和目标域的统计属性不同。这种差异可能导致在源域表现出色但在目标域无法产生良好结果的模型，在实际应用中， gathering extensive labeled data for the target domain可能具有成本和实际性方面的挑战。以前的研究在主动域适应方面主要集中在分类任务。这些研究试图集成不确定性和多样性[31,5]，以及应用点基方法[23]，同时，它们可能会因效率或忽略数据中的空间关系方面的不足而陷入困境。作者的方法利用超级像素和实体来确定标记的不确定性区域。作者旨在提高模型准确性，同时减少标记成本。

3 Methodology

本节详细介绍了作者在语义分割任务中提出的主动学习方法的内容，该方法包括三个关键组成部分：超像素生成（第3.1节），实体生成（第3.2节），以及主动学习选择（第3.3节）。

Task Formulation

在作者的方法中，针对语义分割领域自适应，作者使用了两个数据集：一个带标记的源数据集和一个带标签的目标数据集。

源数据集由图像-标签对组成，其中为标签集中预定义的一个类提供了每个像素的标注。

Framework

如图2所示，ESA框架的主要步骤包括超像素生成。该过程将像素聚类为感知上连贯的超像素区域，这样生成的结果比传统的矩形方法生成的更加自然。实体选择步骤进一步从图像中区分出独立的视觉效果实体，为分析提供有意义的组件。ESA考虑了超像素内的预测不确定性以及预测的空间多样性，指导选择最具信息的超像素进行标注。这些选定区域，在标注后，与原始数据合并以微调语义分割网络，使其在目标域中表现更优。

作者方法的核心是主动学习选择过程。选择对于引导模型训练至关重要，确保每个迭代都包含最有价值的数据。作者继续用标注的样本和带有标签的原始数据集重新训练模型，直到作者的标注预算全部使用完毕。

picture.image

Entity-Superpixel Annotation

在语义分割中基于区域的主动学习方法，例如RIPU方法（[31]），通常将图像分割成非重叠的小区域，例如3x3的正方形。这些方法具有显著的局限性。具体而言，RIPU方法可以低效，需要大量 Query 才能几乎完全标注一张图像，这既劳动密集又耗时。相比之下，作者的实体-超像素标注方法首先引入了两种选择每张图像有用的部分的战略，即“基于超像素标注（SA）”和“基于实体标注（EA）”。这两种策略作为作者的方法的基石，指导着选择标注候选项。

作者首先使用SLIC算法[1]生成超像素，这是一种有效的k均质聚类技术，它保留目标边界，生成，其中、和分别对应图像高度、宽度和超像素数量。随后，作者利用开放的实体分割（ES）[20]在目标图像中划分视觉实体，其中对应图像高度、宽度和实体数量，分别使用Qi等人[20]的方法生成一组实体建议，并进一步精炼每个实体生成准确的实体 Mask 。

在作者基于区域的ESA（Entity-Sensitive-Annotation）方法中，一个区域由一个超像素或多实体形状的 Mask 定义，作为标注者 Query 的一体化单位。形式上，对于图像中的任意一个区域，具有区域的选择结果可以表示为：

作者体系的核心是获取函数，定义为：

该函数度量了不确定性并为第次迭代中的选择过程提供指导，其中表示模型。作者的获取函数被独特地工程来捕获超像素预测的不确定性，考虑了空间变异性预测的置信度。它智能地平衡这些因素，识别对训练数据集具有显著贡献的样本，从而增强模型的学习能力。

给定目标图像和神经网络，网络输出一个软max预测，其中对应于通道数。为了量化预测不确定性，作者使用每个像素的预测熵，计算如下：

对于基于超像素的标注和基于实体的标注，区域的置信度是该区域内像素熵的平均值。

利用这些预测，作者使用以下方程计算每个超像素的平均置信值：

公式（4）表明，对于超像素中的每个像素（i,j），作者首先计算出该超像素内所有顶点（vertex）的邻接矩阵（adjacency matrix），然后再将这个邻接矩阵与其内的所有顶点对应的预测概率（predicted probability values）相乘，最后对这些乘积求和，这样就可以得到该超像素的平均预测概率值。公式（4）的平均操作是对整个超像素内的像素进行预测概率的平均化，从而得到该超像素的平均预测概率值。

3.3.3 Selection Process

在作者的选择过程中，作者对训练数据集的质量和新信息内容进行了优化。作者根据获取分数确定了选择标准，优先考虑得分最高的超像素，同时确保与先前选择的实体不重复。目标伪标签是通过选择概率最大的输出得到的：

作者的ESA方法通过有策略地识别需要审查的区域，同时最大限度地减少干扰，提高了标注过程的有效性。这种针对性的方法对于减少标注者的负担至为关键。因此，它使得语义分割的实现在更实际和更经济的方式上取得了进展。

Training Object

为了通过一种兼顾目标和源域的平衡方法来优化作者的网络结构，作者采用了一个定制化的损失函数。这个函数巧妙地结合了一个监督损失项和一个负向损失项：

默认为所有实验中的系数设置为1.0。

首先，作者使用源域的标记数据为作者的网络学习过程提供一个强大的基础。这个初始阶段建立了一个关于跨域普遍存在的特征的综合理解。其次，作者通过关注超像素和目标域内的实体，对这个基础进行聚焦式的标注。这种有针对性的增强允许网络吸收和适应目标域特有的差异，从而提高其整体判别能力。为此，作者使用源域和目标域的所有标记数据来微调网络。这相当于优化标准的监督损失函数：

其中是分类交叉熵（CE）损失：

请注意，负向实例的目标标签为二进制。因此，作者定义负向学习的损失函数如下：

算法1 作者提出的方法

picture.image

其中. 当且仅当，否则，。作者设置。

Algorithm

算法1概述了作者在选择性标注目标数据的同时，在源数据上训练模型来迭代优化性能的方法，通过获取函数和预算约束来实现性能优化。

4 Experiments

本文研究了从 COCO 数据集中将常见物体从 11 万张图像的 81 个类别，转移到 VOC 数据集中 1464 张图像的 21 个类别的数据集上的真实世界数据。同时，作者对其模型进行了优化处理，使用的模型后端为深度学习模型 DeepLab-v3+ 和 ResNet-101，并在特斯拉 V100 GPU 上使用 PyTorch 进行优化。训练过程使用 SGD 优化器，速率为 0.9，权重衰减为 0.0005，采用分段式学习率策略，初始学习率为 0.00025。训练过程在 4 万次迭代后停止，每次迭代使用批量大小为 2 的数据集。为了保持训练过程的一致性，作者对源和目标数据集都进行了缩放，统一为 512×512。对于基于超像素标注的方法（Superpixel-based Annotation，SA），作者设定了参数 k 为 1000，紧凑度为 0.1。此外，作者还重新实现了 RIPU [31]，作为作者用来比较的 Baseline 。

在此研究所使用的评估指标为 VOC 验证集上的平均 Intersection-over-Union（mIoU）。

对于标注预算的选择过程，涉及五个迭代阶段，每次迭代都选择 40 个超像素进行 SA，并选择实体分数大于 50% 进行基于实体标注（EA）。详细标注预算结果在表1 中展示。需要注意的是，之前基于像素和局部区域的方法需要进行更多点击以对图像进行密集标注。与之相反，作者的 ESA 方法利用感知的组区域作为标注的单位，大大减少了在主动学习过程中提供全面图像标签所需的手工努力和成本。

picture.image

Main Results

作者研究了COCO到VOC任务的成果，详细见表1。涉及的"Source Only"方法，该方法仅在COCO数据集上训练，然后在VOC数据集上评估性能。作者的SA方法在RIPU使用的基于像素标注(PA)方法上显示出显著优势。具体而言，在预算为40个 Query 时间的情况下，SA方法相对于PA方法有1.61%的性能提升。当预算增加到1000个 Query 时间时，这个优势扩大到2.1%。此外，作者的方法获得的分割结果具有更光滑的轮廓，显示出其优越的性能。

EA方法比PA方法效率和性能优秀。平均而言，EA每张图像只需要33个 Query 即可达到比PA方法高0.49%的mIoU评分，需要1000个 Query 的PA方法的1000倍以上。

在后续实验中，作者探索了一种高预算标注方案，为每张图像选择标记2.2%的像素。PA方法需要5767个 Query ，这是一个远高于传统标注技术的需求。相比之下，定义为矩形区域的区域性 annotating（RA）只需要640个 Query 。作者提出的这种方法ESA不仅在像素选择率方面以2.2%的像素选择率超过了PA方法，平均每张图像只需要102个 Query ，而且与RA性能相当。这突出了ESA在以更少的 Query 实现高精度方面的有效性，同时优化了标注过程和训练结果。

作者的研究结果明显表明，该方法即使在一张图的预算有限的情况下，也优于当前最先进的方法。这表明主动学习可能是解决域适应挑战的有前途的方法。

Qualitative results

图3展示了作者提出的名为SA的方法（搜索注意力）与PA方法进行视觉比较，以评估其有效性。作者的方法相较于PA方法在结果上能实现更高程度的精炼，且产生的假数据更少，使得视觉表现更为平滑。这种比较尤为适用于两种方法在同一个 Query 预算40倍内运行。

picture.image

Ablation Study

为了评估作者提出的方法的每个组件，作者对COCO向VOC进行了转换，如表2和3所示。作者选择SA方法进行ablation研究，因为它与以前研究的预算约束相同，允许对方法进行公平的比较。

picture.image

区域纯度和预测不确定的影响。为了进一步研究作者每个组件的有效性，作者在COCO向VOC进行了ablation研究。在表2中，配置（b）和（c）与RAND相比取得了明显的改进，表明将区域纯度和预测不确定性纳入有效识别图像区域。值得注意的是，区域纯度在与配置（b）相比显示了更大的优势（1.1%的改进），可能是由于它能够利用图像内的空间相邻关系，从而减轻了类别不平衡问题。此外，配置（a）超过了（b）和（c），表明纯度选择标准对于捕获具有泛化潜力的多样化区域特别有效。

_不同主动选择方法之间的比较_如表3所示，作者的PA方法超过了其他方法，产生了一致且显著的改进。为了深入了解作者选择策略带来的性能优势，作者在不包含的场景中，将SA与现有的选择方法，包括随机选择（RAND），基于熵的选择（ENT）[24]和基于softmax信心的选择（SCORF）[7]进行比较。由于受像素预算的限制（40），熵选择方法（ENT）和软max信心选择方法（SCORF）都受到像素汇聚的影响，导致性能下降。相比之下，作者的SA在仅受限于40个 Query 预算的情况下，获得了2.82% mIoU的提升，证实了作者的方法在克服像素冗余并优化受限制的像素预算方面的有效性。补充部分将展示更多视觉化结果，说明其预测影响和与最优域适应损失的比较分析。

作者的ablation研究结果证明了每一个元素的有效性和重要性。SA方法简化了作者的方法的基础，使其成为分析的代表性原型。作者从SA方法中获得的洞察为作者的其他方法的优化和修改提供了基础。然后，作者深入研究SA，以深入了解每个组件为系统带来的增量改进。在补充部分，作者将展示更多视觉化结果，说明其预测影响和与最优域适应损失的比较分析。

5 Conclusion

本研究旨在评估基于分块（superpixel）或实体（ entity ）的选择策略在共同目标数据集的语义分割中的效率，使用性能基准测试分析。

作者的发现揭示了这些策略的局限性，表明通过将更广泛的类别范围细化为更专注的类别来调整真实世界中的常见目标数据，比依赖合成数据更具现实性。

作者提出了一种新颖的分块-实体（superpixel-entity）获取策略，称为"ESA"，它利用分块和实体来生成标注建议。

实验结果表明，"ESA"在适应性基准测试中明显优于现有方法，例如COCO到VOC适应任务。这些结果表明，分块-实体（superpixel-entity）标注策略在改进复杂数据集中的域自适应语义分割方面具有巨大潜力。

参考

[1].ESA: Annotation-Efficient Active Learning for Semantic Segmentation.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率 ！

1 Introduction

2 Related Work

3 Methodology

Task Formulation

Framework

Entity-Superpixel Annotation

3.3.3 Selection Process

Training Object

Algorithm

4 Experiments

Main Results

Qualitative results

Ablation Study

5 Conclusion

参考