文本检测DBNet++ | 为 DBNet 引入多级特征图聚合模块 ASF - 文章 - 开发者社区

picture.image

向AI转型的程序员都关注了这个号👇👇👇

picture.image

文章目录

一、背景

二、方法

2.1 Adaptive Scale Fusion (ASF) 模块

2.2 Binarization

2.3 Adaptive Threshold

2.4 Deformable Convolution

2.5 Label Generation

2.6 Optimization

三、效果

论文：Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

代码：

https://github.com/open-mmlab/mmocr/tree/main/configs/textdet/dbnetpp

出处：TPAMI 2022 | 和 DBNet 出自同一团队

一、背景

picture.image

文本检测的目的是在图像中定位出文本的位置，是文本识别的基础。

基于分割的方法能够得到像素级的表达，但是，后处理的处理方式对检测结果影响很大。

如图 2 所示的蓝色箭头表示的后处理方式是基于分割方法的基础处理方式：

首先，将分割结果图使用二值化的方式变成二值化图

然后，使用启发式的方法（如像素聚合）将一簇的像素聚合成文本区域

这两个过程是独立进行的，不能参与训练过程，会导致检测准确率较低

本文的作者首先提出了 DBNet，将特征图二值化的过程构建成了一个可微的过程，可以直接参与到训练中，如图 2 红色箭头所示：

首先，还是生成分割结果图，但也同时会预测一个 threshold map，也就是图 2 中高亮的那个特征图，这样不同位置的阈值是不同的，这样做的原因在于，作者认为文本区域的边界区域的置信度应该是比中心区域低的。

然后，作者引入了二值化操作的一个近似方法：Differentiable Binarization (DB)，使用 threshold map 来对分割图进行二值化，这样就可以联合优化分割过程和二值化过程，可以得到更好的检测结果

DBNet++ 的出发点：

在 DBNet 中，作者在分割网络中直接对多尺度的特征图聚合来提高对不同尺度的鲁棒性，直接聚合缺少了对特征的选择性

DBNet++ 中，作者提出了 Adaptive Scale Fusion (ASF) module，来动态聚合多尺度特征图

ASF 模块的特点：

ASF 是一个 stage-wise attention 模块，并且其中引入了 spatial attention 模块，能够在空间维度学习不同尺度和不同空间位置的权重，达到 scale-robust 特征融合

DBNet++ 和 DBNet 的关联:

第一点，DBNet++ 在 DBNet 的基础上引入了 ASF 模块，加强分割网络中不同尺度特征的融合

第二点，DBNet++ 将 DBNet 中的理论分析更完善化了

DBNet++ 的贡献：

联合优化分割网络的 DB 模块，能够获得更加鲁棒的结果并提升文本检测的效果

在 infer 过程中，DB 模块可以被移除且对最终效果没有明显的影响，故在 infer 过程中不会带来额外的时间消耗

ASF 模块能够给分割网络引入更鲁棒的特征

DBNet++ 在多个文本检测数据集上达到了 SOTA 的效果，包括水平、多方向旋转、弯曲形状等.

picture.image

二、方法

DBNet++ 的总体框架结构如图 3 所示：

picture.image

2.1 Adaptive Scale Fusion (ASF) 模块

不同尺度的特征图可以看做是从不同角度和感受野得到的特征图，所以如何融合不同尺度的特征图来得到文本区域是很重要的。

比如，浅层特征或大尺度的特征图可以看到更多的细节信息和小的文本实例，深层特征或小尺度的特征图可以看到大尺度的文本实例并且捕捉到全局信息。

为了更好的利用不同尺度的特征图，特征金字塔或 U-Net 结构在分割网络中使用的比较广泛.

ASF 模块为了更好的融合不同尺度的特征，没有使用简单相加的方式，而是让网络自己选择不同尺度和不同位置特征的重要性，对特征进行动态的聚合。

ASF 模块的结构如图 4 所示：

picture.image

2.2 Binarization

标准二值化（Standard Binarization）和可微二值化（Differentiable Binarization）的函数曲线如图 5a 所示，标准二值化在 0 处是不可微的。

picture.image

从图 6 可以看出，当错误的预测距离边界较近的时候，DB 能够增强梯度反向传播，能够让模型更关注于优化那些模棱两可的区域，此外 sigmoid 激活函数能够缓解最低上限和最大下限，DB 能够进一步降低对极值的惩罚。

picture.image

2.3 Adaptive Threshold

threshold map 是否有监督信号得到的结果如图 7 所示，当有监督信号的时候，就有高亮清洗的文本边界，这说明 border-like threshold map 有利于最终的结果。所以，作者给 threshold map 施加了 border-like 监督信号，然后用 threshold map 来二值化分割结果。

picture.image