AI实战：基于AdvancedEAST的自然场景图像文本检测算法 - 文章 - 开发者社区

picture.image

向AI转型的程序员都关注了这个号 👇👇👇

机器学习AI算法工程公众号：datayx

EAST文本检测与Keras实现

https://blog.csdn.net/linchuhai/article/details/84677249

之前介绍了文本检测中的CTPN方法，详情可参见Pytorch文本行检测，深度学习网络结构CTPN，虽然该方法在水平文本的检测方面效果比较好，但是对于竖直文本或者倾斜的文本，该方法的检测就很差，因此，在该方法之后，很多学者也提出了各种改进方法，其中，有一篇比较经典的就是旷世科技在2017年提出来的EAST模型，论文的全称为《EAST: An Efficient and Accurate Scene Text Detector》，论文的下载地址如下：

论文地址：https://arxiv.org/pdf/1704.03155.pdf

Github：

https://github.com/argman/EAST

https://github.com/kurapan/EAST

优点

1） 步骤简化 ：传统的文本检测方法和一些基于深度学习的文本检测方法，大多是Multi-stage，在训练时需要对多个Stage调优，这势必会影响最终的模型效果，而且非常耗时。针对上述存在的问题，EAST提出了端到端的文本检测方法，消除中间多个Stage(如候选区域聚合，文本分词，后处理等)，直接预测文本行，其架构就是下图中对应的E部分，跟前面的方法比起来的确少了比较多的过程。（类似于经典的CTPN架构）

picture.image

2）多方向文本定位：虽然CTPN方法在水平文本的检测方面效果比较好，但是对于竖直文本或者倾斜的文本，该方法的检测就很差，而EAST能支持多方向文本的定位。

picture.image

模型的效果如下：

picture.image

AdvancedEAST

开源：https://github.com/huoyijie/AdvancedEAST

优点

基于Keras，易于阅读和运行
基于EAST，一种先进的文本检测算法
易于训练模型
进行了重大改进，长文本预测更准确

分析：实验中，AdvancedEast获得了比East更好的预测准确性，特别是在长文本上。这是因为原始East使用所有像素的预测顶点坐标的加权平均值计算最终顶点坐标，而从四边形的另一侧预测2个顶点比较困难。

网络结构

picture.image

输出层分别是1位score map, 是否在文本框内；2位vertex code，是否属于文本框边界像素以及是头还是尾；4位geo，是边界像素可以预测的2个顶点坐标。所有像素构成了文本框形状，然后只用边界像素去预测回归顶点坐标。边界像素定义为黄色和绿色框内部所有像素，是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点，最后得到4个顶点坐标。

限制：检测器可以处理的文本实例的最大尺寸与网络的感受野成比例。这限制了网络预测更长文本区域的能力，例如跨越图像的文本行。此外，对于垂直文本实例，该算法可能漏掉或给出不精确的预测，因为它们只占ICDAR 2015训练集中的一小部分文本区域。

picture.image