AI实战:基于AdvancedEAST的自然场景图像文本检测算法

picture.image

向AI转型的程序员都关注了这个号 👇👇👇

机器学习AI算法工程 公众号:datayx

EAST文本检测与Keras实现

https://blog.csdn.net/linchuhai/article/details/84677249

之前介绍了文本检测中的CTPN方法,详情可参见Pytorch文本行检测,深度学习网络结构CTPN,虽然该方法在水平文本的检测方面效果比较好,但是对于竖直文本或者倾斜的文本,该方法的检测就很差,因此,在该方法之后,很多学者也提出了各种改进方法,其中,有一篇比较经典的就是旷世科技在2017年提出来的EAST模型,论文的全称为《EAST: An Efficient and Accurate Scene Text Detector》,论文的下载地址如下:

论文地址:https://arxiv.org/pdf/1704.03155.pdf

Github:

https://github.com/argman/EAST

https://github.com/kurapan/EAST

优点

1) 步骤简化 :传统的文本检测方法和一些基于深度学习的文本检测方法,大多是Multi-stage,在训练时需要对多个Stage调优,这势必会影响最终的模型效果,而且非常耗时。针对上述存在的问题,EAST提出了端到端的文本检测方法,消除中间多个Stage(如候选区域聚合,文本分词,后处理等),直接预测文本行,其架构就是下图中对应的E部分,跟前面的方法比起来的确少了比较多的过程。(类似于经典的CTPN架构)

picture.image

2)多方向文本定位:虽然CTPN方法在水平文本的检测方面效果比较好,但是对于竖直文本或者倾斜的文本,该方法的检测就很差,而EAST能支持多方向文本的定位。

picture.image

模型的效果如下:

picture.image

picture.image

picture.image

AdvancedEAST

开源:https://github.com/huoyijie/AdvancedEAST

优点

  • 基于Keras,易于阅读和运行

  • 基于EAST,一种先进的文本检测算法

  • 易于训练模型

  • 进行了重大改进,长文本预测更准确

    分析 :实验中,AdvancedEast获得了比East更好的预测准确性,特别是在长文本上。这是因为原始East使用所有像素的预测顶点坐标的加权平均值计算最终顶点坐标,而从四边形的另一侧预测2个顶点比较困难。

网络结构

picture.image

输出层分别是1位score map, 是否在文本框内;2位vertex code,是否属于文本框边界像素以及是头还是尾;4位geo,是边界像素可以预测的2个顶点坐标。所有像素构成了文本框形状,然后只用边界像素去预测回归顶点坐标。边界像素定义为黄色和绿色框内部所有像素,是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点,最后得到4个顶点坐标。

限制 :检测器可以处理的文本实例的最大尺寸与网络的感受野成比例。 这限制了网络预测更长文本区域的能力,例如跨越图像的文本行。此外,对于垂直文本实例,该算法可能漏掉或给出不精确的预测,因为它们只占ICDAR 2015训练集中的一小部分文本区域。

picture.image

数据集

tianchi ICPR dataset

https://pan.baidu.com/s/1NSyc-cHKV3IwDo6qojIrKA

(ye9y)

ICPR MTWI 2018挑战赛:网络图像的文本检测

https://tianchi.aliyun.com/competition/entrance/231651/introduction

标签点

  • 按顺序排列四个点,逆时针旋转,且第一个点为左上角点
  • 刚开始选择最左边的点,如果最后计算的第二个点的Y比第一个点大,那就让最后一个点做为第一个点,其他点依次右移
  • 以最小的X坐标为起点(起名为A)
  • 其他三个点和第一个点(A)连线形成夹角,取中间的点为第三个点(起名C)
  • 以AC为连线,在AC上方为D,下方为B
  • 最后比较AC和BD的斜率,AC>BD,则顺序调整为DABC;AC<BD,则维持ABCD

例如:

picture.image

标签切边

  • 以最短边的0.3进行缩放当做内部点

picture.image

picture.image

训练

预处理 - 调整图像大小为256256、384384、512512、640640、736*736(分别训练可以加快训练过程)

预训练模型 -

https://pan.baidu.com/s/1KO7tR\_MW767ggmbTjIJpuQ

(kpm2)

picture.image

loss计算

picture.image

NMS(非极大值抑制)

  • 作用:去掉detection任务重复的检测框(不是局部的最大值都去除)

基于前面的网络(如RPN)能为每个框给出一个score,score越大证明框越接近期待值。如上图,两个目标分别有多个选择框,现在要去掉多余的选择框。分别在局部选出最大框,然后去掉和这个框IOU>0.7的框。

picture.image

picture.image

预测

picture.image

picture.image

picture.image

picture.image

picture.image


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

长按图片,识别二维码,点关注


机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

QQ群号: 333972581

picture.image

长按图片,识别二维码

0
0
0
0
评论
未登录
暂无评论