向AI转型的程序员都关注了这个号 👇👇👇
机器学习AI算法工程 公众号:datayx
https://blog.csdn.net/linchuhai/article/details/84677249
之前介绍了文本检测中的CTPN方法,详情可参见Pytorch文本行检测,深度学习网络结构CTPN,虽然该方法在水平文本的检测方面效果比较好,但是对于竖直文本或者倾斜的文本,该方法的检测就很差,因此,在该方法之后,很多学者也提出了各种改进方法,其中,有一篇比较经典的就是旷世科技在2017年提出来的EAST模型,论文的全称为《EAST: An Efficient and Accurate Scene Text Detector》,论文的下载地址如下:
论文地址:https://arxiv.org/pdf/1704.03155.pdf
Github:
https://github.com/argman/EAST
https://github.com/kurapan/EAST
优点
1) 步骤简化 :传统的文本检测方法和一些基于深度学习的文本检测方法,大多是Multi-stage,在训练时需要对多个Stage调优,这势必会影响最终的模型效果,而且非常耗时。针对上述存在的问题,EAST提出了端到端的文本检测方法,消除中间多个Stage(如候选区域聚合,文本分词,后处理等),直接预测文本行,其架构就是下图中对应的E部分,跟前面的方法比起来的确少了比较多的过程。(类似于经典的CTPN架构)
2)多方向文本定位:虽然CTPN方法在水平文本的检测方面效果比较好,但是对于竖直文本或者倾斜的文本,该方法的检测就很差,而EAST能支持多方向文本的定位。
模型的效果如下:
开源:https://github.com/huoyijie/AdvancedEAST
优点
-
基于Keras,易于阅读和运行
-
基于EAST,一种先进的文本检测算法
-
易于训练模型
-
进行了重大改进,长文本预测更准确
分析 :实验中,AdvancedEast获得了比East更好的预测准确性,特别是在长文本上。这是因为原始East使用所有像素的预测顶点坐标的加权平均值计算最终顶点坐标,而从四边形的另一侧预测2个顶点比较困难。
网络结构
输出层分别是1位score map, 是否在文本框内;2位vertex code,是否属于文本框边界像素以及是头还是尾;4位geo,是边界像素可以预测的2个顶点坐标。所有像素构成了文本框形状,然后只用边界像素去预测回归顶点坐标。边界像素定义为黄色和绿色框内部所有像素,是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点,最后得到4个顶点坐标。
限制 :检测器可以处理的文本实例的最大尺寸与网络的感受野成比例。 这限制了网络预测更长文本区域的能力,例如跨越图像的文本行。此外,对于垂直文本实例,该算法可能漏掉或给出不精确的预测,因为它们只占ICDAR 2015训练集中的一小部分文本区域。
数据集
tianchi ICPR dataset
https://pan.baidu.com/s/1NSyc-cHKV3IwDo6qojIrKA
(ye9y)
ICPR MTWI 2018挑战赛:网络图像的文本检测
https://tianchi.aliyun.com/competition/entrance/231651/introduction
标签点
- 按顺序排列四个点,逆时针旋转,且第一个点为左上角点
- 刚开始选择最左边的点,如果最后计算的第二个点的Y比第一个点大,那就让最后一个点做为第一个点,其他点依次右移
- 以最小的X坐标为起点(起名为A)
- 其他三个点和第一个点(A)连线形成夹角,取中间的点为第三个点(起名C)
- 以AC为连线,在AC上方为D,下方为B
- 最后比较AC和BD的斜率,AC>BD,则顺序调整为DABC;AC<BD,则维持ABCD
例如:
标签切边
-
以最短边的0.3进行缩放当做内部点
训练
预处理 - 调整图像大小为256256、384384、512512、640640、736*736(分别训练可以加快训练过程)
预训练模型 -
https://pan.baidu.com/s/1KO7tR\_MW767ggmbTjIJpuQ
(kpm2)
loss计算
NMS(非极大值抑制)
- 作用:去掉detection任务重复的检测框(不是局部的最大值都去除)
基于前面的网络(如RPN)能为每个框给出一个score,score越大证明框越接近期待值。如上图,两个目标分别有多个选择框,现在要去掉多余的选择框。分别在局部选出最大框,然后去掉和这个框IOU>0.7的框。
预测
阅读过本文的人还看了以下文章:
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注
机器学习算法资源社群
不断上传电子版PDF资料
技术问题求解
QQ群号: 333972581
长按图片,识别二维码
