基于深度学习的连接器字符识别算法

/ 2

基于深度学习的连接器字符识别算法

刘蜜 1 宋荣伟 2*韦家信 2黎伟 2吴臣杨 2刘冰 2

1贵州航天电器股份有限公司 2上海威克鲍尔通信科技有限公司 , 贵州 贵阳 550009

摘 要:针对连接器字符多样,背景复杂等问题,提出一种结合目标检测与字符识别的深度学习算法识别连接器字符。首先使用目标检测算法定位图像中标识字符串所在位置,然后采用字符识别算法对字符串进行识别。实验结果表明,该算法不仅对连接器字符有较高的识别精度与速度,同时对字符多样、背景复杂等情况具有较强鲁棒性,满足了工业场景中对连接器字符识别的需求。

关键词:连接器;字符识别;目标检测;深度学习

中图分类号:TP391.4


0引言

连接器产品字符在不同批次间字号大小、字符的笔画粗细、加工方式、激光刻印的深度等等都可能不同,加上金属表面光洁度状态不一致,造成字符不易辨识,使传统的光学字符识别(OCR)算法极易失效,识别难度进一步加大,导致识别完整率和准确率低下[1][2]。

当前主流的通用深度学习OCR文字识别工具包括基于长短期记忆(LSTM)的Tesseract[3]等,但受到产品特性、工艺水平及加工环境等因素的影响,工业界产品字符识别相关发展只停留在基于经典OCR技术的应用上,如基于铭牌OCR的字符分割[4]等。基于深度学习的OCR技术的科研探索不足,相关成熟应用方案,特别是面向工业场景的实施框架则很少受到关注。

针对传统字符识别方法存在的问题,本文提出一种结合目标检测与字符识别的深度学习算法识别连接器字符。使用目标检测算法定位图像中标识字符串所在位置,将字符串图片送入字符识别算法网络得到字符识别结果。

1算法框架

算法流程架构如图1所示,通过目标检测网络定位得到字符串在图像中的位置信息。利用字符串识别网络识别目标检测中得到的字符串,得到最终的连接器字符识别结果。

6239730b391ba_html_ddb5d6325797c9fc.png

图1 算法流程架构

2目标检测

采用Differentiable Binarization (DB)[5]方法对连接器图像中的文本目标进行检测,网络结构如图2所示,算法在分割网络中执行二值化过程,可以自适应地设置二值化阈值,不仅简化了后处理,而且提高了文本检测的性能。

6239730b391ba_html_30af708725b0b25d.png

图2 DB算法网络结构

3字符识别

算法通过CNN网络提取图像特征,然后使用RNN网络对特征序列进行预测,最后利用CTC翻译层得到最终识别结果。整体识别流程采用CRNN(Convolutional Recurrent Neural Network)[6]算法结构,算法主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,基于图像的序列进行字符识别。

4实验结果与分析

为验证结合目标检测与字符识别的深度学习算法在连接器字符识别上的有效性,本文选取了各种类型的连接器字符图片共2000张,模型训练分为目标检测模型训练与字符识别模型训练两个方面,将数据集按照8:1:1的比例随机划分成训练集、验证集、测试集,模型训练均基于预训练模型进行微调。

实验分别为基于tesseract[1]对标识字符进行直接识别,基于tesseract对分割后的字符进行识别以及本文提出的算法,实验准确率及速度如表1所示。

表1 三种算法对连接器字符识别准确率对比

算法

精度

准确率

tesseract

\

0.2256

tesseract+分割

\

0.8216

目标检测+字符识别

目标检测

字符识别

0.9423

0.9566

4.1tesseract

tesseract是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)库,它可以通过训练识别出任何字体,本文使用的4.0版本使用了LSTM神经网络框架,具有更出色的识别效果。

实验将测试数据直接使用tesseract进行预测,从表2可以看到准确率只有22.56%。这是由于连接器字符图片中字符区域通常占比较少,大部分区域为背景区域,且背景情况复杂,噪声较大,因此直接使用tesseract进行预测结果较差。

4.2tesseract+分割

由于连接器字符图片的背景干扰较大,实验根据连接器字符位置对图片进行裁剪,去除大部分背景干扰区域,同时根据单字符大小对字符串进行切割,形成单字符图片,最后用tesseract对图片进行预测,从表1可以看到准确率为82.16%。

4.3目标检测+字符识别

本文采用结合目标检测与字符识别算法的深度学习算法解决连接器字符识别问题。实验采用预训练模型微调的方法分别单独训练目标检测与字符识别模型,模型训练完成后在数据上进行测试,从表1中可以看到,目标检测模型的精度为94.32%,字符识别的准确率为95.66%,识别准确率较传统算法有了较大的提升。同时在数据集中存在字符多样、背景复杂等情况下,通过少量数据即可得到较高的识别准确率,且不需要进行单字符切割等操作,算法的通用性与鲁棒性更强。

综上可以看出本文提出的结合目标检测与字符识别的深度学习算法对于连接器字符具有较好的识别效果,能满足工业场景实际应用需求。

5结束语

针对连接器字符存在字符多样、背景复杂,传统识别方法精度不高,鲁棒性较差等问题,本文提出一种结合目标检测与字符识别的深度学习算法识别连接器字符。方法先使用目标检测模型提取出图片中的字符串区域,然后应用字符识别算法对字符串图像进行识别。实验结果显示,本文的方法在识别精度方面较传统方法有了较大提升,同时能处理传统方法无法解决的字符多样、背景复杂等情况,能满足工业领域对于连接器字符识别的需求。获取更丰富训练数据集,同时优化图像采集方式,获取质量更高的连接器标识字符图片,能进一步提高字符识别准确率,这将是对基于深度学习的连接器标识字符识别算法进一步研究的方向。

参考文献:

[1]祁忠琪, 涂凯, 吴书楷,等. 基于深度学习的含堆叠字符的车牌识别算法[J]. 计算机应用研究, 2021, 38(5):6.

[2]陈习, 曾智翔, 张蓓蕾,等. 基于铭牌OCR的字符分割优化技术[J]. 福建电脑, 2019, 35(1):3.

[3]Smith R . An Overview of the Tesseract OCR Engine[C]International Conference on Document Analysis & Recognition. IEEE Computer Society, 2007.

[4]陈习, 曾智翔, 张蓓蕾,等. 基于铭牌OCR的字符分割优化技术[J]. 福建电脑, 2019, 35(1):3.

[5] Liao M , Wan Z , Yao C , et al. Real-time Scene Text Detection with Differentiable Binarization[J]. 2019.

[6]Shi B , Xiang B , Cong Y . An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(11):2298-2304.


作者简介:刘蜜(1985-),男,贵州航天电器股份有限公司,工程师,研究方向:机器视觉,智能制造,E-mail:2258179049@qq.com。