一种基于改进YOLOv4的图像识别方法

/ 2

一种基于改进YOLOv4的图像识别方法

徐,婷1,王英超2

(中车大连机车车辆有限公司  大连  116022)

摘 要:本文阐述了一种基于改进YOLOv4的图像识别方法,该方法使用Receptive Field Block Net增大特征感受野提高算法的特征提取能力,通过不同级之间的串级连接以及Convolution Block Attention Module注意力机制对整体数据进行增强处理,有效提高背景干扰情况下的违禁品检测精度,加速模型的收敛。该方法能够实现安检工作中图像的实时处理,对安检图像的自动识别具有重要意义。

关键词:YOLOv4;目标检测;特征融合;

An Image Recognition Method Based on YOLOV4 and Extended Convolution Multi-scale Fusion

XU Ting 1, FEI Ji-you 1, LI Hua 2

(CRRC Dalian Locomotive and Rolling Stock Co.LTD, Dalian 116022)

AbstractThis paper describes a image recognition method based on improved YOLOV4. The method uses Receptive Field Block Net to increase the feature Receptive Field to improve the feature extraction ability of the algorithm. Through the cascade connection between different levels and the Attention mechanism of Convolution Block Attention Module, the overall data are enhanced to effectively improve the detection accuracy of contraband under background interference and accelerate the convergence of the model. This method can realize real-time image processing in security inspection, which is of great significance for automatic recognition of security inspection images.

KeywordsYOLOv4; Target detection;Feature fusion;


1研究背景

X光机行李安全检查被广泛用于维护航空和运输安全,影响X光安检图像检测算法的性能主要有以下三点因素:第一,背景不易分割;第二,重叠现象严重;第三,目前的检测算法不能够完全兼顾检测实时性和准确性。

针对以上问题本文提出了一种全新的基于YOLOv4的安检图像算法适合于安检图像违禁品检测的网络框架——RCM-YOLOv4(Receptive Field Block-Concatenation-Convolutional Block Attention Module YOLOv4)扩张卷积多尺度融合YOLOv4算法。算法设计增加串级注意力机制方法来融合深层、浅层不同的特征,将原模型PANet中的5次卷积模块替换为RFB网络,减少网络层数的同时增大目标检测的感受野;采用空洞卷积捕捉小目标在全局视野下的位置,降低小目标的漏检率。

2研究内容

2.1复杂背景下的结构优化

(1)Concatenation特征拼接

基于X光安检危险品图像检测的特点,在进行X光安检图像检测过程中需要更加关注浅层特征的作用,在YOLOv4模型PANet[1]模块上增加一个串级连接层以此来获得更多的基础融合特征。

算法融合PANet输出的大、中、小三层的特征,在一定程度上增丰富了细节信息,有效提高背景干扰情况下的检测精度,加速模型收敛。

(2)CBAM特征融合

CBAM(Convolutional block attention module)[2]注意力机制是轻量级通用模块,只存在空间注意力机制和通道注意力机制两个参数,因此可以将其无缝集成到YOLO架构中,该算法利用注意力机制来融合不同尺度的特征,通过对每个通道的特征进行权重分配来学习不同通道间特征的相关性,多尺度目标检测器具有更高的检测精度和较快的检测速度。

2.2针对小目标安检危险品的结构优化

基于YOLOv4RFB(Receptive Field Block)[3]算法网络模型将原有的

PANet中的5次卷积模块替换为RFB网络结构,采用空洞卷积捕捉小目标在全局视野下的位置,在减少网络层数的同时增大感受野,降低小目标的漏检率。

3基于YOLOv4算法的实现

实验选择8种常见危险品作为检测目标:knifeslingshotpower bankpressurehandcuffsfirecrackersscissorszippooil。实验所用数据是某火车站X光机安检图片3600张。图片按照9:1生成训练集和测试集,在训练集中4:1生成训练集和验证集,图片尺寸为608×608。

3.1模型训练与测试

模型训练过程中损失函数变化情况如下图1所示,YOLOv4收敛时的训练损失值为8.0218,改进模型在epoch=100时loss值震荡且收敛,收敛时损失函数值为7.8412。

Fig. 1 Change curve of loss function

3.2实验结果与分析

训练得到损失函数稳定的YOLOV4模型以及改进模型测试结果如表1所示。

Table 1 Model train results

类别

AP(YOLOv4)

AP(RCM-YOLOV4)

pressure

0.71

0.72

firecrackers

0.70

0.84

power bank

0.70

0.72

handcuffs

0.68

0.75

knife

0.52

0.70

zippooil

0.42

0.73

scissors

0.46

0.51

slingshot

0.53

0.61

MAP

0.60

0.6975

改进模型相比原YOLOV4模型MAP提高9.75%且各类目标的检测精度均有提高。如表所示,zippooil(打火机)检测精度提升了33%;pressure(压力罐)提升了20%,训练结果如图2所示,可以看到在检测范围和精度上都有所提高

  

(a)Improved model test results(b)Yolov4 model test results

Fig. 2 Comparison diagram of model test results

4结  论

YOLOv4原模型单张图片的检测速度为0.009,约111帧/秒,改进模型单张图片检测速为0.012,约83帧/秒,检测速度略有下降但满足危险物品检测的基本需求。改进RCM-YOLOv4网络模型提高了对物品类别判断的准确率,能够对一些重叠的安检违禁品进行识别,原模型识别不出的小物品也能够识别检测。说明改进后的RCM-YOLOv4模型对比原模型具有较好的检测效果。

参考文献

[1]Wang K, Liew J H, Zou Y, et al. Panet: Few-shot image semantic segmentation with prototype alignment [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9197-9206.

[2]Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C].Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.

[3]Liu S, Huang D. Receptive field block net for accurate and fast object detection[C].Proceedings of the European Conference on Computer Vision (ECCV). 2018: 385-400.

Email: 013500016674@crrcgc.cc