基于CIFAR-10的卷积神经网络的图像识别的研究

(整期优先)网络出版时间:2022-07-19
/ 2

基于CIFAR-10的卷积神经网络的图像识别的研究

张濮岩

沈阳航空航天大学电子信息工程学院

摘要:CIFAR-10数据集是由10个类中的60000幅的32*32幅彩色图像构成的,其包含了十种不同的涉及动物,交通工具等图片,可以通过训练其数据集来对其相似类别的图片进行识别,CIFAR-10强调了网络结构训练和评估的规范组织方式。并且能提供了构建更大和更精细的模型的模板本文通过根据训练数据集来识别不同类别的图片,来进行对CIFAR-10数据集的研究。

关键词:CIFAR-10,神经网络,图像识别

一.处理数据

想要训练出一种识别信息更精确的数据集模式,就必须对所得到的图片做出一个适当的处理,对图片的格式,像素,颜色有着很严格的规定,所以我们就需要首先定义出图片的宽,高,还有图片格式,模型的输入数据是网络的输入是一种4维tensor,尺寸为(batch_size,32,32,3),分别代表每一批图片的数量、图片的宽的像素点数量32、高的像素点数量32,以及信道数量3。首先,通过对各种卷积神经网络层实现数据的特征提取,首先可以把所有CIFAR-10的数据集中加载到自己文件夹中,然后导入常用库并在载入的TensorFlow Models中手动加载后,并且在之后来读出CIFAR-10数据集中的类别,然后加载训练集和测试集,并且将数值转换成一种热编码二进制数组,并且将图像的RGB值从0-255转换到0-1之间,并且创建空的顺序模型。TensorFlow通过张量来作为数据的基本单元TensorFlow的张量,在某种意义上可以与多维数组划等号,我们也可以通过它来描述在数学教育中的标量,标量为零维数组、矢量,矢量为一维数组、矩阵,矩阵为二维数组,等各种数,在机器学习中,我们也往往要使用计算函式的导数的函数。TensorFlow提出了非常高效的自动求导机理来运算导数。

可以通过 y_grad = tape.gradient(y, x) 求张量 y 对变量 x 的导数。

多元函数求偏导数,以及对向量或矩阵的求导表示如下

计算L对w,b的偏导数公式如下:

L(w,b)=

接着把RGB图片进行了归一化处理,精确数据是经过分别统计R,G,B三种通道的点数后算得出的,由于这二个照片,都是50*50尺寸的,所以二个照片的象素点共有2*50*50=5000个,所以对这二个照片的mean求法如下:

mean_R: 这5000个像素点的R值加起来,除以像素点的总数,这里是5000;

同理,mean_G 和mean_B 两个通道的计算方法也是一样的。

有的时候由于训练信息集中不多,甚至某一个数据比较小,又或者为了避免过模型拟合,使训练建模更加准确,为了增加数据能力集,有效的获取图像信息,泛化训练建模,训练通常都需要对信息图形加以信息强化。

二.搭建模型

正确地处理好自己的数据后,如何科学地搭建模型也是一个重要的方面,首先需要正确设置模型训练参数训练模型的话:一般选取百分之二十验证集即可,其他剩下的的做可以训练集,每次训练完一个周期显示一个输出

搭建模型一般使用Le-Net5模型进行构建,如图1所示。

图1 Le-Net5模型

下面将简单分析一个LeNet-5框架,LeNet-5的建模结构是输入输出层-逐点卷积层-池化层-逐点卷积层-池化层-全连结层-全链路层-输入输出。LeNet-5框架是一个结构较为简单的神经网络卷积模式。首其主要构造流程是将经过其输入的所有二维信号,首先经过二次逐点的卷积层和全部池化层,然后经过全部链路层,最后一步再经过softmax分类的输入输出层。卷积层也是逐点卷积神经网络的重要基础结构。在影像分类里我们所说的折积就是二维卷积,也就是利用离散二维滤波器与二维图形之间的折积作用,更简单的来说就是将二维滤波器滑动在二维图形的每个部分,然后在各个区域上与各像素点和领域像素点之间的部积。卷积操作被应用在图像处理方面,不同卷积核能够获得不同的特性,比如边沿、直线、点的特性。在深层卷积的神经网络中,利用卷积技术能够提取出其低级而复杂的性质。

我们可以根据此模型来创建自己所需要的网络模型,对自己的模型进行相应的优化处理。

三.训练模型

作好前期工作之后,最后一个项目便是训练模型,首先定义一下在练习中可能会使用的训练常数,一般而言,当数据的量更多,从练习得出的训练模型的有效性也会更好。

在图像处理任务中,经常会观测到这么一个现象:对输入的图象,做出了几个简单的平移、压缩、或者颜色改变,却没有影响图象的类别。针对图像类型的训、数据,传统的训练数据扩充方式是指通过使用平移、压缩、颜色等变换,或者人工地增加训、集样本的数量三以便得到更丰富的训练数据,从而使得模型训练的有效性更佳。每次训练完一轮之后,在测试数据集上运行,根据测试数据集的结果来判断模型是否训练完毕

训练的CIFAR-10识别模块也采用了数据增强技术来改善模块的特性。训练CIFAR10识别模型也用到了数据增强来提高模型性能。试验结果证实,使用大数据增强技术能够提高模型的泛化能力,同时也可以防止过度拟合。

参考文献:

[1]李磊.基于卷积神经网络的车辆特征识别技术研究[J].交通世界,2022(09):4-5+12.DOI:10.16248/j.cnki.11-3723/u.2022.09.030.

[2]王锦涛,文晓涛,何易龙,兰昀霖,张超铭.基于CNN-GRU神经网络的测井曲线预测方法[J].石油物探,2022,61(02):276-285.

[3]董晓霞. 面向线性回归机器学习算法的隐私保护研究[D].华东师范大学,2021.DOI:10.27149/d.cnki.ghdsu.2021.001282.

[4]张占军,彭艳兵,程光.基于CIFAR-10的图像分类模型优化[J].计算机应用与软件,2018,35(03):177-181.

[5]杨梦卓,郭梦洁,方亮.基于keras的卷积神经网络的图像分类算法研究[J].科技风,2019(23):117-118.DOI:10.19392/j.cnki.1671-7341.201923098.

[6]韩凌锋. 基于FPGA的Cifar-10图像识别系统研究[D].江西理工大学,2021.DOI:10.27176/d.cnki.gnfyc.2021.000700.

基金项目:该论文受到沈阳航空航天大学大学生创新创业项目X202110143121的资助