深度学习在图像识别中的研究及应用

(整期优先)网络出版时间:2022-06-17
/ 2

深度学习在图像识别中的研究及应用

孙智博 秦晋 黄庭栋 张泽圃 刘敏

北方自动控制技术研究所 山西太原 邮编: 030006

摘要:随着人工智能的不断发展。基于深度学的图像识别已经成为当前图像识别领域的主要方法。文章将通过卷积网络的工作原理来探讨深度学习的原理。深度学习可以从不同的图像中自动提取相似特征并分类。推动了人工智能背景下的图像识别发展,而卷积神经网络将成为深度学习领域的热点[1]

关键词:图像识别;深度学习;卷积神经网络

1 课题研究背景及意义

随着信息技术的飞快发展,信息充满人们的日常生活。而图像在所有信息中占据最重要的地位,它包含信息量大,而且易于被人们接受,相比于声音和文字,图像更加直接。因此,图像处理具有现实研究意义和广泛的应用前景。

图像识别,是图像处理最主要的用途之一,其目的是让经过训练的电脑在待检测图片中提取信息,并加以识别。图像识别之所以被深入研究,发展快速,是因为其广泛且重要的应用价值,目前图像识别技术成熟,广泛应用于人脸,数字及其他物件的识别中,同时在农业,商业,军事以及日常生活中也很常见:在军事领域,无人机侦探,导弹精确打击,军事目标锁定,雷达警戒系统等等,无一例外都依赖图像识别技术;在公共安全领域,机场安检,恐怖分子搜查,公共交通安全,车牌定位,目标追踪,移动物体侦测也都和图像识别息息相关,无论是政府还是个人,从公共场合到个人室内,图像识别都带来了很大的便利;在农业领域,图像识别技术大大提高分选品种,物种识别,产品营养成分分析,农作物病情分析的效率和准确率,使得农产品产量大幅度提升,营养价值大大提高;而在日常生活中,更是时时刻刻都用到了图像识别技术:比如说现在比较热门的智能家居,人脸识别就是一项比较成熟的图像识别,另外视网膜扫描,指纹扫描和其他门禁系统也都是如此,医院临床医学仪器通过图像识别对病情做出判断和分析等等,这些应用都具有重要的现实意义[2]

2 国内外研究现状

早在1950年图灵就提出过隔墙对话的概念,用电脑模拟人脑和人进行对话,人们不清楚到底是和人还是电脑在交谈。这种设想将计算机完全智能化,期望值太高,在以后的几十年里,人工智能的发展远远没有达到预想的效果。人们开始怀疑人工智能可望不可及,相关的研究领域是“伪科学”。

20世纪80年代,人工神经网络反向传播算法[17]诞生,这种方法无需人工制定规则,而是让机器在大量训练样本中寻找统计规律,相比以前的方法,神经网络在很多方面优势明显。神经网络实际上只含有一个隐含层,是一种浅层学习模型。90年代后期,最大熵方法、SVM等一些模型在理论和实践方面的优越性,使得人工神经网络领域的研究变得缓慢。

2006年,深度学习的宗师Hinton阐述了两个重要思想:其一、隐含层层数增加可以使网络学习能力增强,学到的特征更贴近物体本身;其二、多层神经网络系统训练时间长,训练难度大,但是如果每一层单独训练,训练的难度和时间都有改善。文章中,每一层的“单独训练”均是无监督学习。

深度学习引发了一场科技革命,它的影响不仅仅局限于计算机学科本身;最直接的图像、语音处理精确度会大幅度提升,同时以互联网为核心的信息服务产业也会发生根本的变化,深度学习带来的数据智能化,在搜索引擎方面占据至关重要的地位。

3 基于卷积神经网络的图像识别

卷积神经网络(CNNs)是建立在传统人工神经网络上的一种深度学习算法,也是第一个成功训练多层网络的学习算法。CNNs的权值共享减少系统参数,使得算法性能得到提升。CNNs作为一个深度学习架构,其提出可以减少对数据的预处理要求。在CNNs中输入是原始图像的一个小的部分,通过数字滤波器或者降采样逐层去获得上一层的特征。卷积神经网络是一个多层感知器,它在二维形状识别方面应用广泛,优势明显;其中在图像识别和语音分析领域应用尤其广泛。

通过构建多个隐含层,传统神经网络算法也可以从大量样本中学习出复杂的分类曲面,因此传统神经网络被广泛应用于语音识别和图像识别领域。传统模式识别方法,一般是首先设计一个算法用作特征提取,如常见的HOG特征、LBP特征以及SIFT特征,然后将提取出来的特征传入一个可训练的分类器,对分类器进行训练,最后将测试样本导入分类器进行分类。在这种模式下,由于提取出来的特征一般较小,因此可以设计一个全连接的多层网络作为分类器。另外一种思路是:考虑直接用神经网络进行特征提取和分类,而免去前面的特征提取过程。反向传播算法可以将前面几层网络训练成特征提取器,把后面的层次用来分类;只是这种方法有较大的弊端。

在一个卷积神经网络模型,神经元可分为两类,一类是用于特征提取的S元,另一类是抗形变的C元,S元中有两个重要的参数,即阈值参数和感受野;感受野就是从输入层中提取多大的空间作为输入,阈值参数控制着输出对输入的反应程度。同样,卷积神经网络是一个多层网络结构,它的每一个层实际上是由多个特征图构成,每个特征图代表一种特征;在每一个特征图上又有许多个独立的神经元。对应的,将卷积神经网络的网络层分为卷积层和下采样层,也称为降采样或者子采样;网络层次之间并非线性映射,从卷积层到下采样层是一个下采样的过程,从下采样层到卷积层则是一个卷积滤波的过程。

62ac2fdc10782_html_296cc014e4dead54.png
1是一个简化的卷积神经网络结构:

图1 卷积神经网络结构图

通过这样一个复杂的网络就可以识别出输入的图片。

4 结束语

本文研究了深度学习算法在图像识别方面的应用。深度学习是机器学习邻域内新兴的并且蓬勃发展的一个学科,在图像识别邻域有广泛的应用;其一般流程包括数据预处理、预训练、微调参数、分类测试等。

卷积神经网络通过卷积和下采样相结合,更加贴近于人脑视觉中枢的机理,使得其在学习过程中能够学习到更好的特征,另外参数减少和权值共享也一定程度上削减了训练时间。但是由于其训练方法不当和模型本身的复杂,所以训练时间较长[3]

参考文献:

[1]赵静.浅析深度学习在图像识别中的应用[J].襄阳职业技术学院学报,2019,18(2):3.

[2]李卫.深度学习在图像识别中的研究及应用[D].武汉理工大学.

[3]张志林,李玉鑑,刘兆英,等.深度学习在细粒度图像识别中的应用综述[J].北京工业大学学报,2021,47(8):12.