基于图像数据分析的深度网络模型

(整期优先)网络出版时间:2022-07-29
/ 2

基于图像数据分析的深度网络模型

陈德勇,谢保闯,谭丽娟,郑嘉莹,刘子瑜

山东协和学院计算机学院 山东 济南 250109

摘要:随着数据科学的发展,出现了新的数据处理方法,计算机处理数据的能力不断增长,被处理的数据量也不断增加。利用图像数据分析方法可以改进收集到的各种形式的数据,从数据中检测出规律,并利用检测出的规律来预测数据的趋势,从而帮助人们采取生产或其他解决方案。

本文选择在图像处理方面表现突出的深度神经网络模型来进行数学建模,模型构建过程采用交叉验证方法,随机使用80%的样本作为训练样本,20%的样本作为测试样本,进行100次运算得出模型的识别平均准确率图像数据分析是使用数学和计算机正确处理和发展收集的数据来检测数据规律的过程。

关键词: 数据分析 图像 网络模型

1引言

近年来,随着信息技术的飞速发展,出现了各种应用系统。大多数在生活或工程应用中使用的图像都是数字图像。数字图像能够 使用数字阵列等方式来进行表示,阵列当中的元素被称为像素,像素点是使用二进制代码来进行表示的。随着信息技术 的发展,图像变得越来越清晰,图像处理量越来越大,处理速 度越来越慢。开发可以显著提高处理速度,因此图像处理是满足需求的语言之一。

针对上述问题,本文提出一种结合区域 LSTM 网络和 CNN 的深度网络模型(CNN-RLSTM) ,将其 应用于特定图像数据分析任务。根据特定目标的图像将数据切分为特定目标区域,通过减少输入文本的长度降低 LSTM 网络计算时间。同时,为防因图像划分不合理造成数据的丢失,使用 CNN 挖掘整个图像的数据特征信息。

2 技术与突破

尽管深度网络模型在许多问题的实验中表现优越,但在实际应用中依然有很多挑战:

(1)时间和空间上的制约,大而深的深度网络模型运算量大,即使借助图形处理器(graphics processing unit,简称 GPU)加速,时间上也依然不能满足许多应用场景的需求。此外,大规模模型参数也要占用大量的内存空间,这对于手机等移动设备来说是无法适用的。因此,在不影响深度网络模型效果的前提下,压缩网络模型是一个重要的研究问题.传统的深度网络模型主要由卷积层、非线性激活层、下采样层以及全连接层等模块堆叠起来组成。

(2)卷积层具有局部连接、权重共享的特点,虽然需要训练的参数不多,但一次前向的耗时较大;相比之下,全连接层虽然参数可达到网络全部参数的 80%以上,但占用前向推断的时间不多。

(3)经典的深度网络模型可以参考最初用于图像 识别的 AlexNet或者 VGG等网络模型。这些模块大致可分为两类:一类是包括卷积层、全连接层等在内的含有训练参数的模块,其中,参数的数量往往是人为设定的;另一类是包括非线性激活层以及下采样层等在内的不含有任何训练参数的层。模型参数在一定程度上代表了模型的复杂度,也在一定程度上决定着模型所占据的空间大小。

(4)人为设定的参数数量往往是在实验室经过重复实验调出来的,这种局部最优的超参数并不代表网络的 “真正需求”:它们既存在一定程度上的冗余,也没有权衡成本和效果之间的关系.因此,网络压缩的一个方向是通过压缩模型的参数数量来降低模型的复杂度,比如后面将要介绍的小模型拟合大模型方法等.。

(5)模型的运算时间成本并不仅仅依赖模型的参数数量,也依赖于模型的深度。以残差网络为例,尽管在何凯明经典论文中,1000 多层的残差网络参数数量不到 AlexNet 的 1/10,但其训练以及测试耗时都明显大于 AlexNet。更深的网络还会在训练阶段产生更多的中间变量,而这些中间变量是反向传播算法必不可少的.换句 话说,更深的网络模型也有着更大的内存空间的需求.从这个角度看,深度网络模型的压缩不仅仅是减少模型的参数,更重要的是能够降低模型运算时间,将模型的深度控制在合理的范围之内,从而满足实际应用的需要.

团队研究了现阶段技术条件下,实现了提高图像数据与鉴别精度方面的技术突破。

(1)区域 LSTM 接收以词为单位的句子作为网络的列化输入,为使网络可以高度关注图像中的特定目标信息,本文将 CNN 提取到的特征向量和特定目 标的词向量以注意力向量的形式作为区域LSTM 网络的输入。图 1为区域 LSTM 网络结构。

图1 区域 LSTM 网络结构

  (2)区域划分

本文提出将图像信息以特定目标为中心来划分区域的方法,既可以保留中特定目标的重要特征信息,也可以区分图像中不同目标的数据信息。例如句子 s = w1,w2,…,ti,…,t { } j,…,wn 有 ti 和 tj 这 2 个 目标词,本文将以 2 个不同的目标词为中心,将该句 子 划 分 成 2 个 长 度 为 h 的 独 立 区 域 r1 = w m,…,t { } i,…,wh + m - 1 和 r2 = wn,…,t { } j,…,wh + n - 1 。 通过区域划分有效缩减句子长度,降低 LSTM 网络 的训练时间。

(3)纯数据驱动的深度网络模型

为了定量评估图像分析的准确性,引入 L2和 R2 两个评价指标,其中 L2用来判断深度神经网络模型 预测值与数值模拟参考值的偏差程度,R2在统计学中用于度量因变量的变异中可由自变量解释部分 所占的比例,以此来判断回归模型的解释程度。总的来说L2越小,R2越大,说明模型学习效果就越好,其表达式分别为:

3结语

所提模型基于图像数据处理实现了对图像处理的时序一致性检测,通过深度网络模型解决了图像处理过程中的数据分析问题,解决了对复杂图像的检测样本及标注信息的图像识别场景中的信息检测问题。 对于图像分析中因个体行为的主观随意性而导致的个体行为的信息不一致问题,本文基于LSTM利用特殊识别特征实现了对不同图像的数据的有效识别。对于复杂图像的识别,本文复用 SCNN和MCNN捕捉场景上下文信息与行为交互上下文信息,综合考虑各类有效信息实现了对图像信息的有效识别。 最后,通过大量实验,验证了深度网络模型在识别分析中的效果。

参考文献:

[1]陈思远,彭超,蔡林森,郭兰英.一种用于特定目标情感分析的深度网络模型[J].计算机工程,2019,45(03):286-292.

[2]雷杰,高鑫,宋杰,王兴路,宋明黎.深度网络模型压缩综述[J].软件学报,2018,29(02):251-266.

[3]周炬. 基于自动编码器的混合深度网络学习模型[D].武汉科技大学,2017.

本论文为实验室开放项目:基于树莓派的避障智能盲人眼镜设计与实现(项目编号:2022SYKF06)的研究成果

作者简介:陈德勇(2003.01-),男,山东德州,数字媒体专业,主要研究方向为:图像信息处理

指导老师:王晓燕(1982.09-),女,山东烟台,副教授,研究方向:数据分析