基于深度学习的图像分类与识别算法优化研究

(整期优先)网络出版时间:2024-05-22
/ 2

基于深度学习的图像分类与识别算法优化研究

樊婵娟   柳宇翀  温庭栋   赵彦仲    石鑫鑫 

北方自动控制技术研究所 山西太原 030006

摘要:图像传感器具有一定抗干扰能力,具有较强的鲁棒性,尤其像偏振传感器、红外传感器等,提高了物体信息提取与提取的成功率。图像传感器对当前生活中图像数据采集提供了很多的便利,其不仅能够对一些目标的表面和几何形状进行检测,还能够对目标的物理性质进行检测,灵敏度高。但在图像传感器数据采集过程中,难免受到多种因素干扰,如:到主点位置与理想位置偏移情况、镜头畸变、大气流动等因素,导致成像结果出现误差。

关键词:深度学习算法;图像传感器;误差校正

前言:图像作为视觉传达的重要信息载体,以一种直观、形象的方式向受众传递信息;但是,图像会在不知不觉中带来个人隐私信息泄露等安全隐患;文章从保护图像中隐私安全角度出发,深度融合人脸检测、人脸对齐方法以及混合混沌序列的图像加解密算法,提出了一种基于深度学习算法的人脸图像信息加密算法。

1.深度学习及图像加密方法介绍

1.1 MTCNN算法

2016年,中国科学院深圳研究院提出了用于人脸检测的多任务卷积神经网络(MTCNN, multi⁃task convolutional neural net work)深度学习模型,它是一个多任务人脸检测算法,可以同时进行人脸检测、人脸区域定位和人脸特征点标注三个任务。MTCNN是一个进行多次单目标检测的多目标检测网络模型,它级联了3层卷积神经网络P-Ne、R-Net、O-Net,模型通过上述三层卷积神经网络对人脸图像逐步精化,以得到最终的人脸框坐标和关键的人脸特征点(眼睛、鼻子以及两个嘴角)的坐标本文试图先得到人脸区域的坐标以方便下一步的加密过程实现,而不需要得到人脸特征点的坐标。因此,本文的具体实现过程,主要针对网络的人脸检测和人脸定位两个任务进行训练和测试。

1.2MTCNN算法实现过程

将输入图片分割为不同尺寸的图像,将其构造为形如金字塔的结构,称为图像金字塔。将图像金字塔输入P-Net以获取含有人脸的候选框,通过NMS对候选框进行过滤,去除冗余的候选框得到最终的人脸候选框。然后将所有包含人脸的候选框输入到R-Net中,通过更为严格的脸部特征点标准,对候选框进行进一步细化,去掉错误判断,通过Bounding-Box Regression和NMS对结果进行优化,获得置信度高的人脸候选框。最后,上一步结果输入O-Net中,定位最终人脸候选框坐标以及确定5个特征点的位置招坐标。在本文中,由于没有运用MTCNN算法人脸对齐的任务,所以不会做地标标注。

2.基于pix2pix的循环一致性对抗网络

图像到图像的翻译一直以来都是计算机视觉的研究热点,它的目的就是学习一种数据域X到数据域Y的映射,使G(X)的图像特征分布与目标Y的分布一致,即G(X)≈Y,从而使对抗损失函数收敛。Cycle GAN网络开创性的引入了循环一致性损失函数(cyclecon sistency loss),让网络学习一个反方向的映射。以确保F(G(X))≈X,G(F(Y))≈Y。具体来讲,该模型包含两个映射函数𝐺:𝑋→𝑌和𝐹:𝑌→𝑋以及相关联的两个鉴别器DX、DY。其中DY用来监督生成器G将数据域X转变成数据域Y的空间分布,DX用来监督生成器G将数据域Y转变成数据域X的空间分布。学习映射𝐺:𝑋→𝑌,使得判别器难以区分图片𝐺(𝑋)与图片𝑌。但这样的映射关系会受到限制,不能保证独立分布的输入𝑋和输出𝑌是有意义的。一对—的映射有无限多种映射关系使得𝐺由输入的𝑋导出相同的𝑌。此外,在实际中很难单独地优化该网络的判别器,所以为映射𝐺添加了一个相反的映射F:Y→X,从而形成一个循环对抗网络。

3.数据集

3.1CycleGAN数据集

基于pix2pix的网络需要使用图像对,即原始图片和对应的语义图像。编写脚本将原始图片和标注好的图片掩码拼接在一起做为一个数据集样本,图片的分辨率保持不变,拼接后图片分辨率为2160*3840。数据集总共包含有400张图片,以8:2的比例将数据集简单划分为训练数据集和验证数据集。在训练时,为了防止输入数据过大导致训练速度慢,显卡内存利用率过高,采用随机裁剪的方式,将图片随机裁剪成尺寸较小的图片进行训练。

3.2MaskR-CNN数据集

本实验使用Kinect深度相机进行实验数据采集,使用开源标注软件labelme进行标注。数据集总共包含三类:rock、bedrock和sand。在该场景中,将白色、紧贴地面的基岩标注为bedrock,将灰色、高度较高的岩石标注为rock,松软细小的沙土为sand。由于待检测石头和基岩数量较多,标注工作量较大,总共标注图像数据200多张,包含标注目标8000个左右。标注结束后保存为json格式,并将数据集按比例划分。

3.3基于双目图像的伪点云生成

基于双目图像视觉算法获取深度信息是双目视觉的研究热点,一般包含四个步骤。首先进行双目相机的标定,获取彩色相机内外参数;其次需要对双目图像进行畸变矫正和立体校正。畸变矫正可以消除镜相机畸变,立体校正则是将左右目图像中匹配相同物点,最后通过立体匹配算法获取视差图。传统的立体匹配算法又可分为四个步骤:代价计算、代价聚合、视差优化和视差填充。首先,代价计算是指计算左目像素点基元与右目中匹配得到的候选区域的像素点基元的匹配代价,常见的特征描述基元有角点特征、边缘特征等。代价聚合则是重新根据像素的邻域视差值重新计算匹配代价,从而使像素之间互相关联。视差优化的主要目的是进一步的优化视差图,通过左右一致性检查唯一约束等除去计算错误的视差。最后,通过视差填充对于遮挡区域和误匹配区域的视差空洞进行填充。

3.4三维目标检测算法

3.4.1视锥提取网络

经过二维的目标检测,可以获取目标在图像中的位置,将该检测框中的像素信息通过相机内外参数可以投影得到物体对应的三维空间,再通过标定的相机和点云传感器的旋转平移矩阵,就可以获得图像中该目标区域建议对应的3D候选区域。

由于提取得到的视锥体点云的朝向可能是不同方向,这会对后续点云处理网络带来许多噪声干扰,因此通过将锥体朝向进一步归一化有助于解决点云数据的旋转不变性,提高模型精度。具体来讲,先将在相机坐标系下的视锥体进行旋转,使图像平面与视锥体的中轴正交,最终得到中心视图坐标系下的点云数据。

3.4.2基于深度学习的立体匹配算法

基于深度学习的立体匹配网络相比较于传统的立体匹配算法的最大难点再与系统对于实时性的要求,XuBin等人提出了BGNet运行速度为39fps,满足了自动驾驶场景中对于实时性的要求。BGNet基于双边网格设计了代价量上采样模块,使用双边网络和切片操作将低分辨率的代价量上采样得到高分辨率的代价量。该模块采用3×3×3的3D卷积将低分辨率的代价量特征图转换成双边网格,其中3D卷积的输入为维度为(x,y,d,c)的代价量,输出为(x,y,d,g)维度的双边网格特征图,d表示视差图,c表示通道数,g表示引导特征。通过两个连续的1×1卷积可以将高维特征图转换成引导特征G,最终使用基于线性插值的切片操作进行上采样。该基于双边网格的代价量上采样模块大大减少了计算量,且该模块易于移植,同样可用于其他立体匹配网络。

4.结束语:

综上所述,为了解决当前图像传感器误差校正方法存在的弊端,提出了基于深度学习算法的图像传感器误差校正方法,并与文献图像传感器误差校正方法进行了对比实验,实验结果表明,本文方法的图像传感器误差校正效果要优于对比方法,可以满足图像传感器误差校正的实际的需求。

参考文献:

[1]宫剑,刘亮,何友金,等.海洋气溶胶红外偏振散射特性及校正研究[J].激光与红外,2019,49(3):322-328.

[2]涂碧海,姚萍萍,孟炳寰,等.多角度偏振成像仪探测器非均匀性校正研究[J].光子学报,2020,49(9):139-148.

[3]乔美英,许城宽,汤夏夏,等.DA-LM算法在MEMS加速度传感器误差校正中的应用研究[J].传感技术学报,2021,34(2):223-231.

[4]魏红彦,尹超.模式识别的光子晶体光纤传感器误差校正研究[J].激光杂志,2021,42(3):100-103.

[5]涂碧海,姚萍萍,孟炳寰,翁建文,黄禅,洪津.多角度偏振成像仪探测器非均匀性校正研究[J].光子学报,2020,49(9):139-148.