一种基于深度学习的地标识别算法设计与实现

(整期优先)网络出版时间:2023-04-14
/ 3

一种基于深度学习的地标识别算法设计与实现

王奕涵1,陈方圆2,刘景成2

1 湖北省测绘工程院,中国武汉,430074;2  中移(上海)信息通信科技有限公司,中国上海,200120

要:图像作为非结构化的数据结构,难以直接进行识别,需要设计图像特征提取网络,利用优化目标训练网络的特征提取能力,将非结构化的图像数据转变为结构化的特征向量。在将图像数据映射到特征空间后,需度量不同特征向量之间的相似度,利用增强识别的方法,充分利用数据库中图像间的相似度信息,提高识别结果的准确率。基于此,本文从特征提取网络的设计、优化目标的设计和增强识别的方法三个方面完成地标识别算法的设计与实现。

关键词:深度学习;图像识别;地标识别;算法设计;特征提取

1  概述

图像的特征主要包含了颜色、纹理和形状特征等,传统机器学习方法中主要利用手工提取特征,或使用卷积算子提取图像的边界轮廓等特征。然而由于传统卷积算子由人为设定权重参数,并且限于卷积时感受野,可学习参数量等问题,难以取得有效的特征图来表征原始图像。随着深度学习的发展,尤其是视觉领域出现的深度卷积网络,如AlexNet、VGGNet、ResNet等,在视觉领域各项任务中取得了显著的效果。

特征提取工作一般借助在图像分类或图像识别任务中预训练的网络进行,预训练后的网络具有端到端提取图像纹理等特征的能力。分类网络一般在大型的公开图像数据集上训练,如ImageNet、COCO等,其优点在于数据集较大,可以训练深度更大,参数量更多的网络,用来提取图像的深层特征。而对于图像识别任务,其要求网络具有区分不同图像相似度的能力,网络提取出的特征向量应具有聚类的效果。因此为了使分类网络更加适合图像识别任务,在获取分类网络的预训练参数,借助一些人工标注的图像识别数据集,完成对网络的微调训练。微调后的网络能够更加专注于图像的特征部分,使特征图更能代表图像的结构化信息。

地标识别作为图像识别的一个重要分支,具有广泛的应用场景,如场景识别、地理定位等。同时识别算法中涉及的图像特征表征,向量相似性度量等方法可应用于人脸识别、手势识别等多种下游任务中。本文提出了一种基于深度学习的地标识别算法,并从三个方面(特征提取网络的设计、优化目标的设计和增强识别的方法)来完成地标识别算法的设计与实现。

2  特征提取网络设计

2.1  主干网络架构设计

在图像识别任务中,由于数据库以及用户提供的查询图像存在拍摄角度,光照明暗,遮挡和图像占比等多种问题,在特征提取时容易受到这些噪声因素影响,使得提取的特征向量并不能准确表征原始图像的信息。为了应对这些问题, 注意力机制被引入网络的设计中,其可以调整网络卷积层输出的特征图权重,突出特征图中地标信息,淡化环境等无关因素,有效解决了背景噪声的干扰。然而,传统注意力机制主要使用了基于图像空间或通道间的自注意力机制,其计算复杂度和内存消耗是图像分辨率的平方倍,因此在实际图像识别任务中,自注意力机制会极大提高网络计算的开销,导致产生了较大的图像识别时延。而实时的图像识别不仅要考虑识别的准确度,也要兼顾识别的时延和效率。

在特征提取网络的主干架构中,本文选用了结合残差卷积网络ResNet和注意力机制的内卷网络。内卷网络主体网络框架和ResNet相同,也使用了残差网络的思想,不同之处在于将残差网络中3×3的卷积算子替换成了内卷算子。卷积计算具有平移不变性和通道特异性,即在每张特征图上卷积核相同,而不同通道间的卷积核相异,随着通道数的增加,不同通道间的卷积核部分呈现线性关系,在计算中出现数据冗余。同时卷积计算难以利用到不同通道间的信息,且使用单一卷积核对整张特征图进行卷积计算,没有考虑不同空间位置的特征变化。

内卷算子特性和卷积算子相反,具有通道不变性和空间上的特异性。如图1所示,在特征图计算时,内卷算子首先根据中心特征向量计算出权重矩阵,之后分别与各通道特征向量相乘,最后将特征向量求和作为中心特征向量的计算结果。从其计算过程中可以看到,内卷计算的核权重由通道特征向量计算获得,此时权重中包含了通道间的信息。同时对于特征图的每一个空间位置,内卷子单独计算其卷积核权重,体现了其空间的特异性,可以自适应提取不同局部特征图的信息。

相比较于直接使用注意力机制的Transformer模型,内卷计算的参数量较少,计算效率较高,适用于实时识别任务。同时,内卷计算的注意力机制为隐式注意力机制,相比于显式的空间或者通道间的特征图自注意力机制,其在计算时并没有直接使用不同的特征图进行自注意力的计算和特征图的权重重分配操作,而是通过利用通道间内卷子的特征提取操作,在空间卷积时利用到通道间的特征交互信息,使得对于不同的空间位置,可以利用到不同的卷积内核参数设置,这样可以自适应的提取不同特征信息,相较于空间平移不变性的卷积操作,内卷操作可以在整个空间上采用不同的特征响应。

2.2  池化和特征降维

主干网络最后一层输出的特征图用来表征原始图像,特征图的维度通常为了能够自适应的对特征图进行池化操作,本文选用了泛化平均池化层。考虑到对比实时识别图像的时延以及数据库特征存储的要求,需要对特征图进行池化操作,从而得到更容易进行相似度对比的一维特征向量。对于常用的全局平均池化和全局最大值池化,其虽然操作上比较简单高效,但是缺乏学习参数,不能自适应的学习各个图像数据库的数据分布特征,因此在本节池化层设计中,将全局平均池化和全局最大值池化的思想特点相结合,引入自适应的学习参数,构造了泛化平均池化层。其可以对高维特征图像进行自适应的降维操作,对于每个通道特征图仅提取出单一的特征值,因此最终形成的一维向量的维度和原始特征图的通道数相同。

经过池化操作,特征图转变为一维的特征向量,此时特征向量维度和特征图通道数相同,向量中每个特征值表征了对应通道特征图的响应峰值。由于不同通道间的信息存在冗余提取,因此需要对提取的特征向量进行降维和白化操作,这样不但可以减少特征向量存储的开销,也可以提高实时识别时向量对比的效率。

无监督学习中常使用主成分分析PCA方法进行特征降维,为了实现整体网络的端到端特征提取,本文选用单层线性全连接层代替PCA方法,进行特征向量的降维和白化操作。在网络整体架构中,特征提取网络端到端提取原始图像的信息,将图像中非结构信息转化为结构化的一维特征向量。

在单层全连接层后,同时加入了丢弃层和批量规范化层进行后置处理。加入丢弃层的目的在于,训练时随机屏蔽掉一些连接层的节点输出,防止全连接层出现过拟合的问题。而批量规范化层则是将数据分布重新处理,使之均值和方差归一化,在训练时可以提高训练效率,同时使数据分布更加合理。

3优化目标与损失函数设计

在完成主干网络的整体架构设计后,需要训练网络提取图像特征的能力。网络的训练通过设计优化目标,并根据优化目标实现相应的损失函数来实现。在图像识别任务中,网络提取的图像特征需要具有同类特征向量相近和不同类特征向量区分的效果,因此本文的优化目标即提取出一张图片的特征向量后,拉近它与同类向量间的距离,同时拉远它和非同类特征向量之间的距离。

常用的优化目标,主要包含二元特征对学习,三元特征学习和中心相似度学习。基于二元特征对的学习,将相同类的距离拉近。这种方法可以快速学习到同类间的相关性特征,缺陷在于难以将不同类分开。在二元对的基础上提出的三元对的优化目标,即训练数据同时含有锚定特征,正类特征和负类特征三个,优化目标为拉近正类特征和锚定特征的距离同时拉远负类特征和锚定特征的距离, 这样可以同时增加相同类的相似度以及不同类的分辨度。然而虽然分开了不同类同时拉近了相同类,但是在全局中相同类与不同类仍然纠缠在一起,容易达到局部最优的结果。第三种优化目标的着眼点从局部移向了全局,首先定位了不同类的中心特征点,然后在训练过程中让各个类的特征向量向自己的特征中心点靠拢,这样可以在全局特征空间中拉近相同类的距离同时区分开不同类的特征向量,可以取得全局最优。

二元和三元相似度优化目标虽然可以实现了上述优化目标的思想,然而容易取得局部最优解,在全局特征图中不同类仍混杂在一起,在识别时准确度不高。因此本节选用了第三种中心相似度优化目标,训练结果期望取得全局最优解。由于同类向量和非同类向量数量众多,在一次训练中难以同时对比, 因此一般采用中心向量来表征不同类,此时只需要将提取出的特征向量和各个中心向量对比即可。Softmax损失函数作为最常用的损失函数之一,适用于多种分类识别任务。

然而,在实际的图像识别训练中,数据库中往往包含了上万种不同的地标类别,上式中分母部分考虑了数据库中所有的类别,并且将当前的样本特征向量和其他类的中心特征向量进行相似度对比并求和。而在实际的图像识别时,一些类别和当前样本图像很容易直接区分,而一些类别则和当前样本图像非常相似,因此难以区分。训练时更希望将网络参数训练的重心放在难以区分的类别上,对于容易区分的类别不需要消耗训练的资源。同时,当易区分类大量累加时,其梯度将会淹没掉真正需要训练区分的类别。

二次阈值的主要思想在于,网络训练时将参数更新的重点放在与当前样本图像难以区分的类别上,而对于易区分的其他大量类别,我们通过引入二次阈值将其梯度屏蔽。这样在训练时可以对于每个样本图像,只需要考虑训练数据库中的一部分类别,使网络的训练重点放在难以区分的类别上。这样不仅缓解了类别较多的影响,同时可以使更多的训练计算资源放在难以区分的类别上,使得网络训练的效率提高。

在实际的双阈值设置中,两种阈值需要多次尝试,选择合适的初始值,当第一阈值较大时,会提高网络训练的难度,使得网络难以收敛,当阈值过小时,会使得决策边界不明晰。因此我们需要多次训练测试,根据实际的训练图像数据库进行修改。

对于第二阈值的实际设置,要考虑如何准确界定训练的难易程度和不同图像样本数据的相似度。当设置阈值较小时,即考虑当其他类别和当前图像样本特征向量非常相近时,才纳入训练梯度中,这样会导致实际训练的类别较少,网络能学到的特征较少,并且难以区分开相似度相对较高的部分类别。

当设置的二次阈值较大时,即考虑较多的相似类别,此时将相似度相对较低的部分也考虑进入梯度训练更新中。此时容易出现低相似度类别的大量累加淹没了相似度相对较高的难以区分的类别,使得网络消耗了大量的训练资源对容易区分的类别进行训练,而在这个过程中网络并不能提高区分不同特征的能力。因此二次阈值的设置也需要根据数据库的数据特点进行微调,目的在于使用一定的训练资源进行有效的网络特征提取训练。由于实际图像识别中,按照相似度进行排序,选取相似度较高的部分输出结果,因此只需要将非同类的相似度拉开一定的距离即可显著提高最后识别的准确率。

图像多尺度特征提取与识别

在特征提取网络设计时,为了实时识别的高效性,本文采用了全局特征提取的方法,用单一特征向量表征一幅图像。当图像中地标占比较大时,识别可以取得较好结果。然而由于拍摄角度和远近等多种原因,实际需要识别的地标可能只占据于图像的一部分,此时使用单一全局向量难以表征其特征。同时,在特征提取时,全局特征提取方法融合了图像各个部分的所有特征信息,因此当同一张图像中包含了多个地标图像时,在全局特征融合后,某一部分的特征信息容易被其他地标的特征信息掩盖,在实际的特征向量相似度对比时会出现相似度较低的问题,因此我们需要对原始图像进行预先的子图裁剪,之后分别提取各个子图的特征信息,在对比相似度时分别对比。这样可以分别单独考虑各个地标图像的相似度,避免了互相之间的干扰影响。

在数据库图像中,地标只占据了整幅图像的一小部分,此时如果直接用整体维度的特征向量进行对比,其相似度并不高,导致识别准确度下降。为了解决图像占比问题,本文采用多尺度特征提取方法,将数据库图像从多个尺度进行局部裁剪。为了防止地标局部图像位于裁剪块的中间,在裁剪时保证相邻两块图像重叠度大于提前设定的阈值v,同时逐渐降低裁剪块的尺寸大小。假设图像短边长度为K,裁剪尺寸分为L个阶段,则第l个阶段的裁剪方块大小为2K/(l+1)。

在对数据库图像进行多尺度裁剪后,将局部子图分别通过主干网络提取特征,每张图像形成一组特征向量。在使用查询图像识别时,分别对比查询图像和每组特征向量的相似度,并取其中最高相似度作为数据库图像和查询图像的最终相似度。这种对比方法牺牲了一部分查询效率,提高了识别的准确率。在实际应用中,可以提前构造数据库中不同图像间的相似度信息网络,从而加快实时识别时的速度。

多尺度特征提取同时会带来相似度噪声的问题,当对同一张图进行多个子图裁剪时,由于是人工锚定的裁剪框,因此一些框中仅存在背景图像信息,而不包含任何地标图像特征信息。在进行图像识别时,我们分别对比两个图像的所有特征子图之间的相似度,最终选取相似度最高值作为两张图像的相似度结果。如果两张图像中的背景部分存在很高的相似度,那么在对比时显然会出现单张子图间较高的相似度,这样会导致最终结果相似度偏高。因此实际识别中,我们需要根据原始图像的特征信息进行自适应的特征子图裁剪,使得生成的各个子图分别包含原始图像的各个地标特征信息,而滤除掉背景特征信息的干扰。这样可以使得多尺度特征提取得对比实验中,最终的相似度结果由实际的地标特征决定,而不会受到背景噪声的影响。

5  结束语

本文给出了一种基于深度学习的地标识别算法设计与实现,首先从特征提取主干网络的设计,池化层和特征降维操作两个方面详细讲述了特征提取部分的工作。在完成特征网络的设计后,需要训练网络提取特征的能力,因此提出了优化目标以及相应损失函数的设计。在对比多种损失函数后,本文在Softmax损失函数的基础上引入了阈值,明晰了决策边界。引入多尺度特征提取方法来解决数据库图像中地标占比较少的问题。从多个尺度提取原始图像的局部子图,并提取其特征向量。在对比时使用最高的相似度作为最终结果,提高了识别的准确率。

参考文献

[1]范贝贝; 王弼虎; 周鹏成; 黎远松; 赵良军. 人工智能识别的关键技术分析. 电子测试[J]. 2021(08).

[2]马玉琨; 刘子琼; 张文武; 冯向荣. 多特征融合的农作物病害图像识别[J]. 河南科技学院学报(自然科学版). 2021(07).

[3]杨孝华;杨霁;胡兵;李曦伟;蒯雷. 基于激光投射和图像识别的电力设备智能监测方法[J]. 激光杂志. 2021(07).

[4]于洋; 毕宏帅. 基于视觉的无人机着陆地标设计与识别算法研究[J]. 沈阳理工大学学报. 2020(12).

[5]徐梦婕. 轻量化地标感知算法及认知地图中的应用[D]. 电子科技大学硕士学位论文. 2020年5月.

-----------------

作者介绍:

王奕涵(1988-),女,湖北襄阳人,武汉大学硕士,工程师,从事地理国情监测、人工智能影像处理等方面的研究工作。

陈方圆(1988-),男,湖北武汉人,武汉大学博士,从事融合定位、自动驾驶等方面的研究工作。

刘景成(1985-),男,湖北公安人,长安大学本科,从事卫星导航定位、自动驾驶等方面的研究工作。