基于改良HOG结合SVM的手势特征提取算法

(整期优先)网络出版时间:2024-05-23
/ 2

基于改良HOG结合SVM的手势特征提取算法

蒋飞扬  刘莹晓  刘莉

山东协和学院   山东济南   邮编  250200

摘要:为了加强与聋哑人群的无障碍沟通,团队提出了一种高效的手语识别技术。该项技术是利用了改良后HOG算法SVM技术和改进Canny算法HOG算法的改良解决了主、副对角线上像素的灰度信息的问题结合使用SVM技术,对静止哑语姿势进行特征提取和训练从而有效捕捉手势的关键特征改进Canny算法解决移动边界的提取问题,最大限度的提升了识别率和识别速度。通过实验验证,我们发现这种方法在识别成功率和时间效率方面,都优于传统的HOG特征结合SVM的方法。这种技术的实现,为聋哑人士与听力正常人群之间的交流提供了更加流畅的通道,是无障碍通信领域的一大进步。

关键词:HOG算法;SVM技术;梯度直方图;支持向量机;Canny算法;哑语手势特征识别

1.引言

近年来,科技发展迅速,人机交互技术的应用屡见不鲜,很多学者在哑语手势特征识别中的应用不断对其进行了改进[1]。所以说,人与人之间相互平等以及对美好生活的向往,让哑语手势特征识别逐渐成为科技便利生活研究中的中心[2]

哑语手势特征识别的技术核心就是提取其特征,常见的特征提取方法有很多种,比如:LBP可以有效地提取纹理特性,并将其运用到人脸识别上[3]

本文研究是基于现有静态手势识别技术的局限性,以及在实际应用中易受环境因素干扰、导致识别准确性下降的问题而展开,团队着眼于动态哑语手势特征提取所需的数据数据量庞大、对存储和处理设备的高要求,以及特征提取过程中的缓慢速度,团队提出一种基于HOG与SVM结合的一种哑语手势特征识别算法,提高识别的准确率和速度,实现快速精确的哑语手势特征识别,从而更好地服务于聋哑人士与听力正常人群之间的无障碍交流。

2.关键技术

2.1 改良HOG特征提取

传统的HOG算法只会提取图像中每个像素点的水平和垂直方向的梯度方向和梯度值,这种方法在某些情况中会缺少捕捉主、副对角线旁的边缘信息。为更加全面的了解图像中的边缘信息,对HOG特征提取进行改进,将主、副对角线旁的边缘信息进行提取,提取过程如下:                                                          

要提取到边缘信息,第一步要遍历到每一个像素点,再求出每个像素各个方向上的梯度Gx(x,y)、Gy(x,y)、Gxx(x,y)、Gyy(x,y);第二步根据垂直和水平方向上的梯度求解正交叉梯度,依照主对角线与副对角线方向上的梯度求解斜交叉梯度,过程如下:

梯度值公式

G(x,y)=

梯度方向公式:

通过计算,我们获得了整个图像的梯度方向。接着,我们将尺寸为8x8像素的区域定义为一个单元,并将这些单元内梯度的方向均匀划分到9个区间。对于每个单元中的像素,我们根据其梯度方向进行加权投影,确保它们能够有效地映射至这9个角度区间。这样处理后,我们便能够为每个单元构建出一个精确的梯度方向直方图,从而捕捉局部形状特征。然后,把横向和竖向的两个子组合成一个母。因此对每一个母里的直方图进行归一,再将所有的母组合,就形成了这个图像的改良HOG特征。

2.2 SVM算法训练与识别

SVM算法的应用很广泛,例如:回归估计、模式识别等。该算法在训练过程中会对每一个子量进行相似度计算,并且是独立的,为寻找最优的分类超平面,弥补了这个缺陷。

在SVM训练,要确定采用线性核函数作为核函数。因为,线性函数比其他三个函数识别精度高、复杂度低等多种优点。为了提高识别率,可以利用步进法进行确定惩罚因子,特征维度提取所需的39维,最小进步为0.2,再分析不同惩罚因子在不同维度下的识别效果。当惩罚因子小于1.1时识别准确率最高。在进行准确分布时,结果基本一致,惩罚因子确定为1.2。

2.3 改进Canny算法

Canny算法是边缘检测领域的重要工具,它通过一系列步骤——包括高斯平滑、梯度计算、非极大值抑制和双阈值处理来有效区分出图像中的强边缘和弱边缘,同时显著降低噪声的影响。然而,Canny算法在实际应用中可能会产生过于平滑的边缘检测结果,且其双阈值机制有时会导致边缘信息的不完整或误判。
为解决上述问题,使用局部自适应阈值法优化Canny算法,优势点是对双阈值在数据处理阶段进行了改进。首先,它使用高斯滤波器对图像进行预处理,以确保图像的平滑性。接着,它利用Otsu算法的原理,为每个像素点在其邻域内计算一个局部阈值,并据此构建灰度直方图。这一步骤使得算法能够根据图像的局部特性自适应地调整阈值。
随后,算法对每个像素点进行强弱边缘的判定,通过与局部阈值Txy的比较来决定:如果像素点的梯度值大于Txy,则该点被认为是强边缘;反之,则为弱边缘。最后,算法提取边缘线,并通过引入自适应阈值,更好地适应不同纹理和区域的图像,从而显著提高了边缘提取的精度和可靠性。


这种改进的Canny算法不仅在边缘检测的准确性上有所提升,而且增强了算法对于复杂图像环境的适应性,使其在图像处理和计算机视觉领域的应用更加广泛。

3.实验数据分析

3.1 HOG特征提取分析

实验过程使用语言为Python;实验设备为64位Windows11系统的计算机系统。

实验过程中我们设置了样本目标图像集和非样本目标图像各占200张,此外,识别集由100张目标样本图像和100张非目标样本图像组成

为了确保不同图像在HOG特征提取过程中具有统一的维度,对每一幅图进行归一化处理。根据上文HOG特征提取的方法,并利用PCA降维处理,一方面,较低的特征维度能够加快处理速度;另一方面,较高的特征维度虽然能够保留更多图像细节,但过高的维度可能导致过拟合,从而降低SVM分类器的识别性能。

降维的主要目的是减少处理时间。尽管实验显示,无论是原始图像还是经过PCA处理的图像,平均处理时间均为1.34秒,但当特征维度超过138时,系统无法处理这些图像。因此,我们需要在1至138的范围内选择一个合适的维度,以揭示维度与识别精度之间的关系根据实验结果可知,当维度在接近40时,识别率最高。在40维度附近进行多次试验最终确定维度为39。

3.2哑语姿势识别系统设置

哑语姿势识别系统其步骤为:

1.图像预处理,通过摄像头采集手势图像,经过YUV肤色检测[4],得到准确的手型区域,完成良好的预处理工作。

2.特征提取,利用改进的HOG特征提取方式进行图像主要特征提取,再进行分析,得到降维后的特征向量。

3.对特征进行分类识别,通过SVM分类器对特征样本进行分类,得到模型

4.结束语

用PCA技术对图像进行降维,通过改良HOG特征提取结合SVM分类技术,在最终端的手语识别中,使用Canny算法来进行边界提取,增强了边缘的准确性,形成更准确、更快的哑语识别方法。该方法在大量的功能和性能测试下,不仅高速完成测试,而且准确性高达93.75%。同时还就有可靠的传输策略,具有稳定性和实时性,还具有更灵活的配置。与传统识别方法相比,本方法具有更理想识别准确度与识别所需的时间,甚至可以运用于障碍识别中,相关研究成果还具有重要的现实意义。

参考文献:

[1] 冯志全,蒋彦.手势识别研究综述[J].济南大学学报(自然科 学版),2013,4:002。

[2]皇甫战鲁.基于轻量级深度学习网络的动态哑语手势识别[J].软件工2023-02-16—2023-03-15.

者简介:

蒋飞扬, 女东协和学院,网络工程 22-01 班学生。

刘莹晓东协和学院,网络工程 21-H1 班学生。

刘莉,女,山东协和学院,副教授

依托项目:2023年省级大学生创新训练项目《Free Talk》,项目编号:S202313324086