有效视频帧时间序池化的人体行为识别算法

(整期优先)网络出版时间:2021-09-16
/ 2

有效视频帧时间序池化的人体行为识别算法

蔡伟

中广有线信息网络有限公司 北京市海淀区 100089

摘要:在视频监控、虚拟现实、人工智能交互中人体行为识别被广泛应用。已有的人体行为识别研究主要包括行为特征描述和特征编码方法,对视频中时间信息建模研究较少。视频中人体行为具有连贯性,若忽略时间域,则帧间的随机重组有相同的特征编码,会限制行为识别效果。基于此,本文对基于有效视频帧时间序池化的人体行为识别算法进行探讨。

关键词:时间序池化;视频;人体行为识别算法

1人体行为识别算法实现步骤

其步骤为:(1)对视频进行密集采样,提取稠密轨迹构建特征描述子,采集HOG和轨迹形状作为形状描述符,利用HOF和MBH作为运动描述符,最终得到1个426维的描述符。采用主成分分析对获取的特征进行降维处理,减少计算量和数据冗余,然后采用高斯混合模型对特征进行建模,高斯聚类个数K=256。(2)使用局部累计描述向量(Vector of Locally Aggregated Descriptors,VLAD)对视频帧的稠密轨迹特征进行编码,本文取K-means聚类中心数为5,得到视频每一帧维数为K×D特征向量。(3)对获取的视频帧序列中的特征向量采用余弦相似度分析,设置阈值为0.8,将余弦相似度大于阈值的2个特征向量中的后者剔除,得到紧密的有效视频帧特征序列。(4)对获得的有效视频特征序列中的每一帧特征进行平滑处理操作,计算其时变均值向量。(5)采用时间序池化利用排序函数按照时间相对顺序排序有效视频帧特征,通过参数向量u来获得视频序列动态信息。(6)通过学习RankSVM得到的视频序列随时间变化的动态特征向量u作为视频特征向量。(7)用获取的视频特征向量u训练支持向量机(Support Vector Machine,SVM)分类器实现最终的人体行为识别。

2人体行为识别算法实验结果与分析

本文利用OpenCV和MatlabR2016a软件对算法进行实验。其中,OpenCV用来实现稠密轨迹以及相关特征的获取,Matlab用来实现特征处理、余弦相似度分析、动态特征获取以及分类预测。本文采用了在动作识别领域广为应用的HMDB51数据集和UCF101数据集。进行算法效果的检验。HMDB51数据集由6849段视频样本组成,分为51类,每类至少包含有101段样本。视频多数来源于电影,还有一部分来自公共数据库以及YouTube等网络视频。UCF101拥有13320个视频,101个分类,其中每一类动作由25个人完成,是目前动作类别数、样本数最多的数据库之一。构建动态特征向量时只捕获了正向行为序列的时变信息,这是因为行为序列是随时间从过去到未来变化的。同样,可以将均值向量视为是相反的顺序,即认为行为序列是从结束帧开始,逆向变化到达起始帧的过程。因此,可采用相同的目标函数捕获反向行为序列图像强度变化过程。在正向行为序列中称正向排序池化(Forward Rank Pooling,FDRP),在逆向行为序列中则称为逆向排序池化(Reverse Rank Pooling,RERP)。分别对“跑步”视频和“骑马”视频进行时间序池化操作。视频经过时间序池化操作后,可得到行为随时间顺序的演化过程,以及行为序列的动态特征,并增加不同行为类别间的区分度。在HMDB51数据集上,对每一类特征描述子以及组合的特征描述子,与FDRP方法和RERP方法结合运用行为识别的前后效果以平均识别准确率为评价指标进行对比结果如表1。

6142a33100c6d_html_9cd544b48944dd48.png

采用轨迹特征与本文的时间序池化获得的动态特征相结合进行人体行为识别,相比于单纯使用一种特征进行人体行为识别,在识别准确率上有着较大的提升。将本文时间序池化方法与常用的平均池化和最大池化对比,并分别运用由这3种不同的池化方法得到的特征在UCF101数据集上进行行为识别,以平均识别准确率(ACC)作为评价指标进行对比结果如表2。在UCF101数据集上分别.用时间序池化、平均池化和最大池化获取视频特征进行行为识别,采用时间序池化方法取得的效果最好,相比于平均池化和最大池化,平均识别准确率分别提高5.3%和12.5%,可较好地获取视频的特征,提高人体行为识别效果。

6142a33100c6d_html_69e90db46c903564.png

本文采用余弦相似度分析对视频帧序列进行去冗余操作的效果,从HMDB51数据集中随机选取10个不同的行为视频进行训练测试,以处理速度和平均识别准确率为评价指标与未使用余弦相似度分析的情况进行对比结果如表3。本文采用余弦相似度分析对视频帧序列进行提纯后,处理速度提高了1.5倍,识别准确率上有0.7%的提升,一定程度上提高了识别效率。

6142a33100c6d_html_3659781335aaa4c3.png

本文分别在HMDB51数据集和UCF101数据集上采用2种不同的特征编码方法进行行为识别,以对比Fisher Vector和VLAD,将ACC作为评价指标,结果如表4。采用VLAD在HMDB51数据集和UCF101数据集上进行特征编码,相比于Fisher Vector在识别准确率上分别提升0.7%和1.2%。

6142a33100c6d_html_28a4d80378a4510c.png

3结束语

由于视频中人体行为包含大量重复的动作,会导致取的视频帧特征序列中包含相同的特征,并产生影响识别效率的冗余数据。因此,本文提出一种提取有效视频帧并对其时间序池化的人体行为识别算法,并经实验结果表明本算法可以有效的提高识别效率和准确率。


参考文献

[1]王雯.基于运动学动态图的人体动作识别方法[J].天津工业大学学报,2021,40(1).

[2]张健.基于光流和深度运动图的行为识别算法[J].海南大学学报:自然科学版,2020,38(2).