基于大数据的网络异常行为检测技术国内外现状研究

(整期优先)网络出版时间:2021-01-04
/ 2

基于大数据的网络异常行为检测技术国内外现状研究

和乾

大庆职业学院 黑龙江大庆 163255

摘要:传统的数据处理平台无法满足对大量、迅速增长的数据进行高效、全面的处理;传统的网络异常行为检测技术存在对已知异常检测效果较低,无法检测未知攻击行为的问题。因此,网络异常行为的研究已受到了政府、学术研究机构、网络安全工业界的高度关注。

关键词:大数据技术;网络异常行为;检测技术;现状

网络异常行为检测,是一种通过不断收集网络数据,利用统计分析、特征规则、数据挖掘和机器学习等方法建立、维护和更新网络行为模型,检测当前用户行为是否超过正常行为阈值来识别出异常行为。网络异常行为检测的结果通常将网络行为分类两大类:正常和异常,异常行为又可以分成很多小类,如DOS、Probe、U2R、R2L 等常见攻击类型,因此网络异常行为检测可以是二分类也可以是多分类问题。国内外网络安全厂商和学者们对网络异常行为检测方法进行了深入的研究和实验,并取得了一定的成果。

1 国内研究现状

国内对网络异常行为检测方法的研究起步稍晚,但是近年来也取得了大量的研究成果。陈兴蜀等人提出了一种先通过多维时间序列方法对提取的多维特征进行预测,再利用支持向量机算法判断是否发生异常的方法,结果表明,在实际网络异常检测中提高了检测率、降低了误报率。胡洋瑞等提出了一种改进的k-means++余弦聚类算法,用该方法构建正常流量行为模型,实现了在海量数据中用少量标签数据训练模型的同时提高了检测精确率。清华大学贾凡等人提出一种改进的基于K-means分层迭代的检测算法。实验结果表明,该算法相对传统的K-means不仅提高了罕见攻击类型的检测率而且节省了时间。夏景明等人针对目前网络入侵检测方法由于过拟合现象影响检测准确率的不足,提出一种结合高斯混合模型聚类算法和随机森林的网络入侵检测方法。梁杰等人针对目前网络异常检测难以将研究算法应用在真实网络流量监测中的问题,提出了一种基于原始流量数据包的深度学习方法。能有效处理原始网络包并进行网络攻击检测,并且在提高了检测精度、降低了漏检率和误检率。国内的大数据网络异常行为检测技术目前也正处于一个快速发展的阶段。王萍提出了一种基于大数据技术的可以检测出未知复杂攻击的网络异常行为分析的方法,并将该方法应用于检测系统取得了很好的效果。李若鹏利用大数据技术设计与实现了一种能够快速有效的对海量安全数据采集、存储和分析的网络异常行为检测平台,帮助在大数据中快速发现异常并做出响应。董娜提出了一种基于大数据的网络异常行为建模方法,利用无监督聚类算法检测网络异常行为,实验结果表明该方法有效解决了大数据环境下海量数据标签难的问题。在大数据背景下,学者们开始将大数据技术、机器学习等多种技术有效结合,不仅实现了快速高效的数据采集、存储和分析,而且提高了网络异常检测的准确率,此外,可视化展示直观方便,提升了网络异常分析方法的可用性。

2 国外研究现状

自20世纪80年代Denning首次提出网络入侵检测模型至今,不同时代学者们利用最新技术提出了很多各有其优点的网络异常行为检测方法。目前异常行为检测方法主要包含四种:最基本的基于统计分析的方法、数据特征与特征库对比匹配的基于特征规则的方法、具有自动分析能力的基于数据挖掘的方法和目前最常见的基于

机器学习的方法。由于机器学习算法对未知模式的攻击具有一定的检测效果,因此基机器学习的网络异常检测成为近些年研究的重点。例如基于聚类、朴素贝叶斯或决策树等的网络异常行为检测等。S.Sahu等人提出了一种基于决策树的网络入侵检测方法,从检测结果可以看出,该方法的检测准确率一般,但是能够有效检测出新的攻击类型。机器学习中有很多算法,它们有各自的优缺点,因此学者们在之前的基础上进一步研究创新,将多个算法融合或者对其进行改进设计一个新的模型,有效利用它们各自的优点,避开缺点来提高网络异常检测效果。B. Senthilnayaki等人结合遗传算法和支持向量机算法提出了一种网络异常分析方法,结果表明使用遗传算法提取部分特征比使用全部特征训练的支持向量机模型检测准确率高。Chang Y等人针对网络异常检测的检测率低的问题,提出了一种基于RF和SVM的网络异常检测方法,研究发现将特征提取和机器学习结合可以提高检测率。Gao X 等人提出了一种自适应集成模型,通过调整训练数据的比例,设置多个决策树,构建Multi Tree算法,通过对比试验证明提高了检测准确率,并发现数据特征的质量是决定检测效果的重要因素。

深度学习是一种基于表征学习思想的机器学习新领域,不需要人工指定特征而是模仿人脑从海量数据中自动学习出模式特征,并用于建立模型,避免了人为操作造成的不完备性。深度学习使用深层次神经网络对原始输入数据逐层学习,组合底层特征得到更抽象的高层特征,并进一步用分布式特征用于建模等工作。因此这几年有大量学者研究深度学习在网络异常行为检测方面的应用。Naseer S 等人研究了深度学习在网络异常检测中的适用性,实现了基于不同深度神经网络结构的异常检测模型,包括卷积神经网络、自编码器和回归神经网络。Tavoli R针对传统异常检测方法不能在高速度和复杂性的网络中检测出未知异常的缺点,提出了一种基于MLP 神经网络的入侵检测新方法。实验结果表明该方法在降低误报率方面明显优于其它方法。L. Yong提出了一种基于卷积神经网络的入侵检测算法,该网络模型比经典的BP神经网络和SVM 算法及深度学习算法DBN 具有更高的精度和检测率,提高了入侵检测识别的分类精度。Zhang C等人提出了一种基于深度学习的入侵检测方法,采用深度自动编码器压缩不重要特征,提取关键特征构建模型,并利用NSL-KDD数据集进行了测试能快速准确识别攻击。

进入大数据时代,网络数据越来越多,越来越复杂,原本检测效果很好的机器学习算法受到传统平台处理能力和存储空间的限制,检测效果和效率明显下降,所以需要提供一种能够处理海量安全数据的网络异常检测方法。国外产业界首先提出了基于大数据的网络异常行为检测平台。起初主要是基于Hadoop的网络异常行为检测,随着大数据技术的不断发展,能够在内存中进行计算,速度更快的Spark技术不断成熟,基于Spark的网络异常行为检测收到学者们的重视。总体来看,基于大数据的网络异常行为检测提升了对大量数据的采集、存储及处理能力,可以识别更隐蔽及复杂的网络异常,使得网络异常检测的误报率降低,准确率有效提高。所以,在网络异常行为检测领域中应用大数据技术已成为近年来安全领域的一大热门。Marir N 等人提出了一种适应于检测大规模网络中检测异常行为的分布式方法,该模型采用深度特征提取和分布式多层集成支持向量机相结合的方法,从大规模网络流量数据中发现异常行为。结果表明,在性能方面相比其他模型有很大的提升。

W. He构建了一个基于Spark 的计算机和网络异常行为分析框架,通过对数据挖掘、机器学习和统计分析技术的开发和集成,可以快速分析大规模多源日志数据,准确识别异常攻击行为。H. Zhang等人提出并实现了一种基于Spark的实时分布式随机森林网络入侵预防系统,包括基于netflow的数据捕获、预处理和基于分类的入侵检测三部分。与现有系统相比,该系统具有较高的效率和准确性,非常适合于网络入侵的实时检测,具有容量大、速度快的特点。Dobson A 等人提出了基于Spark的网络入侵检测,利用Spark库实现传统机器学习算法以及多层感知器深度学习算法的网络入侵检测。

参考文献

[1]尹传龙. 基于深度学习的网络异常检测技术研究[D].战略支援部队信息工程大学,2018.

[2] Gao X, Shan C, Hu C, et al. An Adaptive Ensemble Machine Learning Model for Intrusion

Detection[J]. IEEE Access, 2019, 7: 82512-82521.

作者简介和乾(1981)男,黑龙江大庆人,讲师,大学本科, 主要从事计算机网络专业网络安全、网络操作系统的教学及安全理论考试点的运维工作。