基于深度学习网络入侵检测

(整期优先)网络出版时间:2023-11-28
/ 3

基于深度学习网络入侵检测

周创

安徽国防科技职业学院

互联网已经成为人民生活的一部分,据中国互联网络信息中心CNNIC发布的第52次《中国互联网络发展状况统计报告》。报告显示,2023年6月底,我国上网人数已经达到10.79亿人,上网人群比例76.4%,普及率非常高[1]。 随之而来的网络安全问题也已经成为社会型问题。特别是apt网络攻击(高级可持续威胁攻击)更隐蔽,专业性更强,相对于传统网络攻击更难检测。

2022年美国国家安全局的专业部门对我国互联网实施针对性的上网次的网络攻击,入侵众多的云主机、服务器等,盗取了多达144GB高价值数据[2]。其中针对高最为典型案例是西北工业大学的网络攻击,竟然使用美国国家安全局NSA专用41多种网络攻击工具,持续对西北工业大学发起APT攻击 ,窃取该校核心网络设备信息、网络运维数据等核心技术数据,发现异常后,国家组建技术团队,对该事件进行溯源,揭露事实真相。

高校网络已经成为黑客攻击重点内容,本文利用深度学习分析网络日志,来检测网络攻击,发现与防御apt网络攻击。

一、国内外研究现状

入侵检测概念最早有Anderson等人提出,Denning等人首次提出入侵检测模型,并将入侵检测作为网络安防御的一种手段。国内入侵检测起步晚,但是国内网络高速发展,目前已经达到世界领先水平。

文献[3]首次提出实时入侵检测系统的需求和模型,通过检测系统行为中的异常模式来识别可能的入侵,并在发现异常时采取适当的响应。这种类型的入侵检测系统旨在帮助保护计算机系统免受未经授权的访问、恶意软件和其他安全威胁。

文献[4]主要提出了常见的网络入侵检测防御系统可以分为网络防御系统和主机防御系统,其中网络防御系统通过内置芯片进行检车。主机防御系统通过系统应用程序进行防御检测,可以先设定预定安全策略进行分析,这就是早期网络防御系统

文献[5]提出新的网络检测技术,针对入侵的特点进行入侵分类,从而提出了在线子适应多酚类入侵检测集成模型,运用矩阵中的奇异值理论,对样本进行分类,为提高准确性,采用多级混合的模型,提高了入侵检测成功率,特别是小样本类的入侵检测

文献[6]使用数据挖掘技术构建入侵检测模型,用C4.5、ID3等算法,构建基于特征的决策规则,利用DBSCAN算法进行分组成簇,从而识别正常流量和入侵流量。

文献[7]通过利用洛必达法则进行简化计算,提出改进决策树法进行识别正常流量和入侵流量。

文献[8]提出基于栈式稀疏自编码器和向量机递归特征消除双层算法,提取特征值,然后通过神经网络分类器进行组合,识别网络入侵特征。

二、ELK日志分析系统

ELK又称为ELKstack,是管理日志一种开源软件,它集成日志收集、分析和可视化展示。由Elasticsearch、Logstash和Kibana三个开源软件组成。

Elasticsearch是一个免费的数据分析和搜索系统。它是基于Lucene的开源套件。它支持实时搜索和分析功能。它可用于读写数据、特征过滤和数据。Elasticsearch的搜索速度非常快,因为它采用了倒排索引技术,可以根据给定的值和字段立即找到符合条件的文档列表。近年来,Elasticsearch因其高度的可扩展性、可用性和出色的数据分析效率,已成为机器学习分析或即时日志数据处理的主要选择之一。

Logstash是一个免费的开源数据系统,可接收、转换和输出各种来源的数据。它支持50多种不同类型的输入和输出。用户就可以处理各种日志或数据,并根据不同来源定义所需的数据字

段。Logstash与传统的日志收集方法不同,主要体现在收集日志的方式上。传统版本必须通过内部程序提供的管道写入文件。这种方法在少量服务器中可行,但在多台服务器中检查日志数据会非常麻烦。Logstash解决了这个问题。它的结构化日志大大提高了检查日志数据的便利性。更重要的是,它还有许多附加程序,可以输出到各种数据源进行分析和可视化处理。

Kibana是一款基于浏览器页面、使用Apache开源协议的Elasticsearch辅助工具。Kibana是一个以仪表盘为基础的应用程序。从逻辑上讲,Kibana非常简单,大多数处理器都在面板级别。每个面板都是独立的,分别完成数据处理和可视化分析。此外,Kibana还提供多种输入功能。Kibana可以通过可视化分析显示各种日志,然后通过Elasticsearch搜索数据库建立各种仪表盘。Kibana可通过各种可视化效果轻松了解大量数据,而且简单易学。基于Web浏览器的界面使初学者能够快速学会创建和共享动态仪表盘,并直接显示对灵活查询的更改。在过滤器方面,新版

Kibana用过滤器agg取代了面过滤器。

二、深度学习模型

深度学习是一种 "人工神经网络" , 它模仿人类的神经网络 , 并且能够自动提取特征。深度学习的应用不仅限于图像 ,还涉及图像生成、 自然语言生成、 自动翻译、 机器人控制等多个领域。

3.1 DNN

DNN(深度神经网络)是机器学习的一个分支。它主要采用监督或非监督学习的方式来训练机器以提高机器训练的效率和准确性。DNN 指的是全连接神经元结构不包含卷积单元或 时序关联。DNN在使用中也会存在一些问题。,全连接 DNN的上下 神经元之间会形成连接,容易造成过度拟合.

3.2 RNN

递归神经网络(RNN)特点是多层神经网络中每一层的输出都直接附加到输入的自循环中。 通过这种结构可以在记忆层输入之前的输入。当输入数据是一个连续的序列时,输入前的输入记忆可以纳入下一个输入的思维模式。

3.3 LSTM

Lstm(Long Short-term Memory ,LSTM是一种改进的 RNN ,主要用于解决恒定时间序列过程中的梯度消失和梯度爆炸问题。可以分为忘记阶段、选择记忆阶段、输出阶段。

本文就是ELK构建网络日志管理分析系统,通过深度学习构建和训练模型,来进行分析入侵检测行为,最终在可视化的Dashboard上进行展示分析结果。根据实验探讨各类深度学习模型的优缺点。

三、系统部署

部署完整的ELK Stack系统 ,导入网络中心的日志数据,配置参数,系统就可以读取相应的日志数据字段,然后对日志数据进行预处理 ,再导入深度学习模型进行训练和学习 ,并检测其网络日志数据的攻击行为。

表3.1 配置参数

       

表3.2 构建集群配置

运行系统后可以显示IP使用情况,可以查看源IP、端口和网络协议等。

图3-1可视化源ip信息

系统可以分析网络攻击行为,对每次网络攻击的可疑来源进行分类,并可以管理网络流量的时间,选择攻击行为的时间进行查询。可以更快地确定网络攻击来源。

图3-2异常流量监测

由图可以看到在下午4点30分左右ICMP流的异常情况,管理员在异常处点击鼠标选定时间点、并设置过滤条件后即可查出对应时间所发生的具体ICMP流的明细信息。

四、模型训练

深度学习网络入侵检测框架,在刚开始的阶段收集所需要的数据。数据预处理阶段,首先将数据集中的字符型数据转化为深度学习所需要的数值型数据,然后对转化后的数据进行归一化,这一步是为了提高模型的训练效率。建立阶段,在此阶段,使用不同的模型进行训练,验证和测试。系统通过精确率和 F1 值等模型评价指标来比较结果。判断实验数据优劣的指标为P为精确率,R为召回率,F1表示模型性能好坏,值为0到1直接,1表示性能最好,0表示性能最差。

类型

预测为正例样本

预测为负例样本

正例样本

TP

FN

负例样本

FP

TN

4.1 模型训练

通过构建DNN、RNN、LSTM模型,分别进行数据训练,从训练结果三个模型精确率都能满足要,其中RNN模型训练结果要比其他2个型要好。

表4.1数据预处理

表4.2 合并csv

 

表4.3 实验结果

模型

精确率

召回率

F1

DNN

84.34

86.65

0.8203

RNN

91.37

92.68

0.9302

LSTM

85.61

87.08

0.8543

从测试的数据中可以看到,RNN的测试准确性较高,比其他模型学习能力更强,在检测APT攻击分类更加优越。

基于ELKStack的网络日志管理和分析系统,管理员可以通过图标直观的观测网络运行情况,并且对各个专项进行可视化分析分析。RNN模型还可用于网络攻击分类,准确率可达98%以上,并可用于分类攻击类型。记录系统和攻击行为具有相互可比性,因此管理人员可以获得更准确的信息。

参考文献:

[1]https://www.cnnic.net.cn/n4/2023/0828/c88-10829.html[OL],2023年8月第52次《中国互联网络发展状况统计报告》.

[2] 袁宏. 网攻西北工大的真凶:美国国安局[N]. 环球时报, 2022-09-06 (003).    

[3]Denning DE, Neumann PG. Requirements and Model for IDES-A Real-time Intrusion Detection System [R]. Menlo Park, CA, USA: Computer Science Laboratory, SriInternational, 1985

[4]黄刚. 入侵防御系统关键技术研究[J]. 网络安全技术与应用, 2008, (05): 32-34.

[5]刘积芬. 网络入侵检测关键技术研究[D].东华大学,2014.

[6]Lee W, Stolfo S J, Mok K W. A data mining framework for building intrusion detection models[C]//Proceedings of the 1999 IEEE Symposium on Security and Privacy (Cat. No.99CB36344). IEEE, 1999: 120-132.

[7]姜潇蔚,王勇.基于改进决策树算法的入侵检测方法[J].桂林电子科技大学学报,2017,37(06):473-477.DOI:10.16725/j.cnki.cn45-1351/tn.2017.06.009.

[8] Lee J, Jeon J, Lee C, et al. A Study on Efficient Log Visualization Using D3 Component against APT: How to Visualize Security Logs Efficiently[C],International Conference on Platform Technology and Service (PlatCon). IEEE, 2016: 66

项目基金:安徽省教育厅科学项目(KJ2021A1491),安徽省质量工程项目(2021kcszsfkc0762021jyxm0234)、安徽省高校优秀青年人才支持计划(gxyq2020143)、安徽国防科技职业学院质量工程项目(gf2022jxyj01、gf2022xqjc04)、提质培优项目(《Linux应用基础》课堂革命典型案例)的阶段性成果。