互联网交通数据挖掘及可视化技术研究

(整期优先)网络出版时间:2022-06-07
/ 2

互联网交通数据挖掘及可视化技术研究

刘双

山东华夏高科信息股份有限公司 山东临沂 276000


摘要:随着计算机、通信网络、控制技术的发展,列车运行控制系统融入了更多的外围设备,自动化和信息化水平提高的同时,其网络安全防护系统面临着更高的挑战。由于城市轨道交通的数据通信系统与传统网络系统的应用特性存在差异,传统IT网络入侵检测方案无法完全满足轨道交通信息安全要求,目前对列车运行控制系统的网络入侵检测问题的研究仍不够成熟。文中结合轨道交通信息系统中异常数据占比少的特点,提出了一种基于单分类支持向量机的分类模型,可有效实现正常数据和入侵数据的准确分离识别。基于此,本篇文章对互联网交通数据挖掘及可视化技术进行研究,以供参考。

关键词:互联网;交通数据挖掘;可视化技术;应用分析

引言

我国2012年由公安部交通管理科学研究所建成全国公安交通管理综合应用平台,逐渐开展了基于事故数据的道路安全分析工作。但在道路交通安全管理数据汇集与大数据平台专业分析方面,与欧美发达国家相比仍有一定差距。

1城市轨道交通的数据特点

不同于其他方向的信息领域,城市轨道交通数据有4个明显的特点。1)数据生成符合一定的时序规律。城市轨道交通按照既定的计划和方案来运转,每天都能产生符合时间规律的数据,这些数据满足一定的时间特征。2)数据生成形式多样。轨道交通数据来源于不同的业务,跨部门多用途,数据产生的方式也各不相同。数据分布的异构性使得非结构化数据占绝大部分。3)数据相互关联。虽然数据生成形式多种多样,但是数据之间相互关联,其中一个系统中部分数据的变化可能会引起或导致另外一个业务系统的连锁反应。4)数据实时动态更新。城市轨道交通在日常运营过程中,不间断地产生各种数据,数据刷新速度频繁,更新速度快,累积量大。通过分析可知,城市轨道交通数据有上述4个主要特点,类似于工业现场数据。城市轨道交通数据符合大数据的主要特征,适用于大数据处理环境。利用大数据技术实现数据的存储、清洗、加工分析,实现城市轨道交通线网大数据中心的合理建设和有效使用,为业务系统决策提供直接的依据。线网指挥中心数据来源广泛、颗粒众多、维度不同、关联性强的特点,使得传统的数据存储手段不能有效地发挥线网指挥中心的价值。通过大数据技术,解决海量数据存储问题、非结构化数据关联问题、实时数据分析问题等实际困难,有效提高线网指挥中心的数据地位,引导业务系统健康有序发展,进而提升城市轨道交通运行效率和运维安全。

当前,在国内的部分城市中已经有一些线网指挥中心引入了大数据技术并指挥城市轨道交通数据中心建设。但是,大数据技术在城市轨道交通中的应用还有待发展,主要表现在以下3个方面。

1)数据统计分析工作缺失。在当前的数据中心存在数据样本缺失、数据维度不统一,数据分析困难,缺乏对轨道交通数据的基本处理和分析统计工作。2)数据质量参差不齐。由于在城市轨道交通行业的数据生产缺乏统一的行业标准,各业务系统生成的数据类型、数据格式、数据存储形式等不一样,数据规范性较差,数据前期准备工作需要处理的问题较多。3)数据孤岛问题。目前,各个业务系统分别运行,业务系统之间缺乏必要的通信接口或数据接口,这使得业务系统相对孤立,各业务系统之间隔离导致信息孤岛的情况。

2基于数据挖掘的信息检测

数据挖掘主要是指利用数据处理算法从大量数据中发掘隐含信息,其在特征提取方面表现出良好的性能,在信息安全检测方面得到广泛应用。通过数据挖掘检测方法对大量的网络数据和访问记录进行训练,实现检测模型的建模和参数整定,利用训练获得的检测模型对实时数据进行检测筛选,挖掘出隐藏的网络入侵行为。数据挖掘是以数据流量为研究对象,通过对正常数据和异常数据的分析,提取出隐藏在数据中的规律,从而实现对入侵行为的辨别,网络入侵检测流程如图1所示。

629ede685d82d_html_eadd538de9a982e3.png

图1信息检测流程

常用的检测算法包括分类、关联分析、聚类等。其中,分类算法主要原理是利用分类模型对数据进行预测,将数据分割判定为正常或者异常两类,其关键问题在于分类模型的构建和参数整定,常用的分类方法包括最近邻分类、决策树分类、人工神经网络、支持向量机等。由于轨道交通网络通信中,正常数据占有的比例非常大,入侵数据仅占有极少的比例,训练样本具有数据量小的特点,而基于支持向量机的分类模型无需大容量的训练数据,更适用于轨道交通网络的通信数据特点。

3交通事故影响因素分析

多源数据库的构建汇聚了人、车、路、环境等多维道路交通安全影响因素,为更加全面的挖掘驾驶人因素、交通状况因素、道路条件因素、环境因素对于交通事故的影响关系奠定了基础。基于多源数据的可获得性以及本文提出的多源异构数匹配汇聚方法,将有效提高多源异构数据在交通安全影响因素分析、模型构建等方面的可用性。一方面,在行车过程中应尽量避免急加速、急减速等风险驾驶行为以提高驾驶的安全性;另一方面,应当重视路段上发生急加速、急减速等风险驾驶行为较多的位置,通过工程等技术手段降低路段的事故风险。在与交通状况有关的因素中,速度变异系数(CVS)的相关系数最大,这表明当道路上车辆的速度波动较大时,交通流的不稳定性增加,发生交通事故的概率也随之上升。在与外部环境有关的因素中,对交通事故有显著影响的变量为天气状况,恶劣的天气状况(如:雨、雪、雾等)会导致路面湿滑、能见度降低,严重影响行车安全,应及时提醒司机谨慎驾驶,严重时应封闭道路。此外,道路因素中的平均坡度、上坡坡长、路段类型、车道数等均对交通事故有显著影响,但是由于研究道路的长度有限,这部分变量的相关系数较小,未来应采集更长的道路数据,进一步论证道路条件对于交通事故的影响关系。可见,基于多源数据库进行的交通安全分析能够涵盖更多、更全面的交通事故影响因素,特别是自然驾驶行为变量的引入弥补了以往研究中数据的可获取性、可利用性较差以及影响关系不明确的不足。通过本文中的交通事故多源影响因素分析可以为后续交通事故预测、因果关系解析等研究中的变量选择提供参考。

结束语

总而言之,本文通过对比我国道路交通安全管理数据与分析平台的建设和应用发展情况,总结我国道路交通安全管理大数据平台的不足。尽管我国在道路交通安全管理大数据平台构建方面取得了较大发展。未来需要进一步整合安全数据与道路交通数据,开发适合我国的道路交通安全分析数据平台,建议进一步:(1)建立汇集交通事故数据、道路特征信息、交通运行特征的数据管理平台;(2)研究平台的数据统计分析、可视化功能模块,研发道路交通安全地理信息系统;(3)最终形成完整、精确、实用、稳健的道路交通安全分析数据平台。

参考文献

[1]文浩.互联网交通数据挖掘及可视化技术研究[J].交通与运输,2020,34(S1):142-146.

[2]刘丽艳.大规模城市交通数据的语义挖掘与可视化[D].湖南师范大学,2020.000344.

[3]程宇航,张健钦,李江川,张安.交通行业事故文本数据的可视化挖掘分析方法[J].计算机工程与应用,2020,57(21):116-122.

[4]袁勤.基于数据挖掘的城市公路交通事故特征分析[D].武汉理工大学,2020.000272.

[5]夏传信.基于数据挖掘技术的智慧民生网络体系构建研究[D].对外经济贸易大学,2018.