基于大数据技术的铁路工务检测数据平台方案研究

(整期优先)网络出版时间:2023-11-30
/ 2

基于大数据技术的铁路工务检测数据平台方案研究

马鑫

中国铁路呼和浩特局集团有限公司呼和浩特工务段  内蒙古  呼和浩特市 010000

摘要:我国铁路系统正逐步进入大数据时代,每天产生大量数据,而且这个数据量还在逐年增加。目前普速铁路线路数据检测手段多样,包括动态轨道检查车、车载报警仪、人工添乘及静态轨道检查仪等。然而,工务各种监测数据的数量庞大,数据类型复杂,且业务查询频繁,这给后续大量数据的深度挖掘带来了一定困难。特别是车载报警仪数据,由于依赖人工分析,每天产生的数据高达几万条,迫切需要建立一个工务数据平台,以优化数据的存储、分析和共享流程。为了解决这一问题,建立一个工务数据平台,以应对日益增长的数据量和复杂性。该平台将集成车载报警仪等各种监测设备产生的数据,并利用大数据技术对这些数据进行存储、分析和共享。通过建立一个统一的数据平台,可以更加高效地管理和利用这些数据,提高普速铁路线路检测数据的准确性和高效性。

关键词:大数据技术;铁路工务;检测数据平台;方案

1总体方案设计

当前工务车载分析系统面临着多种数据源的接入,数据量庞大且查询需求复杂的问题。可接入的数据源包括车载数据、便携大值、轨检超限大值、人工添乘、轨检小车等。其中,车载数据的同步频率为每半小时一次,每月增加数十万条数据;而其他检查监测数据的同步频率为每天一次,每天的增量从几十到几百不等。在数据查询方面,主要涉及检测时间、线别、行别、里程范围、车体垂向、横向振动加速度等内容。查询的形式大多是针对单一数据内容进行的,也有少量的联表查询需求。在数据量方面,车载数据的数据量可达千万级别,而其他数据的总量在几万到几百万之间。为了处理这些数据,系统的数据处理流程包括数据同步、数据存储与查询、以及数据共享三个部分。数据同步是指将不同数据源的数据进行同步更新,确保数据的准确性和实时性。数据存储与查询是指将数据存储在系统中,并提供查询功能,以满足用户的需求。数据共享则是指将数据分享给其他系统或用户,以实现更广泛的应用和价值。当前工务车载分析系统面临着多种数据源接入、数据量庞大、查询需求复杂等挑战。通过建立完善的数据处理流程和提供高效的数据查询功能,可以更好地应对这些挑战,并为用户提供准确、实时的数据分析服务。

2数据同步与清洗

在进行大数据应用开发之前,一个重要的步骤是对原始数据进行清洗和规范化。数据清洗是指对数据进行整理和过滤,以确保数据的准确性和一致性。通过这个过程,我们可以去除重复的数据、处理缺失值、纠正错误,以及对数据进行格式化和标准化。清洗后的数据可以更好地被后续的大数据应用所使用。它们具有更高的质量和可靠性,可以被用于各种数据分析、挖掘和建模任务。此外,清洗后的数据还可以提高数据的可读性和可理解性,使得数据的使用更加方便和高效。一旦数据清洗完成,我们可以将其存储在本地数据服务器的MySQL数据库中。MySQL是一种流行的关系型数据库管理系统,它提供了高效的数据存储和检索功能,适合处理结构化数据。将清洗后的数据存储在MySQL数据库中,可以方便地进行数据的管理和查询,为后续的大数据应用开发提供了强大的数据支持。通过将清洗后的数据存储在MySQL数据库中,我们可以更好地利用这些数据进行大数据应用开发。我们可以通过SQL查询语言来提取所需的数据,进行各种复杂的数据分析和挖掘操作。此外,MySQL数据库还提供了数据备份、恢复和安全性管理等功能,可以保证数据的可靠性和安全性。数据清洗和数据存储是大数据应用开发中不可或缺的步骤。通过对原始数据进行清洗和规范化,我们可以提高数据的质量和可用性。

3数据存储与查询

MySQL是一种适合存储各种检测数据的关系型数据库,特别适合存储车载数据、便携大值、轨检超限大值、人工添乘、轨检小车等大量数据。然而,对于车载数据这种特殊的数据类型,传统的MySQL数据库无法满足存储和查询的需求,需要采用分布式大数据集群存储系统,例如HBase。HBase是一种基于分布式文件系统的大数据存储系统,它在处理庞大表的能力方面具有明显的优势。通过使用预分区HexStringSplit算法,HBase可以实现数据的均匀分布,从而避免了热点问题。这种均匀分布的数据存储方式可以有效提高数据的存储和查询效率。与HBase相比,MySQL是一种行存储的数据库,只能查询单个字段的值。而Phoenix是一种建立在HBase之上的SQL层,它可以将多列数据聚合为行,并支持二级索引、事务以及多种SQL层优化。这些功能使得Phoenix能够提升数据查询的速度和使用体验。综上所述,MySQL适合存储各种检测数据,包括车载数据、便携大值、轨检超限大值、人工添乘、轨检小车等。对于车载数据这种特殊的数据类型,传统的MySQL数据库无法满足需求,需要采用分布式大数据集群存储系统,例如HBase。HBase具有优秀的底层分布式文件系统和数据均匀分布的能力。而Phoenix作为HBase的SQL层,可以将多列数据聚合为行,并支持二级索引、事务以及多种SQL层优化,从而提升数据查询速度和使用体验。

4数据共享

在铁路运输系统中,数据的收集和分析对于确保安全和高效运营至关重要。为了实现这一目标,我们需要将不同的检测数据存储在适当的数据库中,并确保可以与其他系统进行共享和交互。首先,我们将车载数据、便携大值、轨检超限大值、人工添乘和轨检小车等检测数据存储在MySQL数据库中。为了实现数据的共享,我们使用JDBC连接将这些数据共享给下游的工务车载数据分析业务系统。这样,不同的系统可以访问和分析这些数据,以便进行必要的决策和优化。另外,为了存储和处理车载数据,我们将其存储在大数据集群中。为了优化查询性能,我们使用HBase上层组件Phoenix进行查询操作。为了实现不同系统之间的交互需求,我们采用HTTP接口的形式来传输数据,并使用POST方法进行数据传输。这样,不同的系统可以方便地访问和查询车载数据,以便进行分析和改进。为了简化查询操作,我们参考了MyBatis持久层框架的设计思想,并将通用查询功能总结为三种类型:查询所有详细信息、查询分页信息和查询数据总量。为了方便访问和使用这些功能,我们开放了三个访问接口。这样,用户可以根据自己的需求和条件进行查询操作,并获得所需的结果。最后,为了满足不同需求,我们封装了查询参数,包括查询属性和分页属性。

5结论

总之,我国铁路系统正面临着大量数据的挑战,特别是工务监测数据的处理和利用。通过建立一个工务数据平台,能够更好地管理和利用这些数据,提高普速铁路线路检测数据的准确性和高效性。这将为铁路系统的安全性和运行效率提供有力支持,并推动铁路行业向智能化和信息化方向发展。

参考文献:

[1]何欣玲,刘宇,赵天,等.铁路数据中心基础设施管理系统的研究[J].铁路计算机应用,2020,29(10):21-25.

[2]马小宁,李平,史天运.铁路大数据应用体系架构研究[J].铁路计算机应用,2021,25(9):7-13.

[3]宋一凡,张玉福.铁路运输清算系统运行实践研究[J].铁道运输与经济,2021,35(9):38-42.

[4]卫铮铮,单杏花,王洪业,等.基于客运大数据平台的铁路客流预测系统[J].铁路计算机应用,2022,31(1):37-42.