基于车联网与大数据的Can总线数据分析与挖掘

(整期优先)网络出版时间:2024-05-09
/ 2

基于车联网与大数据的Can总线数据分析与挖掘

吴昊

                 江苏天泽星联信息科技有限公司

摘要:在车联网和大数据的背景下,CAN总线数据的分析与挖掘对于汽车行业的发展意义重大。这些数据不仅蕴含着车辆运行状态的关键信息,还为车辆智能化、安全性提升、以及后市场服务的创新提供了丰富的资源。因此,本文将探讨基于车联网与大数据的Can总线数据分析与挖掘方法。

关键词:车联网大数据Can总线数据分析与挖掘

前言:CAN总线数据在车联网和大数据技术的支持下,为汽车行业的各个方面提供了新的增长点和改进方向。从提升单一车辆的性能与安全,到优化整个交通系统的运行效率,再到促进环境保护和可持续发展,CAN总线数据的分析与挖掘展现出巨大的潜力和价值。未来,随着技术的进一步发展和应用,基于CAN总线数据的智能化服务将会更加丰富和完善,为人类社会带来更加安全、高效、舒适的出行体验。

一、基于车联网与大数据的Can总线信号数据类型挖掘与分析

解读CAN总线的数据时遇到的一项主要难题是缺乏针对特定汽车的总线格式和信号分配的详细信息。为了解决这个问题,分析师们依据CAN信号的数值范围和更新频率等特点来进行信号的识别和分类,以便揭示这些信号的具体意义。这一策略融合了现有的分类方法和车辆的DBC文件中定义的信号内容,从而能够将CAN信号分成几个不同的类别。一方面,物理量信号指的是反映车辆确切的物理状态的信号,例如车速、前轮速度和方向盘的位置。这些信号的特点是它们在一定范围内变动,呈现线性的变化趋势,这意味着相继测量的信号值之间的差异往往很小。另一方面,二态信号则描述的是车辆状态的二元化切换,例如判断车门是否关闭或者加速踏板是否被踏实[1]。这种信号一般为1比特,0和1的取值分别对应不同的状态。再有计数器值信号,用于在CAN总线中记录信息包的数量或监视通信状态。这类信号的数值会逐步增大,并在达到最大值后归零,重新计数,该系统能够在总线上传输中检测是否存在数据包的丢失或重放攻击等安全风险。而对于固定值信号,它的数值保持不变,反映了车辆某些状态的持续稳定,或者用于表示一些未定义的字段。最后是伪随机值信号,这类信号表示车辆中的多状态变量,或者是不属于前述任何一类的状态。它们在一段时间内可能在几个特定的数值之间变化。通过对CAN总线信号进行这样细致的分类,可以在进行逆向工程时迅速识别出与车辆特定状态相关的信号,极大地提高了逆向工程的效率和准确性。这种方法不仅有助于深入理解车辆的电子控制系统,而且对于改进车辆性能分析和维修具有重要的实践价值。

二、基于车联网与大数据的Can总线数据信号类型划分

(一)结合比特翻转率

在CAN总线数据的分析领域,一种革新的方法得以提出,即基于比特翻转率的信号划分方法。这项技术通过将CAN总线数据划分成若干包含相同消息ID的子集,进而对每个子集单独进行深入分析。实现这一过程的关键在于,此方法专注于分析每条独特消息及其关联的数据量中,数据比特位从0变到1或从1变到0的翻转频次。基于此分析,进而定义了一个比特翻转频率n。具体而言,这一技术通过观察连续比特的比特翻转率数值,当发现这些值呈现递增的趋势时,便将这些连续比特视为一组,判断它们属于同一个信号值。相反,当比特翻转率逐渐减少或降至零时,便可将这个点视为信号的边界[2]

尽管基于比特翻转率的信号划分方法在提取CAN总线中的部分信号方面取得了一定的成功,但该方法在实际应用过程中也遇到了一些挑战。其中最主要的问题是,这种方法可能会导致一些判断错误。特别是,当未能准确判断CAN总线的编码格式,如在处理采用Intel编码格式的总线数据时,这种方法可能产生较大的误差。因此,尽管这种基于比特翻转率的划分方法为CAN总线数据提供了一个新的解析视角,能够在一定程度上辅助信号的正确提取与分析,但它也暴露出了对特定编码格式敏感性高和可能出现判断失误的缺陷。这提示着研究者在应用这一方法时需要谨慎处理,并考虑到数据编码格式的多样性和复杂性,从而确保数据分析的准确性和有效性。

(二)基于位置概率矩阵

本研究旨在解决传统基于比特翻转率的CAN消息分析方法在精确识别消息编码格式和信号划分准确性方面遇到的挑战。为此,提出了一种基于位置概率矩阵(Position Probability Matrix, PPM)的新策略用于CAN总线信号的划分。这种方法依托位置概率矩阵来捕捉CAN消息中数据变动的频次与其取值范围,为信号的有效划分铺垫了新途径。位置概率矩阵是在多个领域内用于序列分析的有效工具,它通过记录序列每一位置可能呈现的数值及其出现频率,提供了丰富的数据洞察。建构位置概率矩阵包含以下步骤:首先,设定矩阵的维度以匹配序列的长度,其中一维对应序列长度,另一维则映射可能的数值范围。矩阵中的每一项则代表一个特定数值在序列特定位置的出现概率。


    将这种概念应用于车载CAN消息时,可以通过消息ID将CAN消息分割成多个基于时间序列的集合。接下来,通过创建CAN消息序列的位置概率矩阵,来探究CAN数据段中信号的分布特性。鉴于CAN数据段的最大长度是64比特,对于长度不满64比特的数据段,会采用0补充到64比特。因此,这样的数据段可以被看作是一个长16为的十六进制数字,其中每一位的十六进制数代表了4比特的二进制值。基于上述理解,我们对一段时间内的CAN消息序列,可以构建一个16行16列的位置概率矩阵。在这个矩阵里,行代表了从0到15的十六进制数,而列则对应序列中16个可能的位置。采用这种方式,我们能构建出若干个位置概率矩阵,每一个矩阵揭示了不同消息ID下,消息位置的概率特性,从而助于深入分析信号的界限和类别。通过基于位置概率矩阵的方法,本研究不仅成功解决了以往方法在信号划分准确性上遇到的挑战,还为CAN总线上的消息编码格式判断提供了新的思路,从而优化了信号划分流程的准确度和效率。

三、基于车联网与大数据的Can总线数据信号关联性挖掘与分析

在车辆的内部系统中,许多状态值之间存在一定的线性联系,如发动机转速与车辆的行驶速度等。这种关联性的存在为技术部门提供了一种通过信号值相似度分析,进而发掘这些线性相关信号的可能性[3]。例如,发动机转速的增加往往伴随着车速的提升,两者之间呈现出一种线性或近似线性的增长关系。这种关系不仅仅局限于发动机转速和车速,实际上在车辆的许多系统中都可以找到类似的现象,如加速踏板的位置与燃油消耗量,刹车踏板的压力与减速度等。为深入挖掘这种线性关联性,特别针对于性质相似的信号,技术部门可以运用统计方法中的皮尔逊相关系数来衡量信号之间的关联度。皮尔逊相关系数是衡量两个变量线性相关程度的一个指标,其值的范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,而0则表示不存在线性相关性。通过计算不同信号对间的皮尔逊相关系数,技术部门可以量化信号间的相互关系,寻找它们之间是否存在明显的线性相关性。
    例如,如果分析发动机转速和车速之间的皮尔逊相关系数,发现其值接近1,这表明随着发动机转速的增加,车速也相应增加,两者之间存在强烈的正线性关系。相反,如果一个信号对的相关系数接近-1,则说明它们之间存在负线性关系,即一个信号的增加伴随着另一个信号的减少。而如果相关系数接近0,则意味着这两个信号之间不存在明显的线性关联性。利用这种方法,不仅可以识别出那些自然界中已知的线性关系,如加速度与力的关系等,也可以在车辆系统中发现新的、未被充分认识的线性关系。这对于改善车辆的性能,优化驾驶体验,甚至在未来的车辆设计和维修中预测和解决可能的问题都有着非常重要的意义。此外,通过对车辆内部众多变量进行这种相关性分析,还能够构建一个更加精细化和全面的车辆状态监控模型。这个模型能够揭示不同车辆状态参数之间的相互作用和影响,帮助驾驶员和维修人员更好地理解车辆的运作情况,从而做出更合理的驾驶决策和维修选择。

结语:通过对车辆状态的数值属性进行深入分析,本研究将信号区分为五个主要类别:物理状态值、二元状态值、伪随机值、计数器值以及固定值。基于这一分类基础,引入了一种创新性的分析方法,基于位置概率矩阵,这种方法被运用于对CAN总线数据中的信号进行详细的划分和分类,从而有效识别出各种类型的信号。然后,分析总线数据中各个ID之间状态转移的可能性,并以此构建了一个代表ID状态转换的马尔可夫链模型,进一步深化对数据流动性和状态变化的理解。促进对相互关联的消息ID的快速发现,并有效判断这些ID是否属于同一CAN总线领域。这些方法论的提出和实施,不仅增强对车辆内部各状态值之间复杂联系的认识,而且为后续的车辆监测、维护和优化提供了强大的数据支撑和理论基础。通过这种高度细化和系统化的信号分类及关联性分析,能够更加精确地理解和预测车辆的行为和性能,进而在智能驾驶和车辆管理等领域做出更为明智的决策。
参考文献:

[1]王智勇.车联网信息安全防护关键技术研究[D].北京邮电大学,2022.DOI:10.

[2]郑凯玄.智能网联汽车总线入侵行为检测方法研究[D].北京邮电大学,2022.DOI:10.

[3]李翰文.基于车联网技术的汽车起重机远程监测系统研究[D].中国矿业大学,2022.DOI:10.