基于时空相关性的数据清洗技术分析



前言
大数据技术和智能AI技术的发展,使公交车预测模型的种类逐渐出现在人们面前,为了能够让数据驱动模型达到理想效果,对车辆模型的数据就有着很高的质量要求,而数据清洗技术能够进一步提升数据的质量。因此,如何加强对数据清洗技术进行研究,是现阶段需要注重的问题。
一、公交车辆异常数据分析
近几年,随着互联网行业的快速发展,使得公交车行业受到了巨大的影响,如刷卡消费、公交调度、客流统计等等各方面的信息进行了升级改造,并通过传感器收集了大量的数据。然而,该受收集方式的影响,该些数据存在噪声、缺失、不一致等数据上的质量问题。具体可以分冗余数据、范围异常数据、异常数据以及缺失数据等四大类[1]。因此,本文将从这四大类型数据中选取一种数据进行分析,并结合数据清洗技术对如何补全缺失的数据进行探索。(具体公交车辆异常数据情况如下图表1)
车站编号 | 途经线路 | 站序 | 出站时间 | 进站时间 | 停留时间 | 运行时长 | 到站时间 |
行驶过程当中时间清零所引起的异常数据 | |||||||
337 | 30 | 2 | 2020-03-29 | 2020-03-29 | 31 | 0 | 0 |
07:43:26 | 07:43:26 | ||||||
339 | 30 | 3 | 1999-11-30 | 2020-03-29 | 30435 | 58594 | 58594 |
00:00:00 | 08:27:15 | ||||||
上报离开时间变小之后所引起的异常数据 | |||||||
379 | 30 | 23 | 2020-05-29 | 2020-05-29 | 27 | 162 | 1852 |
18:40:33 | 18:41:00,27 | ||||||
381 | 30 | 24 | 2020-05-29 | 2020-05-29 | 302 | 86238 | 1690 |
18:37:51 | 18:42:53 | ||||||
缺失序列车站号6之前的数据 | |||||||
345 | 30 | 6 | 2020-06-01 | 2020-06-01 | 29 | 8244 | 11064 |
17:51:56 | 17:52:25 | ||||||
347 | 30 | 7 | 2020-06-01 | 2020-06-01 | 11 | 58 | 11122 |
17:52:54 | 17:53:05 |
图表1 公交车辆进出车站数据中存在的异常数据
二、基于时空相关性的数据清洗技术及应用
数据的清洗是对异常数据的一种检测和纠正的过程,只有过滤掉不符合实际需求的数据信息,才能够保证数据的真实性和有效性。因此,从数据的时空相关性方面为切入点,不仅能够更好地找取数据在时间维度和区域范围的相关性,还能够针对异常数据结合实际情况进行补全。
由于公交车辆行驶的数据是由公交上的传感器进行采集的,因此在进行数据采集的时候,数据的本身就带有时间戳属性,而其空间信息时通过GNSS模块来获取的。所以,为了更好地保障数据的质量,文章结合上图表1中公交车辆进出车站数据存在的四大类型异常数据之一作为数据清洗对象,并进一步分析了数据清洗技术对异常数据清洗的有效应用。
1.四分位数法数据清洗技术
该类型数据清洗技术是利用统计学的方式将数值由小到大的方式分为四等分,之后处于3各切割点位置的数值,由一组数据排列后,取25%与75%位置上的数值。简单来说就是利用三个点将全部数据分为四部分,每一部分包含了25%的数据(请看图1)。然后,将分离的数值以及异常数据单独汇出,在通过四分位数法定位异常数据之后完成数据的清洗。
2.具体时空数据清洗方式
首先,针对异常数据的清洗方式主要分为4个部分。第一部分,生成车辆站点缓冲区,然后对其冗余数据进行过滤;第二部分,基于收集的数据,以及车辆形式的路线为缓冲区,进行清理,进而生成车辆进出站以及范围得到数据清洗;第三部分,在范围数据清洗和进出站数据的基础上,针对车辆停驶、行驶过程中每隔一段时间进行数据收集,再利用四分位数法,将缺失的数据选取,并制作异常数据清洗集;最后,基于第三部分的进出站异常数据集,进行缺失站点分析,并针对缺失部分,结合范围清洗的轨迹数据进行补找。若是,没有找到可以从理应时间相关性,从公交网站中填补,然后再形成缺失数据清洗的数据集。
其次,利用数据清洗技术,针对公交车辆行驶导致的冗余数据、异常数据等等数据,想要保障其数据的质量,均可以利用数据清洗技术来预测填补改善数据的质量。同时,需要依照冗余、范围、异常以及补全数据等方式依次进行数据清洗,从而使得最后的清洗结束的公交车辆运行数据,能够达到最好的预测效果。由此可见,数据清洗技术对数据的清洗具有一定的作用。
结束语
结合对公交车辆行驶的大数据中存在的异常数据等数据进行分析,发现基于时空相关性的数据清洗技术,想要提升数据的质量,需要结合公交数据的实际情况选择合适的清洗方法。并且随着现代信息技术的不断快速发展,数据清洗技术的应用对车辆管理系统有着更高的要求,所以需要不断加强对非结构化的数据清洗,以及数据挖掘算法等进行优化改善,才能够进一步保障数据质量得到提升。
参考文献
[1]谢智颖,何原荣,李清泉.基于时空相关性的公交大数据清洗[J/OL].计算机工程与应用:1-11[2021-07-27].http://kns.cnki.net/kcms/detail/11.2127.TP.20210430.1401.006.html.

特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性质的教育和科研之目的,并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。