4.2.3 数据预处理方法
数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的文数,或是处理一些不好的数据,从而改善实例数据的质量和提高数据分析的速度。数据预处理的内容包括数据筛选,数据变换和数据归约等。通过开发数据预处理程序,可对轨道交通AFC原始数据进行筛选、集成、转换、归约等操作,删除无效、异常数据。
下面介绍轨道交通AFC数据预处理各环节的具体方法。
(1) 筛选数据
数据筛选主要是为了滤除不希望包括进来的数据,取出数据中的噪声并纠正其不一致。轨道交通AFC数据的不一致性,常表现在各类数据之间相同属性数据的定义上。
以一卡通数据的字段“交易日期”为例,交易日期的字段数为八位,前四位表示“年”,五、751位表示“月”,最后两位表示“交易日”,如:20080403表示2008年4月3日。当交易日期中年份数据出现已与当前年、月份位数大于12、日期位数大于31时,视为异常数据。
对轨道交通AFC数据处理后,诸如客流总量等特征量也可以得到,其中可能存在一些客流异常数据,如某地铁站点客流,统计全天的客流量小于100时,明显与实际情况有较大偏差,即把该天该站点的客流记录数据定为异常数据。根据各站点统计出的总体客流规律,是偏差较大的数据为异常数据。
轨道交通AFC原始数据中存在许多用于管理、监控的数据,对于客流、线路运营数据分析没有太大意义,可视为冗余数据。如轨道交通AFC数据中测试标志的记录数,这些记录数只是起到测试机器的作用,对轨道交通AFC数据分析没有意义,因此在预处理数据时可以剔除。
轨道交通AFC数据分析要求数据的完整性,如发生数据缺失,可能会导致统计结果产生较大误差。
(2) 数据集成
数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理。数据集成方法对于轨道交通AFC数据按日期或时间段进行挖掘有着重要的作用。如数据集中记录了一段时间内乘客的刷卡记录,对该数据集的聚集方法可以是按各条线路和各个站点分类汇总,也可以是对数据对象按月份、日期、时刻统计,照此方法聚集后的数据对象可大大降低数据量。
(3) 数据变换
数据变换涉及噪声去除技术和聚集技术。运用数据变换可以聚集日刷卡数据,计算月、年客流量等。
(4) 数据归约
对轨道交通AFC数据进行挖掘时,将数据库中的数据分组会涉及两个问题:一是数据应该分为哪几组;二是如何根据数据属性进行分组。这就需要数据分析者对分析对象有充分的认识,必要时需要采取实地调查,通过经验以及调查结果找到分组的标准,确定分组的方法。
5. 轨道交通AFC系统数据分析实例
5.1 基于IC卡数据的OD信息处理
根据统计信息,南京市民出行IC卡使用率达到80%[31],所以提取轨道交通自动售检票系统数据中的IC数据进行客流分析对南京整体客流分析具有很高的代表性。 在本实例中的客流数据均来自于轨道交通自动售检票系统中的IC数据。
5.1.1 OD信息研究的必要性分析
地铁OD(Origin—Destination)矩阵(OD交通流量),是描述地铁交通网络中所有起点和终点之间的行人出行交通数据量,它反映了行人对地铁交通网络的基本要求,是进行地铁交通管理及车辆调配和交通规划的重要依据。地铁0D矩阵则反映了特定的时段内随时间变化的人们对地铁交通的需求模式。基于地铁IC卡数据的OD信息,可以用于:①实时准确地把握城市地铁交通中动态变化的客流量及城市地铁交通客流量的特点,为地铁车辆实时调配提供依据;②为地铁站台附近地公交车辆调配及公交规划提供依据;③为整个城市交通规划方案决策支持。 轨道交通自动售检票系统AFC数据分析(11):http://www.751com.cn/zidonghua/lunwen_2395.html