发明名称 基于特征站点的公交IC卡数据站点匹配方法
摘要 一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,包括:确定单车单日班次数步骤;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;特征站点选取步骤;包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。
申请公布号 CN102156732B 申请公布日期 2012.11.21
申请号 CN201110089682.4 申请日期 2011.04.11
申请人 北京工业大学 发明人 陈艳艳;陈绍辉;刘帅
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 楼艮基
主权项 1.一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,其特征在于包括如下步骤:所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤:步骤1.1:确定单车单日班次数;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;对于单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔的,作为判断单车单日IC卡数据班次的依据;计算单车单日所有相邻交易记录的交易时间差值,t<sub>i</sub>代表单车IC卡数据中每条交易记录的交易时间,d(t<sub>i</sub>,t<sub>i+1</sub>)代表相邻交易时间间隔,利用曼哈顿距离计算:d(t<sub>i</sub>,t<sub>i+1</sub>)=|t<sub>i</sub>-t<sub>i+1</sub>|以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟;统计单车单日班次数,方法如下:w=w+1,if d(t<sub>i</sub>,t<sub>i+1</sub>)&gt;α步骤1.2:确定初始聚类个数;单车班次确认后,对单个班次内的交易记录进行聚类分析,由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数,以k代表初始聚类个数,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下:k=k+1,if d(t<sub>i</sub>,t<sub>i+1</sub>)&gt;β步骤1.3:计算初始聚类子集中心及误差平方和准则函数;设交易记录数据集为T,m<sub>i</sub>为聚类中心,即每个类中交易时间的平均值,p是数据集中的点,即交易记录中的交易时间,计算初始聚类中心如下:<img file="FDA00002011434100011.GIF" wi="297" he="120" />误差平方和准则函数E计算如下: <img file="FDA00002011434100021.GIF" wi="378" he="136" />步骤1.4:聚类循环计算增加初始聚类个数k,并重复步骤1.3,直到准则函数E收敛;对单个班次,最终聚类子集个数应小于公交线路单程站点数;以n代表线路单程站点数,定义当d(k<sub>i</sub>,k<sub>i+1</sub>)&lt;30s,or k=n-1时,聚类停止;所述的基于特征站点的站点匹配,包括如下步骤:步骤2.1:特征站点选取;特征站点包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;特征站点的选取可根据城市居民出行调查数据或公交运营调查数据中统计得到,或基于公交IC卡数据处理分析,获得站点客流或换乘行为识别等数据,来确认特征站点;步骤2.2客流峰值站点匹配;按照班次途径站点先后顺序为站点赋予ID,并确认客流峰值站点的ID;选取交易记录数最多的聚类子集,按照时间先后顺序与客流峰值站点ID进行匹配;步骤2.3:换乘站点匹配按照班次途径站点先后顺序为站点赋予ID,根据目标线路与其他线路接驳及客流换乘情况选择换乘站点,并确定ID;根据聚类子集时间排序与站点ID排序的对应关系,找到可能与换乘站点匹配的聚类子集;若换乘站点ID为x,则定义可能的聚类子集为k<sub>x-1</sub>,k<sub>x</sub>,k<sub>x+1</sub>;对可能与换乘站点匹配的聚类子集,搜索其中每个IC卡号的全天交易记录,找到由其他线路换乘到目标线路的IC卡号;设乘客在目标线路站点的交易时间为t<sub>d</sub>,前一个交易记录的交易时间为t<sub>o</sub>,若t<sub>o</sub>所属线路与目标线路有换乘站点,则该IC卡号乘客可能为换乘乘客;设变量Transfer为1时表示存在换乘行为,为0时不存在换乘行为,<img file="FDA00002011434100022.GIF" wi="31" he="35" />为换乘行为判断阈值,当换乘线路为双次刷卡公交线路或地铁线路时,取值一般小于20分钟,当换乘 线路为单次刷卡线路时,取值一般小于1小时;判断是否为换乘行为方法如下:<img file="FDA00002011434100031.GIF" wi="516" he="137" />一旦Transfer=1出现时,则视换乘行为被确定,其他潜在值将不再被计算,将t<sub>d</sub>所在的聚类子集与换乘站点ID匹配;步骤2.4:非特征站点匹配以特征站点为基准点,根据相邻站点平均运行时间与聚类子集时间距离的大小关系匹配其余站点;聚类子集时间距离为d(k<sub>i</sub>,k<sub>i+1</sub>)=m<sub>i+1</sub>-m<sub>i</sub>,设D<sub>q-1,q</sub>为站点q-1与q的站间距离,<img file="FDA00002011434100032.GIF" wi="40" he="62" />为站点间车辆运行平均速度,t为的交通时间段,<img file="FDA00002011434100033.GIF" wi="155" he="70" />为站点平均运行时间,则站点间运行时间计算如下:<img file="FDA00002011434100034.GIF" wi="324" he="128" />若聚类子集k<sub>i</sub>与特征站点q-1匹配,则非特征站点匹配方法如下:<img file="FDA00002011434100035.GIF" wi="407" he="69" />子集k+1与站点q匹配<img file="FDA00002011434100036.GIF" wi="641" he="69" />子集k+1与站点q+1匹配<img file="FDA00002011434100037.GIF" wi="675" he="69" />子集k+1与站点q+2匹配
地址 100124 北京市朝阳区平乐园100号