发明名称 一种基于概率统计的旅行时间筛选方法
摘要 本发明提出了一种基于概率统计的旅行时间筛选方法,乘客旅行时间原数据的筛选方法主要包括以下两层筛选:(1)筛选极端异常数据。将不符合旅行时间分布的计算异常数据筛除,如由于系统错误,乘客的旅行时间小于列车的运行时间,这显然是极端异常数据;由于乘客的特殊旅行目的,如统计客流的工作人员等的旅行时间长达几个小时甚至十几个小时,这也是极端异常数据。应该将这些极端异常数据筛除。(2)筛选统计异常数据。为了工程、理论的需要,在对乘客旅行时间海量数据分析时需要使乘客旅行时间的分布呈现有数学规律的统计分布,需要筛选部分偏离正态分布的数据。
申请公布号 CN101976305A 申请公布日期 2011.02.16
申请号 CN201010526019.1 申请日期 2010.10.25
申请人 北京航空航天大学 发明人 冷彪;张琪;徐州川;熊璋
分类号 G06F19/00(2006.01)I 主分类号 G06F19/00(2006.01)I
代理机构 北京慧泉知识产权代理有限公司 11232 代理人 王顺荣;唐爱华
主权项 1.一种基于概率统计的旅行时间筛选方法,其特征在于,包括筛选极端异常数据和筛选统计异常数据,其中,(1)筛选极端异常数据是将实际旅行时间小于T<sub>min</sub>和大于T<sub>max</sub>的客流数据删除;(2)筛选统计异常数据是筛选偏离乘客旅行时间的正态分布的数据,其过滤规则为:给定原始客流数据的旅行时间为<img file="FSA00000326369700011.GIF" wi="647" he="89" />1)设迭代次数k=0,计算初始样本均值<img file="FSA00000326369700012.GIF" wi="488" he="147" />和样本标准差<img file="FSA00000326369700013.GIF" wi="839" he="179" />2)对<img file="FSA00000326369700014.GIF" wi="318" he="74" />i=1,2,…,n<sub>k</sub>,如果<img file="FSA00000326369700015.GIF" wi="500" he="74" />则删除数据<img file="FSA00000326369700016.GIF" wi="93" he="76" />;否则,将其保留;其中,η是3)得到第k+1次过滤后的样本<img file="FSA00000326369700017.GIF" wi="825" he="78" />并重新计算样本均值<img file="FSA00000326369700018.GIF" wi="600" he="147" />和样本标准差<img file="FSA00000326369700019.GIF" wi="1029" he="180" />4)令<img file="FSA000003263697000110.GIF" wi="212" he="68" />表示在客流数据集x<sup>(k+1)</sup>中,旅行区间属于区间<img file="FSA000003263697000111.GIF" wi="1033" he="73" />范围内的个数,当满足<img file="FSA000003263697000112.GIF" wi="445" he="87" />停止迭代;否则,令k=k+1,并跳转到第2)步。
地址 100191 北京市海淀区学院路37号北航计算机科学与工程学院
您可能感兴趣的专利