发明名称 基于距离度量学的交通警情等级预测方法
摘要 一种基于距离度量学的交通警情等级预测方法,对已知天气数据、时间数据、环境数据等情况下的城市交通警情等级进行预测,将整理好的多维历史数据根据交警指挥部门要求进行分类,利用广义马氏距离度量方法对分类标记后的多维历史数据进行学,则距离度量学矩阵获得了各个特征属性对交通警情等级的权值,权值大的特征属性对分类贡献度大,根据带权值的欧氏距离计算当前的多维数据与历史数据的相似度,选择与当前数据最相似的K个历史数据进行警情等级投票,得票高的警情等级作为当前交通警情等级的预测结果。本发明有效实现预测、准确性较好。
申请公布号 CN104834977A 申请公布日期 2015.08.12
申请号 CN201510250180.3 申请日期 2015.05.15
申请人 浙江银江研究院有限公司 发明人 王浩;李建元;陈涛;顾超
分类号 G06Q10/04(2012.01)I;G06Q50/26(2012.01)I;G06K9/62(2006.01)I 主分类号 G06Q10/04(2012.01)I
代理机构 杭州斯可睿专利事务所有限公司 33241 代理人 王利强
主权项 一种基于距离度量学习的交通警情等级预测方法,其特征在于:所述预测方法包括以下步骤:步骤1:多维数据整理和交通警情等级分类采集历史天气数据、历史重大活动数据、建设和封路环境数据与工作日、节假日和历史交通警情数共同构成关于交通警情的多维历史数据库,当前时刻的交通流量和上一时刻的流量密切相关,将连续的历史交通警情数据按照等时间段切分为n个片段作为训练样本,每个训练样本片段包括天气属性、重大活动属性、环境因素属性、工作日和节假日属性,根据交通管理部门提供的交通警情阈值对n个训练样本进行交通警情等级分类;步骤2:距离度量学习提取分类后的交通警情样本所对应的多维特征属性权值根据步骤1得出n个已标记训练样本构成的一个样本空间,该样本空间中各个元素之间的距离称为度量,其中距离是定义在向量空间中的一种函数,指两个元素在空间中相隔的长度,也就是说可以将某个空间中的所有对象投影到一个新的度量空间中;选取n个训练样本构成包含多维特征属性的样本空间X,其中X=(x<sub>1</sub>,x<sub>2</sub>,x<sub>3</sub>,…,x<sub>n</sub>),x<sub>i</sub>对应第i个样本代表的多维特征属性,式(1)是样本空间X中x<sub>i</sub>和x<sub>j</sub>样本点间的马氏距离,其中矩阵A是我们需要学习的距离度量矩阵,矩阵A中的每一行代表一个历史样本,每一列对应样本中的一维特征属性<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>d</mi><mi>m</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>d</mi><mi>A</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>x</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mi>A</mi></msub><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mi>A</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000717796290000011.GIF" wi="1366" he="104" /></maths>式(1)中的A是样本空间X的协方差矩阵,样本空间X中的每个样本均带有交通警情等级标签,故在最小化相同警情等级S(S∈X)中样本之间的马氏距离平方和的同时,约束不同警情等级D(D∈X)中样本之间的马氏距离和,马氏距离和大于预设阈值,目标函数模型如式(2),式(3)所示:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><mi>A</mi><mo>&GreaterEqual;</mo><mn>0</mn></mrow></munder><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>S</mi></mrow></munder><msubsup><mi>d</mi><mi>A</mi><mn>2</mn></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000717796290000012.GIF" wi="774" he="164" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>D</mi></mrow></munder><msub><mi>d</mi><mi>A</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mn>1</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000717796290000013.GIF" wi="796" he="154" /></maths>其中,A≥0表示A为半正定矩阵,由目标函数模型求取距离度量学习矩阵A的过程是一个凸优化问题,采用牛顿法对上述凸优化问题进行求解,最终学习到的距离度量矩阵为一个稀疏的对角阵;步骤3:带权值的欧氏距离寻找与当前特征属性最相似的K个历史交通警情使用欧氏距离计算K近邻需首先对各个特征属性进行归一化,假定样本空间X中的样本点x包含k维特征属性,样本点之间的近邻一般由欧氏距离来度量,设第i个样本点为<img file="FDA0000717796290000023.GIF" wi="402" he="83" />其中<img file="FDA0000717796290000024.GIF" wi="57" he="73" />表示第i个样本第l个特征属性值,两个样本x<sub>i</sub>和x<sub>j</sub>之间的欧氏距离定义为公式(4):<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>d</mi><mi>o</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>l</mi><mi>i</mi></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>l</mi><mi>j</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000717796290000021.GIF" wi="895" he="196" /></maths>给定一个待预测的交通警情样本x<sub>q</sub>,由标准欧氏距离可计算出样本x<sub>q</sub>与历史样本空间中最近邻的K个样本x<sub>1</sub>,x<sub>2</sub>,…,x<sub>K</sub>,样本之间的距离是根据样本的所有特征计算的,步骤2中距离度量学习矩阵得出的权值对特征属性与交通警情等级之间的权重关系进行了量化,定义含多维特征属性权值的交通警情相似度如公式(5),式中x<sub>q</sub>为待预测的交通警情样本,x<sub>h</sub>属于X=(x<sub>1</sub>,x<sub>2</sub>,x<sub>3</sub>,…,x<sub>n</sub>)为n个历史交通警情数据中的一个样本,每个样本包含k维特征属性,分母加上0.01是为了避免当<img file="FDA0000717796290000026.GIF" wi="55" he="73" />与<img file="FDA0000717796290000025.GIF" wi="64" he="75" />相等时出现分母为0的情况,<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>s</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>q</mi></msub><mo>,</mo><msub><mi>x</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>q</mi></msub><mo>,</mo><msub><mi>x</mi><mi>h</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mfrac><mn>1</mn><mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>w</mi><mi>l</mi></msub><msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>l</mi><mi>q</mi></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>l</mi><mi>h</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>+</mo><mn>0.01</mn></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000717796290000022.GIF" wi="1407" he="276" /></maths>其中w<sub>l</sub>是第l个特征的权重,由步骤2中距离度量学习得到对角矩阵A,对角线上的值即为特征属性权值,训练得到的权值根据特征属性一一对应,由公式(5)计算当前特征属性与历史交通警情数据库中各个样本的相似度,相似度最大的前K个历史交通警情数据x<sub>1</sub>,x<sub>2</sub>,…,x<sub>K</sub>作为当前交通警情等级预测的参考;步骤4:K近邻相似交通警情等级投票x<sub>1</sub>,x<sub>2</sub>,…,x<sub>K</sub>为步骤3得出的K个最相似历史交通警情样本,其中每一个样本x<sub>i</sub>所属的类别均已知,统计K个最相似历史交通警情等级,将出现频率最高的类别作为交通警情等级预测结果,K值是一个自定义的常数。
地址 310012 浙江省杭州市西湖区益乐路223号1幢1层101室