发明名称 一种多维数据特征相似性测量的目标预测方法
摘要 本发明公开了一种多维数据特征相似性测量的目标预测方法,包括以下步骤:S1:提取二维属性数据,S2:建立数据矩阵的属性直方图,S3:开展归一化后的多维属性直方图的栅格计算,S4:将属性特征的相似性测量问题转化为线性规划的运输问题,S5:转化非相邻属性栅格距离为相邻栅格距离路径之和,S6:生成优化后的相似性测量模型,S7:计算两两时间节点相似性距离,S8:累加求和,S9:最终将高维数据约简为多维属性特征的相似性序列,S10:利用支持向量回归机对该序列与目标向量拟合预测。本发明能够更好的从全局的角度比对直方图特征差异,兼顾了全数据特征与目标变量之间的映射关系,避免了特征选择主观性对于目标预测的偏差。
申请公布号 CN105913153A 申请公布日期 2016.08.31
申请号 CN201610227254.6 申请日期 2016.04.13
申请人 广西财经学院 发明人 李国祥;夏国恩;姚伟民
分类号 G06Q10/04(2012.01)I;G06K9/62(2006.01)I 主分类号 G06Q10/04(2012.01)I
代理机构 桂林市华杰专利商标事务所有限责任公司 45112 代理人 杨雪梅
主权项 一种多维数据特征相似性测量的目标预测方法,其特征在于,包括以下步骤:S1:结合目标预测实际,提取与待预测目标强关联的二维属性面板数据其中属性特征作为横轴、时间序列作为纵轴,构成数据矩阵;S2:建立数据矩阵的属性直方图,某不同时间节点下归一化后的各数据特征向量直方图分布分别为P={(p<sub>1</sub>,ω<sub>p1</sub>),...(p<sub>m</sub>,ω<sub>pm</sub>)},Q={(q<sub>1</sub>,ω<sub>q1</sub>),...(q<sub>n</sub>,ω<sub>qn</sub>)},分别包含m和n个聚类中心,其中ω表示其聚类权重,D=[d<sub>ij</sub>]表示特征向量间的测度矩阵,d<sub>ij</sub>表示向量聚类p<sub>i</sub>和q<sub>j</sub>中心间的测度距离,计算方式见S4;S3:对于归一化后的多维属性分布,设其分布特征H存在m×n个栅格,栅格坐标集合定义为,I={(i,j),1≤i≤m,1≤j≤n},运输流方向表示为J={(i,j,k,l):(i,j)∈I,(k,l)∈I},即从栅格(i,j)运输至(k,l),待匹配直方图矩阵P={p<sub>ij</sub>:(i,j)∈I},Q={q<sub>ij</sub>:(i,j)∈I},且其约束条件<img file="FDA0000964297780000011.GIF" wi="390" he="122" />通过找到双向网络最优路径的选择方案F=[f<sub>ij</sub>],计算两类特征分布的差异程度,f<sub>ij</sub>表示供给i到需求j的运输量;S4:将属性特征的相似性测量问题转化为线性规划的运输问题:<maths num="0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>H</mi><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>F</mi><mo>=</mo><mo>{</mo><msub><mi>f</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>}</mo></mrow></munder><munder><mi>&Sigma;</mi><mi>J</mi></munder><msub><mi>f</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>l</mi></mrow></msub><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>l</mi></mrow></msub></mrow>]]></math><img file="FDA0000964297780000012.GIF" wi="702" he="116" /></maths><img file="FDA0000964297780000013.GIF" wi="916" he="519" />其中<img file="FDA0000964297780000014.GIF" wi="667" he="95" />S5:定义集合:J<sub>s</sub>={(i,j,k,l):(i,j,k,l)∈I,d<sub>i,j;k,l</sub>=1},表示直方图分布中相邻属性栅格运输流,且相邻距离为1,通过将直方图中两点间的测度距离分解为相邻点的累积和,非相邻属性栅格间距离转化相邻属性栅格距离之和,即<img file="FDA0000964297780000015.GIF" wi="867" he="111" />进一步减少变量数目和约束条件,这样任何非相邻属性栅格距离f<sub>i,j;k,l</sub>可以被相邻栅格距离路径[(i,j),(i,j+1),...,(i,l),(i+1,l),...,(k,l)]所取代;S6:生成优化后的相似性测量模型:<maths num="0002"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>H</mi><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>min</mi><mrow><mi>G</mi><mo>=</mo><mo>{</mo><msub><mi>g</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>;</mo><mi>k</mi><mo>,</mo><mi>l</mi></mrow></msub><mo>:</mo><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>&Element;</mo><msub><mi>J</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow></munder><munder><mi>&Sigma;</mi><msub><mi>J</mi><mi>s</mi></msub></munder><msub><mi>g</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>l</mi></mrow></msub></mrow>]]></math><img file="FDA0000964297780000021.GIF" wi="797" he="124" /></maths><maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mo>.</mo><mi>t</mi><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><munder><mi>&Sigma;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>:</mo><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>&Element;</mo><msub><mi>J</mi><mi>s</mi></msub><mo>)</mo></mrow></munder><msub><mi>g</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi><mi>l</mi></mrow></msub><mo>-</mo><msub><mi>g</mi><mrow><mi>k</mi><mi>l</mi><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>b</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>I</mi></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>g</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>;</mo><mi>k</mi><mo>,</mo><mi>l</mi></mrow></msub><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>;</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>&Element;</mo><msub><mi>J</mi><mi>s</mi></msub></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0000964297780000022.GIF" wi="1158" he="430" /></maths>S7:设不同时间下的属性直方图分布为H<sub>i</sub>(i≤n),利用上式计算两两时间节点相似性距离:E<sub>i</sub>={E<sub>1</sub>(H<sub>1</sub>,H<sub>2</sub>),E<sub>2</sub>(H<sub>2</sub>,H<sub>3</sub>),…,E<sub>i</sub>(H<sub>i</sub>,H<sub>i+1</sub>)},其中i=1,2…,n‑1;S8:令E<sub>0</sub>=0,对上述序列累加求和:<img file="FDA0000964297780000023.GIF" wi="790" he="134" />S9:最终将高维数据约简为多维属性特征的相似性序列:M<sub>i</sub>={0,m<sub>1</sub>,m<sub>2</sub>,…,m<sub>n‑1</sub>};S10:利用支持向量回归机对该序列与目标向量拟合预测。
地址 530003 广西壮族自治区南宁市明秀西路100号