发明名称 一种多源异构的多属性POI融合方法
摘要 本发明公开了一种多源异构的多属性POI融合方法,首先从POI数据源A、B处获得需要进行融合的数据集,并分别对两异构属性的数据集进行去重处理;分别遍历两数据集中的每个POI,在遵循属性相似度计算规则的前提下,计算各POI每个属性的相似度,得到属性相似度矩阵;求解加权多属性POI相似度向量;计算POI相似度向量中各分量的最大值Max,并与阈值T进行比较;对代表同一地理实体的POI进行不同属性项的增加、同一属性项属性值的合并。该方法通过属性对整体的重要性及影响程度不同,差异化的考虑POI的各不同类型属性,更符合POI融合的实际操作,能够显著提高POI自动融合的准确率和效率。
申请公布号 CN104699818B 申请公布日期 2016.03.02
申请号 CN201510133728.6 申请日期 2015.03.25
申请人 武汉大学 发明人 李霖;邢小雨;周冬波;朱海红;蒋敏;王维
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 薛玲
主权项 一种多源异构的多属性POI融合方法,其特征在于,包括以下步骤:步骤1:确定需要进行POI融合的空间范围,从POI数据源A、B处获得需要进行融合的数据集D<sub>A</sub>、D<sub>B</sub>,并分别对两异构属性的数据集进行去重处理;步骤2:分别遍历D<sub>A</sub>、D<sub>B</sub>中的每个POI,在遵循属性相似度计算规则的前提下,计算各POI每个属性的相似度s<sub>ij</sub>,得到属性相似度矩阵<img file="FDA0000797667240000011.GIF" wi="85" he="79" />所述的属性相似度计算规则为:如果一个属性在第一个数据集中有而在第二个数据集中没有或者在第一个数据集中没有而在第二个数据集中有,则该属性的相似度s<sub>ij</sub>就记为0;如果一个属性在两个数据集中均存在,则按照属性相似度计算公式进行相似度计算;所述的属性相似度,根据属性类型分为空间属性相似度、无序标称属性相似度、层次结构属性相似度、描述性属性相似度;四类属性相似度的计算公式分别为:(1)空间属性相似度s<sub>ij</sub>,空间属性是指POI的经度和纬度属性,相似度计算公式如下:s<sub>ij</sub>=2<sup>‑dist</sup>;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mo>=</mo><msqrt><mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>;</mo></mrow>]]></math><img file="FDA0000797667240000012.GIF" wi="612" he="101" /></maths>其中,x<sub>i</sub>、x<sub>j</sub>为POI的经度;y<sub>i</sub>、y<sub>j</sub>为POI的纬度;dist为两POI的欧几里得距离;(2)无序标称属性相似度s<sub>ij</sub>,无序标称属性是指无程度差别或次序的由字符串组成的属性,相似度计算公式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>s</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mn>1</mn><mn>3</mn></mfrac><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><msubsup><mi>N</mi><mn>1</mn><mo>&prime;</mo></msubsup><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>N</mi><mn>1</mn></msub><mo>|</mo></mrow></mfrac><mo>+</mo><mfrac><mrow><mo>|</mo><msubsup><mi>N</mi><mn>2</mn><mo>&prime;</mo></msubsup><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>N</mi><mn>2</mn></msub><mo>|</mo></mrow></mfrac><mo>+</mo><mfrac><mrow><mrow><mo>|</mo><msubsup><mi>N</mi><mn>1</mn><mo>&prime;</mo></msubsup><mo>|</mo></mrow><mo>-</mo><msub><mi>T</mi><mrow><mn>1</mn><mo>,</mo><mn>2</mn></mrow></msub></mrow><mrow><mn>2</mn><mrow><mo>|</mo><msubsup><mi>N</mi><mn>1</mn><mo>&prime;</mo></msubsup><mo>|</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000797667240000013.GIF" wi="638" he="151" /></maths>其中,N<sub>1</sub>、N<sub>2</sub>为两字符串的长度;N′<sub>1</sub>、N′<sub>2</sub>为两字符串中相同字符的数目;T<sub>1,2</sub>为两个字符串中需要进行字符替换的数目;(3)层次结构属性相似度s<sub>ij</sub>,层次结构属性是指具有层次结构关系的属性,属性值可以是某一层的值或者不同层的值之间的组合,相似度计算公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>s</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>V</mi><mn>1</mn></msub><mo>&times;</mo><msub><mi>V</mi><mn>2</mn></msub></mrow><mrow><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>v</mi><mn>1</mn><mn>2</mn></msubsup></mrow></msqrt><mo>&times;</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>v</mi><mn>2</mn><mn>2</mn></msubsup></mrow></msqrt></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000797667240000021.GIF" wi="534" he="222" /></maths>其中,V<sub>1</sub>、V<sub>2</sub>为层次结构属性的概念向量;n为向量的维数;(4)描述性属性相似度s<sub>ij</sub>,描述性属性是指具有某一中心表达思想的自然语言或类似自然语言描述性的属性,相似度计算公式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>s</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>&lsqb;</mo><mi>K</mi><mi>L</mi><mi>D</mi><mrow><mo>(</mo><msub><mi>V</mi><mn>1</mn></msub><mo>|</mo><mo>|</mo><mi>M</mi><mo>)</mo></mrow><mo>+</mo><mi>K</mi><mi>L</mi><mi>D</mi><mrow><mo>(</mo><msub><mi>V</mi><mn>2</mn></msub><mo>|</mo><mo>|</mo><mi>M</mi><mo>)</mo></mrow><mo>&rsqb;</mo><mo>;</mo></mrow>]]></math><img file="FDA0000797667240000022.GIF" wi="781" he="127" /></maths>其中,<img file="FDA0000797667240000023.GIF" wi="342" he="119" />KLD(V<sub>1</sub>||M)、KLD(V<sub>2</sub>||M)为两向量的相对熵;V<sub>1</sub>、V<sub>2</sub>为两描述性属性的主题特征向量;步骤3:求解加权多属性POI相似度向量<img file="FDA0000797667240000024.GIF" wi="77" he="76" />步骤4:令D<sub>A</sub>中的POI数据为P<sub>A</sub>,D<sub>B</sub>中的POI数据为P<sub>B</sub>,计算POI相似度向量<img file="FDA0000797667240000025.GIF" wi="54" he="78" />中各分量的最大值Max,并与阈值T进行比较;步骤5:当Max≥T时,表示P<sub>A</sub>和P<sub>B</sub>是代表同一地理实体的POI,对P<sub>A</sub>和P<sub>B</sub>进行不同属性项的增加、同一属性项属性值的合并;否则不做任何处理。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学