发明名称 基于稀疏采样的手机定位数据的人员常驻地点识别方法
摘要 本发明涉及一种基于稀疏采样的手机定位数据的人员常驻地点识别方法,其特征在于,步骤为:步骤1、将目标城市网格化;步骤2、建立手机定位数据与网格的映射关系;步骤3、统计用户的出现概率及出现频率;步骤4、对每个手机用户出现频率与出现概率分别进行时空聚类,以合并在时间和空间出现特点相似的网格;步骤5、每个手机用户的常驻地点识别。本发明的优点是:充分依托现有的移动通信网络资源,以海量的手机定位数据为输入,采用虚拟网格技术,实现快速建立映射关系,减少与地图匹配的运算量,同时基于出现频率与概率,采用时空聚类,实现用户常驻地点的识别机制。该发明可用于自动化地识别人员常驻地点信息。
申请公布号 CN103116696B 申请公布日期 2016.03.09
申请号 CN201310016167.2 申请日期 2013.01.16
申请人 上海美慧软件有限公司 发明人 裘炜毅;陆俊贤;刘杰;邱志军;陈明威;刘胜平;冉斌
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 上海申汇专利代理有限公司 31001 代理人 翁若莹;柏子雵
主权项 一种基于稀疏采样的手机定位数据的人员常驻地点识别方法,其特征在于,步骤为:步骤1、以大小为N米*N米的网格将目标城市划分为a列*b行个网格,生产每个网格的网格信息,网格信息至少包括网格编号、网格中心点的X轴坐标及网格中心点的Y轴坐标;步骤2、获取目标城市内所有手机用户在某个时间段内的稀疏采样的手机定位数据,每条手机定位数据带有X轴坐标信息及Y轴坐标信息,建立每条手机定位数据与每个网格之间的相互映射关系,得到每个手机用户出现过的网格总数r,对于第i个手机用户的第h条手机定位数据而言,将其与每个网格的网格信息进行比对,若满足:gx‑N/2≤x<gx+N/2且gy‑N/2≤y<gy+N/2,其中,gx及gy分别为网格中心点的X轴坐标及网格中心点的Y轴坐标,x及y分别为第h条手机定位数据带有的X轴坐标信息及Y轴坐标信息,则第h条手机定位数据与满足条件的gx,gy所在的网格做映射关系;步骤3、将某个时间段内取n天作为分析天,将每个分析天划分为m个分析周期,根据手机定位数据与网格之间的映射关系,统计每个手机用户所有分析天的相同分析周期在各个网格中的出现频率,第i个手机用户所有分析天的第t个分析周期在第j个网格中的出现频率<img file="FDA0000802082200000011.GIF" wi="336" he="127" />其中:<img file="FDA0000802082200000012.GIF" wi="1583" he="146" />统计每个手机用户所有分析天的相同分析周期在各个网格中的出现概率,其中,第i个手机用户所有分析天的第t个分析周期在第j个网格中的出现概率<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>P</mi><mi>i</mi><mrow><mi>j</mi><mi>t</mi></mrow></msubsup><mo>=</mo><mfrac><msubsup><mi>N</mi><mi>i</mi><mrow><mi>j</mi><mi>t</mi></mrow></msubsup><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msubsup><mi>M</mi><mi>i</mi><mi>j</mi></msubsup></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000013.GIF" wi="292" he="212" /></maths>其中,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msubsup><mi>M</mi><mi>i</mi><mi>j</mi></msubsup><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msubsup><mi>N</mi><mi>i</mi><mrow><mi>j</mi><mi>t</mi></mrow></msubsup><mo>;</mo></mrow>]]></math><img file="FDA0000802082200000014.GIF" wi="291" he="131" /></maths>统计每个手机用户在所有分析天在各个网格中的出现概率,第i个手机用户所有分析天在第j个网格中的出现概率<img file="FDA0000802082200000015.GIF" wi="281" he="209" />步骤4、对每个手机用户出现频率与出现概率分别进行时空聚类,以合并在时间和空间出现特点相似的网格,对于第i个手机用户而言,其步骤为:步骤4.1、时间相似性分析:定义网格j<sub>1</sub>与网格j<sub>2</sub>之间在第t个分析周期的时间相似性判断参数<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msup><msub><mi>T</mi><mi>i</mi></msub><mrow><msub><mi>j</mi><mn>1</mn></msub><msub><mi>j</mi><mn>2</mn></msub></mrow></msup><mo>=</mo><msup><msub><mi>&Sigma;H</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>1</mn></msub><msub><mi>j</mi><mn>2</mn></msub></mrow></msup><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000021.GIF" wi="345" he="76" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><msub><mi>H</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>1</mn></msub><msub><mi>j</mi><mn>2</mn></msub></mrow></msup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mrow><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>1</mn></msub></mrow></msup><mo>=</mo><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>2</mn></msub></mrow></msup></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>1</mn></msub></mrow></msup><mo>&NotEqual;</mo><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>2</mn></msub></mrow></msup></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000022.GIF" wi="530" he="152" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>1</mn></msub></mrow></msup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mtable><mtr><mtd><mrow><msup><msub><mi>Q</mi><mi>i</mi></msub><msub><mi>j</mi><mn>1</mn></msub></msup><mo>&GreaterEqual;</mo><msub><mi>&theta;</mi><mn>1</mn></msub></mrow></mtd><mtd><mrow><mi>a</mi><mi>n</mi><mi>d</mi></mrow></mtd><mtd><mrow><msup><msub><mi>P</mi><mi>i</mi></msub><mrow><msub><mi>j</mi><mn>1</mn></msub><mi>t</mi></mrow></msup><mo>&GreaterEqual;</mo><msub><mi>&theta;</mi><mn>2</mn></msub></mrow></mtd></mtr></mtable></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>e</mi><mi>l</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000023.GIF" wi="849" he="155" /></maths><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msup><msub><mi>F</mi><mi>i</mi></msub><mrow><msub><mi>tj</mi><mn>2</mn></msub></mrow></msup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mtable><mtr><mtd><mrow><msup><msub><mi>Q</mi><mi>i</mi></msub><msub><mi>j</mi><mn>2</mn></msub></msup><mo>&GreaterEqual;</mo><msub><mi>&theta;</mi><mn>1</mn></msub></mrow></mtd><mtd><mrow><mi>a</mi><mi>n</mi><mi>d</mi></mrow></mtd><mtd><mrow><msup><msub><mi>P</mi><mi>i</mi></msub><mrow><msub><mi>j</mi><mn>2</mn></msub><mi>t</mi></mrow></msup><mo>&GreaterEqual;</mo><msub><mi>&theta;</mi><mn>2</mn></msub></mrow></mtd></mtr></mtable></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>e</mi><mi>l</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000024.GIF" wi="859" he="157" /></maths>其中,<img file="FDA0000802082200000025.GIF" wi="76" he="70" />及<img file="FDA0000802082200000026.GIF" wi="80" he="70" />分别为第i个手机用户在所有分析天在网格j<sub>1</sub>及网格j<sub>2</sub>中的出现概率<img file="FDA0000802082200000027.GIF" wi="77" he="69" />及<img file="FDA0000802082200000028.GIF" wi="81" he="69" />分别为第i个手机用户在第t个分析周期在网格j<sub>1</sub>及网格j<sub>2</sub>中的出现概率,若<img file="FDA0000802082200000029.GIF" wi="212" he="76" />则认为第i个手机用户在网格j<sub>1</sub>与网格j<sub>2</sub>上的时间出现特点具有时间相似性,θ<sub>1</sub>、θ<sub>2</sub>及θ<sub>3</sub>为预先设定的经验阈值;步骤4.2、空间相似性分析:定义网格j<sub>1</sub>与网格j<sub>2</sub>之间空间范围相近判断参数<img file="FDA00008020822000000210.GIF" wi="636" he="119" />其中,(x<sub>1</sub>,y<sub>1</sub>)及(x<sub>2</sub>,y<sub>2</sub>)分别为网格j<sub>1</sub>及网格j<sub>2</sub>的中心点坐标,若<img file="FDA00008020822000000211.GIF" wi="221" he="75" />θ<sub>4</sub>为预先设定的经验阈值,则认为第i个手机用户在网格j<sub>1</sub>与网格j<sub>2</sub>的空间范围上具有空间相似性;步骤4.3、将第i个手机用户出现过的网格中同时具有时间相似性及空间相似性的网格合并成一网格集,得到多个网格集,每个网格集作为一个分析网格,其他不能合并的网格分别作为一个分析网格保留,计算每个分析网格在所有分析天内的出现概率作为分析出现概率,若当前分析网格为无法合并的第j个网格,则当前分析网格的分析出现概率Z<sub>i</sub>为第i个手机用户在所有分析天在该网格中的出现概率,若当前分析网格为由y个网格组成的网格集,则当前分析网格的分析出现概率<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>Z</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>x</mi><mo>=</mo><mn>1</mn></mrow><mi>y</mi></munderover><msubsup><mi>M</mi><mi>i</mi><msub><mi>j</mi><mi>x</mi></msub></msubsup></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msubsup><mi>M</mi><mi>i</mi><mi>j</mi></msubsup></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA00008020822000000212.GIF" wi="289" he="268" /></maths>步骤5、每个手机用户的常驻地点识别,对于第i个手机用户而言,其步骤为:步骤5.1、定义常驻地点识别参数,第i个手机用户的常驻地点识别参数<img file="FDA0000802082200000031.GIF" wi="426" he="139" />为第j个网格的识别参数,<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>G</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><msup><msub><mi>Z</mi><mi>i</mi></msub><mi>j</mi></msup><mo>></mo><msub><mi>&theta;</mi><mn>5</mn></msub></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msup><msub><mi>Z</mi><mi>i</mi></msub><mi>j</mi></msup><mo>&le;</mo><msub><mi>&theta;</mi><mn>5</mn></msub></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000802082200000032.GIF" wi="490" he="165" /></maths>Z<sub>i</sub><sup>j</sup>为与第j个网格相对应的分析网格的分析出现概率,θ<sub>5</sub>为预先设定的经验阈值;计算每个手机用户的总体采样率,第i个手机用户的总体采样率<img file="FDA0000802082200000033.GIF" wi="310" he="196" />步骤5.2、识别手机用户的常驻地点,对于第i个手机用户而言:若(S<sub>i</sub><θ<sub>6</sub>)或者(S<sub>i</sub>≥θ<sub>6</sub>并且C<sub>i</sub>=0),则无法判断其常驻地点;若S<sub>i</sub>≥θ<sub>6</sub>并且C<sub>i</sub>≥1,则将第i个手机用户的分析出现概率最大的前C<sub>i</sub>个分析网格作为常驻地点,若分析网格为网格集,则在该网格集中任意取一个网格作为常驻地点,θ<sub>6</sub>为预先设定的经验阈值。
地址 200081 上海市虹口区四川北路2261号嘉兰大厦12楼