发明名称 基于奇异值分解的商铺受欢迎度预测方法
摘要 本发明公开了一种基于奇异值分解的商铺受欢迎度预测方法,用于解决现有门店选址系统及方法效率低的技术问题。技术方案是以用户偏好为中介,在奇异值分解的基础上,加入商铺特征融合和商铺偏好学,利用社交媒体和基于位置的服务,获取有效信息,包括商铺周围商圈的信息,商铺周围的交通信息,商铺周围人流量的信息等。由于采用奇异值分解的方法进行欢迎度预测,不仅考虑了隐性特征,同时包含了提取出的显性特征。在矩阵分解的过程中,迭代计算左奇异向量、右奇异向量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺,拟合得到新开商铺的向量参数值,解决了由于矩阵稀疏带来的新开商铺参数不准确的问题,提高了商铺受欢迎度预测方法的效率。
申请公布号 CN104899660A 申请公布日期 2015.09.09
申请号 CN201510329542.8 申请日期 2015.06.15
申请人 西北工业大学 发明人 於志文;田苗;郭斌;王柱;周兴社
分类号 G06Q10/04(2012.01)I;G06Q30/02(2012.01)I 主分类号 G06Q10/04(2012.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 一种基于奇异值分解的商铺受欢迎度预测方法,其特征在于包括以下步骤:S1、利用网络爬虫抓取商铺数据,结合基于位置的服务上提供的地点经纬度和交通信息,补全商铺信息;将商铺数据整理成&lt;s,t,p&gt;的三元组格式,并将全部数据按8:2的比例划分为训练数据和测试数据;其中,s代表商铺,t代表类型,p代表欢迎度;S2、从商铺信息中提取的特征如下:距所在商业区中心的距离,定义F<sub>s</sub>=logD<sub>s</sub>,其中D<sub>s</sub>为商铺s到所在商业区中心的距离,F<sub>s</sub>表示商铺距商业区的远近程度;交通便利性,定义T<sub>c</sub>表示商铺交通便利程度;考虑公交车和地铁两种常用的交通工具,并从两个角度分别对商铺s所在地的交通便利性进行刻画:距离和多样性;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>T</mi><mi>c</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>bus</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>r</mi><mo>)</mo></mrow><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>lg</mi><msub><mi>D</mi><mi>bus</mi></msub></mrow></mfrac><mo>+</mo><mfrac><mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>sub</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>r</mi><mo>)</mo></mrow><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>lg</mi><msub><mi>D</mi><mi>sub</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000738134530000011.GIF" wi="811" he="131" /></maths>其中,N<sub>bus</sub>(s,r)和N<sub>sub</sub>(s,r)分别表示商铺s所在区域中公交车、地铁的种类,D<sub>bus</sub>和D<sub>sub</sub>分别表示商铺s到公交站和地铁站的最近距离;竞争性,表示同类型商铺之间的关系;<img file="FDA0000738134530000012.GIF" wi="241" he="133" />其中,C<sub>s</sub>为商铺竞争力大小,t表示商铺s所属类型,N<sub>ts</sub>(s,r)为商铺s所在区域内同类型商铺个数;N(s,r)为商铺s所在区域内所有商铺个数;多样性,描述了新开商铺所在区域的商业格局;<img file="FDA0000738134530000013.GIF" wi="601" he="133" />其中,N<sub>diver</sub>表示多样性值,T表示所有商铺类型,N<sub>t</sub>(s,r)表示商铺s周围类型为t的商铺数,N(s,r)表示商铺s周围的所有商铺数;互补性,表示不同类型商铺之间的关系;引入商铺吸引因子ρ<sub>t‑&gt;t'</sub>来刻画商铺类型t和t'间的耦合度;<img file="FDA0000738134530000014.GIF" wi="331" he="133" />其中N<sub>set</sub>(t,t')为集合(t,t')出现的次数;N<sub>T</sub>表示商铺类型数,N<sub>T</sub>×(N<sub>T</sub>‑1)/2为N<sub>T</sub>种商铺的所有组合数,因此ρ<sub>t→t'</sub>反映了集合(t,t')出现的概率;对特征进行量化后,量化后的特征取值构成向量F;S3、以&lt;s,t,p&gt;和F为输入,构建奇异值分解矩阵p=S<sup>T</sup>T+ΛF,通过迭代学习过程,得到参数S、T、Λ;其中,原始矩阵中行代表商铺,列代表类型,矩阵内的值代表商铺和类型对应的受欢迎度;获得的分解向量S,T,Λ,分别代表奇异值分解的左奇异向量、右奇异向量和商铺特征向量;S4、根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor;采用欧式距离计算商铺之间的相似度;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>dis</mi><mi>ij</mi></msub><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msub><mi>f</mi><mrow><mi>s</mi><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>f</mi><mrow><mi>j</mi><mn>1</mn></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>f</mi><mi>sk</mi></msub><mo>-</mo><msub><mi>f</mi><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow>]]></math><img file="FDA0000738134530000021.GIF" wi="992" he="132" /></maths>其中,dis<sub>ij</sub>表示新开商铺i与商铺j之间的距离,dis<sub>ij</sub>值越大,代表商铺i与商铺j之间的相似度越低;&lt;f<sub>s1</sub>…f<sub>sk</sub>&gt;和&lt;f<sub>j1</sub>…f<sub>jk</sub>&gt;分别为商铺i和商铺j的显性特征向量F中的对应值;S5、根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor,拟合邻居商铺的训练参数得到新开商铺的参数Λ;S6、按照公式p=S<sup>T</sup>T+ΛF,计算新开商铺的受欢迎度,完成受欢迎度预测。
地址 710072 陕西省西安市友谊西路127号