主权项 |
一种基于奇异值分解的商铺受欢迎度预测方法,其特征在于包括以下步骤:S1、利用网络爬虫抓取商铺数据,结合基于位置的服务上提供的地点经纬度和交通信息,补全商铺信息;将商铺数据整理成<s,t,p>的三元组格式,并将全部数据按8:2的比例划分为训练数据和测试数据;其中,s代表商铺,t代表类型,p代表欢迎度;S2、从商铺信息中提取的特征如下:距所在商业区中心的距离,定义F<sub>s</sub>=logD<sub>s</sub>,其中D<sub>s</sub>为商铺s到所在商业区中心的距离,F<sub>s</sub>表示商铺距商业区的远近程度;交通便利性,定义T<sub>c</sub>表示商铺交通便利程度;考虑公交车和地铁两种常用的交通工具,并从两个角度分别对商铺s所在地的交通便利性进行刻画:距离和多样性;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>T</mi><mi>c</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>bus</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>r</mi><mo>)</mo></mrow><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>lg</mi><msub><mi>D</mi><mi>bus</mi></msub></mrow></mfrac><mo>+</mo><mfrac><mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>sub</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>r</mi><mo>)</mo></mrow><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>lg</mi><msub><mi>D</mi><mi>sub</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000738134530000011.GIF" wi="811" he="131" /></maths>其中,N<sub>bus</sub>(s,r)和N<sub>sub</sub>(s,r)分别表示商铺s所在区域中公交车、地铁的种类,D<sub>bus</sub>和D<sub>sub</sub>分别表示商铺s到公交站和地铁站的最近距离;竞争性,表示同类型商铺之间的关系;<img file="FDA0000738134530000012.GIF" wi="241" he="133" />其中,C<sub>s</sub>为商铺竞争力大小,t表示商铺s所属类型,N<sub>ts</sub>(s,r)为商铺s所在区域内同类型商铺个数;N(s,r)为商铺s所在区域内所有商铺个数;多样性,描述了新开商铺所在区域的商业格局;<img file="FDA0000738134530000013.GIF" wi="601" he="133" />其中,N<sub>diver</sub>表示多样性值,T表示所有商铺类型,N<sub>t</sub>(s,r)表示商铺s周围类型为t的商铺数,N(s,r)表示商铺s周围的所有商铺数;互补性,表示不同类型商铺之间的关系;引入商铺吸引因子ρ<sub>t‑>t'</sub>来刻画商铺类型t和t'间的耦合度;<img file="FDA0000738134530000014.GIF" wi="331" he="133" />其中N<sub>set</sub>(t,t')为集合(t,t')出现的次数;N<sub>T</sub>表示商铺类型数,N<sub>T</sub>×(N<sub>T</sub>‑1)/2为N<sub>T</sub>种商铺的所有组合数,因此ρ<sub>t→t'</sub>反映了集合(t,t')出现的概率;对特征进行量化后,量化后的特征取值构成向量F;S3、以<s,t,p>和F为输入,构建奇异值分解矩阵p=S<sup>T</sup>T+ΛF,通过迭代学习过程,得到参数S、T、Λ;其中,原始矩阵中行代表商铺,列代表类型,矩阵内的值代表商铺和类型对应的受欢迎度;获得的分解向量S,T,Λ,分别代表奇异值分解的左奇异向量、右奇异向量和商铺特征向量;S4、根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor;采用欧式距离计算商铺之间的相似度;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>dis</mi><mi>ij</mi></msub><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msub><mi>f</mi><mrow><mi>s</mi><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>f</mi><mrow><mi>j</mi><mn>1</mn></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>f</mi><mi>sk</mi></msub><mo>-</mo><msub><mi>f</mi><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow>]]></math><img file="FDA0000738134530000021.GIF" wi="992" he="132" /></maths>其中,dis<sub>ij</sub>表示新开商铺i与商铺j之间的距离,dis<sub>ij</sub>值越大,代表商铺i与商铺j之间的相似度越低;<f<sub>s1</sub>…f<sub>sk</sub>>和<f<sub>j1</sub>…f<sub>jk</sub>>分别为商铺i和商铺j的显性特征向量F中的对应值;S5、根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor,拟合邻居商铺的训练参数得到新开商铺的参数Λ;S6、按照公式p=S<sup>T</sup>T+ΛF,计算新开商铺的受欢迎度,完成受欢迎度预测。 |