发明名称 基于多主题追踪的个性化网络新闻推送方法
摘要 基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:获取用户浏览过的新闻网页,划分成多个用户子兴趣模型;根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;判断子兴趣模型的个数是否超过预设阈值,若是,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找待推送的新闻与所有子兴趣模型之间的最高相似度;计算新闻报道的排序值将排序值从大到小进行排序,将排序后的新闻列表推送给用户。本发明具有能够涵盖用户的多种兴趣特征,推荐准确率高,系统后续维护负担较轻的优点。
申请公布号 CN101694659B 申请公布日期 2012.03.21
申请号 CN200910153589.8 申请日期 2009.10.20
申请人 浙江大学 发明人 陈纯;何占盈;陈伟;卜佳俊;毛菥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 1.基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:1)、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由该子兴趣模型中所有新闻报道的关键词信息组成的向量<img file="FSB00000664076700011.GIF" wi="605" he="109" />其中<img file="FSB00000664076700012.GIF" wi="49" he="76" />为子兴趣模型<img file="FSB00000664076700013.GIF" wi="33" he="64" />中所有的新闻报道的第i个关键词的权重信息,若第i个关键词在多篇新闻报道中出现过,则<img file="FSB00000664076700014.GIF" wi="50" he="77" />为第i个关键词在各篇新闻报道中的权重信息之和;所述的新闻报道为由该新闻报道的关键词信息组成的向量<img file="FSB00000664076700015.GIF" wi="624" he="82" /><img file="FSB00000664076700016.GIF" wi="58" he="67" />对应的关键词与其所属的子兴趣模型<img file="FSB00000664076700017.GIF" wi="33" he="63" />中的关键词一致;若新闻报道<img file="FSB00000664076700018.GIF" wi="32" he="68" />中具有第i个关键词,则<img file="FSB00000664076700019.GIF" wi="45" he="67" />为此关键词的权重信息,若新闻报道<img file="FSB000006640767000110.GIF" wi="31" he="66" />中不具有第i个关键词,则<img file="FSB000006640767000111.GIF" wi="42" he="65" />为0;所有的子兴趣模型构成用户的多主题兴趣模型;2)、根据用户是否阅读由子兴趣模型<img file="FSB000006640767000112.GIF" wi="33" he="62" />推荐的新闻报道<img file="FSB000006640767000113.GIF" wi="60" he="74" />对用户的多主题兴趣模型进行动态更新;3)、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:(3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(P),精确度参数值越大,则精确性越高,其中<img file="FSB00000664076700021.GIF" wi="631" he="119" />really(P)为用户实际浏览的由子兴趣模型<img file="FSB00000664076700022.GIF" wi="34" he="62" />推荐的新闻的数量,total(P)为子兴趣模型<img file="FSB00000664076700023.GIF" wi="34" he="62" />总共推荐的新闻的数量;(3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e<sup>-α·t</sup>,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;(3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(P)·e<sup>-α·t</sup>,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型;4)、计算待推送的新闻与所有子兴趣模型之间的相似度W,找出最高相似度W<sub>max</sub>;所述的相似度W用新闻报道<img file="FSB00000664076700024.GIF" wi="32" he="66" />与子兴趣模型<img file="FSB00000664076700025.GIF" wi="33" he="63" />之间的夹角来表征,所述的夹角越小,相似度越高;5)、计算新闻报道<img file="FSB00000664076700026.GIF" wi="33" he="66" />的排序值score(D),所述的排序值score(D)=W<sub>max</sub>·precision(P)·e<sup>-αt</sup>,将排序值从大到小进行排序,将排序后的新闻列表推送给用户;所述的步骤1)中所述的关键词的权重信息为该关键词的TF-IDF值,所述的TF为第i个关键词在第j篇新闻报道<img file="FSB00000664076700027.GIF" wi="33" he="66" />中的词频,其计算公式为:<img file="FSB00000664076700028.GIF" wi="435" he="129" />其中d<sub>j</sub>(i)为在第j篇新闻报道<img file="FSB00000664076700029.GIF" wi="32" he="65" />中,关键词i的个数,total(words)为第j篇新闻报道<img file="FSB000006640767000210.GIF" wi="31" he="66" />中的单词个数;所述的IDF为第i个关键词的逆向文件频率,其计算公式为:<img file="FSB00000664076700031.GIF" wi="683" he="117" />其中total(documents)为新闻报道总数,documents(i)为含有关键词i的新闻报道的数目;则第i个关键词在第j篇新闻报道<img file="FSB00000664076700032.GIF" wi="31" he="65" />中的TF-IDF值为:d<sub>i,j</sub>=TF<sub>i,j</sub>·IDF<sub>i</sub>;所述的步骤2)中,若用户阅读了由子兴趣模型<img file="FSB00000664076700033.GIF" wi="32" he="63" />推荐的新闻报道,则认为推送有效;若用户未阅读由子兴趣模型<img file="FSB00000664076700034.GIF" wi="33" he="62" />推荐的新闻报道,则认为推送无效;所述的动态更新包括以下步骤:(2.1)判断用户是否阅读由子兴趣模型<img file="FSB00000664076700035.GIF" wi="34" he="61" />推荐的新闻报道;(2.2)若用户阅读了由子兴趣模型<img file="FSB00000664076700036.GIF" wi="33" he="63" />推荐的新闻报道,则推送有效,子兴趣模型<img file="FSB00000664076700037.GIF" wi="33" he="63" />的更新方程为:<img file="FSB00000664076700038.GIF" wi="275" he="78" />(2.3)若用户未阅读由子兴趣模型<img file="FSB00000664076700039.GIF" wi="34" he="63" />推荐的新闻报道,则推送无效,子兴趣模型<img file="FSB000006640767000310.GIF" wi="34" he="63" />的更新方程为:<img file="FSB000006640767000311.GIF" wi="362" he="109" />其中,γ为根据经验设定、代表<img file="FSB000006640767000312.GIF" wi="31" he="66" />对<img file="FSB000006640767000313.GIF" wi="34" he="63" />的影响度的一个数值;所述的步骤4)中,相似度的计算方法为:<maths num="0001"><![CDATA[<math><mrow><mi>W</mi><mo>=</mo><mi>cos</mi><mrow><mo>(</mo><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mover><mi>P</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mo>&CenterDot;</mo><mover><mi>P</mi><mo>&RightArrow;</mo></mover></mrow><mrow><mo>|</mo><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mo>|</mo><mo>&CenterDot;</mo><mover><mrow><mo>|</mo><mi>P</mi><mo>|</mo></mrow><mo>&RightArrow;</mo></mover></mrow></mfrac><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>f</mi></msubsup><msub><mi>d</mi><mi>ij</mi></msub><mo>&CenterDot;</mo><msub><mi>p</mi><mi>ik</mi></msub></mrow><msqrt><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>f</mi></msubsup><msubsup><mi>d</mi><mi>ij</mi><mn>2</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>f</mi></msubsup><msubsup><mi>p</mi><mi>ik</mi><mn>2</mn></msubsup></msqrt></mfrac><mo>,</mo></mrow></math>]]></maths>其中d<sub>ij</sub>为第i个关键词在第j篇新闻报道<img file="FSB000006640767000315.GIF" wi="37" he="66" />中的TF-IDF值,p<sub>ik</sub>为第i个关键词在第k个子兴趣模型<img file="FSB000006640767000316.GIF" wi="33" he="63" />中的TF-IDF值。
地址 310014 浙江省杭州市西湖区浙大路38号