主权项 |
一种基于用户互联网浏览行为的网页描述文档构建方法,其特征在于,包括以下步骤:提取用户浏览日志中记录的用户浏览事件,所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本;通过以下公式根据所述用户浏览事件建立用户浏览链接模型: <mrow> <msub> <mi>P</mi> <mi>ul</mi> </msub> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mo>[</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>]</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>ClkIncomPage</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>Σ</mi> <mrow> <mi>d</mi> <mo>∈</mo> <mi>D</mi> </mrow> </msub> <mo>|</mo> <mi>ClkIncomPage</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>其中,Pul(R|[a,d])代表网页描述文档中不同链接文本a的权重,ClkIncomPage(a,d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合,D代表所有网页的集合;根据所述用户浏览链接模型生成网页描述文档。 |