发明名称 基于用户浏览行为的网页描述文档构建方法及装置
摘要 本发明提出一种基于用户互联网浏览行为的网页描述文档构建方法,包括以下步骤:提取用户浏览日志中记录的用户浏览事件;根据用户浏览事件建立用户浏览链接/网页模型;根据用户浏览链接/网页模型生成网页描述文档。本发明实施例提出的网页描述文档构建方法融合了用户的网页浏览行为,从而可以在不需要人工刻意参与的情况下,准确客观和快捷及时的进行检索。
申请公布号 CN101789017B 申请公布日期 2012.07.18
申请号 CN201010109570.6 申请日期 2010.02.09
申请人 清华大学;北京搜狗科技发展有限公司 发明人 周博;刘奕群;张敏;金奕江;马少平;茹立云;杨磊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 廖元秋
主权项 一种基于用户互联网浏览行为的网页描述文档构建方法,其特征在于,包括以下步骤:提取用户浏览日志中记录的用户浏览事件,所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本;通过以下公式根据所述用户浏览事件建立用户浏览链接模型: <mrow> <msub> <mi>P</mi> <mi>ul</mi> </msub> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mo>[</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>]</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>ClkIncomPage</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>d</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </msub> <mo>|</mo> <mi>ClkIncomPage</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>其中,Pul(R|[a,d])代表网页描述文档中不同链接文本a的权重,ClkIncomPage(a,d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合,D代表所有网页的集合;根据所述用户浏览链接模型生成网页描述文档。
地址 100084 北京市100084-82信箱