一种网络关键资源页面的自动定位方法,申请号CN200710098531.9-传众专利搜索

发明名称	一种网络关键资源页面的自动定位方法
摘要	一种网络关键资源页面的自动定位方法，属于互联网信息处理领域，其特征在于：它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词，提取出其对应的用户点击结果页面和结果页面的“用户点击率”，得到查询主题集合、关键资源页面候选集和“用户点击分布”；随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合，利用“查询可信度”信息得到融合后的“用户点击分布”；最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定，得到主题相关的关键资源页面。该方法具有计算机自动，准确客观和迅速定位的优点。
申请公布号	CN101105801A	申请公布日期	2008.01.16
申请号	CN200710098531.9	申请日期	2007.04.20
申请人	清华大学	发明人	岑荣伟;刘奕群;张敏;金奕江;马少平
分类号	G06F17/30(2006.01)	主分类号	G06F17/30(2006.01)
代理机构		代理人
主权项	1.一种网络关键资源页面的自动定位方法，其特征在于该方法依次含有以下内容：步骤(1).计算机按以下步骤在各个搜索引擎系统的搜索引擎用户日志上筛选查询主题：步骤(1.1).数据预处理，其步骤如下：步骤(1.1.1).计算机通过搜索引擎网络服务器搜索用户日志，并把该服务器记录的编码格式转换成国家标准汉字编码GBK格式；步骤(1.1.2).去除步骤(1.1.1)所述用户日志中除了下述内容项之外的信息，所述下述内容项包括：用户提交的查询Query(以下简称Q)、对应于这个查询用户点击的结果地址URL、以及由搜索引擎系统自动分配的用户标识号ID，并把得到的日志整理成包含以上内容项的字符串形式；步骤(1.1.3).利用字符串匹配方法过滤步骤(1.1.2)得到的用户查询中的噪声信息，仅保留直接反映搜索引擎普通用户查询需求与行为的内容项；步骤(1.2).挑选查询主题集合S，若：某个查询Q在用户日志中被不同的用户来查询的次数小于20次，则排除在集合S之外；否则，把该查询主题放入该查询主题集合S中；步骤(2).对每个查询Q，按以下步骤提取查询用户点击率：步骤(2.1).按以下公式计算各查询Q的查询用户点击率：<img file="A2007100985310002C1.GIF" wi="1198" he="117" />该查询用户点击率在0到1之间；对查询Q，其各用户点击的结果页面URL的用户点击率之总和为1；步骤(2.2).生成查询Q的关键资源页面候选集：若：某页面对应的用户点击率小于0.05，则剔除该页面；否则，把该页面加入到该查询Q对应的关键资源页面候选集中；步骤(2.3).生成查询Q的用户点击率分布：对于查询Q，统计其页面候选集中的页面和对应的用户点击率，得到与该查询Q对应的用户点击率分布；步骤(3).多搜索引擎日志的查询Q的用户点击率分布的融合，其步骤如下：步骤(3.1).按下式计算单搜索引擎用户日志对查询Q的查询可信度信息：搜索引擎用户日志SE<sub>j</sub>上的查询可信度为：<img file="A2007100985310003C1.GIF" wi="1716" he="176" />该SE<sub>j</sub>查询可信度在0到1之间；步骤(3.2).多搜索引擎用户日志的融合：融合后的对于查询Q的点击结果页面CRP的用户点击率信息用P(CRP\|查询Q)表示：<img file="A2007100985310003C2.GIF" wi="1518" he="100" />其中，P(SE<sub>i</sub>\|查询Q)表示对于查询Q，SE<sub>i</sub>给出的支持度，用步骤(3.1)得到的查询可信度表示，P(CRP\|SE<sub>i</sub>，查询Q)表示在搜索引擎日志SE<sub>i</sub>中，对于查询Q，点击结果页面的点击率，用步骤(2.1)得到的用户点击率表示。步骤(3.3).根据步骤(3.2)得到的融合后的用户点击率P(CRP\|查询Q)，对于查询Q，得到对应于各个搜索引擎用户日志SE<sub>i</sub>的融合后的用户点击分布；步骤(4).判定与查询Q相关的关键资源页面：对于步骤(1)中挑选得到的每个查询Q及步骤(2)得到的与其对应的关键资源页面候选集，用步骤(3)得到每个查询Q在融合后的用户点击分布信息，再按以下规则来对查询Q进行关键资源页面的筛选：从各查询Q中挑选各自融合后用户点击率最大的连续前M个页面就是各搜索引擎用户日志对应的查询Q的关键资源页面，其中M满足：从融合后用户点击率最大的页面开始，连续前M个页面的融合后的用户点击点击率之和大于0.9，但连续前M-1个页面的融合后用户点击率之和小于0.9。
地址	100084北京市100084信箱82分箱清华大学专利办公室