发明名称 垃圾网页的识别方法及系统
摘要 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询‑结果集合;从查询‑结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询‑结果集合和垃圾网页样例集合计算查询‑结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。
申请公布号 CN103064984B 申请公布日期 2016.08.10
申请号 CN201310029963.X 申请日期 2013.01.25
申请人 清华大学;北京搜狗科技发展有限公司 发明人 刘奕群;马少平;张敏;金奕江;张阔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 张大威
主权项 一种垃圾网页的识别方法,其特征在于,包括以下步骤:S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询‑结果集合;S3:从所述查询‑结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4:根据所述查询‑结果集合和垃圾网页样例集合计算所述查询‑结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及S5:如果所述查询‑结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中,所述步骤S2具体包括:S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述多个关键词的每个关键词与用户的点击结果网页构建第一查询‑结果集合;S22:计算所述第一查询‑结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询‑结果集合;S23:计算所述第二查询‑结果集合中每个结果在所述第二查询‑结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询‑结果集合,所述步骤S4具体包括:S41:设置所述查询‑结果集合中每一个查询的初始作弊得分,并设置所述查询‑结果集合中结果网页的初始垃圾得分;S42:计算与所述查询‑结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及S43:计算与所述查询‑结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
地址 100084 北京市海淀区100084-82信箱