发明名称 |
一种镜像网页的查找方法及查找系统 |
摘要 |
本发明涉及一种镜像网页的查找方法,包括:获取网页反向连接的锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,再将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。同时,本发明还提供一种镜像网页的查找系统。本发明解决现有技术中查找方法效率低下的不足,能够简单、快捷地查找镜像网页,具有较高的效率。 |
申请公布号 |
CN101226531B |
申请公布日期 |
2010.12.15 |
申请号 |
CN200710304563.X |
申请日期 |
2007.12.28 |
申请人 |
腾讯科技(北京)有限公司 |
发明人 |
禹荣凌;刘云峰;熊展志 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
谢安昆;宋志强 |
主权项 |
一种镜像网页的查找方法,其特征在于,包括:获取网页反向链接的锚文本;判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识,确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。 |
地址 |
100089 北京市海淀区海淀大街38号银科大厦16层 |