发明名称 重复网页识别方法和装置
摘要 本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。
申请公布号 CN104063506B 申请公布日期 2017.04.12
申请号 CN201410324553.2 申请日期 2014.07.08
申请人 百度在线网络技术(北京)有限公司 发明人 李羽;颜俊伟;李浩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京品源专利代理有限公司 11332 代理人 邓猛烈;胡彬
主权项 一种重复网页识别方法,其特征在于,包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合;从与所述至少一组原始重复网页有链接关系的网页中识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括:将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除;获取当前网页中XPATH相同、锚文本相同或相近的重复链接;将所述重复链接指向的网页作为候选重复网页存储至重复网页集合;将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
地址 100085 北京市海淀区上地十街10号百度大厦三层