发明名称 |
一种识别相似网页的方法及装置 |
摘要 |
本发明公开了一种识别相似网页的方法及装置,属于计算机技术领域。所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。本发明通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。 |
申请公布号 |
CN103049562A |
申请公布日期 |
2013.04.17 |
申请号 |
CN201210590333.5 |
申请日期 |
2012.12.31 |
申请人 |
华为技术有限公司 |
发明人 |
李鹏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三高永信知识产权代理有限责任公司 11138 |
代理人 |
黄厚刚 |
主权项 |
一种识别相似网页的方法,其特征在于,所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |