发明名称 网页结构相似性确定方法及装置
摘要 本发明提供一种网页结构相似性确定方法及装置。该方法包括:根据网页的DOM树确定网页的模板特征向量;对模板特征向量计算网页结构相似性,并进行查找或类聚。通过上述处理,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似的模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页模板的模板特征向量进行类聚和查找来自动快速发现作弊网站的集合。
申请公布号 CN101694668B 申请公布日期 2012.04.18
申请号 CN200910235278.6 申请日期 2009.09.29
申请人 北京百度网讯科技有限公司 发明人 李景阳;张波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人 何青瓦;李庆波
主权项 一种网页结构相似性确定方法,其特征在于,包括:根据网页的DOM树确定网页的模板特征向量;对所述模板特征向量计算网页结构相似性,并进行查找或类聚;所述根据网页的DOM树确定网页的模板特征向量包括:将所述DOM树中的节点或节点的组合划分为不同的特征单元;确定所述特征单元映射到高维特征向量后所在的维数;根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数值,得到高维特征向量;将所述高维特征向量进行压缩,得到最终的所述模板特征向量;所述对所述模板特征向量计算网页结构相似性,并进行查找或类聚包括:设置至少一套网格;将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值;将所述模板特征向量映射到所述至少一套网格中;根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序;查找所有与给定模板特征向量在同一网格内的同网格模板特征向量;采用预定算法分别计算所有同网格模板特征向量和所述给定模板特征向量的网页的结构相似度。
地址 100085 北京市海淀区上地十街10号百度大厦2层