发明名称 网页结构相似性确定方法及装置
摘要 本发明提供一种网页结构相似性确定方法及装置。该方法包括:根据网页的DOM树确定网页的模板特征向量;对模板特征向量计算网页结构相似性,并进行查找或类聚。通过上述处理,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似的模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站,此外,还可以通过对所有网站首页模板的模板特征向量进行类聚和查找来自动快速发现作弊网站的集合。
申请公布号 CN101694668A 申请公布日期 2010.04.14
申请号 CN200910235278.6 申请日期 2009.09.29
申请人 百度在线网络技术(北京)有限公司 发明人 李景阳;张波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种网页结构相似性确定方法,其特征在于,包括:根据网页的DOM树确定网页的模板特征向量;对所述模板特征向量计算网页结构相似性,并进行查找或类聚。
地址 100080 北京市海淀区北四环西路58号理想国际大厦12层