发明名称 一种基于网页聚类的Web信息自动抽取方法
摘要 本发明公开一种基于网页聚类的Web信息自动抽取方法,属于计算机信息提取技术领域;本发明在基于DOM的抽取技术上,根据对树的相似度比较对网页进行聚类分析,从而分类出网页结构相似度较高的网页簇,实现一个高精度的Web信息自动抽取系统,并通过大量的测试网页集对这些算法进行实验和评估,Web信息自动抽取应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,与同类技术相比具有算法构造简单、准确率高等优势。
申请公布号 CN104834717A 申请公布日期 2015.08.12
申请号 CN201510235641.X 申请日期 2015.05.11
申请人 浪潮集团有限公司 发明人 武斌;张志华;徐宏伟;王传超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 一种基于网页聚类的Web信息自动抽取方法,其特征是:对动态网页集合进行页面预处理:将HTML网页转化成XHTML格式,并清除网页中的明显错误;网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系,形成一个树状结构,利用计算它们的编辑距离来比较HTML标签树的相似性;根据网页聚类的复杂度,采取相应的算法,定义两个网页的树编辑距离;生成抽取模板:网页聚类后的每一个网页簇,都生成一个对应的抽取模板,所有抽取模板组成了抽取系统的包装器;进行数据抽取:对要抽取的网页和包装器的相应模板进行编辑距离的计算,如果模板中的所有必需节点都在最后的映射中,说明该网页满足此包装器,则把与包装器指定的内容节点对应的网页内容部分抽取出来,模板中不是所有必需节点都在映射中,则通过计算编辑距离选取最相似的模板抽取网页信息。
地址 250101 山东省济南市高新区舜雅路1036号