一种基于网页聚类的Web信息自动抽取方法,申请号CN201510235641.X-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于网页聚类的Web信息自动抽取方法
摘要	本发明公开一种基于网页聚类的Web信息自动抽取方法,属于计算机信息提取技术领域；本发明在基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
申请公布号	CN104834717A	申请公布日期	2015.08.12
申请号	CN201510235641.X	申请日期	2015.05.11
申请人	浪潮集团有限公司	发明人	武斌;张志华;徐宏伟;王传超
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南信达专利事务所有限公司 37100	代理人	姜明
主权项	一种基于网页聚类的Web信息自动抽取方法，其特征是：对动态网页集合进行页面预处理：将HTML网页转化成XHTML格式，并清除网页中的明显错误；网页聚类：网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；生成抽取模板：网页聚类后的每一个网页簇，都生成一个对应的抽取模板，所有抽取模板组成了抽取系统的包装器；进行数据抽取：对要抽取的网页和包装器的相应模板进行编辑距离的计算，如果模板中的所有必需节点都在最后的映射中，说明该网页满足此包装器，则把与包装器指定的内容节点对应的网页内容部分抽取出来，模板中不是所有必需节点都在映射中，则通过计算编辑距离选取最相似的模板抽取网页信息。
地址	250101 山东省济南市高新区舜雅路1036号

您可能感兴趣的专利

Apparatus and method for improving measuring accuracy of vision inspection by using slight movement

MOTOR VEHICLE WITH GEARBOX

Signal delivery unit

Method for updating Check Node in Low Density Parity Check Decoder

OPTICAL PROJECTION SYSTEM

Performance testing apparatus for free space optics system

A battery pack and apparatus for mounting the same

Storage tank for low-pressure liquefied hydrogen

An Electric Type Power Steering Apparatus

VCOM Generator and Method and Liquid Crystal Display

OBJECTIVE LENS DRIVING DEVICE

Support-Yoke of Steering system

REMOTE CONTROL USING POWER CHANGE SWITCH

A Protection Plate For Tree Using Coir Fiber

Use of a cyclic ether for the preparation of medicaments affecting glucose tolerance

Steering Apparatus Having Bidirectional Cam

Adjuvant compositions comprising flagellins useful for immunotherapy of asthma and allergic diseases

SUPERIOR-AND-INFERIOR-LIMB BLOOD-PRESSURE INDEX MEASURING APPARATUS

LENS GRINDING APPARATUS WITH CHAMFER MECHANISM

A golf exercise field