一种多记录网页的信息抽取系统及方法,申请号CN201410034376.4-传众专利搜索

发明名称	一种多记录网页的信息抽取系统及方法
摘要	本发明涉及一种多记录网页的信息抽取系统及方法，该系统包括：一个网页预处理模块，用于将HTML网页转换为XHTML网页，并过滤网页中用来渲染显示效果的标签，然后根据标签的嵌套结构，构建文档次序树；一个记录区域定位模块，用于接收文档次序树，并利用横向层次分析法在文档次序树中定位出记录区域的位置；一个记录分隔符识别模块，用于从记录区域中找到记录之间的分隔符并进行存储；以及一个记录输出模块，用于将记录区域里所有文本节点按层次顺序遍历输出，在碰到分隔符时输出分隔线，得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取，抽取速度快、准确度高，通用性强，适用范围广。
申请公布号	CN103761312A	申请公布日期	2014.04.30
申请号	CN201410034376.4	申请日期	2014.01.24
申请人	福州大学	发明人	陈国龙;廖祥文;陈巧灵;杨定达;魏晶晶
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	福州元创专利商标代理有限公司 35100	代理人	蔡学俊
主权项	一种多记录网页的信息抽取系统，其特征在于，包括：一个网页预处理模块，用于将HTML网页转换为XHTML网页，并过滤网页中用来渲染显示效果的标签，然后根据标签的嵌套结构，构建文档次序树；一个记录区域定位模块，用于接收待抽取文档的文档次序树，并利用横向层次分析法在所述文档次序树中定位出记录区域的位置；一个记录分隔符识别模块，用于从所述记录区域中找到记录之间的分隔符并进行存储；以及一个记录输出模块，用于将记录区域里所有文本节点按层次顺序遍历输出，在碰到分隔符时输出分隔线，得到最终的抽取结果。
地址	350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区