发明名称 一种多记录网页的信息抽取系统及方法
摘要 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。
申请公布号 CN103761312A 申请公布日期 2014.04.30
申请号 CN201410034376.4 申请日期 2014.01.24
申请人 福州大学 发明人 陈国龙;廖祥文;陈巧灵;杨定达;魏晶晶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种多记录网页的信息抽取系统,其特征在于,包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收待抽取文档的文档次序树,并利用横向层次分析法在所述文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从所述记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区