发明名称 |
一种多记录网页的信息抽取系统及方法 |
摘要 |
本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。 |
申请公布号 |
CN103761312A |
申请公布日期 |
2014.04.30 |
申请号 |
CN201410034376.4 |
申请日期 |
2014.01.24 |
申请人 |
福州大学 |
发明人 |
陈国龙;廖祥文;陈巧灵;杨定达;魏晶晶 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
福州元创专利商标代理有限公司 35100 |
代理人 |
蔡学俊 |
主权项 |
一种多记录网页的信息抽取系统,其特征在于,包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收待抽取文档的文档次序树,并利用横向层次分析法在所述文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从所述记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。 |
地址 |
350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区 |