发明名称 Web信息抽取系统
摘要 本发明公开了一种Web信息抽取系统,其特征在于包括:检索解析模块、规则生成模块和数据抽取存储模块:检索解析模块包括网络爬虫单元和HTML解析器;规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元;数据抽取存储模块,规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储。该系统具有:生成单槽抽取规则时界面操作简单、容易理解;对于生成多槽抽取规则,系统提供图形界面帮助用户标注,节省用户的时间和体力;对于预先生成的抽取规则和任务序列,系统提供两种方式实现批量任务的抽取和存储;系统可以根据用户配置的参数,在预先设定的周期和时间完成抽取存储任务。
申请公布号 CN101582075B 申请公布日期 2011.05.11
申请号 CN200910012239.X 申请日期 2009.06.24
申请人 大连海事大学 发明人 陈荣;郭银蕊;刘亚清;陈涛;陈娟;孙向伟;史玉翡
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 李洪福
主权项 一种Web信息抽取系统,包括:检索解析模块、规则生成模块和数据抽取存储模块:所述检索解析模块包括网络爬虫单元和HTML解析器,所述网络爬虫单元用于以设定的时间间隔动态地检索下载同检索规则匹配的Web页面,所述HTML解析器用于对网络爬虫单元下载的HTML网页中的字符逐个扫描,解析HTML文档的结构层次关系,并为相同的HTML标签从零开始依次添加编号,最终形成HTML文件对应的DOM树和脚本网页;所述规则生成模块包括单槽抽取规则生成单元和/或多槽抽取规则生成单元,所述单槽抽取规则生成单元,用于生成一个孤立的信息点的抽取的规则,即生成一个对网页中的局部信息点进行抽取的规则,所述多槽抽取规则生成单元,用于生成多个相互联系的信息点的抽取规则,即生成一个对网页中多个结构相似的信息块中所有相关联的信息点进行抽取的规则;所述数据抽取存储模块,根据所述规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储;其特征在于所述单槽抽取规则生成单元包括:脚本网页信息节点获取单元和DOM树信息节点获取单元;所述脚本网页信息获取单元,用于启动浏览器打开脚本网页,选择网页信息点后,并自动生成根节点到目标信息节点的DOM路径;所述DOM树信息节点获取单元内部设有查找单元,用于用户提供网页中感兴趣的信息点的部分或全部内容,通过查找单元把DOM树中所有的相关节点展开,选中信息点对应的叶子节点,然后获得到信息点在DOM树中的路径。
地址 116026 辽宁省大连市甘井子区凌海路1号