主权项 |
一种Web信息抽取系统,包括:检索解析模块、规则生成模块和数据抽取存储模块:所述检索解析模块包括网络爬虫单元和HTML解析器,所述网络爬虫单元用于以设定的时间间隔动态地检索下载同检索规则匹配的Web页面,所述HTML解析器用于对网络爬虫单元下载的HTML网页中的字符逐个扫描,解析HTML文档的结构层次关系,并为相同的HTML标签从零开始依次添加编号,最终形成HTML文件对应的DOM树和脚本网页;所述规则生成模块包括单槽抽取规则生成单元和/或多槽抽取规则生成单元,所述单槽抽取规则生成单元,用于生成一个孤立的信息点的抽取的规则,即生成一个对网页中的局部信息点进行抽取的规则,所述多槽抽取规则生成单元,用于生成多个相互联系的信息点的抽取规则,即生成一个对网页中多个结构相似的信息块中所有相关联的信息点进行抽取的规则;所述数据抽取存储模块,根据所述规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储;其特征在于所述单槽抽取规则生成单元包括:脚本网页信息节点获取单元和DOM树信息节点获取单元;所述脚本网页信息获取单元,用于启动浏览器打开脚本网页,选择网页信息点后,并自动生成根节点到目标信息节点的DOM路径;所述DOM树信息节点获取单元内部设有查找单元,用于用户提供网页中感兴趣的信息点的部分或全部内容,通过查找单元把DOM树中所有的相关节点展开,选中信息点对应的叶子节点,然后获得到信息点在DOM树中的路径。 |