发明名称 一种网页库级的结构化信息抽取系统
摘要 本发明公开了一种网页库级的结构化信息抽取系统,它包括目标选定单元,智能分析单元,规则生成单元和信息抽取单元;目标选定单元,采用智能选能模块,用于选定结构化信息的抽取对象;所述智能分析单元对抽取对象进行页面结构分析与智能节点分析转换处理,获取抽取对象的信息;所述规则生成单元根据页面结构分析与智能节点分析转换处理获取的抽取对象的信息,对每个网页自动实时的生成抽取规则;所述信息抽取单元根据生成的抽取规则,对抽取对象进行抽取操作,获得需要的结构化信息。本发明的有益效果在于:结构简单,设计巧妙,通过采用功能化的结构设计,克服了传统技术中的不足,填补了相关市场的空白,从而实现本发明的目的。
申请公布号 CN103425759A 申请公布日期 2013.12.04
申请号 CN201310332431.3 申请日期 2013.08.02
申请人 朱艺凡 发明人 朱艺凡
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 苏州广正知识产权代理有限公司 32234 代理人 刘述生
主权项 一种网页库级的结构化信息抽取系统,其特征在于,它包括:目标选定单元,采用智能选能模块,用于选定结构化信息的抽取对象;智能分析单元,与所述的目标选定单元连接,对抽取对象进行页面结构分析与智能节点分析转换处理,获取抽取对象的信息;规则生成单元,与所述的智能分析单元连接,根据页面结构分析与智能节点分析转换处理获取的抽取对象的信息,对每个网页自动实时的生成抽取规则;信息抽取单元,与所述的规则生成单元连接,根据生成的抽取规则,对抽取对象进行抽取操作,获得需要的结构化信息。
地址 225000 江苏省扬州市邗江经济开发区牧羊路10号