发明名称 |
基于OWL语义分析的定向采集系统 |
摘要 |
本发明公开了一种基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于:所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。相比传统的定向采集系统,本发明的基于OWL语义分析的定向采集系统充分利用OWL的先进思想,先去读懂网页中的内容,然后在从中提取真正需要采集的内容。其具有精度高、智能化等优点。 |
申请公布号 |
CN102346772A |
申请公布日期 |
2012.02.08 |
申请号 |
CN201110285068.5 |
申请日期 |
2011.09.23 |
申请人 |
王楠 |
发明人 |
王楠 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
南京纵横知识产权代理有限公司 32224 |
代理人 |
董建林 |
主权项 |
基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于:所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块和采集数据管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。 |
地址 |
210006 江苏省南京市中山南路501号通服大厦1202室 |