发明名称 基于OWL语义分析的定向采集系统
摘要 本发明公开了一种基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于:所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。相比传统的定向采集系统,本发明的基于OWL语义分析的定向采集系统充分利用OWL的先进思想,先去读懂网页中的内容,然后在从中提取真正需要采集的内容。其具有精度高、智能化等优点。
申请公布号 CN102346772A 申请公布日期 2012.02.08
申请号 CN201110285068.5 申请日期 2011.09.23
申请人 王楠 发明人 王楠
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京纵横知识产权代理有限公司 32224 代理人 董建林
主权项 基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于:所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块和采集数据管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。
地址 210006 江苏省南京市中山南路501号通服大厦1202室