发明名称 基于RSS的多线程图文信息同步爬取的控制方法及系统
摘要 本发明提供一种基于RSS的多线程图文信息同步爬取控制方法,用于对网页中的图片、文字信息进行分类获取,其包括如下步骤:a.通过RSS文档分析程序分析待爬取的目标网页文件;b.获取所述目标网页的URL;c.对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.将所述有用信息的URL进行存储;e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制系统。本发明具有以下优点:(1)适宜的查全率,较高的查准率;(2)功能模块化,可移植性能高;(3)具有针对性;(4)具有实时性;(5)具有可维护性。
申请公布号 CN102609412A 申请公布日期 2012.07.25
申请号 CN201110002993.2 申请日期 2011.01.07
申请人 华东师范大学 发明人 吕钊;李琴;黄小霞;俞云飞;梁璐;蔡颂梅;陈鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 隆天国际知识产权代理有限公司 72003 代理人 吴世华;冯志云
主权项 一种基于RSS的多线程图文信息同步爬取控制方法,其用于对网页中的图片、文字信息进行分类获取,其特征在于,包括如下步骤:a. 通过RSS文档分析程序分析待爬取的目标网页文件;b. 获取所述目标网页的URL;c. 对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d. 将所述有用信息的URL进行存储;e. 下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f. 针对所述步骤e中的每个网页内容执行所述步骤a。
地址 200241 上海市闵行区东川路500号