发明名称 |
电子报抓取方法和装置 |
摘要 |
本发明提供一种电子报抓取方法和装置,电子报抓取装置在收到抓取请求后,首先根据待抓取电子报的标识获取待抓取电子报的总览页源码,对总览页源码进行分析抓取电子报的叠信息及版面列表,再对版面列表中各个版面的源码进行分析抓取电子报的版面信息,再通过对版面中的新闻稿件的源码进行分析后抓取新闻稿件的信息,最后再对电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出,该电子报抓取方法可以有效的根据电子报的特性对电子报信息进行完整的抓取,方便了用户对电子报数据的分析和再利用,提高了对电子报分析的效率。 |
申请公布号 |
CN106156058A |
申请公布日期 |
2016.11.23 |
申请号 |
CN201510142840.6 |
申请日期 |
2015.03.27 |
申请人 |
北大方正集团有限公司;北京北大方正电子有限公司 |
发明人 |
吴显丽;明笛 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
陶敏;黄健 |
主权项 |
一种电子报抓取方法,其特征在于,包括:接收抓取请求,所述抓取请求中包括待抓取电子报的标识;获取与所述电子报的标识对应电子报总览页的源码;从所述电子报总览页的源码中抓取所述电子报的叠信息及版面列表;从所述版面列表中各个版面的源码中抓取各个版面的信息,所述版面的信息包括版面的图及版面中的新闻稿件;从所述新闻稿件的源码中抓取所述新闻稿件的信息;将所述电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出。 |
地址 |
100871 北京市海淀区成府路298号中关村方正大厦9层 |