发明名称 |
网页爬虫抓取方法及系统 |
摘要 |
本发明提供了一种网页爬虫抓取方法及系统,根据根节点获取待爬取页面中所有链接,找出其中未访问过的链接,获取未访问链接的数据流,对数据流进行清洗后,提取数据流中的文本,本发明通过对数据流的清洗去除无关内容的干扰,且其抓取结果为纯文本。 |
申请公布号 |
CN106055722A |
申请公布日期 |
2016.10.26 |
申请号 |
CN201610592441.4 |
申请日期 |
2016.07.26 |
申请人 |
重庆兆光科技股份有限公司 |
发明人 |
彭德光;利节;孙健;李鹏华 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京元本知识产权代理事务所 11308 |
代理人 |
朱浩 |
主权项 |
一种网页爬虫抓取方法,其特征在于,包括:设置未访问队列和已访问数据库,将待爬取页面的链接添加到未访问队列;获取待爬取页面的根节点;根据所述根节点,获取待爬取页面中的所有链接;将所获取的链接分别与已访问数据库中的链接进行匹配,在已访问数据库中没有链接与该链接匹配时,将该链接添加到未访问队列;获取未访问队列中每个链接所指向页面的数据流,并将数据流存储于中间数据库;对中间数据库中的数据流进行清洗;提取数据流中的文本。 |
地址 |
400000 重庆市沙坪坝区天星桥凤天大道109号2-2-1号 |