发明名称 一种搜集深网数据全集的爬虫方法和系统
摘要 本发明提供一种搜集深网数据全集的爬虫方法和系统,其中,搜集深网数据全集的爬虫方法包括:根据关键词汇进行深网数据搜索,获得查询结果;若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。本发明提供的搜集深网数据全集的爬虫方法,可以获得深网数据搜索全集。
申请公布号 CN105528414A 申请公布日期 2016.04.27
申请号 CN201510885882.9 申请日期 2015.12.04
申请人 北京航空航天大学;化学工业出版社 发明人 李欢;孙阳;周伟斌;武江;张元明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 杨贝贝;黄健
主权项 一种搜集深网数据全集的爬虫方法,其特征在于,包括:根据关键词汇进行深网数据搜索,获得查询结果;若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
地址 100191 北京市海淀区北京航空航天大学7-28#信箱