发明名称 |
基于关键词导向的主题网络爬虫的数据搜集方法 |
摘要 |
本发明涉及一种基于关键词导向的主题网络爬虫的数据搜集方法。该方法的步骤包括:1)在网络爬虫的配置文件中设立主题信息的配置选项,包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值;2)对待爬取网页的内容进行解析,得到对应于所述主题关键词列表中各关键词的关键词出现次数,并根据各关键词的权重及其出现次数计算主题相关度分值;3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较,控制网络爬虫的链接扩散走向并实现数据搜集。本发明通过设定与主题相关的关键词,动态调整爬取走向,既保证了爬取的广度,又维持了爬取扩散的方向不脱离指定主题,能够更有效地收集最大范围的主题内容。 |
申请公布号 |
CN106339378A |
申请公布日期 |
2017.01.18 |
申请号 |
CN201510393801.3 |
申请日期 |
2015.07.07 |
申请人 |
中国科学院信息工程研究所 |
发明人 |
朴爱花;龚晓锐;和晓宇;霍玮;邹维 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
冯艺东 |
主权项 |
一种基于主题网络爬虫的数据搜集方法,其步骤包括:1)在网络爬虫的配置文件中设立主题信息的配置选项,包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值;2)对待爬取网页的内容进行解析,得到对应于所述主题关键词列表中各关键词的关键词出现次数,并根据各关键词的权重及其出现次数计算主题相关度分值;3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较,控制网络爬虫的链接扩散走向并实现数据搜集。 |
地址 |
100093 北京市海淀区闵庄路甲89号 |