发明名称 基于关键词导向的主题网络爬虫的数据搜集方法
摘要 本发明涉及一种基于关键词导向的主题网络爬虫的数据搜集方法。该方法的步骤包括:1)在网络爬虫的配置文件中设立主题信息的配置选项,包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值;2)对待爬取网页的内容进行解析,得到对应于所述主题关键词列表中各关键词的关键词出现次数,并根据各关键词的权重及其出现次数计算主题相关度分值;3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较,控制网络爬虫的链接扩散走向并实现数据搜集。本发明通过设定与主题相关的关键词,动态调整爬取走向,既保证了爬取的广度,又维持了爬取扩散的方向不脱离指定主题,能够更有效地收集最大范围的主题内容。
申请公布号 CN106339378A 申请公布日期 2017.01.18
申请号 CN201510393801.3 申请日期 2015.07.07
申请人 中国科学院信息工程研究所 发明人 朴爱花;龚晓锐;和晓宇;霍玮;邹维
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种基于主题网络爬虫的数据搜集方法,其步骤包括:1)在网络爬虫的配置文件中设立主题信息的配置选项,包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值;2)对待爬取网页的内容进行解析,得到对应于所述主题关键词列表中各关键词的关键词出现次数,并根据各关键词的权重及其出现次数计算主题相关度分值;3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较,控制网络爬虫的链接扩散走向并实现数据搜集。
地址 100093 北京市海淀区闵庄路甲89号