发明名称 一种聚焦爬虫的设计方法
摘要 本发明公开了一种聚焦爬虫的设计方法,通过搜索引擎检索到与领域相关的本领域网页URL资源,而非针对少数特定的网站,丰富了URL资源的数量;针对URL资源与领域的相关性强弱,采用一定的概率选取种子URL进行资源爬取,即以一定的概率不处理与领域相关性弱的URL资源,提高了URL资源的处理效率,使爬取资源更为快速;最后利用网页标签的权重分析有针对性的获取待爬取的信息,提高信息的有效性。
申请公布号 CN102930059B 申请公布日期 2015.04.22
申请号 CN201210484746.5 申请日期 2012.11.26
申请人 电子科技大学 发明人 陈端兵;高辉;傅彦;张博
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都行之专利代理事务所(普通合伙) 51220 代理人 温利平
主权项 一种聚焦爬虫的设计方法,其特征在于,包括以下步骤:(1)、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括:搜索关键词、筛选关键词、爬取关键词;其中,搜索关键词是指提交给搜索引擎进行资源检索的关键词,筛选关键词是指根据搜索引擎的反馈结果进行爬取的资源中包含的需要进行进一步筛选的超链接(URL)所对应的关键词,爬取关键词是指最终要爬取的有效信息所对应的关键词;(2)、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N;(3)、从初始种子URL序列N中依次取出种子URL交给爬虫处理线程:3.1)、在爬虫处理线程进行分析处理种子URL时,根据取出的种子URL在初始种子URL序列N之前种子URL的有效性即是否提取到有用信息,以一定的爬取概率P选取种子URL进行资源爬取,实现对种子URL的有效过滤,提高URL的处理效率;3.2)、依据爬虫模板的筛选关键词,对步骤3.1)选取的种子URL进行深度遍历搜索,并获取包含筛选关键词的URL超链接队列;3.3)、依据爬虫模板的爬取关键词对步骤3.2)获取的URL超链接队列中的URL依次进行页面源码分析,对页面中的标签进行权重分析,定位出有用信息在页面源码中的位置,提取出有用的信息,并存入数据库中;所述爬取概率P为:P=1‑(s+f)/(2n)其中,n是初始种子URL序列N包含初始种子URL的数目,s为取出的种子URL在初始种子URL序列N中的位置序列号,f为取出的种子URL在初始种子URL序列N之前的种子URL中未提取到有用信息的种子URL的数目。
地址 611731 四川省成都市高新区(西区)西源大道2006号