发明名称 |
一种基于链接分析的聚焦爬虫方法 |
摘要 |
一种基于链接分析的聚焦爬虫方法,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤:抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。本发明的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。 |
申请公布号 |
CN103984749A |
申请公布日期 |
2014.08.13 |
申请号 |
CN201410227771.4 |
申请日期 |
2014.05.27 |
申请人 |
电子科技大学 |
发明人 |
屈鸿;周安林;张马路;孙明;邵领 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
成都华典专利事务所(普通合伙) 51223 |
代理人 |
徐丰 |
主权项 |
一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤:(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。 |
地址 |
611731 四川省成都市高新区(西区)西源大道2006号 |