发明名称 一种基于链接分析的聚焦爬虫方法
摘要 一种基于链接分析的聚焦爬虫方法,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤:抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。本发明的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。
申请公布号 CN103984749A 申请公布日期 2014.08.13
申请号 CN201410227771.4 申请日期 2014.05.27
申请人 电子科技大学 发明人 屈鸿;周安林;张马路;孙明;邵领
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都华典专利事务所(普通合伙) 51223 代理人 徐丰
主权项 一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤:(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。
地址 611731 四川省成都市高新区(西区)西源大道2006号