发明名称 |
一种基于Web页无限层采集方法 |
摘要 |
本发明涉及一种基于Web页无限层采集方法,包括下列步骤:(1)规范网页采集的入口页面地址StartURL;(2)对该页面上的每一个URL进行解析,若该URL是相对路径,利用入口地址StartURL补全,将其转换成绝对路径;(3)判断入口地址StartURL是否为该URL的上级,若是则启用下行链采集,继续向下扩展,若不是,则停止扩展;在采集和扩展过程中,对于每个URL,循环匹配取出页面中的文字,并查找页面上的链接,将链接上的文字以及链接所指向的网页中的文字取出并存储,如此遍历该网页的所有链接,进行无限层网页采集。利用本发明提供的网页采集方法,能够针对用户需求,进行多层次链接分析,提取用户所关心的内容,高效地实现网络信息采集。 |
申请公布号 |
CN101404666A |
申请公布日期 |
2009.04.08 |
申请号 |
CN200810152017.3 |
申请日期 |
2008.10.06 |
申请人 |
赵洪宇 |
发明人 |
赵洪宇;袁青霞;李闻;阮振中 |
分类号 |
H04L29/08(2006.01)I;H04L12/54(2006.01)I |
主分类号 |
H04L29/08(2006.01)I |
代理机构 |
天津市北洋有限责任专利代理事务所 |
代理人 |
江镇华 |
主权项 |
1.一种基于Web页无限层采集方法,包括下列步骤:(1)规范网页采集的入口页面地址StartURL;(2)对该页面上的每一个URL进行解析,若该URL是相对路径,利用入口地址StartURL补全,将其转换成绝对路径;(3)判断入口地址StartURL是否为该URL的上级,若是则启用下行链采集,继续向下扩展,若不是,则停止扩展;在采集和扩展过程中,对于每个URL,循环匹配取出页面中的文字,并查找页面上的链接,将链接上的文字以及链接所指向的网页中的文字取出并存储,如此遍历该网页的所有链接,进行无限层网页采集。 |
地址 |
300072天津市南开区白堤路馨名园5-5-501 |