发明名称 一种基于Web页无限层采集方法
摘要 本发明涉及一种基于Web页无限层采集方法,包括下列步骤:(1)规范网页采集的入口页面地址StartURL;(2)对该页面上的每一个URL进行解析,若该URL是相对路径,利用入口地址StartURL补全,将其转换成绝对路径;(3)判断入口地址StartURL是否为该URL的上级,若是则启用下行链采集,继续向下扩展,若不是,则停止扩展;在采集和扩展过程中,对于每个URL,循环匹配取出页面中的文字,并查找页面上的链接,将链接上的文字以及链接所指向的网页中的文字取出并存储,如此遍历该网页的所有链接,进行无限层网页采集。利用本发明提供的网页采集方法,能够针对用户需求,进行多层次链接分析,提取用户所关心的内容,高效地实现网络信息采集。
申请公布号 CN101404666A 申请公布日期 2009.04.08
申请号 CN200810152017.3 申请日期 2008.10.06
申请人 赵洪宇 发明人 赵洪宇;袁青霞;李闻;阮振中
分类号 H04L29/08(2006.01)I;H04L12/54(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 代理人 江镇华
主权项 1.一种基于Web页无限层采集方法,包括下列步骤:(1)规范网页采集的入口页面地址StartURL;(2)对该页面上的每一个URL进行解析,若该URL是相对路径,利用入口地址StartURL补全,将其转换成绝对路径;(3)判断入口地址StartURL是否为该URL的上级,若是则启用下行链采集,继续向下扩展,若不是,则停止扩展;在采集和扩展过程中,对于每个URL,循环匹配取出页面中的文字,并查找页面上的链接,将链接上的文字以及链接所指向的网页中的文字取出并存储,如此遍历该网页的所有链接,进行无限层网页采集。
地址 300072天津市南开区白堤路馨名园5-5-501