发明名称 内部网可定制爬虫系统构建方法
摘要 本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。
申请公布号 CN101295321A 申请公布日期 2008.10.29
申请号 CN200810126457.1 申请日期 2008.06.27
申请人 北京邮电大学 发明人 杨溥;郭军;徐蔚然
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人
主权项 1.一种内部网可定制爬虫系统构建方法,其特征在于包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。
地址 100876北京市海淀区西土城路10号