发明名称 | 内部网可定制爬虫系统构建方法 | ||
摘要 | 本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。 | ||
申请公布号 | CN101295321A | 申请公布日期 | 2008.10.29 |
申请号 | CN200810126457.1 | 申请日期 | 2008.06.27 |
申请人 | 北京邮电大学 | 发明人 | 杨溥;郭军;徐蔚然 |
分类号 | G06F17/30(2006.01) | 主分类号 | G06F17/30(2006.01) |
代理机构 | 代理人 | ||
主权项 | 1.一种内部网可定制爬虫系统构建方法,其特征在于包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。 | ||
地址 | 100876北京市海淀区西土城路10号 |