发明名称 | 自动动态更新论坛爬虫系统的构建方法 | ||
摘要 | 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。 | ||
申请公布号 | CN101436196A | 申请公布日期 | 2009.05.20 |
申请号 | CN200810180823.1 | 申请日期 | 2008.11.25 |
申请人 | 北京邮电大学 | 发明人 | 杨 溥;郭 军;徐蔚然 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 代理人 | ||
主权项 | 1. 一种自动动态更新论坛爬虫系统的构建方法,其特征在于包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。 | ||
地址 | 100876北京市海淀区西土城路10号 |