发明名称 自动动态更新论坛爬虫系统的构建方法
摘要 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。
申请公布号 CN101436196A 申请公布日期 2009.05.20
申请号 CN200810180823.1 申请日期 2008.11.25
申请人 北京邮电大学 发明人 杨 溥;郭 军;徐蔚然
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1. 一种自动动态更新论坛爬虫系统的构建方法,其特征在于包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。
地址 100876北京市海淀区西土城路10号