发明名称 |
一种论坛回帖增量采集方法及系统 |
摘要 |
本发明公开了一种论坛回帖增量采集方法及系统,属于网络信息采集技术领域。本发明所述方法周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;如果存在,则从所述新增帖子中提取出主帖和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。本发明所述系统包括用于周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);以及用于从新增帖子中提取出主帖和回帖信息,从具有新回帖的帖子中提取出新回帖信息的提取装置(12)。本发明能够快速、准确、完整地采集一篇帖子的所有主、回帖信息,从而解决了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或搜索不到的问题。 |
申请公布号 |
CN102567407B |
申请公布日期 |
2014.07.16 |
申请号 |
CN201010618393.4 |
申请日期 |
2010.12.22 |
申请人 |
北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
发明人 |
吴新丽;杨建武 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天悦专利代理事务所(普通合伙) 11311 |
代理人 |
田明;任晓航 |
主权项 |
一种论坛回帖增量采集方法,包括以下步骤:(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;(2)如果存在新增帖子,则从新增帖子中提取出主帖和回帖信息;如果存在具有新回帖的帖子,则从具有新回帖的帖子中提取出新回帖信息;其特征在于,步骤(1)中,周期判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的方法如下:(a)获取所有需要采集的论坛列表页URL;(b)对每个列表页URL,获取该列表页URL对应的网页内容;再从所述网页内容中提取出每个帖子首页URL和当前回复数;(c)根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中;步骤(2)中,如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。 |
地址 |
100871 北京市海淀区成府路298号方正大厦 |