发明名称 |
一种新闻评论页面的爬取方法及系统 |
摘要 |
本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值之间的大小关系,从页面中识别出新闻评论页面;最后获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。 |
申请公布号 |
CN102087648A |
申请公布日期 |
2011.06.08 |
申请号 |
CN200910242055.2 |
申请日期 |
2009.12.03 |
申请人 |
北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司 |
发明人 |
严华梁;刘伟;杨建武;万小军;肖建国 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天悦专利代理事务所(普通合伙) 11311 |
代理人 |
田明;任晓航 |
主权项 |
一种新闻评论页面的爬取方法,包括以下步骤:(A)获取新闻网站中的页面;(B)从获取的页面中识别出新闻评论页面;(C)获取新闻评论页面中的翻页链接,并根据翻页链接获取其他新闻评论页面。 |
地址 |
100871 北京市海淀区颐和园路5号 |