发明名称 一种新型的中文新闻页面增量采集的方法及装置
摘要 本发明提供了一种新型的中文新闻页面增量采集的方法及装置,其中,一种新型的中文新闻页面增量采集的方法,包括:对稳定页面进行识别,获得识别后的稳定页面;对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;对新增页面进行采集,获得采集后的新增页面;对新闻页面进行识别,获得识别后的新闻页面;该方法能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
申请公布号 CN102831135B 申请公布日期 2015.10.28
申请号 CN201110425165.X 申请日期 2011.12.16
申请人 中国科学技术信息研究所 发明人 刘伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市盛峰律师事务所 11337 代理人 赵建刚
主权项 一种中文新闻页面增量采集的方法,其特征在于,包括:对稳定页面进行识别,获得识别后的稳定页面;对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;对新增页面进行采集,获得采集后的新增页面;对新闻页面进行识别,获得识别后的新闻页面;所述对稳定页面进行识别,获得识别后的稳定页面的步骤,包括:接收识别命令,开始对稳定页面进行识别;指定新闻网站首页的网址;选取时间点间隔相同的连续10个时间点,获得时间间隔相同的连续10个时间点;其中,所述连续10个时间点的时间间隔能够由用户指定;在所述连续10个时间点的每个时间点,对所述指定新闻网站的所有页面进行爬取,获得相应的连续10个时间点的每个时间点的页面集合;对所述连续10个时间点的每个时间点的页面集合进行页面集合的交集操作,获得相应的交集集合;对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面;所述对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面的步骤,包括:接收判断及识别命令,开始对所述获得的相应的交集集合中的每个页面进行判断及识别;通过判断所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是否相同,来获得交集集合中的页面的判断及识别结果;若所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是相同的,则所述交集集合中的该页面为稳定页面,获得识别后的稳定页面;若所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是不相同的,则所述交集集合中的该页面不是稳定页面;所述对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器的步骤,包括:指定新闻网站首页的网址;从所述新闻网站中选取相同数量的新闻页面及非新闻页面,获得相应的相同数量的新闻页面及相同数量的非新闻页面;其中,所述新闻页面的数量及所述非新闻页面的数量由用户指定;采用ISUC算法进行相应的计算,获得生成的新闻页面分类器;所述对新增页面进行采集,获得采集后的新增页面的步骤,包括:接收页面采集命令,开始对新增页面进行采集;对每一个稳定页面的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接;将所述获得的当前页面链接加入到原始页面链接集合中,获得更新后的页面链接集合;其中,若原始页面链接集合不存在,则更新后的页面链接集合为当前页面链接集合;依据所述更新后的页面链接集合中的每个链接,获得所述每个链接相应的指向页面;将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面;每隔相同的时间间隔执行从对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接到将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面的操作的整个过程;其中,所述每个时间由客户指定;循环上述操作,循环操作结束后,将所获得的采集后的新增页面进行汇总,获得采集后的新增页面集合;所述对新闻页面进行识别,获得识别后的新闻页面的步骤,包括:使用所述新闻页面分类器,对新增页面集合中的每个页面中的新闻页面及非新闻页面进行识别,获得相应的页面中的新闻页面及相应的页面的非新闻页面;将上述新闻页面放入新增新闻页面集合中,获得更新后的新增新闻页面集合;建立所述更新后的新增新闻页面集合与新闻页面的一一对应的关系;依据所述更新后的新增新闻页面集合与新闻页面的一一对应的关系,由所述更新后的新增新闻页面集合,获得识别后的新闻页面。
地址 100038 北京市海淀区复兴路15号