发明名称 一种主题爬虫处理方法及装置
摘要 本发明提供一种主题爬虫处理方法及装置,在获取到网页文档后,至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息,基于这些特征信息对网页文档进行主题相关性分析,得到分类结果,并在基于分类结果将网页文档存储至网页文档集合中的情况下,基于网页文档集合中网页文档增量情况,对主题分类器进行训练,因此在基于主题爬虫爬取的过程中,还可以对于主题爬虫相关的主题分类模型进行训练,使得主题爬虫基于的主题分类模型更接近于搜索主题,这样主题爬虫在基于主题分类模型进行爬取时,爬取到的内容与搜索主题更加相关,从而提高爬取的精确率和召回率。
申请公布号 CN105528422A 申请公布日期 2016.04.27
申请号 CN201510890437.1 申请日期 2015.12.07
申请人 中国建设银行股份有限公司 发明人 张晨;邵小亮;谢隆飞;王全礼
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 李金;王宝筠
主权项 一种主题爬虫处理方法,其特征在于,所述方法包括:获取待爬取队列中统一资源定位符对应的网页文档;从所述网页文档中提取特征信息,其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息;基于所述特征信息对所述网页文档进行主题相关性分类,得到分类结果;基于所述分类结果,确定是否将所述网页文档存储至网页文档集合中;当基于所述分类结果将所述网页文档存储至网页文档集合中时,基于网页文档集合中网页文档增量情况,对与所述主题爬虫相关的主题分类模型进行训练。
地址 100033 北京市西城区金融大街25号