一种主题知识自增长型聚焦网络爬虫搜索方法,申请号CN201310119282.2-传众专利搜索

发明名称	一种主题知识自增长型聚焦网络爬虫搜索方法
摘要	本发明公开了一种主题知识自增长型聚焦网络爬虫搜索方法，该方法步骤如下：（1）从初始的URL中获取网页；（2）对（1）步网页中主题相关度进行评估，结合其相关度数值，从网页内容中抽取知识进行主题知识扩展；（3）从（1）步网页中抽取URL并结合（2）步的网页主题相关度进行URL评估；（4）将（3）步URL及其评估结果存入候选队列，下一轮爬取时，从候选队列中取出相关度最高的URL进行爬取。本发明的技术方案利用网页关键词与主题关键词的共现关系，以及与URL锚文本关键词的共现关系，提出了主题知识的扩展方法，从而基于自增长的主题知识，以较稳定的正确率爬取更多的网页。
申请公布号	CN103186676A	申请公布日期	2013.07.03
申请号	CN201310119282.2	申请日期	2013.04.08
申请人	湖南农业大学	发明人	李东晖;廖晓兰;黄九鸣
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京东正专利代理事务所(普通合伙) 11312	代理人	刘瑜冬
主权项	一种主题知识自增长型聚焦网络爬虫搜索方法，其特征在于，该方法步骤如下：（1）从初始的URL中获取网页；（2）对（1）步网页中主题相关度进行评估，结合其相关度数值，从网页内容中抽取知识进行主题知识扩展；（3）从（1）步网页中抽取URL并结合（2）步的网页主题相关度进行URL评估；（4）将（3）步URL及其评估结果存入候选队列，下一轮爬取时，从候选队列中取出相关度最高的URL进行爬取；在上述步骤所用的主题表示模型中，每个主题知识由一个三元组<I, E, C>描述，I是一组与主题直接相关的关键词构成的集合，E是与主题相悖的关键词构成的集合，C为与主题间接相关的关键词构成的特征向量，C中每个关键词的特征值，表示关键词与主题相关的程度。
地址	410128 湖南省长沙市芙蓉区农大路1号