发明名称 一种主题知识自增长型聚焦网络爬虫搜索方法
摘要 本发明公开了一种主题知识自增长型聚焦网络爬虫搜索方法,该方法步骤如下:(1)从初始的URL中获取网页;(2)对(1)步网页中主题相关度进行评估,结合其相关度数值,从网页内容中抽取知识进行主题知识扩展;(3)从(1)步网页中抽取URL并结合(2)步的网页主题相关度进行URL评估;(4)将(3)步URL及其评估结果存入候选队列,下一轮爬取时,从候选队列中取出相关度最高的URL进行爬取。本发明的技术方案利用网页关键词与主题关键词的共现关系,以及与URL锚文本关键词的共现关系,提出了主题知识的扩展方法,从而基于自增长的主题知识,以较稳定的正确率爬取更多的网页。
申请公布号 CN103186676A 申请公布日期 2013.07.03
申请号 CN201310119282.2 申请日期 2013.04.08
申请人 湖南农业大学 发明人 李东晖;廖晓兰;黄九鸣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京东正专利代理事务所(普通合伙) 11312 代理人 刘瑜冬
主权项 一种主题知识自增长型聚焦网络爬虫搜索方法,其特征在于,该方法步骤如下:(1)从初始的URL中获取网页;(2)对(1)步网页中主题相关度进行评估,结合其相关度数值,从网页内容中抽取知识进行主题知识扩展;(3)从(1)步网页中抽取URL并结合(2)步的网页主题相关度进行URL评估;(4)将(3)步URL及其评估结果存入候选队列,下一轮爬取时,从候选队列中取出相关度最高的URL进行爬取;在上述步骤所用的主题表示模型中,每个主题知识由一个三元组<I, E, C>描述,I是一组与主题直接相关的关键词构成的集合,E是与主题相悖的关键词构成的集合,C为与主题间接相关的关键词构成的特征向量,C中每个关键词的特征值,表示关键词与主题相关的程度。
地址 410128 湖南省长沙市芙蓉区农大路1号