发明名称 | 一种主题知识自增长型聚焦网络爬虫搜索方法 | ||
摘要 | 本发明公开了一种主题知识自增长型聚焦网络爬虫搜索方法,该方法步骤如下:(1)从初始的URL中获取网页;(2)对(1)步网页中主题相关度进行评估,结合其相关度数值,从网页内容中抽取知识进行主题知识扩展;(3)从(1)步网页中抽取URL并结合(2)步的网页主题相关度进行URL评估;(4)将(3)步URL及其评估结果存入候选队列,下一轮爬取时,从候选队列中取出相关度最高的URL进行爬取。本发明的技术方案利用网页关键词与主题关键词的共现关系,以及与URL锚文本关键词的共现关系,提出了主题知识的扩展方法,从而基于自增长的主题知识,以较稳定的正确率爬取更多的网页。 | ||
申请公布号 | CN103186676A | 申请公布日期 | 2013.07.03 |
申请号 | CN201310119282.2 | 申请日期 | 2013.04.08 |
申请人 | 湖南农业大学 | 发明人 | 李东晖;廖晓兰;黄九鸣 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京东正专利代理事务所(普通合伙) 11312 | 代理人 | 刘瑜冬 |
主权项 | 一种主题知识自增长型聚焦网络爬虫搜索方法,其特征在于,该方法步骤如下:(1)从初始的URL中获取网页;(2)对(1)步网页中主题相关度进行评估,结合其相关度数值,从网页内容中抽取知识进行主题知识扩展;(3)从(1)步网页中抽取URL并结合(2)步的网页主题相关度进行URL评估;(4)将(3)步URL及其评估结果存入候选队列,下一轮爬取时,从候选队列中取出相关度最高的URL进行爬取;在上述步骤所用的主题表示模型中,每个主题知识由一个三元组<I, E, C>描述,I是一组与主题直接相关的关键词构成的集合,E是与主题相悖的关键词构成的集合,C为与主题间接相关的关键词构成的特征向量,C中每个关键词的特征值,表示关键词与主题相关的程度。 | ||
地址 | 410128 湖南省长沙市芙蓉区农大路1号 |