一种基于URL字符串信息学的主题爬虫系统的实现方法,申请号CN201210052902.0-传众专利搜索

发明名称	一种基于URL字符串信息学的主题爬虫系统的实现方法
摘要	本发明公开一种基于URL字符串信息学的主题爬虫系统的实现方法，首先，改进了传统的主题爬虫的相关度判断方法，提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法，并采用机器学对URL字符串携带的信息不断学，动态的更新主题相关向量，提高了目标URL主题相关度判断的准确性。最后，在不增加计算复杂度的同时，利用内容分析和链接分析相结合的爬虫策略，防止了主题爬虫陷入局部最优，提高了爬虫爬取时的全局性，改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。
申请公布号	CN102662954A	申请公布日期	2012.09.12
申请号	CN201210052902.0	申请日期	2012.03.02
申请人	杭州电子科技大学	发明人	徐向华;任祖杰;万健;殷昱煜;胡昔祥
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	杜军
主权项	一种基于URL字符串信息学习的主题爬虫系统的实现方法，其特征在于：基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度，采用机器学习对URL字符串携带的信息不断学习，动态的更新主题相关向量，利用内容分析和链接分析相结合的爬虫策略；其具体步骤为：步骤1.选择种子URL：依据给定的主题，结合机器学习和人工选择，选定与主题相关的K个网页的URL作为种子URL，网页下载器从选定的种子URL开始下载网页；步骤2.分析下载页面：网页分析器对下载的网页内容和链接进行分析，提取网页的URL字符串信息、网页内容、锚信息；步骤3.主题相关度计算：根据URL字符串信息、网页内容、锚信息进行主题相关度计算；步骤4.过滤不相关网页：根据主题相关度，把低于主题相关度某个阀值的URL过滤掉；步骤5.URL字符串信息学习：URL字符串信息学习的基本过程是，先从给定网页的URL中得到一个训练数据集；URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习，得到一个主题知识库，主题知识库去指导URL主题相关度的计算，URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习，经过URL字符串信息学习后，再去更新主题知识库，以便进一步学习，改进系统的性能；步骤6.确定待下载的URL队列：采用内容分析与链接分析相结合的爬虫策略，得出一个待下载的具有优先级的URL队列。
地址	310018 浙江省杭州市下沙高教园区2号大街