发明名称 基于本体的主题式网络爬虫系统构建方法
摘要 本发明公开了一种基于本体的主题式网络爬虫系统构建方法,该方法包括以下步骤:(1)解析Web页面;(2)预处理当前页面的文本信息得到单词层信息;(3)把单词层信息转化为本体信息;(4)计算页面的主题相关度;(5)主题相关度大于设定值则提取当前所有出链接所指向的URL,否则转至步骤(7);(6)如果所指向URL已被访问过,则提取下一链接;否则按照该链接所在页面的主题相关度大小插入优先等待访问队列;(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。本发明的优点是结果准确率高且计算以及存储开销较小。
申请公布号 CN100392658C 申请公布日期 2008.06.04
申请号 CN200610040742.2 申请日期 2006.05.30
申请人 南京大学 发明人 高阳;苏畅
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 南京苏高专利商标事务所 代理人 柏尚春
主权项 1.一种基于本体的主题式网络爬虫系统构建方法,包括下列步骤:(1)对当前Web页面进行解析,其特征在于该方法还包括下列步骤:(2)将当前页面的文本信息进行预处理得到单词层信息;(3)通过本体管理系统把单词层信息转化为本体信息;(4)把得到的本体信息结合本体库计算页面的主题相关度;(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL,否则转而执行步骤(7);(6)如果该链接所指向URL已被访问过,则提取下一链接;如果该URL未被访问,则按照该链接所在页面的主题相关度大小插入优先等待访问队列;(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。
地址 210093江苏省南京市汉口路22号