发明名称 | 基于本体的主题式网络爬虫系统构建方法 | ||
摘要 | 本发明公开了一种基于本体的主题式网络爬虫系统构建方法,该方法包括以下步骤:(1)解析Web页面;(2)预处理当前页面的文本信息得到单词层信息;(3)把单词层信息转化为本体信息;(4)计算页面的主题相关度;(5)主题相关度大于设定值则提取当前所有出链接所指向的URL,否则转至步骤(7);(6)如果所指向URL已被访问过,则提取下一链接;否则按照该链接所在页面的主题相关度大小插入优先等待访问队列;(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。本发明的优点是结果准确率高且计算以及存储开销较小。 | ||
申请公布号 | CN100392658C | 申请公布日期 | 2008.06.04 |
申请号 | CN200610040742.2 | 申请日期 | 2006.05.30 |
申请人 | 南京大学 | 发明人 | 高阳;苏畅 |
分类号 | G06F17/30(2006.01) | 主分类号 | G06F17/30(2006.01) |
代理机构 | 南京苏高专利商标事务所 | 代理人 | 柏尚春 |
主权项 | 1.一种基于本体的主题式网络爬虫系统构建方法,包括下列步骤:(1)对当前Web页面进行解析,其特征在于该方法还包括下列步骤:(2)将当前页面的文本信息进行预处理得到单词层信息;(3)通过本体管理系统把单词层信息转化为本体信息;(4)把得到的本体信息结合本体库计算页面的主题相关度;(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL,否则转而执行步骤(7);(6)如果该链接所指向URL已被访问过,则提取下一链接;如果该URL未被访问,则按照该链接所在页面的主题相关度大小插入优先等待访问队列;(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。 | ||
地址 | 210093江苏省南京市汉口路22号 |