网络搜索中的基于链接层次分类的主题爬取方法,申请号CN200710118591.2-传众专利搜索

发明名称	网络搜索中的基于链接层次分类的主题爬取方法
摘要	本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤：(1)构造训练集；(2)将种子网页加入待爬队列；(3)爬取待爬队列中所有URL，解析新爬取下的网页，提取出所有的链接；(4)对于每一个新的链接根据训练集分类，然后根据所属的链接类别确定该链接的优先级，将其URL加入相应的优先队列；(5)按照顺序查看优先队列，取优先级最高的非空队列中的所有URL放入待爬队列中，跳到第(3)步，其它队列保持不变；(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性，在深层次网页拓扑上展开分析和爬取。
申请公布号	CN100461184C	申请公布日期	2009.02.11
申请号	CN200710118591.2	申请日期	2007.07.10
申请人	北京大学	发明人	张铭;周毅;江云亮
分类号	G06F17/30(2006.01);H04L29/06(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	北京君尚知识产权代理事务所	代理人	余功勋
主权项	1.网络搜索中的基于链接层次分类的主题爬取方法，其特征在于包括以下步骤：(1)构造训练集：选定一个相关主题的网站，爬取该网站下的所有网页并保留网页间的互连关系；标注该网站下的若干主题网页，从标注的该网站下的主题网页出发，根据不同链接所属层次不同构造由链接组成的若干类构成的训练集，其中相同层次的链接归为一个类；(2)将种子网页加入待爬队列；(3)爬取待爬队列中所有URL，解析新爬取下的网页，提取出所有的链接；(4)对于每一个新提取的链接，根据训练集进行分类，然后根据所属的链接类别确定该链接的优先级，将其URL加入相应的优先队列；(5)按照顺序查看优先队列，取优先级最高的非空队列中的URL放入待爬队列中，跳到第(3)步；其它队列保持不变；(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。
地址	100871北京市海淀区颐和园路5号