发明名称 网络搜索中的基于链接层次分类的主题爬取方法
摘要 本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。
申请公布号 CN100461184C 申请公布日期 2009.02.11
申请号 CN200710118591.2 申请日期 2007.07.10
申请人 北京大学 发明人 张铭;周毅;江云亮
分类号 G06F17/30(2006.01);H04L29/06(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京君尚知识产权代理事务所 代理人 余功勋
主权项 1.网络搜索中的基于链接层次分类的主题爬取方法,其特征在于包括以下步骤:(1)构造训练集:选定一个相关主题的网站,爬取该网站下的所有网页并保留网页间的互连关系;标注该网站下的若干主题网页,从标注的该网站下的主题网页出发,根据不同链接所属层次不同构造由链接组成的若干类构成的训练集,其中相同层次的链接归为一个类;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新提取的链接,根据训练集进行分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的URL放入待爬队列中,跳到第(3)步;其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。
地址 100871北京市海淀区颐和园路5号