发明名称 一种基于主题网络爬虫的搜索方法及装置
摘要 本发明公开了一种基于主题网络爬虫的搜索方法及装置,所述方法包括:从与给定搜索主题相关的网页地址集中提取一个网页地址;获取所述网页地址对应的有效网页;对所述有效网页进行分析,得到有效网页内容;计算所述有效网页与搜索主题在语义上的相关度,即立即价值,并将符合预设条件的有效网页及包含的网页链接添加到页面数据库;对于不符合预设条件的有效网页,计算网页链接相对于所述搜索主题的链接价值,即未来回报价值,并将符合条件的网页链接添加到网页地址集中。本发明实施例通过计算不满足条件的网页链接的未来回报价值,来预测主题网络爬虫的搜索方向,从而避免了主题网络爬虫对无关网页的抓取,提高了主题网络爬虫抓取网页的准确性。
申请公布号 CN103714140A 申请公布日期 2014.04.09
申请号 CN201310716763.1 申请日期 2013.12.23
申请人 北京锐安科技有限公司 发明人 刘雄伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京品源专利代理有限公司 11332 代理人 胡彬
主权项 一种基于主题网络爬虫的搜索方法,其特征在于,所述方法包括:从与给定搜索主题相关的网页地址集中提取一个网页地址;获取所述网页地址对应的有效网页;对所述有效网页进行分析,得到有效网页内容;根据所述有效网页内容,计算所述有效网页与所述搜索主题在语义上的相关度,作为所述有效网页的立即价值,当所述有效网页的立即价值符合第一预设条件时,将所述有效网页及包含的网页链接作为搜索结果添加到页面数据库;当所述有效网页的立即价值不符合第一预设条件时,计算所述有效网页中的网页链接相对于所述搜索主题的链接价值,作为所述网页链接的未来回报价值,当所述网页链接的未来回报价值符合第二预设条件时,将所述网页链接添加到所述网页地址集中。
地址 100044 北京市海淀区中关村南大街乙56方圆大厦9层