发明名称 |
一种基于主题网络爬虫的搜索方法及装置 |
摘要 |
本发明公开了一种基于主题网络爬虫的搜索方法及装置,所述方法包括:从与给定搜索主题相关的网页地址集中提取一个网页地址;获取所述网页地址对应的有效网页;对所述有效网页进行分析,得到有效网页内容;计算所述有效网页与搜索主题在语义上的相关度,即立即价值,并将符合预设条件的有效网页及包含的网页链接添加到页面数据库;对于不符合预设条件的有效网页,计算网页链接相对于所述搜索主题的链接价值,即未来回报价值,并将符合条件的网页链接添加到网页地址集中。本发明实施例通过计算不满足条件的网页链接的未来回报价值,来预测主题网络爬虫的搜索方向,从而避免了主题网络爬虫对无关网页的抓取,提高了主题网络爬虫抓取网页的准确性。 |
申请公布号 |
CN103714140A |
申请公布日期 |
2014.04.09 |
申请号 |
CN201310716763.1 |
申请日期 |
2013.12.23 |
申请人 |
北京锐安科技有限公司 |
发明人 |
刘雄伟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
胡彬 |
主权项 |
一种基于主题网络爬虫的搜索方法,其特征在于,所述方法包括:从与给定搜索主题相关的网页地址集中提取一个网页地址;获取所述网页地址对应的有效网页;对所述有效网页进行分析,得到有效网页内容;根据所述有效网页内容,计算所述有效网页与所述搜索主题在语义上的相关度,作为所述有效网页的立即价值,当所述有效网页的立即价值符合第一预设条件时,将所述有效网页及包含的网页链接作为搜索结果添加到页面数据库;当所述有效网页的立即价值不符合第一预设条件时,计算所述有效网页中的网页链接相对于所述搜索主题的链接价值,作为所述网页链接的未来回报价值,当所述网页链接的未来回报价值符合第二预设条件时,将所述网页链接添加到所述网页地址集中。 |
地址 |
100044 北京市海淀区中关村南大街乙56方圆大厦9层 |