发明名称 一种筛选网页上链接的方法和装置
摘要 本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。
申请公布号 CN101650715B 申请公布日期 2011.06.29
申请号 CN200810071574.2 申请日期 2008.08.12
申请人 厦门市美亚柏科信息股份有限公司 发明人 陈奋;腾达;吴鸿伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种筛选网页上链接的方法,其特征在于,包括:从搜索任务网站的首页及部分相关页面中提取链接;拆分所述链接为域名部分和相对路径部分;以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;将所述链接矩阵转换为数值矩阵;通过智能算法,将所述数值矩阵的行按不同类别分组;根据所述分组的行数目,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。
地址 361008 福建省厦门市软件园二期观日路12号楼102-402