发明名称 一种网页的垂直搜索方法
摘要 本发明公开了一种网页的垂直搜索方法,涉及垂直搜索领域,所述方法包括:获取root集和base集;初始化所述base集的入链权重和出链权重;获取所述base集中所有页面链接的入链网页权重和出链网页权重;获取所述base集中页面的主题相似性和页面的站点权重;根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得可以获取到更符合实际需要的网页,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
申请公布号 CN101807213A 申请公布日期 2010.08.18
申请号 CN201010168867.X 申请日期 2010.05.11
申请人 天津大学 发明人 孙越恒;门瑞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 温国林
主权项 一种网页的垂直搜索方法,其特征在于,所述方法包括以下步骤:1:获取root集和base集;2:初始化所述base集的入链权重和出链权重;3:获取所述base集中所有页面链接的入链网页权重和出链网页权重;4:获取所述base集中页面的主题相似性和页面的站点权重;5:根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。
地址 300072 天津市南开区卫津路72号