发明名称 基于网页质量的静态索引剪枝方法
摘要 本发明公开了一种基于网页质量的静态索引剪枝方法,涉及互联网搜索引擎技术领域,包括:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度;S2:根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。本发明大大减少了倒排索引文件的大小,提升了网页检索的速度。
申请公布号 CN102521313A 申请公布日期 2012.06.27
申请号 CN201110393942.7 申请日期 2011.12.01
申请人 北京大学 发明人 闫宏飞;单栋栋;张旭东;李晓明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种基于网页质量的静态索引剪枝方法,其特征在于,包括以下步骤:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;S2:根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。
地址 100871 北京市海淀区颐和园路5号