发明名称 | 基于网页质量的静态索引剪枝方法 | ||
摘要 | 本发明公开了一种基于网页质量的静态索引剪枝方法,涉及互联网搜索引擎技术领域,包括:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度;S2:根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。本发明大大减少了倒排索引文件的大小,提升了网页检索的速度。 | ||
申请公布号 | CN102521313A | 申请公布日期 | 2012.06.27 |
申请号 | CN201110393942.7 | 申请日期 | 2011.12.01 |
申请人 | 北京大学 | 发明人 | 闫宏飞;单栋栋;张旭东;李晓明 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京路浩知识产权代理有限公司 11002 | 代理人 | 王莹 |
主权项 | 一种基于网页质量的静态索引剪枝方法,其特征在于,包括以下步骤:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;S2:根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。 | ||
地址 | 100871 北京市海淀区颐和园路5号 |