发明名称 一种基于权值提取网页摘要的方法和装置
摘要 本发明公开了一种基于权值提取网页摘要的方法,该方法包括:获取提取摘要所需的一个或多个匹配词;从网页的网页文本中查找出各匹配词;基于各匹配词的位置从该网页的网页文本中提取多个文本段;分别计算所述多个文本段各自的综合权值,选取综合权值最高的一段文本作为该网页的摘要。本发明提供的技术方案基于匹配词提取摘要,将摘要与查询进行关联,并采用权值计算找到最符合要求的摘要,克服了现有技术中摘要独立于查询的问题,在用户进行搜索时,为用户提供更加直观、准确、关联性强的搜索摘要,使用户可以快速有效地找到需要的网页,满足搜索需求。
申请公布号 CN105808562A 申请公布日期 2016.07.27
申请号 CN201410843434.8 申请日期 2014.12.30
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 雷鹏;文维东
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市隆安律师事务所 11323 代理人 权鲜枝;何立春
主权项 一种基于权值提取网页摘要的方法,其中,该方法包括:获取提取摘要所需的一个或多个匹配词;从网页的网页文本中查找出各匹配词;基于各匹配词的位置从该网页的网页文本中提取多个文本段;分别计算所述多个文本段各自的综合权值,选取综合权值最高的一段文本作为该网页的摘要。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)