发明名称 一种基于共同点击的词条权重确定方法及装置
摘要 本发明实施例提供了一种基于共同点击的词条权重确定方法及装置,首先基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入语句query集合;对所述query集合中每一个query进行分词,得到多个基础词条term;统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。该方法及装置可以准确获取基于共同点击的词条权重,对于输入语句query的核心词提取,以及文档排序均起到了重要作用,克服了现有TF-IDF技术的缺点,进而提高了搜索结果的准确性。
申请公布号 CN104361115A 申请公布日期 2015.02.18
申请号 CN201410718382.1 申请日期 2014.12.01
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 邹启波;周连强
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中强智尚知识产权代理有限公司 11448 代理人 姜精斌;王书彪
主权项 一种基于共同点击的词条权重确定方法,其特征在于,包括:基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入语句query集合;对所述query集合中每一个query进行分词,得到多个基础词条term;统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)