发明名称 |
一种基于共同点击的词条权重确定方法及装置 |
摘要 |
本发明实施例提供了一种基于共同点击的词条权重确定方法及装置,首先基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入语句query集合;对所述query集合中每一个query进行分词,得到多个基础词条term;统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。该方法及装置可以准确获取基于共同点击的词条权重,对于输入语句query的核心词提取,以及文档排序均起到了重要作用,克服了现有TF-IDF技术的缺点,进而提高了搜索结果的准确性。 |
申请公布号 |
CN104361115A |
申请公布日期 |
2015.02.18 |
申请号 |
CN201410718382.1 |
申请日期 |
2014.12.01 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
邹启波;周连强 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中强智尚知识产权代理有限公司 11448 |
代理人 |
姜精斌;王书彪 |
主权项 |
一种基于共同点击的词条权重确定方法,其特征在于,包括:基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入语句query集合;对所述query集合中每一个query进行分词,得到多个基础词条term;统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |