发明名称 主题词条获取方法及其装置
摘要 本发明提供了一种主题词条的获取方法及其装置,所述方法包括:S1、从用户搜索日志中获取搜索关键词;S2、将指向某一实体的名词或者短语作为中心词集合;S3、将描述实体某一方面特性的词或者短语作为标记词集合;S4、利用所述中心词集合和标记词集合中的词条组成“中心词+标记词”形式的词条作为候选主题词条集合,并对其进行过滤,得到主题词条集合,所述对候选主题词条集合进行过滤具体包括:判断该词条是否在搜索关键词中出现,去掉在搜索关键词中没有出现的词条。相较于现有技术,本发明在得到主题词条时,不需要人工编辑,其结果偏差小,准确性高。
申请公布号 CN102521263A 申请公布日期 2012.06.27
申请号 CN201110371639.7 申请日期 2011.11.21
申请人 北京百度网讯科技有限公司 发明人 薛永刚;李连华;廖锐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人 何青瓦;李庆波
主权项 一种主题词条获取方法,其特征在于,包括:S1、从用户搜索日志中获取搜索关键词;S2、将指向某一实体的名词或者短语作为中心词集合;S3、将描述实体某一方面特性的词或者短语作为标记词集合;S4、利用所述中心词集合和标记词集合中的词条组成“中心词+标记词”形式的词条作为候选主题词条集合,并对所述候选主题词条集合进行过滤,得到主题词条集合,所述对候选主题词条集合进行过滤具体包括:判断该词条是否在搜索关键词中出现,去掉在搜索关键词中没有出现的词条。
地址 100085 北京市海淀区上地十街10号百度大厦2层