发明名称 |
主题词条获取方法及其装置 |
摘要 |
本发明提供了一种主题词条的获取方法及其装置,所述方法包括:S1、从用户搜索日志中获取搜索关键词;S2、将指向某一实体的名词或者短语作为中心词集合;S3、将描述实体某一方面特性的词或者短语作为标记词集合;S4、利用所述中心词集合和标记词集合中的词条组成“中心词+标记词”形式的词条作为候选主题词条集合,并对其进行过滤,得到主题词条集合,所述对候选主题词条集合进行过滤具体包括:判断该词条是否在搜索关键词中出现,去掉在搜索关键词中没有出现的词条。相较于现有技术,本发明在得到主题词条时,不需要人工编辑,其结果偏差小,准确性高。 |
申请公布号 |
CN102521263B |
申请公布日期 |
2016.03.30 |
申请号 |
CN201110371639.7 |
申请日期 |
2011.11.21 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
薛永刚;李连华;廖锐 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种主题词条获取方法,其特征在于,包括:S1、从用户搜索日志中获取搜索关键词;S2、将指向某一实体的名词或者短语作为中心词集合;S3、将描述实体某一方面特性的词或者短语作为标记词集合;S4、利用所述中心词集合和标记词集合中的词条组成“中心词+标记词”形式的词条作为候选主题词条集合,并对所述候选主题词条集合进行过滤,得到主题词条集合,所述对候选主题词条集合进行过滤具体包括:判断该词条是否在搜索关键词中出现,去掉在搜索关键词中没有出现的词条。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |