发明名称 |
目标文本主题词的选取方法、装置及终端 |
摘要 |
本发明实施例公开了目标文本主题词的选取方法、装置及终端。一种目标文本主题词的选取方法,包括:对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。本发明实施例提供的技术方案,提供了将短语选择为主题词的可能性,有利于提高目标文本主题词选取的准确性。 |
申请公布号 |
CN105159927A |
申请公布日期 |
2015.12.16 |
申请号 |
CN201510472798.4 |
申请日期 |
2015.08.04 |
申请人 |
北京金山安全软件有限公司 |
发明人 |
陈欣荣 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州三环专利代理有限公司 44202 |
代理人 |
郝传鑫;熊永强 |
主权项 |
一种目标文本主题词的选取方法,其特征在于,包括:对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。 |
地址 |
100085 北京市海淀区小营西路33号二层东区 |