发明名称 |
文本关键词提取方法及系统 |
摘要 |
本发明公开了一种文本关键词提取方法,包括以下步骤:S1:获取当前文本中所有词语的相关性权重值;S2:通过词语的词性对所有词语的相关性权重值进行折扣处理,得到新的相关性权重值,按照新的相关性权重值由大至小排序;S3:提取排序后的前N个词语作为文本关键词,使关键词提取不受文本结构限制,提高关键词提取准确率及速度,降低提取复杂度,并通过依赖关系值的计算,可在提取关键词的基础上提取准确的关键短语。本发明还公开了一种文本关键词提取系统,包括:权重值获取模块、折扣排序模块和关键词提取模块。 |
申请公布号 |
CN102033919A |
申请公布日期 |
2011.04.27 |
申请号 |
CN201010584051.5 |
申请日期 |
2010.12.07 |
申请人 |
北京新媒传信科技有限公司 |
发明人 |
牟小峰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
王莹 |
主权项 |
一种文本关键词提取方法,其特征在于,包括以下步骤:S1:获取当前文本中所有词语的相关性权重值;S2:通过词语的词性对所有词语的相关性权重值进行折扣处理,得到新的相关性权重值,按照新的相关性权重值由大至小排序;S3:提取排序后的前N个词语作为文本关键词。 |
地址 |
100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层 |