发明名称 |
关键词提取方法及装置 |
摘要 |
本发明公开了一种关键词提取方法及装置。该方法包括:提供一领域内的语料数据,语料数据包括多个文档;对语料数据进行预处理,得到文本数据;对文本数据进行分词处理,得到多个语料词语;对语料词语进行过滤处理,得到多个候选词;为每个候选词设置初始权重值;根据候选词在每个文档中的共现关系调整候选词的初始权重值,得到候选词在每个文档中的最终权重值;根据最终权重值确定每个文档的关键词。借助于本发明的技术方案,能够准确提取某一领域中语料的关键词。 |
申请公布号 |
CN105426361A |
申请公布日期 |
2016.03.23 |
申请号 |
CN201510874564.2 |
申请日期 |
2015.12.02 |
申请人 |
上海智臻智能网络科技股份有限公司 |
发明人 |
张昊;朱频频 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
工业和信息化部电子专利中心 11010 |
代理人 |
秦莹 |
主权项 |
一种关键词提取方法,其特征在于,包括:提供一领域内的语料数据,所述语料数据包括多个文档;对所述语料数据进行预处理,得到文本数据;对所述文本数据进行分词处理,得到多个语料词语;对所述语料词语进行过滤处理,得到多个候选词;为每个所述候选词设置初始权重值;根据候选词在每个文档中的共现关系调整所述候选词的初始权重值,得到候选词在每个文档中的最终权重值;根据所述最终权重值确定每个文档的关键词。 |
地址 |
201803 上海市嘉定区金沙江西路1555弄398号7层 |