发明名称 |
获取关键词的方法及装置 |
摘要 |
本发明公开了一种获取关键词的方法及装置。该方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。由此,能够从文本信息中准确提取出关键词。 |
申请公布号 |
CN105302882A |
申请公布日期 |
2016.02.03 |
申请号 |
CN201510666887.2 |
申请日期 |
2015.10.14 |
申请人 |
东软集团股份有限公司 |
发明人 |
赵大哲;栗伟;周庆华;王军搏;任福龙;耿欢 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京英创嘉友知识产权代理事务所(普通合伙) 11447 |
代理人 |
南毅宁;桑传标 |
主权项 |
一种获取关键词的方法,其特征在于,所述方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。 |
地址 |
110179 辽宁省沈阳市浑南新区新秀街2号 |