发明名称 |
从文本中抽取关键词的方法和装置 |
摘要 |
本发明提供一种从文本中抽取关键词的方法和装置。其中,从文本中抽取关键词的方法包括:对文本进行分词处理;为分词处理获得的词语标注语义类编号;以所述语义类编号作为节点,组成同义词网络;从所述同义词网络中选择节点作为关键词。采用本发明提供的从文本中抽取关键词的方法和装置,能够提高抽取关键词的效率。 |
申请公布号 |
CN103473217B |
申请公布日期 |
2016.08.03 |
申请号 |
CN201210187676.7 |
申请日期 |
2012.06.08 |
申请人 |
华为技术有限公司;北京邮电大学 |
发明人 |
刘建毅;刘正阳;谭银燕 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种从文本中抽取关键词的方法,其特征在于,包括:对文本进行分词处理;为分词处理获得的词语标注语义类编号;以所述语义类编号作为节点,组成同义词网络;从所述同义词网络中选择节点作为关键词;所述以所述语义类编号作为节点,组成同义词网络包括:按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语;获取所述目标词语的词频信息和出现位置信息;判断同义词网络中是否存在所述目标词语的语义类编号构成的节点;如果存在,更新同义词网络中的所述目标词语的语义类编号构成节点的词频信息和出现位置信息;如果不存在,将所述目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息;判断所述分词处理获得的词语中是否存在未读取的词语;如果不存在,为所述同义词网络中的节点建立无向连接;如果存在,返回所述按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语的步骤。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |