发明名称 | 识别技术文件中关键词的方法及系统 | ||
摘要 | 本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。 | ||
申请公布号 | CN103646058A | 申请公布日期 | 2014.03.19 |
申请号 | CN201310629883.8 | 申请日期 | 2013.11.29 |
申请人 | 北京广利核系统工程有限公司;中国广核集团有限公司 | 发明人 | 刘邦信;赵云飞;张亚栋;龙威 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京元中知识产权代理有限责任公司 11223 | 代理人 | 王明霞 |
主权项 | 一种识别技术文件中关键词的方法,包括以下步骤:S100、对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表;S200、对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;S300、去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。 | ||
地址 | 100094 北京市海淀区永丰路5号院5号楼 |