发明名称 识别技术文件中关键词的方法及系统
摘要 本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。
申请公布号 CN103646058A 申请公布日期 2014.03.19
申请号 CN201310629883.8 申请日期 2013.11.29
申请人 北京广利核系统工程有限公司;中国广核集团有限公司 发明人 刘邦信;赵云飞;张亚栋;龙威
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京元中知识产权代理有限责任公司 11223 代理人 王明霞
主权项 一种识别技术文件中关键词的方法,包括以下步骤:S100、对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表;S200、对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;S300、去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
地址 100094 北京市海淀区永丰路5号院5号楼