发明名称 一种根据实体的汉语简称识别汉语全称的方法及系统
摘要 本发明公开了一种根据实体的汉语简称识别汉语全称的方法,包括输入待识别缩略语;读入常用词条库;根据待识别缩略语,从所述的常用词条库中筛选出候选原语集合;利用多路优先级函数组合对候选原语集合进行筛选;计算候选原语的优先级,保留优先级较高的候选原语;找出匹配次数最多、优先级最高的一条或几条候选原语作为最终结果。本发明还公开了一种根据实体的汉语简称识别汉语全称的系统,包括输入模块、常用词条库、候选原语产生模块以及候选原语筛选模块。本发明无需借助上下文即可实现对汉语缩略语的识别和理解;方便了用户的检索,提高了自然语言理解和信息检索的准确率。
申请公布号 CN101093478B 申请公布日期 2010.06.02
申请号 CN200710119513.4 申请日期 2007.07.25
申请人 中国科学院计算技术研究所 发明人 卢汉;曹存根;岳小莉
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 高存秀
主权项 一种根据实体的汉语简称识别汉语全称的方法,包括:步骤1)、输入待识别缩略语;步骤2)、读入常用词条库,所述的常用词条库包含常用词语和该词语的词频统计信息;步骤3)、根据待识别缩略语,从所述的常用词条库中筛选出同时满足第一优先级函数和第二优先级函数要求的候选原语集合;所述第一优先级函数是指除数合式和部分特殊形式的缩略语外,其他各类缩略语中的每个汉字都来自原语,其中,所述的数合式是指原语并列成分项数和有代表的共同语素组合形成的缩略语;所述的第二优先级函数是指缩略语中每个出现汉字保持它们在全称中的语序;步骤4)、根据所述候选原语集合的规模、词频统计信息及结构特征信息,选择至少一路优先级函数组合,利用所述的优先级函数组合对所述候选原语集合进行筛选,每一路优先级函数组合得到一组对应的候选原语筛选结果;其中,所述的优先级函数组合是指从第三优先级函数、第四优先级函数、第五优先级函数、第六优先级函数、第七优先级函数、第八优先级函数、第九优先级函数、第十优先级函数中选择一个以上的优先级函数进行组合;所述的第三优先级函数是指候选原语集合中,长度较短接近缩略语长度时,优先成为缩略语对应的原语;所述的第四优先级函数是指候选原语集合中,缩略语覆盖分词率较高的优先;所述的第五优先级函数是指候选原语集合中,至少有一个是分词采取抽取首字形式出现在缩略语的优先;所述的第六优先级函数是指候选原语集合中,同时出现整体概念和部分概念的,整体概念优先;所述的第七优先级函数是指原语中的如果存在特指成分,则该特指成分必然被抽取到缩略语中;其中,所述的特指成分是原语中必须被保留的分词或分词中的字;所述的第八优先级函数是指候选原语集合中,词频高的优先;所述的第九优先级函数是指如果新的缩略语中包含已有的缩略语作为一个完整分词,则新的缩略语所对应的原语也包含此已有缩略语或它所对应的原语;所述的第十优先级函数是指候选原语集合中,包含区别词较少的候选原语优先;其中,所述的区别词是指候选原语中未被缩略语所覆盖且出现在不同候选原语中的分词;步骤5)、在每一组候选原语筛选结果中计算候选原语的优先级,根据所述优先级的大小对所述候选原语排序,并保留优先级较高的候选原语;步骤6)、对各组候选原语筛选结果中所保留的优先级较高的候选原语进行统计和排序,找出匹配次数最多、优先级最高的一条或几条作为最终结果。
地址 100080 北京市海淀区中关村科学院南路6号