发明名称 中文命名实体中特征词项的识别方法和系统
摘要 本发明提供一种中文命名实体中特征词项的识别方法,包括:对待识别的命名实体进行分词操作,得到候选命名实体;对候选命名实体进行初步处理,得到第一计算结果;根据候选命名实体和第一计算结果建立词典,根据第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;参考词典库,对第一计算结果多次做复合处理,每一次复合处理后,根据处理结果扩充词典库,在下一次复合处理时,所参考的词典库为扩充后的词典库;根据多次复合处理后的结果得到所识别的特征词项。本发明还提供了一种中文命名实体中特征词项的识别系统。本发明无需借助上下文,即可实现对中文命名实体中特征词项的识别和理解,提高了自然语言理解和信息检索的准确率。
申请公布号 CN101118538B 申请公布日期 2010.12.15
申请号 CN200710121868.7 申请日期 2007.09.17
申请人 中国科学院计算技术研究所 发明人 曹馨宇;曹存根;岳小莉
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种中文命名实体中特征词项的识别方法,包括:步骤1)、对待识别的命名实体进行分词操作,得到候选命名实体;步骤2)、对所述的候选命名实体进行用于复合连续单字的初步处理,得到第一计算结果;步骤3)、根据所述的候选命名实体和所述的第一计算结果建立词典,根据所述的第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;步骤4)、参考所述的词典库,对所述的第一计算结果至少做一次复合处理,每一次复合处理后,根据处理结果扩充所述词典库,在下一次复合处理时,所参考的词典库为扩充后的词典库;所述的复合处理包括:对所述的候选命名实体分别运行包括第二计算过程、第三计算过程、第四计算过程、第五计算过程、第六计算过程、第七计算过程、第八计算过程和第九计算过程在内的多个计算过程,在运行其中一个计算过程时,对所述候选命名实体中的每个单字得到一个左权重值或右权重值或左右复合权重值,将每个单字在所述多个计算过程中所得到的所有左权重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断单字的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理的结果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合处理的结果为左权重和与右权重和中值较大的一个;其中,所述的第二计算过程包括根据所述候选命名实体中的单字的词性,为所述单字设置向左复合、向右复合或左右复合的权重;所述的第三计算过程包括当候选命名实体中的单字与其临近的词或特征词项复合后的结果存在于所述词典中时,将复合后的结果认为是特征词项;所述的第四计算过程包括当候选命名实体中的单字与其临近的词或特征词项复合后的结果不存在于所述词典中时,从词典中寻找与复合后的特征词项类似的特征词项;所述的第五计算过程包括对候选命名实体中的某一单字,在所述词典中所有包含该单字的特征词项中,比较单字出现在开头或结尾的次数,根据所述次数的多少增加单字的左权重或右权重;所述的第六计算过程包括将候选命名实体中某个单字与其左面的词或特征词项复合形成第一特征词项,再将单字与其右面的词或特征词项复合得到第二特征词项,分别选择第一特征词项的结尾和第二特征词项的开头;若所述开头或结尾均在词典中存在,则比较两者在词典中的词频,若所述开头的词频大于所述结尾的词频或词典中只有开头存在,则增加单字的左权重;若所述结尾的词频大于所述开头的词频或词典中只有结尾存在,则增加单字的右权重;所述的第七计算过程包括对候选命名实体中的单字,比较与该单字临近的词或特征词项的词频,增加所述单字与词频低的词或特征词项间的权重;所述的第八计算过程包括对候选命名实体中某个单字左边的词或特征词项,将词典中所有以此词或特征词项开头的各个特征词项的词频相加;对于其右面的词或特征词项,将词典中所有以此词或特征词项结尾的各个特征词项的词频相加;比较两次相加的结果,为单字增加与词频高的词或特征词项间的权重;所述的第九计算过程包括对于候选命名实体中的某个单字,在所述词境词典中,寻找与所述单字对应的条目,在所述条目中,若所述单字左面的词或特征词项的词频大于所述单字右面的词或特征词项的词频,则增加单字的左权重,若所述单字左面的词或特征词项的词频小于所述单字右面的词或特征词项的词频,则增加单字的右权重;步骤5)、根据复合处理后的结果得到所识别的特征词项。
地址 100080 北京市海淀区中关村科学院南路6号