发明名称 一种中文命名实体识别歧义消解方法
摘要 一种中文命名实体识别歧义消解方法,属于命名实体抽取领域,该方法包括以下步骤:(1)首先本发明采用特征归纳法来减少特征个数,即通过训练学让其分类器自动去选择有意义的特征。(2)在选取特征后,通过Viterbi算法从CRF模型学中选择N-BEST最佳标记序列,也就是选出观测序列的N个概率最大的标记序列。(3)考虑中文命名实体出现的频率及其词长,该方法采用改进的贪婪算法进行歧义消解,从而得到实体标记序列。
申请公布号 CN102314507A 申请公布日期 2012.01.11
申请号 CN201110265457.1 申请日期 2011.09.08
申请人 北京航空航天大学 发明人 王理;潘守慧;邓卫国;王思远;于珊;施慧斌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种中文命名实体识别歧义消解方法,其特征是该方法包括以下步骤:(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数;(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N‑BEST最佳标记序列,也就是选出观测序列x的N个概率最大的标记序列;(3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤4;如果一致,则不用进行歧义消解,直接得到最终的标记序列;(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列xs,采用基于改进的贪婪算法进行歧义消解,得到最终的标记序列。
地址 100191 北京市海淀区学院路37号