主权项 |
一种中文命名实体识别歧义消解方法,其特征是该方法包括以下步骤:(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数;(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N‑BEST最佳标记序列,也就是选出观测序列x的N个概率最大的标记序列;(3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤4;如果一致,则不用进行歧义消解,直接得到最终的标记序列;(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列xs,采用基于改进的贪婪算法进行歧义消解,得到最终的标记序列。 |