发明名称 一种中文命名实体识别歧义消解方法
摘要 一种中文命名实体识别歧义消解方法,属于命名实体抽取领域,该方法包括以下步骤:(1)首先本发明采用特征归纳法来减少特征个数,即通过训练学让其分类器自动去选择有意义的特征。(2)在选取特征后,通过Viterbi算法从CRF模型学中选择N-BEST最佳标记序列,也就是选出观测序列的N个概率最大的标记序列。(3)考虑中文命名实体出现的频率及其词长,该方法采用改进的贪婪算法进行歧义消解,从而得到实体标记序列。
申请公布号 CN102314507B 申请公布日期 2013.07.03
申请号 CN201110265457.1 申请日期 2011.09.08
申请人 北京航空航天大学 发明人 王理;潘守慧;邓卫国;王思远;于珊;施慧斌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种中文命名实体识别歧义消解方法,其特征是该方法包括以下步骤: (1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数; (2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N-BEST最佳标记序列,即选出观测序列x的N个概率最大的标记序列; (3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤4;如果一致,则不用进行歧义消解,直接得到最终的标记序列; (4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列x<sub>s</sub>,采用基于改进的贪婪算法进行歧义消解,得到最终的标记序列;其中,步骤(1)实现过程为: ①考虑一组最新提供的特征,包括原子特征和组合特征; ②只选择那些将会大大提高似然概率的候选特征,提高似然概率值不低于设定的阈值; ③训练特征的权重; ④重复执行步骤①-③直到选完所有的特征; 步骤(4)基本原理是通过构建赋权有向无环图G,然后求解权重最大的路径,其具体实现具体步骤如下: 1)将不一致观测子序列x<sub>s</sub>中字的个数记为L<sub>s</sub>,则G的顶点的个数为L<sub>s</sub>+1,一个个单字C<sub>i</sub>的有序组合成构成G的边{E<sub>ij</sub>},其中1≤i≤L<sub>s</sub>,2≤j≤L<sub>s</sub>+1,边E<sub>ij</sub>表示字序列C<sub>i</sub>…C<sub>j-1</sub>组成的词,即E<sub>ij</sub>实际上是一个词,词长为L<sub>W</sub>=j-i,若i=j-1则表示字C<sub>i</sub>单独成词,由G的定义可知,G中有向边的个数为<img file="FDA00002893821900011.GIF" wi="230" he="116" />2)为每个词构成的边E<sub>ij</sub>赋权值W<sub>ij</sub>,其中W<sub>ij</sub>和词E<sub>ij</sub>的出现频率相关,显然可知词E<sub>ij</sub>的词长越长,其在文本中出现的频率就会不大于比它词长更短的词,即短词出现的频率一定会大于等于包含该词的长词的词频,所以我们认为词长影响着词的权重W<sub>ij</sub>,设词E<sub>ij</sub>在测试数据中出现的频率为F<sub>ij</sub>,那么词E<sub>ij</sub>的权重W<sub>ij</sub>为: <img file="FDA00002893821900012.GIF" wi="228" he="63" />其中m表示词长的扩大级数; 3)采用贪婪算法求出G中最长的权重路径P<sup>*</sup>,路径P<sub>k</sub>中词边所组成的字序列必须和x<sub>s</sub>完全一样,建立的模型为: <img file="FDA00002893821900013.GIF" wi="260" he="96" />4)组成路径P<sup>*</sup>中的边是x<sub>s</sub>的最终切分结果,把这个切分结果和标注一致的部分进行整合,就得到观测序列x最终的切分结果。 
地址 100191 北京市海淀区学院路37号