发明名称 一种基于改进信息熵特征的中文未登录词识别系统及方法
摘要 本发明提出了一种基于改进信息熵特征的中文未登录词识别系统及方法,该系统包含:字符序列提取模块:从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符;特征计算模块:计算所有字符序列的统计特征,包括:左邻接字的改进信息熵,右邻接字的改进信息熵等;成词识别模块:使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;词典比对模块:将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。本发明充分利用中文文本的统计特征,弥补传统未登录词识别方法的不足,降低对词典质量的依赖,具有实用性强、准确度高、以及实现方便的优点。
申请公布号 CN103020022A 申请公布日期 2013.04.03
申请号 CN201210473340.7 申请日期 2012.11.20
申请人 北京航空航天大学 发明人 李超;李想;吕志强
分类号 G06F17/22(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 杨学明
主权项 一种基于改进信息熵特征的中文未登录词识别系统,其特征在于:包括:字符序列提取模块:该模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;特征计算模块:该模块计算所有字符序列的统计特征,包括:字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中:在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征;公式为:H(x)=‑∑P(xi)log(P(xi)),其中H(x)是邻接字符的信息熵,P(xi)是邻接字符取xi的概率);字符序列的出现频率是指字符在整个文本中的出现次数;字符序列的互信息是指:假设有汉字串w1w2,则汉字w1和w2间的互信息定义为: <mrow> <mi>MI</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>如果推广到多字词,互信息的计算方法将扩展成: <mrow> <mi>MI</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>Min</mi> <mo>{</mo> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>}</mo> <mo>;</mo> </mrow>字符序列的序列长度是指字符序列包含的字符数;成词识别模块:该模块使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;词典比对模块:该模块将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。
地址 100191 北京市海淀区学院路37号