发明名称 语句级汉字输入方法中的用户词识别方法与在线一次性学方法及机器学系统
摘要 语句级汉字输入方法中的用户词识别方法与在线一次性学方法及机器学系统,涉及汉字输入的机器学技术领域。本发明解决了现有机器学方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学系统是应用上述用户词识别方法和学方法实现的学系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
申请公布号 CN102004560A 申请公布日期 2011.04.06
申请号 CN201010567997.0 申请日期 2010.12.01
申请人 哈尔滨工业大学 发明人 刘秉权;王晓龙;刘峰;刘远超;林磊;孙承杰;单丽莉;刘铭
分类号 G06F3/023(2006.01)I 主分类号 G06F3/023(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 张宏威
主权项 语句级汉字输入方法中的用户词识别方法,其特征在于,它是基于位置的用户词识别方法,对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力IWP(c,rp): <mrow> <mi>IWP</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>rp</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>Word</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>rp</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>其中,C(Word(c,rp))是生成语言模型时训练用的语料中词根c以位置rp出现的词的个数,C(c)是语料中词根c出现的次数,当所述成词能力IWP(c,rp)为大于阈值δ(0<δ<1)时,对应的词作为用户词,否则,对应的词不作为用户词;对于词串S=c1,c2,…,cl(l>1),以该词串中各个词根的成词能力的几何平均值作为该词串的成词能力IWP(S): <mrow> <mi>IWP</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <mroot> <mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <mi>IWP</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>rp</mi> <mo>)</mo> </mrow> </mrow> <mi>l</mi> </mroot> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>当IWP(S)≥δ(0<δ≤1)时,那么将S作为用户词;否则S不作为用户词。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号