发明名称 基于人名起源分类的人名音译方法
摘要 基于人名起源分类的人名音译方法,它涉及一种翻译系统。本发明解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下:一、人名起源分类;二、线性插值系统融合。本发明提出的方法将logistic多分类回归模型应用到人名起源分类中,并根据人名构成用字特征的特征模板进行人名起源分类;对于每一种起源的人名类别训练一个特定的音译(翻译)模型,再对多个音译模型的结果进行系统融合,实现双语人名互译。
申请公布号 CN103020046A 申请公布日期 2013.04.03
申请号 CN201210566217.X 申请日期 2012.12.24
申请人 哈尔滨工业大学 发明人 赵铁军;李婷婷;张春越;曹海龙
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 王艳萍
主权项 1.基于人名起源分类的人名音译方法,其人名起源分类特征、方法和多系统融合方法按照以下步骤进行:一、人名起源分类:根据人名起源特征模板采用logistic回归模型,进行计算:<maths num="0001"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mo>=</mo><mi>k</mi><mo>|</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mo>*</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>K</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>exp</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mo>*</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>k=1,2,...,K-1                        公式一<maths num="0002"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mo>=</mo><mi>K</mi><mo>|</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>K</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>exp</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mo>*</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>公式二公式一和公式二中K的值是6,Y为1-6,其中1表示中国,2表示英美,3表示阿拉伯,4表示俄国,5表示日本,6表示韩国,x为人名起源特征模板,P表示起源的概率,w是特征的权重向量;步骤一中所述的人名起源特征模板为中文人名起源特征模板或英文人名起源特征模板;中文人名起源特征模板为语言模型、字的TF-IDF、长度和姓氏;语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止该类特征数量过于庞大,而基于最小方差将n-gram的概率特征值划分到1-100个区间上,形成100个特征;长度为汉字字符数;姓氏为姓氏置信度,姓氏置信度为姓氏出现的次数除以出现的总次数所得的商;字的TF-IDF为“名”单字TF和“名”单字IDF,根据人名语料统计出人名常用字并记录每个常用字的字频,得到6类人名常用字表,然后用下面的两个公式计算TF和IDF:<maths num="0003"><![CDATA[<math><mrow><msub><mi>TF</mi><mi>i</mi></msub><mo>=</mo><mfrac><msub><mi>x</mi><mi>i</mi></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>i</mi><mo>=</mo><mi>N</mi></mrow></munderover><msub><mi>x</mi><mi>i</mi></msub></mrow></mfrac></mrow></math>]]></maths>公式三<maths num="0004"><![CDATA[<math><mrow><msub><mi>IDF</mi><mi>i</mi></msub><mo>=</mo><msub><mi>log</mi><mn>2</mn></msub><mfrac><mn>6</mn><msub><mi>DF</mi><mi>i</mi></msub></mfrac></mrow></math>]]></maths>公式四在公式三及公式四中,x代表第i个字在训练语料中的字频,分母是字表中所有字在训练语料中全部的出现次数,N代表字表中字的个数,DF表示包含i的人名起源类别数;英文人名起源特征模板为字符语言模型、音节的语言模型、音节的TF-IDF和长度,语言模型为整合2-gram模型、整合3-gram模型和整合4-gram模型,音节的语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止该类特征数量过于庞大,而基于最小方差将n-gram的概率特征值划分到1-100个区间上,形成100个特征;长度为字符个数和音节个数,并且采用下述的方法将英文切分成音节:1、将‘x’替换成‘ks’;2、{a,o,e,i,u}是基本的元音字符,y如果在辅音后面当作元音处理;3、当‘w’前面是‘a,e,o’且后面不是‘h’的时候,‘w’和之前的元音当作一个新的元音符号;4、除了{iu,eo,io,oi,ia,ui,ua,uo}外,其余的连续的元音当作一个新的元音符号处理;5、将挨着的辅音分开,将元音和紧跟着的辅音分开;6、辅音和其后的元音形成一个音节,其他的孤立元音和辅音作为单独的音节;音节的TF-IDF为音节的TF和音节的IDF,根据人名语料统计出人名常用音节并记录每个常用音节的频率,得到6类人名常用音节表,然后用下面的两个公式计算TF和IDF:<maths num="0005"><![CDATA[<math><mrow><msub><mi>TF</mi><mi>i</mi></msub><mo>=</mo><mfrac><msub><mi>x</mi><mi>i</mi></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>i</mi><mo>=</mo><mi>N</mi></mrow></munderover><msub><mi>x</mi><mi>i</mi></msub></mrow></mfrac></mrow></math>]]></maths>公式三<maths num="0006"><![CDATA[<math><mrow><msub><mi>IDF</mi><mi>i</mi></msub><mo>=</mo><msub><mi>log</mi><mn>2</mn></msub><mfrac><mn>6</mn><msub><mi>DF</mi><mi>i</mi></msub></mfrac></mrow></math>]]></maths>公式四在公式三及公式四中,x代表第i个字在训练语料中的音节的频率,分母是字表中所有音节在训练语料中全部的出现次数,N代表字表中音节的个数,DF表示包含i音节的人名起源类别数;二、线性插值系统融合:<img file="FDA00002639862400023.GIF" wi="1405" he="216" />公式五Q(0,$)=0                          公式六<maths num="0007"><![CDATA[<math><mrow><mi>Q</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munder><munder><mi>max</mi><mrow><mi>t</mi><mo>,</mo><msup><mi>t</mi><mo>&prime;</mo></msup></mrow></munder><mrow><mi>t</mi><mo>-</mo><mn>4</mn><mo>&le;</mo><msup><mi>t</mi><mo>&prime;</mo></msup><mo>&le;</mo><mi>t</mi></mrow></munder><mo>{</mo><mi>&phi;</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mrow><msup><mi>t</mi><mo>&prime;</mo></msup><mo>+</mo><mn>1</mn></mrow><mi>t</mi></msubsup><mo>,</mo><msup><mi>p</mi><mo>&prime;</mo></msup><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>+</mo><mi>Q</mi><mrow><mo>(</mo><msup><mi>t</mi><mo>&prime;</mo></msup><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>}</mo></mrow></math>]]></maths>公式七<maths num="0008"><![CDATA[<math><mrow><mi>Q</mi><mrow><mo>(</mo><mi>T</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>$</mo><mo>)</mo></mrow><mo>=</mo><munder><mi>max</mi><msup><mi>p</mi><mo>&prime;</mo></msup></munder><mo>{</mo><mi>&phi;</mi><mrow><mo>(</mo><mo>$</mo><mo>,</mo><msup><mi>p</mi><mo>&prime;</mo></msup><mo>,</mo><mo>$</mo><mo>)</mo></mrow><mo>+</mo><mi>Q</mi><mrow><mo>(</mo><mi>T</mi><mo>,</mo><msup><mi>p</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>}</mo></mrow></math>]]></maths>公式八公式六、公式七和公式八中T代表的是翻译结果,P代表的是翻译的结果概率,t代表翻译到源语言的第几个位置,在公式五中,λ<sub>i</sub>代表S属于起源i的概率,公式五是多系统融合的策略,公式六、七、八是解码算法。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号