发明名称 一种基于相似度匹配的枢轴语言翻译方法和装置
摘要 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言‑目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言‑目标语翻译规则库,通过源语言‑目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。
申请公布号 CN103605644B 申请公布日期 2017.02.01
申请号 CN201310636884.5 申请日期 2013.12.02
申请人 哈尔滨工业大学 发明人 朱聪慧;朱晓宁;赵铁军;郑德权;杨沐昀;曹海龙;徐冰
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 杨立超
主权项 一种基于相似度匹配的枢轴语言翻译方法,其特征在于具体是按照以下步骤进行:步骤一、建立源语言‑目标语翻译规则库,具体包括以下步骤:步骤一一、建立源语言‑枢轴语翻译规则库,在源语言‑枢轴语翻译规则库中,将其中的枢轴语短语表示为向量形式;步骤一二、建立枢轴语‑目标语翻译规则库,在枢轴语‑目标语翻译规则库中,将其中的枢轴语短语表示为向量形式;步骤一三、在源语言‑枢轴语翻译规则库中查找与源语言短语语义匹配的至少一个第一枢轴语短语的向量表示;步骤一四、在枢轴语‑目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示,并关联第一枢轴语短语与第二枢轴语短语;所述的具有向量相似性的判断依据是指两个向量之间的夹角的余弦值大于0.8;所述的向量夹角余弦的计算公式为:<maths num="0001"><math><![CDATA[<mrow><mi>cos</mi><mi>&theta;</mi><mo>=</mo><mfrac><mrow><mi>A</mi><mo>&CenterDot;</mo><mi>B</mi></mrow><mrow><mo>|</mo><mo>|</mo><mi>A</mi><mo>|</mo><mo>|</mo><mo>|</mo><mo>|</mo><mi>B</mi><mo>|</mo><mo>|</mo></mrow></mfrac><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>A</mi><mi>i</mi></msub><mo>&times;</mo><msub><mi>B</mi><mi>i</mi></msub></mrow><mrow><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msup><mrow><mo>(</mo><msub><mi>A</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>&times;</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msup><mrow><mo>(</mo><msub><mi>B</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac></mrow>]]></math><img file="FDA0000985055730000011.GIF" wi="805" he="267" /></maths>其中,A和B分别代表第一枢轴语短语的向量表示和第二枢轴语短语的向量表示,n为向量维度;具有向量相似性的判断过程中需要计算枢轴语‑目标语翻译规则库中所有枢轴语短语的向量表示与第一枢轴语短语的向量表示之间的相似度;步骤一五、在枢轴语‑目标语翻译规则库中查找与第二枢轴语短语的向量表示匹配的目标语短语;步骤一六、将各所述源语言短语与目标语短语组成源语言‑目标语翻译规则库;所述的源语言‑目标语言翻译规则库是用于存储由源语言短语及与其语义匹配的目标语言短语的短语对的数据库;步骤二、根据步骤一所建立的源语言‑目标语翻译规则库对源语言进行翻译。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号