发明名称 基于语义预测的译文获取方法和设备
摘要 基于语义预测的译文获取方法和设备。所述方法输入一种源语言的查询项,输出该查询项在目标语言中的候选译文列表,其特征是,包括以下步骤:单元分割步骤,将输入的所述查询项尽可能地分割成有意义的候选单元集;单元译文知识库建立步骤,扩充所述候选单元在原始通用词典中的单元候选译文,并对扩充的单元候选译文进行评价形成单元译文知识库;语义预测步骤,利用基于所述单元译文知识库的语义预测的方法获得目标语言中与源语言中的所述查询项语义相关的项;有效网页获取步骤,将前述获得的语义相关项与所述查询项组合,利用组合后的项,通过搜索引擎获得有效网页;候选评价步骤,根据获取的有效网页,对候选译文进行评价得到候选译文列表。
申请公布号 CN101042692B 申请公布日期 2010.09.22
申请号 CN200610066115.6 申请日期 2006.03.24
申请人 富士通株式会社 发明人 方高林;于浩
分类号 G06F17/28(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京三友知识产权代理有限公司 11127 代理人 孙海龙
主权项 一种基于语义预测的译文获取方法,输入一种源语言的查询项,输出该查询项在目标语言中的候选译文列表,其特征是,包括以下步骤:单元分割步骤,将输入的所述查询项分割成有意义的候选单元集;单元译文知识库建立步骤,扩充所述候选单元在原始通用词典中的单元候选译文,并对扩充的单元候选译文进行评价以形成单元译文知识库;语义预测步骤,利用基于所述单元译文知识库的语义预测的方法获得目标语言中与源语言中的所述查询项语义相关的语义相关项;有效网页获取步骤,将前述获得的目标语言中的语义相关项与所述查询项组合,利用组合后的项,通过搜索引擎获得有效的网页;候选评价步骤,对从前述获得的有效网页获取的查询项候选译文进行评价以得到该查询项在目标语言中的候选译文列表,其特征是,所述单元分割步骤将输入的所述查询项通过正向最大匹配和逆向最大匹配方法并辅以单元项词典分割成有意义的候选单元集,其特征是,所述单元译文知识库建立步骤进一步包括:前后缀语义扩展步骤,通过前后缀语义扩展的方法来扩充所述候选单元在原始通用词典中的单元候选译文;译文评价步骤,利用Web搜索引擎返回的数目来评价扩充的单元候选译文的合理性并作为单元候选译文项的排序标准,如果是合适的译文,则该单元候选译文将作为单元译文知识库的一部分,否则,该单元候选译文无效,处理完所有扩充的单元候选译文后,最终形成单元译文知识库,其特征是,所述的语义预测步骤进一步包括:组合查询形成步骤,将单元译文知识库中的单元候选译文集和所述查询项组合在一起,形成组合查询项进行网络搜索;收集文档步骤,收集检索的文档和网页结果,从中选取最前面的多个网页,进行文本提取和分析;语义相关度计算步骤,在前面已经分析的网页中,进行语义相关度计算,选取前五个选项作为所述语义相关项,其特征是,所述语义相关度计算步骤基于频率和距离进行语义相关度计算,其特征是,基于频率和距离相结合的方法为利用下述公式计算语义相关度w(t): <mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mi>&Delta;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>,</mo> </mrow>其中 <mrow> <mi>&Delta;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>Δ(t)表示查询项s到目标候选t之间的平均距离,如果平均距离越大,表明该候选项和其相关程度就越低,Di(s,t)表示查询项和目标之间的字节距离,N表示统计中出现的总数,f(t)表示目标候选t出现的频率,其特征是,所述的候选评价步骤进一步包括:文档和网页转换步骤,将前述获得的有效网页转换成文本信息;候选译文统计步骤,以目标语言词为递增单元,结合停词和分隔标记的规则库,构建和发现查询项候选译文的边界,统计查询项候选译文的频率、分布特征;候选噪声处理步骤,对统计过程中出现的噪声进行识别处理,利用统计频率比值是否大于一定阈值的方法来消除在所述候选译文统计步骤的结果中出现的词缀冗余信息;评价步骤,对前述的查询项候选译文进行评价,得到查询项候选译文列表。
地址 日本神奈川县川崎市