发明名称 数据处理装置、数据处理方法以及电子设备
摘要 本发明提供了数据处理装置、数据处理方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述数据处理装置包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。本发明的上述技术能够应用于数据处理领域。
申请公布号 CN104111917B 申请公布日期 2017.04.12
申请号 CN201310138955.9 申请日期 2013.04.19
申请人 富士通株式会社 发明人 张姝;孟遥;于浩
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王萍;陈炜
主权项 一种数据处理装置,包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及调序结果确定单元,用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果,其中,所述匹配单元包括:相关程度获得子单元,用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,利用所述预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度;以及匹配分数确定子单元,用于针对每个所述目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数,并且其中,所述匹配分数确定子单元用于根据下式获得所述匹配分数:<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mrow><mo>(</mo><mi>S</mi><mo>,</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>T</mi></msub><mo>|</mo><mi>S</mi><mo>)</mo></mrow><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>a</mi><mn>1</mn></msub><mo>|</mo><msub><mi>V</mi><mi>T</mi></msub><mo>,</mo><mi>S</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>*</mo><munderover><mi>&Pi;</mi><mn>2</mn><mi>h</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>a</mi><mrow><mi>i</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>V</mi><mi>T</mi></msub><mo>,</mo><mi>S</mi><mo>)</mo></mrow><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>b</mi><mn>1</mn></msub><mo>|</mo><msub><mi>V</mi><mi>T</mi></msub><mo>,</mo><mi>S</mi><mo>)</mo></mrow><mo>*</mo><munderover><mi>&Pi;</mi><mn>2</mn><mi>k</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>b</mi><mi>j</mi></msub><mo>|</mo><msub><mi>V</mi><mi>T</mi></msub><mo>,</mo><msub><mi>b</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><mi>S</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>,</mo></mrow>]]></math><img file="FDA0001175591270000011.GIF" wi="1358" he="189" /></maths>其中,S为所述源语言语义角色序列,T为所述目标语言语义角色序列,V<sub>T</sub>为T中的目标语言谓词,a<sub>i</sub>为T中位于V<sub>T</sub>左侧的第i个语义角色,h为V<sub>T</sub>左侧的语义角色数量,b<sub>j</sub>为T中位于V<sub>T</sub>右侧的第j个语义角色,k为V<sub>T</sub>右侧的语义角色数量,P(V<sub>T</sub>|S)为用于表示S与T的子序列{V<sub>T</sub>}之间的相关程度的条件概率,P(a<sub>1</sub>|V<sub>T</sub>,S)为用于表示S与T的子序列{V<sub>T</sub>}和{a<sub>1</sub>,V<sub>T</sub>}之间的相关程度的条件概率,P(a<sub>i</sub>|a<sub>i‑1</sub>,V<sub>T</sub>,S)为用于表示S与T的子序列{a<sub>i‑1</sub>,V<sub>T</sub>}和{a<sub>i</sub>,a<sub>i‑1</sub>,V<sub>T</sub>}之间的相关程度的条件概率,P(b<sub>1</sub>|V<sub>T</sub>,S)为用于表示S与T的子序列{V<sub>T</sub>}和{V<sub>T</sub>,b<sub>1</sub>}之间的相关程度的条件概率,以及P(b<sub>j</sub>|V<sub>T</sub>,b<sub>j‑1</sub>,S)为用于表示S与T的子序列{V<sub>T</sub>,b<sub>j</sub>‑<sub>1</sub>}和{V<sub>T</sub>,b<sub>j‑1</sub>,b<sub>j</sub>}之间的相关程度的条件概率。
地址 日本神奈川县