发明名称 多维度待译文档的预处理方法
摘要 本发明公开了一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本发明通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。
申请公布号 CN103729350B 申请公布日期 2017.01.04
申请号 CN201310752261.4 申请日期 2013.12.30
申请人 语联网(武汉)信息技术有限公司 发明人 江潮;张芃
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 代理人
主权项 一种多维度待译文档的预处理方法,其特征在于,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分;其中,统计所述待译文档的类符形符比的过程包括:根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比<maths num="0001"><math><![CDATA[<mrow><mi>S</mi><mi>T</mi><mi>T</mi><mi>R</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mfrac><mn>1</mn><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mn>1</mn><mo>)</mo><mo>&CenterDot;</mo><mi>S</mi><mi>T</mi><mo>&CenterDot;</mo><mi>t</mi><mi>o</mi><mi>k</mi><mi>e</mi><mi>n</mi></mrow></mfrac><mo>&CenterDot;</mo><mrow><mo>(</mo><mi>t</mi><mi>y</mi><mi>p</mi><mi>e</mi><mo>&CenterDot;</mo><mi>S</mi><mi>T</mi><mo>+</mo><mi>t</mi><mi>o</mi><mi>k</mi><mi>e</mi><mi>n</mi><mo>&CenterDot;</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>type</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></mtd><mtd><mrow><mi>n</mi><mo>&GreaterEqual;</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><mrow><mfrac><mrow><mi>t</mi><mi>y</mi><mi>p</mi><mi>e</mi></mrow><mrow><mi>t</mi><mi>o</mi><mi>k</mi><mi>e</mi><mi>n</mi></mrow></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0001073693660000011.GIF" wi="1582" he="311" /></maths>其中,token为不足文档标准数量词汇的子文档的形符数,type为不足文档标准数量词汇的子文档的类符数,type<sub>i</sub>为第i个含文档标准数量个词汇的子文档的类符数,n为含文档标准数量个词汇的子文档数量,ST为文档标准数量个词汇划分单位。
地址 430073 湖北省武汉市东湖开发区光谷软件园一期以西、南湖南路以南、光谷软件园六期2幢5层205号