发明名称 一种数字视频字幕自动翻译方法
摘要 本发明公开了一种数字视频字幕自动翻译方法,用于将字幕内容翻译成另一种语言,包括:提取用源语言表示的字幕内容,并转换为文本格式;进行语种判别;选择从源语言到目标语言的翻译短语表;根据目标语言的语种类别,提取目标语言的语言模型;将字幕中的语句划分成短语,查找短语在目标语言中的含义;将翻译后的短语按顺序连接,并计算翻译结果的分数;选择分数最高的翻译结果作为字幕中的语句在目标语言中的含义;将翻译后的字幕内容重新转换为传输流接受的格式并输出。本发明对每个短语保留所有可能的翻译结果,用翻译概率来表示谁的可能性更大,提高了翻译的准确率;对语句作短语切分时考虑所有可能的匹配上的短语切分,使得翻译结果更为全面。
申请公布号 CN100469109C 申请公布日期 2009.03.11
申请号 CN200610087132.8 申请日期 2006.06.13
申请人 中国科学院计算技术研究所 发明人 钱跃良;熊德意;刘群
分类号 H04N5/278(2006.01)I 主分类号 H04N5/278(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 代理人 高存秀
主权项 1、一种数字视频字幕自动翻译方法,所述方法包括以下步骤:1)、从来自所述数字视频源的传输流中提取用源语言表示的字幕内容,并将字幕内容从图像格式转换为文本格式;2)、对转换后的字幕内容进行语种判别,判断所述的源语言为何种语言;3)、根据源语言的类别和用户设定的所要翻译的目标语言的类别,选择从源语言到目标语言的翻译短语表,所述翻译短语表中包括源语言短语、与源语言短语具有相同含义的目标语言短语,以及所述的源语言短语和所述的目标语言短语间的翻译概率;4)、根据目标语言的语种类别,提取目标语言的语言模型;5)、将字幕中用源语言表示的语句划分成短语,并根据步骤3)得到的翻译短语表查找短语在目标语言中的含义;在所述的语句划分成短语的过程中,一个语句有不同的划分方法,将所有的划分都列出;在所述的查找短语在目标语言中的含义时,将短语在目标语言中的所有的含义都列出;6)、从左至右,将短语在目标语言中的含义顺次连接,形成目标译文,将已经连接好的目标译文称为部分翻译,在连接过程中,将部分翻译与下一个可能的短语的可能译文进行连接,形成新的部分翻译,并计算新的部分翻译的分数;重复上述的连接过程,直到整句话翻译完毕;其中,所述的计算新的部分翻译的分数包括:a、初始的部分翻译,即没有翻译任何源语言单词的空翻译,其分数为1;b、当前新生成的部分翻译的短语的翻译概率为:上一个部分翻译的短语翻译概率乘以被连接上的短语的翻译概率;所述短语的翻译概率由步骤3)得到的翻译短语表得到;当前新生成的部分翻译的语言模型概率为:上一个部分翻译的语言模型概率乘以被连接上的短语的语言模型概率;所述的连接上的短语的语言模型概率是以上一个部分翻译的最后两个单词作为前驱历史计算得到的;c、将部分翻译的短语翻译概率乘以语言模型概率,就得到该部分翻译的分数;在上述翻译过程中,覆盖相同源语言部分的部分翻译都保存在同一个堆栈中,每个堆栈只保留分数最高的前N个结果,所述N的取值在10至100之间;7)、在存放整句翻译结果的堆栈中,选择分数最高的翻译结果作为字幕中的语句在目标语言中的含义;8)、将翻译后的字幕内容由文本格式重新转换为传输流接受的格式,并复合到传输流中输出。
地址 100080北京市海淀区中关村科学院南路6号