发明名称 | 用于将简体汉语句子转换为繁体汉语句子的方法和设备 | ||
摘要 | 本发明公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。 | ||
申请公布号 | CN103853706A | 申请公布日期 | 2014.06.11 |
申请号 | CN201210519822.1 | 申请日期 | 2012.12.06 |
申请人 | 富士通株式会社 | 发明人 | 房璐;孟遥;于浩 |
分类号 | G06F17/28(2006.01)I | 主分类号 | G06F17/28(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 康建峰;吴琼 |
主权项 | 一种将简体汉语句子转换为繁体汉语句子的方法,包括:由基于简体‑繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。 | ||
地址 | 日本神奈川县 |