发明名称 一种用于维吾尔语语音识别的识别单元的选择方法及系统
摘要 本发明实施例涉及一种用于维吾尔语语音识别的词典单元的选择方法及系统。方法包括:为待识别的语音收集/准备相应的文本语料;从文本语料中抽取不同的词语;将所述不同词语输入形态分析器,分析成功时获得相应的词语的分解结果,分析失败时对所述词语进行基于削尾算法的词语分解,从而获得分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分;将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。本发明实施例根据维吾尔语形态变化的规则,将维吾尔语词语分解为词干和附加成分,然后选择词干和附件成分作为识别单元,从而缓解了识别系统集外词过多的问题,提高了系统的识别率。
申请公布号 CN103065632B 申请公布日期 2014.10.08
申请号 CN201210560599.5 申请日期 2012.12.21
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 潘接林;李鑫;颜永红
分类号 G10L15/26(2006.01)I;G10L15/28(2013.01)I 主分类号 G10L15/26(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种用于维吾尔语语音识别的词典单元的选择方法,其特征在于,所述方法包括:为待识别的语音准备相应的文本语料;从所述文本语料中抽取不同的词语;将所述不同词语输入形态分析器,在形态分析器分析成功时获得相应的词语的分解结果,在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解,从而获得相应的分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分;将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元;所述形态分析器是基于有限状态转录机的形态分析器;所述对所述词语进行基于削尾算法的词语分解,具体为:从右向左扫描词语的子串,如果子串在附加成分列表中存在,则将其从词语中削去,如果余下部分在词干列表中存在,则分解结束。
地址 100190 北京市海淀区北四环西路21号