发明名称 声音识别装置、声音识别方法以及声音识别程序
摘要 本发明提供声音识别装置、声音识别方法以及声音识别程序。该声音识别装置(1)具有声音核对部(17),声音核对部(17)计算由声音分析部(11)转换的特征量和由词模型生成部(16)生成的词模型之间的各时刻的相似度。声音核对部(17)提取由词模型生成部(16)生成的词模型中的这样的词模型:在各时刻的相似度中最小的相似度或者由各时刻的相似度获得的整体相似度满足第2阈值条件,且说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间内的各时刻的相似度满足第1阈值条件,声音核对部(17)将与提取出的词模型对应的识别词作为识别结果来输出。
申请公布号 CN101689364A 申请公布日期 2010.03.31
申请号 CN200780053719.X 申请日期 2007.07.09
申请人 富士通株式会社 发明人 原田将治
分类号 G10L15/06(2006.01)I 主分类号 G10L15/06(2006.01)I
代理机构 北京三友知识产权代理有限公司 代理人 黄纶伟
主权项 1.一种声音识别装置,该声音识别装置具有:声音分析部,其将所输入的说话声音转换成特征量;识别词存储部,其存储有识别词的读音;转换规则存储部,其存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则;音素串转换部,其根据存储在所述转换规则存储部内的转换规则,将存储在所述识别词存储部内的识别词的读音转换成音素串;音素模型存储部,其存储有对音素容易变成怎样的特征量进行建模而成的标准模式;词模型生成部,其根据由所述音素串转换部转换的音素串,提取存储在所述音素模型存储部内的标准模式,对提取出的标准模式进行连接,由此生成作为标准模式串的词模型;以及声音核对部,其计算由所述声音分析部转换的特征量与由所述词模型生成部生成的词模型之间的、各时刻的相似度,所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件,所述声音核对部提取由所述词模型生成部生成的词模型中的这样的词模型:在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的各时刻的相似度满足该第1阈值条件,所述声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。
地址 日本神奈川县