发明名称 使用听觉注意力线索的语音音节/元音/音素边界检测
摘要 在讲话期间的音节或元音或音素边界检测中,可以针对声音输入窗口确定听觉频谱并且可以从所述听觉频谱中提取一个或多个多尺度特征。可以使用单独的二维频谱时间接收滤波器来提取每个多尺度特征。可以生成对应于所述一个或多个多尺度特征的一个或多个特征图,并且可以从所述一个或多个特征图中的每个提取听觉要点矢量。可以通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量。可以通过使用机器学算法将所述累积要点矢量映射到一个或多个音节或元音或音素边界特性来检测所述声音输入窗口中的一个或多个音节或元音或音素边界。
申请公布号 CN103503060B 申请公布日期 2015.07.22
申请号 CN201180069832.3 申请日期 2011.11.02
申请人 索尼电脑娱乐公司 发明人 O.卡琳里;陈如新
分类号 G10L15/04(2013.01)I;G10L15/16(2006.01)I;G10L15/24(2013.01)I;G10L15/34(2013.01)I;G10L25/03(2013.01)I 主分类号 G10L15/04(2013.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 郭定辉
主权项 一种用于在语音中进行音节/元音/音素边界检测的方法,其包括:a)从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征是使用单独的二维频谱时间接收滤波器进行提取的;b)生成对应于所述一个或多个多尺度特征的一个或多个特征图;c)从所述一个或多个特征图中的每个提取听觉要点矢量;d)通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;以及e)通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界。
地址 日本东京都