发明名称 | 分段和识别语音信号的系统和方法 | ||
摘要 | 一种从具有多个帧的输入语音信号形成分段语音信号的系统和方法。输入语音信号从时域信号被转换为具有多个语音帧的频域信号,其中频域信号的每个语音帧至少用一个与语音帧相关的频谱值表示。确定频域信号每对相邻帧的频谱差值,其中每对相邻帧的频谱差值表示与相邻帧对的每帧相关的至少一个频谱值之间的差值。在频域信号内的每对相邻帧之间设定初始簇(cluster)边界,并且为频域信号内的每个单帧簇指定方差值,其中每个单帧簇的方差值等于相应的频谱差值。接着计算多个簇合并参数,其中每个簇合并参数与频域信号内相邻簇对相关。最小的簇合并参数选自多个簇合并参数。随后的合并簇形成方式为取消与最小合并参数相关的簇之间的簇边界并且为合并簇指定一个合并方差值,其中合并方差值表示指定给与最小合并参数相关的簇的方差值。为了形成多个合并簇,重复该过程,并且根据多个合并簇形成分段语音信号。 | ||
申请公布号 | CN1173333C | 申请公布日期 | 2004.10.27 |
申请号 | CN99815323.0 | 申请日期 | 1999.12.29 |
申请人 | 高通股份有限公司 | 发明人 | 毕宁;张承纯 |
分类号 | G10L15/04 | 主分类号 | G10L15/04 |
代理机构 | 上海专利商标事务所 | 代理人 | 李湘 |
主权项 | 1.一种语音识别系统内用于从包含多个帧的输入语音信号形成分段语音信号的方法,其特征在于包含以下步骤:将所述输入的语音信号从时域信号转换为包含多个语音帧的频域信号,其中所述频域信号中的每个语音帧用至少一个与所述语音帧相关的频谱值表示;在所述频域信号内的每对相邻帧之间指定初始簇边界以定义每个所述语音帧的簇;根据所述至少一个与每个簇内帧相关的频谱值为每个所述簇指定一个方差值;通过根据所述方差值取消相邻簇对之间的簇边界形成合并的簇;重复指定方差值和形成合并簇的步骤以形成多个合并的簇,所述重复步骤延续至已经形成预先确定数量的合并簇;以及根据所述预先确定数量的合并簇形成所述分段语音信号。 | ||
地址 | 美国加利福尼亚州 |