发明名称 一种波形拼接语音合成的选音方法
摘要 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;根据目标语音与其对应的候选基元的相似度,和候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;输入任意待合成文本,基于相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音。采用本发明方法可以合成出较高音质的语音。
申请公布号 CN103531196B 申请公布日期 2016.04.13
申请号 CN201310481306.9 申请日期 2013.10.15
申请人 中国科学院自动化研究所 发明人 陶建华;张冉;温正棋
分类号 G10L13/02(2013.01)I 主分类号 G10L13/02(2013.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 宋焰琴
主权项 一种波形拼接语音合成的选音方法,其特征在于,该方法包括以下步骤:步骤S1,基于从音频数据库中提取得到的原始音频进行基于隐马尔可夫的模型训练,得到声学模型集以及对应的特征决策树;步骤S2,输入若干训练文本,基于所述特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;步骤S3,根据所述目标语音与其对应的候选基元的相似度,和所述候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;步骤S4,输入任意待合成文本,基于所述相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音;其中,所述步骤S2进一步包括以下步骤:步骤S21,输入多个音节平衡的训练文本,经过文本分析来获取对应的上下文特征序列;步骤S22,把所述上下文特征序列输入到所述特征决策树中,获取符合当前上下文的声学模型序列;步骤S23,基于所述声学模型序列,采用参数生成算法获取目标语音参数;步骤S24,基于所述目标语音参数,用声码器合成出目标句子语音,并将所述目标句子语音切分成目标音节;所述步骤S3进一步包括以下步骤:步骤S31,将所述音频数据库中的句子按音节进行切分,切分得到的以音节为单位的音段,即为候选基元,把相同的音节归为一类,以此构建候选基元库,并将所述步骤S12中提取得到的频谱参数和基频参数按帧分配给候选基元库中的各个候选基元;步骤S32,把每个所述目标音节对应的各个基元的声学参数依次带入所述步骤S22得到的上下文声学模型中,计算各个基元的时长、基频以及频谱在其相应声学模型下的概率,并把所有概率的集合作为特征集合;步骤S33,召集若干汉语母语者对所述目标音节和候选基元的相似度进行二元标注,即相似或不相似,并把此结果作为分类属性;步骤S34,基于所述分类属性和特征集合,进行相似度分类器的训练。
地址 100190 北京市海淀区中关村东路95号