发明名称 切割语音数据序列的方法
摘要 本发明公开了一种切割语音数据序列的方法,通过共同路径侦测方式,在部分文句状态序列与部分语音数据序列的多个匹配路径中,寻找一共同路径,记录该共同路径里与文句边界标记相对应的语音边界后,再取出其后的部分文句数据与语音数据序列,作为下一次比对的数据,依此方式逐步求得与文句边界标记相对应的语音边界,最后依照记录的语音边界切割语音数据序列。
申请公布号 CN1937032B 申请公布日期 2011.06.15
申请号 CN200510105135.5 申请日期 2005.09.22
申请人 财团法人工业技术研究院 发明人 简世杰
分类号 G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L13/08(2006.01)I;G10L19/00(2006.01)I 主分类号 G10L15/02(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 梁挥;祁建国
主权项 一种切割语音数据序列方法,应用于一待处理的语音数据序列,及该待处理的语音数据序列对应的一含数个文句边界标记的文句数据之上,其特征在于,该方法包含下列步骤:在该文句数据中,取出部分文句数据;在该待处理语音数据中,取出部分语音数据序列;取得该部分文句数据与该部分语音数据序列的数个匹配路径,并由该数个匹配路径中取得一段共同路径;其中该数个匹配路径是根据维特比算法依据所取出的部分文句数据和部分语音数据序列与一预先训练的声学模型计算所取出的部分文句数据和部分语音数据序列的最大概似分数值之后,再由部分语音数据序列的最终语音位置及由部分文句数据中选定一文句位置推算而得;当该段共同路径中具有至少一文句边界标记时,记录该段共同路径中各文句边界标记相对应的各语音边界;依上述步骤在该段共同路径后的剩余文句数据与剩余待处理语音数据序列中,继续取得下一段共同路径,直至无文句数据与待处理语音数据序列为止;在剩余的未能找到共同路径的文句数据与待处理语音数据序列中,以最终的文句数据的位置及最终的待处理语音数据序列的位置,取得一回溯路径;当该段回溯路径中具有至少一文句边界标记时,记录该回溯路径中各文句边界标记相对应的各语音边界;及依上述步骤所记录的各匹配路径与回溯路径的语音边界切割该待处理语音数据序列。
地址 中国台湾新竹县