发明名称 一种多人会话语音中的说话人重要程度估计方法
摘要 本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。
申请公布号 CN103400580A 申请公布日期 2013.11.20
申请号 CN201310311072.3 申请日期 2013.07.23
申请人 华南理工大学 发明人 李艳雄;王梓里;吴伟;贺前华
分类号 G10L17/00(2013.01)I 主分类号 G10L17/00(2013.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 一种多人会话语音中的说话人重要程度估计方法,其特征在于,包括如下步骤:S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音时长中提取能量包络,并找出能量包络的局部最大值点,进一步确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度。
地址 510640 广东省广州市天河区五山路381号