发明名称 | 一种多人会话语音中的说话人重要程度估计方法 | ||
摘要 | 本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。 | ||
申请公布号 | CN103400580A | 申请公布日期 | 2013.11.20 |
申请号 | CN201310311072.3 | 申请日期 | 2013.07.23 |
申请人 | 华南理工大学 | 发明人 | 李艳雄;王梓里;吴伟;贺前华 |
分类号 | G10L17/00(2013.01)I | 主分类号 | G10L17/00(2013.01)I |
代理机构 | 广州市华学知识产权代理有限公司 44245 | 代理人 | 蔡茂略 |
主权项 | 一种多人会话语音中的说话人重要程度估计方法,其特征在于,包括如下步骤:S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音时长中提取能量包络,并找出能量包络的局部最大值点,进一步确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度。 | ||
地址 | 510640 广东省广州市天河区五山路381号 |