发明名称 一种用于口语测试的文本朗读水平自动评估诊断方法
摘要 本发明涉及一种用于口语测试的文本朗读水平自动评估诊断方法,该方法提取测试者按照给定文本进行朗读语音的各项特征;训练朗读特征与人工评分的拟分模型;测试时依据其朗读特征和拟分模型拟合出机器评分,并给出相关的诊断信息。它要求测试者朗读预先设定的文本,然后利用收集到的语音对测试者的口语能力做出自动评估。其特点是利用计算机提取测试者朗读语音的各项特征,在拟分模型上拟和得出机器评分,从而达到评估测试者口语语言能力的目的。
申请公布号 CN101739868B 申请公布日期 2012.03.28
申请号 CN200810226674.8 申请日期 2008.11.19
申请人 中国科学院自动化研究所 发明人 徐波;江杰;柯登峰;徐爽;浦剑涛;陈振标
分类号 G09B19/06(2006.01)I;G09B7/00(2006.01)I;G09B7/02(2006.01)I 主分类号 G09B19/06(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 一种用于口语测试的文本朗读水平自动评估诊断方法,其特征是:步骤1:测试者朗读预先设定的文本,提取测试者按照给定文本朗读语音的特征,所述朗读语音特征包括:可客观计算的完整性特征、准确性特征和流利性特征;步骤2:在历史评估数据基础上提取并训练朗读特征与人工评分的拟分模型;步骤3:测试时依据其朗读特征和拟分模型拟合出机器评分,并给出测试者朗读特征的诊断信息;所述完整性特征提取包括:将测试者朗读语音自动识别的结果与标准文本分别做正向和反向的动态匹配,取正向和反向的动态匹配边界重复段的交集为匹配集合,然后根据各自不同的匹配度计算词对齐特征和段对齐特征,用于表征测试者朗读内容与标准文本的符合度;所述准确性特征包括发音特征和汉语的声调特征,其中:所述发音特征向量提取是取完整性特征中匹配集合,做音素级别的自动强制对齐,对于对齐后的每个音素及其语音信号,计算在指定音素的声学模型MP条件下,语音信号的模型打分P(O|Mp)作为发音打分;将M种不同的模型打分计算出的分数合并为Pp=[Pp1,Pp2,...,PpM],并按照朗读文本做加权;最终计算发音特征向量FP为: <mrow> <msub> <mi>F</mi> <mi>p</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>a</mi> </msub> </mrow> </munder> <msub> <mi>P</mi> <mi>p</mi> </msub> <msub> <mi>k</mi> <mi>w</mi> </msub> <mo>,</mo> </mrow>式中kw是音素P的发音权重,Sa是完整性特征中匹配集合,Mp是给定音素的声学模型,O是语音信号;所述声调特征提取是取完整性特征中匹配集合,做音节级别的自动强制对齐,对于对齐后的每个音节的语音信号,计算在指定音节的声调模型Tw条件下,语音信号的后验概率P(O|Tw)作为声调打分,并按照朗读文本做加权,最终计算声调的特征Ft为: <mrow> <msub> <mi>F</mi> <mi>t</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>a</mi> </msub> </mrow> </munder> <msub> <mi>P</mi> <mi>w</mi> </msub> <msub> <mi>h</mi> <mi>w</mi> </msub> <mo>,</mo> </mrow>式中hw是音节W的声调权重,Tw是声调模型,Pw是声调打分;所述流利性特征包括测试者的语速评估特征、音节段长评估特征、停顿特征和编辑特征以及相应的计算,各特征之间是并列关系,如下所述:语速评估特征提取包括:利用语速提取测试者单位时间内说出的音素个数;利用调音速率提取测试者去掉重复的现象的平均音素时长;音节段长评估特征提取是利用各音素的段长模型对朗读语音打分,最后将该打分按音素做算术平均;停顿特征提取是利用静音检测出的停顿点,在停顿模型上对测试者的停顿次数和分布进行打分;编辑特征提取是利用语言编辑模型检测朗读语音中的重复、插入和删除现象的个数,然后对朗读文本长度归一化;所述训练朗读特征与人工评分的拟分模型是利用训练集合中的人工标注数据,采用回归法Y=β0x0+β1x1+...+βnxn+ε,式中x0...xn是拟合输入的归一化向量,β0,...βn是在大规模数据上训练得到的回归系数,ε是残差,将多个朗读特征拟合为机器分,所述多个朗读特征拟合为机器分是使用各项特征作为拟合输入的归一化向量x0...xn,利用大规模数据上训练得到的回归系数β0,...βn直接计算出机器评估分;或按照完整分拟合模型、准确分拟合模型和流利分拟合模型各自的模型参数β1,0,…,β1,n,β2,0,…,β2,n和β3,0,…,β3,n计算完整性特征、准确性特征和流利性特征,得到完整性打分、准确性打分和流利性打分,再利用分层拟合模型进行分层拟合,得到机器分的参数β0,β1,β2,然后使用机器分的参数β0,β1,β2计算出机器分;对于在人工打分方面分布失衡的训练数据,需要采取分段拟合的策略,按照分数分布将分数分段,使得各分数段内部的人工打分趋于平衡,用于减少数据失衡对拟合的影响。
地址 100080 北京市海淀区中关村东路95号