发明名称 基于广义流利的口语流利度自动评估方法
摘要 本发明为基于广义流利的口语流利度自动化评估方法,包括:利用语音输入设备,分不同年龄和口语水平收集语音数据;采用基于广义流利度的特征和机器学训练流利度评测模型;根据语音数据不同话题的脚本和发音者的性别,配置相应参数的语音识别系统;利用对语音数据中语速连贯、内容理解、高级技巧和重构标特征进行量化,从专家评估角度综合提取语音数据中流利度的特征;采用回归拟合分析和数据挖掘中的决策树方法对异常流利度错误的检测和流利度评分、诊断。得到的机器流利度分数可以达到与评分专家接近的水平,在相关度指标上超过一般5个专家中的2-3个;速度快,可以嵌入到口语自动化评分系统中,作为重要模块评测发音质量中流利度指标。
申请公布号 CN101740024B 申请公布日期 2012.02.08
申请号 CN200810226672.9 申请日期 2008.11.19
申请人 中国科学院自动化研究所 发明人 徐波;黄申;梁家恩;高鹏;王士进;李鹏
分类号 G10L11/00(2006.01)I;G10L15/00(2006.01)I;G10L15/06(2006.01)I 主分类号 G10L11/00(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 一种基于广义流利的口语流利度自动化评估方法,其特征在于,以下步骤:步骤S1:利用语音输入设备,分不同年龄和口语水平收集语音数据;步骤S2:采用基于广义流利度的特征和机器学习的方法训练异常流利度错误决策树分类模型、流利度评分回归分析模型和流利度诊断规则模型,训练流利度各评测模型步骤如下:步骤S21:通过对特征提取模块得到的流利度的特征和评分专家在考察点上的打分平均值建立所述流利度评分的回归分析模型;步骤S22:对评分专家评价出的典型错误样本进行特征分析,训练得到异常流利度错误决策树分类模型;所述异常流利度错误决策树分类模型,是强调语言主题有关的流畅会话的可接受性,系统选取容易使评分诊断出错的典型会话进行特征提取,通过数据挖掘训练工具进行训练,建立决策树分类模型,旨在通过决策树规则将评分诊断容易出错的典型会话区分开来;步骤S23:由评分专家根据发音者的发音特点,对不同话题的脚本中容易发生连读、失去爆破、停顿、重读或弱读的词汇或短语进行标记,取多数专家认同的诊断点,得到所述流利度诊断规则模型;步骤S3:根据语音数据不同话题的脚本和发音者的性别,配置相应参数的语音识别系统;步骤S4:利用对语音数据中语速连贯特征、内容理解特征、高级技巧特征和重构特征进行量化,计算机自动从专家评估角度综合提取语音数据中流利度的特征;所述提取流利度特征的步骤如下:步骤S41:利用语音识别结果提取会话的流畅性特征,该流畅性特征为整体语速、句子语速、平均语流长、有效停顿比率;步骤S42:采用动态规划提取发音的内容可接受性特征,该可接受性特征为正确表达比率、N元语法(N‑gram)命中率加权得分;步骤S43:采用基于带回溯和跳转的语言模型词图提取能够考察流利度抑扬顿挫的高级技巧特征,该高级特征为连读和失去爆破、重读和弱读以及影响韵律的适当停顿特征;步骤S44:采用正反双向动态规划方法提取错读或修正特征为回溯词率和自我修正率;所述能够考察流利度抑扬顿挫高级技巧特征的提取,统计三方面特性:1)在恰当的词汇、句群和段落进行适当长度的停顿,2)在影响表达感情和意思的重点词汇上采用重读或弱读,3)在某些连词之间采用连读(link)和失去爆破(assimilation),根据评分专家标注的流利度诊断模型,对感兴趣的词汇、短语和句群进行特征提取;所述重构特征的提取,统计如下特性:一是异常停顿和回溯词率,回溯词定义为拖延时间用来使大脑形成重构语句的词汇,通过在识别结果中统计所述词的分布得到特征;二是只在阅读题型中出现的,需要已知阅读脚本内容这个先验知识,提取自我修正、不完整单词性、慢读、拖音、疑问特征;所述内容理解特征与广义流利度中的可接受性相关,分不同题型来进行提取;如果题目为阅读或者跟读题型,则匹配算法采用反向动态规划,匹配过程中只有连续两个或两个以上的词与脚本匹配才计入正确,并计算正确表达内容所占的比率;如果题目为话题简述或开放题型,则计算N‑gram命中率加权得分;步骤S5:采用回归拟合分析和数据挖掘中的决策树方法对异常流利度错误的检测和流利度评分、诊断;所述对异常流利度错误的检测和流利度评分、诊断,强调评分和诊断在系统中的结合,并利用机器学习和数字信号处理技术,使得计算机评分和人工评分在最大程度上相关,具体步骤如下:步骤S51:利用特征提取方法提取发音者的流利度特征并规一化,存储特征,对于第i个发音者朗读的第j个脚本,特征文件记为featureij;步骤S52:运用第j个脚本的异常流利度错误决策树分类模型DTModelj,对特征文件进行测试;如果落入决策树的某个典型错误分支,则直接给出典型错误判决结果,否则,进行步骤S53;步骤S53:运用训练好的第j个脚本按分数段得到的流利度评分回归分析模型LRModeljk,k=1,2,3,4,对决策树判别结果在近似正常以上阈值的发音进行测试,分别得到发音者在流利度语速连贯、内容理解、高级技巧和重构考察点上的得分Scorek,k=1,2,3,4;再根据考试需要考察指标的权重,通过加权和得到发音者在流利度上的总得分;步骤S54:将第i个发音者在所有脚本发音流利度的平均分作为其最终流利度得分;同时,也根据该发音者在不同特征上表现的平均值作为其在该诊断项目上的分项得分;步骤S55:利用最终流利度得分和分项得分,结合训练数据中对这一分数段发音者会话流利度总体的客观评价,给出该发音者的诊断报告。
地址 100080 北京市海淀区中关村东路95号