发明名称 一种实时的婴儿啼哭声识别方法
摘要 本发明涉及一种实时的婴儿啼哭声识别方法,其步骤包括:1)录制婴儿啼哭声信号并建立声音库,进行预处理;2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;3)将实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将最大的类作为识别结果,并对当前识别结果进行投票;4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别,进行婴儿状况处理。本发明能够实时快速地判别婴儿啼哭声属于饥饿型、困倦型、尿湿型和疼痛型中的哪种类型,辅助护理人员及时反应、识别性能高。
申请公布号 CN103280220B 申请公布日期 2015.11.18
申请号 CN201310148422.9 申请日期 2013.04.25
申请人 北京大学深圳研究生院 发明人 刘宏;李晓飞;付卓
分类号 G10L17/02(2013.01)I;G10L17/04(2013.01)I 主分类号 G10L17/02(2013.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 一种实时的婴儿啼哭声识别方法,其步骤包括:1)录制婴儿啼哭声信号并建立声音库,进行预处理;1‑1)根据设定的哭声类别将录制得到的婴儿啼哭声信号转化为数字信号后分类录入声音库中得到多个完整的语音段;1‑2)在固定时间窗内对所述语音段依次进行分帧、加窗处理后提取得到模板特征向量序列;1‑3)根据所述特征向量序列采用期望最大化EM算法训练啼哭声的混合高斯模型GMM模板,将所述GMM模板储存入库;2)当啼哭声开始时,采集得到婴儿啼哭声后采样得到实时数字信号,并在固定时间窗内对所述实时数字信号中的完整语音段依次进行分帧、加窗处理后提取得到实时特征向量序列;3)将所述实时特征向量序列与该GMM模板进行匹配,得到似然度最大的类,将所述最大的类作为识别结果,并对当前识别结果进行投票;其中,所述特征向量序列对于GMM的似然度为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></msubsup><msub><mi>&omega;</mi><mi>k</mi></msub><mi>N</mi><mrow><mo>(</mo><mi>x</mi><mo>/</mo><msub><mi>&mu;</mi><mi>k</mi></msub><mo>,</mo><msub><mi>&Sigma;</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000750290220000011.GIF" wi="610" he="131" /></maths>其中,K为GMM中高斯成分的个数,k为高斯成分的计数,x为当前特征向量,ω<sub>k</sub>为高斯分量的权重,μ<sub>k</sub>为高斯分量的均值和Σ<sub>k</sub>为高斯分量的方差,N(g)表示高斯分布概率密度函数;将所述特征向量序列对于GMM的似然度最大的结果作为最匹配结果r,将当前识别结果的投票数加1按照如下公式对识别结果进行投票,所述投票的初始值为0:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Vote</mi><mi>i</mi></msub><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><msub><mi>Vote</mi><mi>i</mi></msub><mo>+</mo><mn>1</mn></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi></mrow></mtd><mtd><mrow><mi>r</mi><mo>=</mo><mi>i</mi></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>Vote</mi><mi>i</mi></msub></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000750290220000012.GIF" wi="579" he="184" /></maths>其中,i为四种哭声类型的序号,i=1,2,3,4,Vote<sub>i</sub>为第i类哭声的得票数,投票票数最多总体识别结果:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>R</mi><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mi>i</mi></munder><msub><mi>Vote</mi><mi>i</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA0000750290220000013.GIF" wi="413" he="128" /></maths>4)当啼哭声结束后,根据投票结果判断婴儿啼哭声类别,完成识别。
地址 518055 广东省深圳市南山区西丽深圳大学城北京大学校区