发明名称 一种在线增量的语音获得与识别方法
摘要 一种在线增量的语音获得与识别方法,包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、无法实现在线增量、这种方式不符合人的认知惯由此导致使用很不方便的缺陷。
申请公布号 CN104464721A 申请公布日期 2015.03.25
申请号 CN201410634670.9 申请日期 2014.11.12
申请人 南京大学 发明人 申富饶;许浩然;赵金熙
分类号 G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/26(2006.01)I 主分类号 G10L15/02(2006.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣
主权项 一种在线增量的语音获得与识别方法,其特征在于,步骤如下:步骤1:首先,用于处理语音数据的终端接收到外部输入的语音数据;步骤2:用于处理语音数据的终端接收到外部输入的语音数据后,就进入初始化阶段,所述的初始化阶段具体如下:1)构建基准点集合A={L<sub>1</sub>,L<sub>2</sub>},其中第一基准点L<sub>1</sub>,第二基准点L<sub>2</sub>是从外部输入的语音数据中选取的两个随机数据;2)构建边集合<img file="FDA0000605876720000015.GIF" wi="261" he="94" />其初始值为空集,即第一基准点L<sub>1</sub>,第二基准点L<sub>2</sub>之间没有初始连接;3)构建第一基准点L<sub>1</sub>的激活数<img file="FDA0000605876720000011.GIF" wi="210" he="82" />构建第二基准点L<sub>2</sub>的激活数<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>M</mi><msub><mi>L</mi><mn>2</mn></msub></msub><mo>=</mo><mn>0</mn><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000012.GIF" wi="224" he="84" /></maths>4)构建第一基准点L<sub>1</sub>的作用范围的阈值<img file="FDA0000605876720000013.GIF" wi="575" he="84" />构建第二基准点L<sub>2</sub>的作用范围的阈值<img file="FDA0000605876720000014.GIF" wi="522" he="81" />所述的dis tan ce(.,.)为相似性距离算法函数;步骤3:进入针对语音数据的输入与竞争阶段,所述的针对语音数据的输入与竞争阶段的具体方法如下:1)从外部对用于处理语音数据的终端输入一个新的语音数据样本ξ∈R<sup>D</sup>,其中R<sup>D</sup>表示D维实数向量,D表示自然数;2)找出A中与ξ最相似的两个基准点,所述的最相似的两个基准点分别为胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>,所述的胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>分别由如下所示公式所求得:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>s</mi><mn>1</mn></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi> </mi><mi>min</mi></mrow><mrow><mi>x</mi><mo>&Element;</mo><mi>A</mi></mrow></munder><mi>dis </mi><mi>tan</mi><mi> ce</mi><mrow><mo>(</mo><mi>&xi;</mi><mo>,</mo><mi>x</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000605876720000021.GIF" wi="580" he="117" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>s</mi><mn>2</mn></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>min</mi></mrow><mrow><mi>x</mi><mo>&Element;</mo><mi>A</mi><mo>-</mo><mo>{</mo><msub><mi>s</mi><mn>1</mn></msub><mo>}</mo></mrow></munder><mi>dis</mi><mi>tan</mi><mi>ce</mi><mrow><mo>(</mo><mi>&xi;</mi><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000022.GIF" wi="652" he="109" /></maths>步骤4:接着进入基准点更新阶段,所述的基准点更新阶段具体如下:1)如果<img file="FDA0000605876720000023.GIF" wi="358" he="95" />或者<img file="FDA0000605876720000024.GIF" wi="345" he="82" />成立,就为基准点集合A生成一个新的基准点ξ,令A=A∪{ξ},其中<img file="FDA0000605876720000025.GIF" wi="81" he="77" />表示针对胜者基准点s<sub>1</sub>的作用范围的阈值,<img file="FDA0000605876720000026.GIF" wi="72" he="84" />表示针对亚军基准点s2的作用范围的阈值,然后跳转至步骤3中继续执行;2)如果胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>间不存在连接,令C=C∪{(s<sub>1</sub>,s<sub>2</sub>)}即为胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>建立连接,然后令<img file="FDA0000605876720000027.GIF" wi="292" he="92" />即刷新边(s<sub>1</sub>,s<sub>2</sub>)的连接年龄;3)如果(s<sub>1</sub>,L<sub>i</sub>)∈C,则<img file="FDA0000605876720000028.GIF" wi="434" he="91" />即与胜者基准点s<sub>1</sub>相连的所有边连接年龄增加1,其中L<sub>i</sub>表示基准点集合A中与胜者基准点s1有边相连的所有节点;4)<img file="FDA0000605876720000029.GIF" wi="293" he="91" />即把胜者基准点s<sub>1</sub>的激活数<img file="FDA00006058767200000215.GIF" wi="68" he="81" />增加1;5)将胜者基准点s<sub>1</sub>和输入的新的语音数据样本ξ变形到相等的长度,即<img file="FDA00006058767200000210.GIF" wi="517" he="93" />其中s<sub>1</sub>'为调整后的新的胜者基准点,而ξ'为调整后的新的语音数据样本,所述的<img file="FDA00006058767200000211.GIF" wi="384" he="86" />为变形转化函数;6)更新胜者基准点<img file="FDA00006058767200000212.GIF" wi="454" he="102" />其中<img file="FDA00006058767200000213.GIF" wi="298" he="122" />即执行胜者基准点s<sub>1</sub>向输入的新的语音数据样本ξ移动操作;7)检查所有连接(L<sub>i</sub>,L<sub>j</sub>)∈C当前的连接年龄<img file="FDA00006058767200000214.GIF" wi="197" he="83" />如果<img file="FDA0000605876720000033.GIF" wi="373" he="95" />就从边集合C中移除该连接,其中age<sub>max</sub>是预先定义的连接年龄的阈值参数;步骤5:然后进入作用范围的阈值更新阶段,所述的作用范围的阈值更新阶段包括将胜者基准点s<sub>1</sub>的作用范围的阈值<img file="FDA0000605876720000034.GIF" wi="47" he="71" />和亚军基准点s<sub>2</sub>的作用范围的阈值<img file="FDA0000605876720000035.GIF" wi="61" he="86" />分别如下式所示来更新为与胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>的相邻基准点的最大距离,其中x分别表示基准点集合A中与胜者基准点s<sub>1</sub>有边相连的所有节点和基准点集合A中与亚军基准点s<sub>2</sub>有边相连的所有节点:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>T</mi><msub><mi>S</mi><mn>1</mn></msub></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi> </mi><mi>max</mi></mrow><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>dis </mi><mi>tan</mi><mi> ce</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000605876720000031.GIF" wi="726" he="123" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>T</mi><msub><mi>S</mi><mn>2</mn></msub></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>max</mi></mrow><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>dis</mi><mi>tan</mi><mi>ce</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000032.GIF" wi="717" he="116" /></maths>步骤6:最后进入去噪阶段,所述的去噪阶段包括如果当前输入的语音数据的样本总数是λ的整数倍,λ即为一个学习周期,检查整个基准点集合A,如果存在只有一个相邻基准点的基准点,并且该基准点的激活数小于设定的激活数的阈值,就在基准点集合A中删去该基准点,然后跳转至步骤3中执行,等到训练用的语音数据样本全部输入完毕后,就能得到所需的语音数据的基准点集合A以及基准点之间的连接C。
地址 210000 江苏省南京市汉口路22号