一种在线增量的语音获得与识别方法,申请号CN201410634670.9-传众专利搜索

发明名称	一种在线增量的语音获得与识别方法
摘要	一种在线增量的语音获得与识别方法，包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、无法实现在线增量、这种方式不符合人的认知惯由此导致使用很不方便的缺陷。
申请公布号	CN104464721A	申请公布日期	2015.03.25
申请号	CN201410634670.9	申请日期	2014.11.12
申请人	南京大学	发明人	申富饶;许浩然;赵金熙
分类号	G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/26(2006.01)I	主分类号	G10L15/02(2006.01)I
代理机构	南京钟山专利代理有限公司 32252	代理人	戴朝荣
主权项	一种在线增量的语音获得与识别方法，其特征在于，步骤如下：步骤1：首先，用于处理语音数据的终端接收到外部输入的语音数据；步骤2：用于处理语音数据的终端接收到外部输入的语音数据后，就进入初始化阶段，所述的初始化阶段具体如下：1)构建基准点集合A＝{L<sub>1</sub>,L<sub>2</sub>},其中第一基准点L<sub>1</sub>,第二基准点L<sub>2</sub>是从外部输入的语音数据中选取的两个随机数据；2)构建边集合<img file="FDA0000605876720000015.GIF" wi="261" he="94" />其初始值为空集,即第一基准点L<sub>1</sub>,第二基准点L<sub>2</sub>之间没有初始连接；3)构建第一基准点L<sub>1</sub>的激活数<img file="FDA0000605876720000011.GIF" wi="210" he="82" />构建第二基准点L<sub>2</sub>的激活数<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>M</mi><msub><mi>L</mi><mn>2</mn></msub></msub><mo>=</mo><mn>0</mn><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000012.GIF" wi="224" he="84" /></maths>4)构建第一基准点L<sub>1</sub>的作用范围的阈值<img file="FDA0000605876720000013.GIF" wi="575" he="84" />构建第二基准点L<sub>2</sub>的作用范围的阈值<img file="FDA0000605876720000014.GIF" wi="522" he="81" />所述的dis tan ce(.,.)为相似性距离算法函数；步骤3：进入针对语音数据的输入与竞争阶段，所述的针对语音数据的输入与竞争阶段的具体方法如下：1)从外部对用于处理语音数据的终端输入一个新的语音数据样本ξ∈R<sup>D</sup>，其中R<sup>D</sup>表示D维实数向量，D表示自然数；2)找出A中与ξ最相似的两个基准点,所述的最相似的两个基准点分别为胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>,所述的胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>分别由如下所示公式所求得：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>s</mi><mn>1</mn></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi> </mi><mi>min</mi></mrow><mrow><mi>x</mi><mo>&Element;</mo><mi>A</mi></mrow></munder><mi>dis </mi><mi>tan</mi><mi> ce</mi><mrow><mo>(</mo><mi>ξ</mi><mo>,</mo><mi>x</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000605876720000021.GIF" wi="580" he="117" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>s</mi><mn>2</mn></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>min</mi></mrow><mrow><mi>x</mi><mo>&Element;</mo><mi>A</mi><mo>-</mo><mo>{</mo><msub><mi>s</mi><mn>1</mn></msub><mo>}</mo></mrow></munder><mi>dis</mi><mi>tan</mi><mi>ce</mi><mrow><mo>(</mo><mi>ξ</mi><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000022.GIF" wi="652" he="109" /></maths>步骤4：接着进入基准点更新阶段，所述的基准点更新阶段具体如下：1)如果<img file="FDA0000605876720000023.GIF" wi="358" he="95" />或者<img file="FDA0000605876720000024.GIF" wi="345" he="82" />成立,就为基准点集合A生成一个新的基准点ξ,令A＝A∪{ξ}，其中<img file="FDA0000605876720000025.GIF" wi="81" he="77" />表示针对胜者基准点s<sub>1</sub>的作用范围的阈值，<img file="FDA0000605876720000026.GIF" wi="72" he="84" />表示针对亚军基准点s2的作用范围的阈值，然后跳转至步骤3中继续执行；2)如果胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>间不存在连接,令C＝C∪{(s<sub>1</sub>,s<sub>2</sub>)}即为胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>建立连接，然后令<img file="FDA0000605876720000027.GIF" wi="292" he="92" />即刷新边(s<sub>1</sub>,s<sub>2</sub>)的连接年龄；3)如果(s<sub>1</sub>,L<sub>i</sub>)∈C，则<img file="FDA0000605876720000028.GIF" wi="434" he="91" />即与胜者基准点s<sub>1</sub>相连的所有边连接年龄增加1，其中L<sub>i</sub>表示基准点集合A中与胜者基准点s1有边相连的所有节点；4)<img file="FDA0000605876720000029.GIF" wi="293" he="91" />即把胜者基准点s<sub>1</sub>的激活数<img file="FDA00006058767200000215.GIF" wi="68" he="81" />增加1；5)将胜者基准点s<sub>1</sub>和输入的新的语音数据样本ξ变形到相等的长度，即<img file="FDA00006058767200000210.GIF" wi="517" he="93" />其中s<sub>1</sub>'为调整后的新的胜者基准点，而ξ'为调整后的新的语音数据样本，所述的<img file="FDA00006058767200000211.GIF" wi="384" he="86" />为变形转化函数；6)更新胜者基准点<img file="FDA00006058767200000212.GIF" wi="454" he="102" />其中<img file="FDA00006058767200000213.GIF" wi="298" he="122" />即执行胜者基准点s<sub>1</sub>向输入的新的语音数据样本ξ移动操作；7)检查所有连接(L<sub>i</sub>,L<sub>j</sub>)∈C当前的连接年龄<img file="FDA00006058767200000214.GIF" wi="197" he="83" />如果<img file="FDA0000605876720000033.GIF" wi="373" he="95" />就从边集合C中移除该连接,其中age<sub>max</sub>是预先定义的连接年龄的阈值参数；步骤5：然后进入作用范围的阈值更新阶段，所述的作用范围的阈值更新阶段包括将胜者基准点s<sub>1</sub>的作用范围的阈值<img file="FDA0000605876720000034.GIF" wi="47" he="71" />和亚军基准点s<sub>2</sub>的作用范围的阈值<img file="FDA0000605876720000035.GIF" wi="61" he="86" />分别如下式所示来更新为与胜者基准点s<sub>1</sub>和亚军基准点s<sub>2</sub>的相邻基准点的最大距离，其中x分别表示基准点集合A中与胜者基准点s<sub>1</sub>有边相连的所有节点和基准点集合A中与亚军基准点s<sub>2</sub>有边相连的所有节点：<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>T</mi><msub><mi>S</mi><mn>1</mn></msub></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi> </mi><mi>max</mi></mrow><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>dis </mi><mi>tan</mi><mi> ce</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000605876720000031.GIF" wi="726" he="123" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>T</mi><msub><mi>S</mi><mn>2</mn></msub></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>max</mi></mrow><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>dis</mi><mi>tan</mi><mi>ce</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000605876720000032.GIF" wi="717" he="116" /></maths>步骤6：最后进入去噪阶段，所述的去噪阶段包括如果当前输入的语音数据的样本总数是λ的整数倍，λ即为一个学习周期，检查整个基准点集合A，如果存在只有一个相邻基准点的基准点,并且该基准点的激活数小于设定的激活数的阈值,就在基准点集合A中删去该基准点，然后跳转至步骤3中执行，等到训练用的语音数据样本全部输入完毕后,就能得到所需的语音数据的基准点集合A以及基准点之间的连接C。
地址	210000 江苏省南京市汉口路22号