发明名称 频谱校正及数据密度聚类法语音欠定盲识别方法和装置
摘要 本发明属于数字信号处理技术领域,为提高算法精度;显著提高算法的效率;使算法对噪声的鲁棒性更强。本发明采用的技术方案是,频谱校正及数据密度聚类法语音欠定盲识别方法,包括如下步骤:Step1:做加汉宁窗L点50%重叠的短时傅立叶变换STFT,得到观测频谱X<sub>m</sub>(t,k);Step2:逐帧对STFT观测频谱做频谱校正;Step3:对于上述特定时间帧t<sub>0</sub>,对所有谐波参数对进行模式提纯;Step4:将上述Step2及Step3逐帧进行,收集所有时间帧得到的SAS模式组成单源域Ω={z<sub>i</sub>,i=1,…,P},P为单源域的模式数目;Step5:对单源域中的SAS模式进行数据密度聚类。本发明主要应用于数字信号处理。
申请公布号 CN105654963A 申请公布日期 2016.06.08
申请号 CN201610172589.2 申请日期 2016.03.23
申请人 天津大学 发明人 黄翔东;靳旭康
分类号 G10L21/0272(2013.01)I;G06K9/62(2006.01)I 主分类号 G10L21/0272(2013.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 刘国威
主权项 一种频谱校正及数据密度聚类法语音欠定盲识别方法,其特征是,步骤如下:Step 1:对观测信号x<sub>m</sub>(t),m=1,…,M做加汉宁窗L点50%重叠的短时傅立叶变换STFT,得到观测频谱X<sub>m</sub>(t,k),t为时间,k为谱线位置,m为当前观测的下标,M为观测数目;Step 2:逐帧对STFT观测频谱做频谱校正,对于某一特定时间帧t<sub>0</sub>,具体操作为:1)收集时间帧t<sub>0</sub>的观测频谱X<sub>m</sub>(t<sub>0</sub>,k)的所有峰值的位置k<sub>p</sub>,p为当前谱峰的下标;计算峰值X<sub>m</sub>(t<sub>0</sub>,k<sub>p</sub>)及其次峰的比值v<sub>p</sub>,m为当前观测下标:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>v</mi><mi>p</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>X</mi><mi>m</mi></msub><mrow><mo>(</mo><msub><mi>t</mi><mn>0</mn></msub><mo>,</mo><msub><mi>k</mi><mi>p</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mo>{</mo><mo>|</mo><msub><mi>X</mi><mi>m</mi></msub><mrow><mo>(</mo><msub><mi>t</mi><mn>0</mn></msub><mo>,</mo><msub><mi>k</mi><mi>p</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>|</mo><mo>,</mo><mo>|</mo><msub><mi>X</mi><mi>m</mi></msub><mrow><mo>(</mo><msub><mi>t</mi><mn>0</mn></msub><mo>,</mo><msub><mi>k</mi><mi>p</mi></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>|</mo><mo>}</mo></mrow></mfrac><mo>.</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000948103890000011.GIF" wi="1293" he="191" /></maths>则可得到中间参数u<sub>p</sub>u<sub>p</sub>=(2‑v<sub>p</sub>)/(1+v<sub>p</sub>)     (2)2)根据参数u<sub>p</sub>估计频率偏移<img file="FDA0000948103890000012.GIF" wi="55" he="84" /><img file="FDA0000948103890000013.GIF" wi="1653" he="215" />则频率估计<img file="FDA0000948103890000014.GIF" wi="87" he="79" />为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mover><mi>&omega;</mi><mo>^</mo></mover><mrow><mi>m</mi><mo>,</mo><mi>p</mi></mrow></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>k</mi><mi>p</mi></msub><mo>+</mo><msub><mover><mi>&delta;</mi><mo>^</mo></mover><mi>p</mi></msub><mo>)</mo></mrow><mn>2</mn><mi>&pi;</mi><mo>/</mo><mi>L</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000948103890000015.GIF" wi="827" he="103" /></maths>3)幅值<img file="FDA0000948103890000016.GIF" wi="85" he="86" />估计及相位<img file="FDA0000948103890000017.GIF" wi="91" he="76" />则分别为<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mover><mi>d</mi><mo>^</mo></mover><mrow><mi>m</mi><mo>,</mo><mi>p</mi></mrow></msub><mo>=</mo><mn>2</mn><mi>&pi;</mi><msub><mover><mi>&delta;</mi><mo>^</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msubsup><mover><mi>&delta;</mi><mo>^</mo></mover><mi>p</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>|</mo><msub><mi>X</mi><mi>m</mi></msub><mrow><mo>(</mo><msub><mi>t</mi><mn>0</mn></msub><mo>,</mo><msub><mi>k</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>|</mo><mo>/</mo><mi>s</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><mi>&pi;</mi><msub><mover><mi>&delta;</mi><mo>^</mo></mover><mi>p</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000948103890000018.GIF" wi="1654" he="102" /></maths><img file="FDA0000948103890000019.GIF" wi="1654" he="95" />其中ang(·)代表取相角运算,得到较多的谐波参数集合<img file="FDA00009481038900000110.GIF" wi="374" he="103" />Step 3:对于上述特定时间帧t<sub>0</sub>,对所有谐波参数对进行模式提纯,具体操作为1)将<img file="FDA00009481038900000111.GIF" wi="348" he="94" />频率集合进行混合,<img file="FDA00009481038900000112.GIF" wi="340" he="79" />为观测1~M的频率成分;按照升序排列,得到Q个簇,其中第q个簇为<img file="FDA00009481038900000113.GIF" wi="753" he="91" />为当前簇的下标,Γ<sub>q</sub>为该簇的元素个数,<img file="FDA00009481038900000114.GIF" wi="94" he="71" />为当前簇中p′个成分,则合并后的频率为<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mover><mi>&omega;</mi><mo>&OverBar;</mo></mover><mi>q</mi></msub><mo>=</mo><mfrac><mn>1</mn><msub><mi>&Gamma;</mi><mi>q</mi></msub></mfrac><munderover><mo>&Sigma;</mo><mrow><msup><mi>p</mi><mo>&prime;</mo></msup><mo>=</mo><mn>1</mn></mrow><msub><mi>&Gamma;</mi><mi>q</mi></msub></munderover><msub><mover><mi>&omega;</mi><mo>~</mo></mover><mrow><mi>q</mi><mo>,</mo><msup><mi>p</mi><mo>&prime;</mo></msup></mrow></msub><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA00009481038900000115.GIF" wi="827" he="159" /></maths>则可得到合并后的频率序列<img file="FDA00009481038900000116.GIF" wi="358" he="92" />2)找出<img file="FDA00009481038900000117.GIF" wi="335" he="95" />中满足给定一个小阈值ε&gt;0,对于每个m都存在且仅存在一个下标<img file="FDA00009481038900000118.GIF" wi="94" he="70" />满足下式:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mo>|</mo><msub><mover><mi>&omega;</mi><mo>^</mo></mover><mrow><mi>m</mi><mo>,</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mrow><mi>m</mi><mo>,</mo><mi>q</mi></mrow></msub></mrow></msub><mo>-</mo><msub><mover><mi>&omega;</mi><mo>&OverBar;</mo></mover><mi>q</mi></msub><mo>|</mo><mo>&lt;</mo><mi>&epsiv;</mi><mo>,</mo></mrow>]]></math><img file="FDA0000948103890000021.GIF" wi="334" he="103" /></maths>则该频率对应一个候选有效模式<img file="FDA0000948103890000022.GIF" wi="77" he="61" /><img file="FDA0000948103890000023.GIF" wi="725" he="557" />其中<img file="FDA0000948103890000024.GIF" wi="270" he="94" />为观测1~M相应成分的幅值,<img file="FDA0000948103890000025.GIF" wi="280" he="87" />观测1~M相应成分的相位;3)将有效模式<img file="FDA0000948103890000026.GIF" wi="54" he="62" />作为输入,按照下式识别<img file="FDA0000948103890000027.GIF" wi="55" he="63" />中的SAS模式,并记为<img file="FDA0000948103890000028.GIF" wi="319" he="86" />将所有投影的组合情况考虑后,共有<img file="FDA0000948103890000029.GIF" wi="385" he="87" />种情况,得到最终的判定准则为<img file="FDA00009481038900000210.GIF" wi="525" he="143" />C代表组合操作,r及l代表从1到M遍历的两个变量;Step 4:将上述Step 2及Step 3逐帧进行,收集所有时间帧得到的SAS模式组成单源域Ω={z<sub>i</sub>,i=1,…,P},P为单源域的模式数目,z<sub>i</sub>为单源域中第i个成分;Step 5:对单源域中的SAS模式进行数据密度聚类,具体操作如下1)计算任两个模式点的特征距离d<sub>i,j</sub>d<sub>i,j</sub>=||z<sub>i</sub>‑z<sub>j</sub>||,1≤i,j≤P,i≠j;   (8)i,j为从1到P变化的变量;2)计算每个模式点的局部数据密度ρ<sub>i</sub>,i=1,…,P如下式,<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>&rho;</mi><mi>i</mi></msub><mo>=</mo><munder><mi>&Sigma;</mi><mi>j</mi></munder><mi>&chi;</mi><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>d</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA00009481038900000211.GIF" wi="412" he="126" /></maths>其中,χ(·)为一个阈值函数,d<sub>i,j</sub>为当前模式与其他模式的距离其中参数,d<sub>c</sub>为邻域截止距离,<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>&chi;</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn><mo>,</mo><mi>t</mi><mo>&le;</mo><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo><mi>t</mi><mo>&gt;</mo><mn>0</mn></mtd></mtr></mtable></mfenced><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA00009481038900000212.GIF" wi="827" he="157" /></maths>3)将ρ<sub>i</sub>,i=1,…,P按照降序排列,得到下表序列{q<sub>i</sub>,i=1,…,P},使得<img file="FDA00009481038900000214.GIF" wi="399" he="71" />4)按照下式计算每个模式点的特征距离:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>&delta;</mi><mi>i</mi></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mi>j</mi><mo>&GreaterEqual;</mo><mn>2</mn></mrow></munder><mrow><mo>(</mo><msub><mi>d</mi><mrow><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub></mrow></msub><mo>)</mo></mrow><mo>,</mo></mrow></mtd><mtd><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>;</mo></mrow></mtd></mtr><mtr><mtd><mrow><munder><mi>min</mi><mrow><msub><mi>q</mi><mi>j</mi></msub><mo>,</mo><mi>j</mi><mo>&lt;</mo><mi>i</mi></mrow></munder><mrow><mo>(</mo><msub><mi>d</mi><mrow><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub></mrow></msub><mo>)</mo></mrow><mo>,</mo></mrow></mtd><mtd><mrow><mi>i</mi><mo>&GreaterEqual;</mo><mn>1</mn><mo>;</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00009481038900000213.GIF" wi="516" he="238" /></maths>其中,将所求局部数据密度序列按照降序排列,得到一个下标序列{q<sub>i</sub>,i=1,…,P};5)计算每个模式点的局部数据密度及特征距离的乘积γ<sub>i</sub>=ρ<sub>i</sub>δ<sub>i</sub>,i=1,…,P,则必有N个γ<sub>i</sub>显著大于其他γ<sub>i</sub>,即将γ<sub>i</sub>降序排列,必存在一个下标集合<img file="FDA0000948103890000031.GIF" wi="298" he="86" />满足<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>&gamma;</mi><msub><mover><mi>q</mi><mo>&CenterDot;</mo></mover><mn>1</mn></msub></msub><mo>&GreaterEqual;</mo><msub><mi>&gamma;</mi><msub><mover><mi>q</mi><mo>&CenterDot;</mo></mover><mn>2</mn></msub></msub><mo>&GreaterEqual;</mo><mo>...</mo><mo>&GreaterEqual;</mo><msub><mi>&gamma;</mi><msub><mover><mi>q</mi><mo>&CenterDot;</mo></mover><mi>N</mi></msub></msub><mo>&gt;</mo><mo>&gt;</mo><msub><mi>&gamma;</mi><mi>j</mi></msub><mo>,</mo><mi>j</mi><mo>&NotElement;</mo><mi>&Lambda;</mi><mo>.</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000948103890000032.GIF" wi="838" he="84" /></maths>因而,<img file="FDA0000948103890000033.GIF" wi="285" he="62" />即为N个聚类中心,对于中心<img file="FDA0000948103890000034.GIF" wi="95" he="63" />将其周围距离小于<img file="FDA0000948103890000035.GIF" wi="48" he="79" />的模式进行统计平均,即得到最终的混合矩阵列向量估计<img file="FDA0000948103890000036.GIF" wi="79" he="70" />对所有聚类中心进行此操作,最终得混合矩阵估计<img file="FDA0000948103890000037.GIF" wi="78" he="70" />
地址 300072 天津市南开区卫津路92号