发明名称 基于空间稀疏性的分布式麦克风阵列声源定位方法
摘要 本发明提供一种基于空间稀疏性的分布式麦克风阵列声源定位方法,通过两步离散余弦变换(Discrete Cosine Transform,DCT)方式进行信号特征提取,然后用该特征构建稀疏定位模型,以便综合利用语音信号的短时和长时特性,同时能降低模型维数;并利用字典学方式对模型进行修正;最后采用近似l<sub>0</sub>范数重构算法对稀疏信号进行重构,得出声源位置。本发明对阵列结构无特殊要求、计算量少,有效地提高了抗噪声和抗混响能力以及定位精度,更适合用于室内声源定位,可广泛应用于视频会议系统、语音识别系统以及智能机器人等各个领域。
申请公布号 CN105068048B 申请公布日期 2016.10.19
申请号 CN201510501552.5 申请日期 2015.08.14
申请人 南京信息工程大学 发明人 王婷婷;柯炜;张闯
分类号 G01S5/20(2006.01)I 主分类号 G01S5/20(2006.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣
主权项 一种基于空间稀疏性的分布式麦克风阵列声源定位方法,其特征在于,包括如下步骤:S1、定位系统建立:分布式麦克风定位系统由M个已知自身位置的麦克风和K个待定位声源组成,采用分步格点划分方法将整个定位区域均匀划分为若干个格点;每个麦克风分别接收声源发出的信号,并传送给定位中心;S2、语音信号特征提取:定位中心将任一麦克风接收到的语音信号首先经过加窗处理,把原来长度为P×1的语音信号向量r分解为J个长度为Q×1的短帧,即:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>r</mi><mo>=</mo><msub><mfenced open = "[" close = "]"><mtable><mtr><mtd><msub><mi>r</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>r</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr></mtable></mtd></mtr><mtr><mtd><msub><mi>r</mi><mi>P</mi></msub></mtd></mtr></mtable></mfenced><mrow><mi>P</mi><mo>&times;</mo><mn>1</mn></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mo>-</mo><mo>-</mo><mo>&gt;</mo><mi>Z</mi><mo>=</mo><msub><mfenced open = "[" close = "]"><mtable><mtr><mtd><msub><mi>z</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>z</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr></mtable></mtd></mtr><mtr><mtd><msub><mi>z</mi><mi>J</mi></msub></mtd></mtr></mtable></mfenced><mrow><mi>J</mi><mo>&times;</mo><mi>Q</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000011.GIF" wi="1229" he="375" /></maths>其中r<sub>i</sub>,i=1,…,P表示输入信号向量r的每一个分量;Z是一个维数为J×Q的矩阵,每一行代表经过加窗处理后的1帧数据;接下来对这J帧信号分别进行一次DCT变换:<img file="FDA0001018138690000012.GIF" wi="1390" he="319" />式中D(·)表示DCT变换,<img file="FDA0001018138690000013.GIF" wi="238" he="63" />J表示z<sub>i</sub>,i=1,…,J经过DCT变换后的结果;对变化后的每一帧数据通过除以该帧的最大值实现归一化处理,然后对每一帧数据进行求平均计算:<img file="FDA0001018138690000014.GIF" wi="1342" he="326" />接下来考虑连续多帧信号的长时特性,为此对求平均后的向量s再进行一次DCT变换,得到<img file="FDA0001018138690000021.GIF" wi="1516" he="445" />向量<img file="FDA0001018138690000022.GIF" wi="27" he="46" />的长度仍为J×1,也即基于两步DCT变换的特征提取方法将计算复杂度从样本长度级降低到帧长数量级;S3、建立稀疏定位模型:当定位中心接收到各麦克风采集的信号后,按S2分别进行特征提取,构成新的测量向量<img file="FDA0001018138690000023.GIF" wi="315" he="62" />其中[·]<sup>T</sup>表示转置计算,从而稀疏定位模型可表示为:y=Φx+v    (5)其中,x为N×1的稀疏向量,Φ为一个M×N的矩阵,表示冗余字典,v为M×1的向量,表示噪声干扰;Φ中的任一项<img file="FDA0001018138690000024.GIF" wi="75" he="47" />1≤i≤M,1≤j≤N,表示第i个麦克风收到声源在第j个格点处发出声波信号按S2进行提取后获得的特征量;一旦将定位区域内划分为N个格点,则声源在空间上的位置可精确地用一个N×1的稀疏索引向量x表示,声源位置所对应格点处索引值为1,而其他格点对应索引值为0,即x=[0,1,…,0,1,0…0]<sup>T</sup>    (6)如此一来,定位问题就转变为依据接收信号判断稀疏向量x中非零值所在位置的问题;S4、模型失配修正:修正式为:y=(Φ+Γ)x+v=Hx+v    (7)其中v为M×1的向量,表示噪声干扰;H=(Φ+Γ)表示真实的冗余字典,其中Γ是预先未知的;采用字典学习:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>arg</mi><munder><mi>min</mi><mrow><mi>H</mi><mo>,</mo><mi>X</mi></mrow></munder><mo>|</mo><mo>|</mo><mi>Y</mi><mo>-</mo><mi>H</mi><mi>X</mi><mo>|</mo><msubsup><mo>|</mo><mi>F</mi><mn>2</mn></msubsup></mrow></mtd><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>i</mi></msub><mo>|</mo><msub><mo>|</mo><mn>0</mn></msub><mo>&le;</mo><mi>K</mi><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>L</mi></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000025.GIF" wi="1278" he="86" /></maths>其中||·||<sub>F</sub>表示Frobenius范数,Y=[y<sub>1</sub> y<sub>2</sub> … y<sub>L</sub>]表示训练样本,X=[x<sub>1</sub> x<sub>2</sub> … x<sub>L</sub>]为稀疏矩阵,其分量x<sub>i</sub>,i=1,…,L表示对应训练向量y<sub>i</sub>的稀疏向量;采用正则化方式进行字典更新,计算公式如下:H=YX<sup>T</sup>(XX<sup>T</sup>+βI)<sup>‑1</sup>    (9)其中I表示单位矩阵,β为正则化系数;S5、稀疏重构:在稀疏恢复阶段,字典H保持不变,通过重构算法计算稀疏向量;根据CS理论,准确描述稀疏约束的是l<sub>0</sub>范数,即min||x<sub>i</sub>||<sub>0</sub>s.t.y<sub>i</sub>=Hx<sub>i</sub>,i=1,…,L    (10)由于l<sub>0</sub>范数的求解是NP难问题,因此用l<sub>1</sub>范数来代替l<sub>0</sub>范数进行稀疏约束,即min||x<sub>i</sub>||<sub>1</sub>s.t.y<sub>i</sub>=Hx<sub>i</sub>,i=1,…,L    (11)用如下组合函数来作为l<sub>0</sub>范数的近似函数,组合函数表达式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>f</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>&lambda;</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><msup><mi>&sigma;</mi><mn>2</mn></msup><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&lambda;</mi><mo>)</mo></mrow><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><msup><mi>x</mi><mn>2</mn></msup><mo>/</mo><msup><mi>&lambda;&sigma;</mi><mn>2</mn></msup></mrow></msup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000031.GIF" wi="1252" he="125" /></maths>其中0&lt;λ&lt;1;显然,f<sub>σ</sub>(x)是连续函数,并且具有如下性质<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><munder><mi>lim</mi><mrow><mi>&sigma;</mi><mo>&RightArrow;</mo><mn>0</mn></mrow></munder><msub><mi>f</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mrow><mi>x</mi><mo>&NotEqual;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>x</mi><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000032.GIF" wi="1188" he="150" /></maths>令<img file="FDA0001018138690000033.GIF" wi="451" he="135" />则当σ很小时有F<sub>σ</sub>(x<sub>i</sub>)≈||x<sub>i</sub>||<sub>0</sub>    (14)其中x<sub>i</sub>(j)表示x<sub>i</sub>的第j个分量;因此(10)式所示问题可以变为<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><msub><mi>x</mi><mi>i</mi></msub></munder><msub><mi>F</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><msub><mi>Hx</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000034.GIF" wi="1198" he="93" /></maths>为了进一步逼近l<sub>0</sub>范数的约束效果,引入加权约束思想,通过加权,使重构信号中的大系数和小系数获得同等约束,此时(15)式改为<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><msub><mi>x</mi><mi>i</mi></msub></munder><msub><mi>WF</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><msub><mi>Hx</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000035.GIF" wi="1198" he="86" /></maths>其中W为N维对角加权矩阵,该矩阵仅对角线上元素不为零,其它元素绝为零,其对角线上元素取为w<sub>j</sub>=1/(|x<sub>i</sub>(j)|+η),η是一个小量,防止w<sub>j</sub>出现奇异值;最小化式(16)的问题可以通过拉格朗日乘子法转化为无约束最优化问题进行求解,即<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><munder><mi>min</mi><msub><mi>x</mi><mi>i</mi></msub></munder><mi>L</mi><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo>=</mo><msub><mi>WF</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&gamma;</mi><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>Hx</mi><mi>i</mi></msub><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018138690000041.GIF" wi="1222" he="101" /></maths>其中γ为约束参数;当参数σ较小时问题(17)的解容易收敛于局部最优解,为了使问题(17)能够尽量收敛于全局最优解,本发明取参数σ为下列一组下降序列σ=[σ<sub>1</sub>,…,σ<sub>T</sub>]    (18)其中σ<sub>1</sub>为较大正常数,σ<sub>T</sub>为接近于零的正常数;迭代求解过程中将参数σ=σ<sub>m‑1</sub>,m=2,…,T时得到的式(17)的最优解作为参数σ=σ<sub>m</sub>时求解最优化问题(17)的初始解,从而使算法逐步收敛于参数为σ=σ<sub>T</sub>时的全局最优解。
地址 210044 江苏省南京市宁六路219号