发明名称 基于随机传声器阵列和双目视觉的获取运动声场视频的方法
摘要 本发明涉及一种基于随机传声器阵列和双目视觉的获取运动声场视频的方法,属于噪声分析和控制技术领域。首先利用随机传声器阵列获取声场信息,利用双目立体视觉技术进行声场空间的三维测量和运动物体的自动追踪,建立声场空间与信号之间的时空关系,并将声场测量结果与摄像机的三维视频图像匹配在一起,将物体的运动过程与声场的动态变化过程以动态视频的效果直观进行显示,并获得各个噪声源的位置。本发明方法使已有的声场可视化的方法更准确实用,使运动噪声的测量和识别变得容易,为进一步的声源识别和降噪工作提供更准确的依据。
申请公布号 CN101414000B 申请公布日期 2011.04.27
申请号 CN200810238888.7 申请日期 2008.12.04
申请人 清华大学 发明人 杨殿阁;连小珉;郑四发;罗禹贡;李克强;王建强;李兵;邵林
分类号 G01S5/00(2006.01)I;G01H17/00(2006.01)I 主分类号 G01S5/00(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 罗文群
主权项 1.一种基于随机传声器阵列和双目视觉的获取运动声场视频的方法,其特征在于该方法包括以下步骤:(1)设测量用传声器所在的阵列平面A的长度为L<sub>1</sub>、高度为H<sub>1</sub>,被测运动物体所在平面R的长度为L<sub>2</sub>、高度为H<sub>2</sub>,阵列平面A与平面R之间的垂直距离为D;(2)设上述测量用传声器数目为N,任意布置N个传声器在阵列平面A中的位置,形成一个仿真传声器阵列,通过仿真计算对该传声器阵列的分辨性能进行判断,方法如下:首先得到随机传声器阵列中各个传声器的仿真声压信号<img file="FSB00000363631400011.GIF" wi="385" he="53" />其中第i个传声器的仿真声压信号为:<maths num="0001"><![CDATA[<math><mrow><msub><mover><mi>p</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>4</mn><mi>&pi;</mi></mrow></mfrac><mfrac><mrow><mover><mi>q</mi><mo>~</mo></mover><mo>[</mo><mi>t</mi><mo>-</mo><mfrac><mrow><msub><mover><mi>r</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mi>c</mi></mfrac><mo>]</mo></mrow><mrow><msub><mover><mi>r</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msup><mrow><mo>[</mo><mn>1</mn><mo>-</mo><mi>M</mi><mi>cos</mi><msub><mover><mi>&theta;</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow></mfrac></mrow></math>]]></maths>其中,<img file="FSB00000363631400013.GIF" wi="77" he="48" />为仿真被测声源特征函数<img file="FSB00000363631400014.GIF" wi="404" he="63" /><img file="FSB00000363631400015.GIF" wi="39" he="52" />为仿真实测声源强度,f为仿真被测声源的频率,<img file="FSB00000363631400016.GIF" wi="76" he="53" />为在t时刻Q点距第i个传声器间的距离,θ<sub>i</sub>(t)为在t时刻Q点到第i个传声器连线与Q点运动方向间的夹角,M为马赫数,Q为仿真被测点声源;根据上述传声器的仿真声压信号,计算出待测运动物体所在平面R上任意一点<img file="FSB00000363631400017.GIF" wi="123" he="48" />处在t<sub>1</sub>至t<sub>2</sub>时间段内的仿真声场特征函数:<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>W</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><msub><mi>t</mi><mn>1</mn></msub><msub><mi>t</mi><mn>2</mn></msub></msubsup><msup><mover><mi>P</mi><mo>~</mo></mover><mn>2</mn></msup><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mi>dt</mi><mo>,</mo></mrow></math>]]></maths>其中,<maths num="0003"><![CDATA[<math><mrow><mover><mi>P</mi><mo>~</mo></mover><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mover><mi>p</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mfrac><mrow><msub><mover><mi>r</mi><mo>~</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow></mrow><mi>c</mi></mfrac><mo>)</mo></mrow></mrow></math>]]></maths><img file="FSB000003636314000110.GIF" wi="193" he="67" />为t时刻面上任意点<img file="FSB000003636314000111.GIF" wi="159" he="60" />与第i个传声器之间的物理距离;遍历待测运动物体所在平面R,得到仿真声场特征函数分布图,设分布图中主瓣峰值为h<sub>p</sub>,最大旁瓣峰值为h<sub>v</sub>,则旁瓣抑制比γ<sub>f</sub>为:<maths num="0004"><![CDATA[<math><mrow><msub><mi>&gamma;</mi><mi>r</mi></msub><mo>=</mo><mn>20</mn><mi>log</mi><mrow><mo>(</mo><mfrac><msub><mi>h</mi><mi>p</mi></msub><msub><mi>h</mi><mi>v</mi></msub></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>若γ<sub>f</sub>≥N且上述传声器数8≤N<16,或γ<sub>f</sub>≥16且上述传声器数N≥16,则该随机传声器阵列满足频率f下的分辨性能要求,进行下一频率的判断;在下一频率重复上述仿真步骤,若在对每一频率的仿真都满足上述分辨性能要求,则得到测量用的随机传声器阵列;否则随机生成一个新的仿真传声器阵列,重复上述判断过程,直至得到一个满足上述分辨性能要求的仿真传声器阵列;(3)搭建一个与上述仿真步骤得到的仿真传声器阵列相同的传声器阵列;(4)在被测运动物体侧面粘贴10~30个标志图,在与被测运动物体相距L处布置两台摄像机,两台摄像机之间的距离为d,对两台摄像机分别进行标定,获取第一台摄像机的内部参数和外部参数:摄像机主点坐标(u<sub>01</sub>,v<sub>01</sub>)、镜头焦距f<sub>1</sub>及像素的物理尺寸dx<sub>1</sub>×dy<sub>1</sub>,摄像机旋转矩阵R<sub>1</sub>及平移向量t<sub>1</sub>;获取第二台摄像机的内部参数和外部参数:摄像机主点坐标(u<sub>02</sub>,v<sub>02</sub>)、镜头焦距f<sub>2</sub>及像素的物理尺寸dx<sub>2</sub>×dy<sub>2</sub>,摄像机旋转矩阵R<sub>2</sub>及平移向量t<sub>2</sub>;根据第一台摄像机和第二台摄像机的上述参数,分别得到第一台摄像机和第二台摄像机的投影矩阵为:<maths num="0005"><![CDATA[<math><mrow><msub><mi>M</mi><mn>1</mn></msub><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><mfrac><msub><mi>f</mi><mn>1</mn></msub><mrow><mi>d</mi><msub><mi>x</mi><mn>1</mn></msub></mrow></mfrac></mtd><mtd><mn>0</mn></mtd><mtd><msub><mi>u</mi><mn>01</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mfrac><msub><mi>f</mi><mn>1</mn></msub><mrow><mi>d</mi><msub><mi>y</mi><mn>1</mn></msub></mrow></mfrac></mtd><mtd><msub><mi>v</mi><mn>01</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>0</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>R</mi><mn>1</mn></msub></mtd><mtd><msub><mi>t</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>1</mn></msubsup></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><msub><mi>M</mi><mn>2</mn></msub><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><mfrac><msub><mi>f</mi><mn>2</mn></msub><mrow><mi>d</mi><msub><mi>x</mi><mn>2</mn></msub></mrow></mfrac></mtd><mtd><mn>0</mn></mtd><mtd><msub><mi>u</mi><mn>02</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mfrac><msub><mi>f</mi><mn>2</mn></msub><mrow><mi>d</mi><msub><mi>y</mi><mn>2</mn></msub></mrow></mfrac></mtd><mtd><msub><mi>v</mi><mn>02</mn></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>0</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>R</mi><mn>2</mn></msub></mtd><mtd><msub><mi>t</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>(5)设被测运动物体以速度v行驶,用上述搭建的传声器阵列获取被测运动物体声源的声压信号,用两台摄像机分别获取被测运动物体的动态视频;(6)分别将上述两台摄像机获取的动态视频拆解成图像,在拆解后的视频图像中识别出被测运动物体上的标志点,对分别识别出的第一台摄像机和第二台摄像机图像上的标志点进行匹配,使被测运动物体上的同一标志点在两台摄像机所获图像上的位置相对应;(7)设被测运动物体上的标志图的中心点P在两台摄像机所获取图像上所成的像的齐次坐标分别为(u<sub>1</sub>,v<sub>1</sub>,1)<sup>T</sup>,(u<sub>2</sub>,v<sub>2</sub>,1)<sup>T</sup>,在世界坐标系下的齐次坐标为(X,Y,Z,1)<sup>T</sup>,则根据上述摄像机的投影矩阵,有:<maths num="0007"><![CDATA[<math><mrow><msub><mi>Z</mi><mrow><mi>c</mi><mn>1</mn></mrow></msub><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>u</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>v</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>=</mo><msub><mi>M</mi><mn>1</mn></msub><mfenced open='[' close=']'><mtable><mtr><mtd><mi>X</mi></mtd></mtr><mtr><mtd><mi>Y</mi></mtd></mtr><mtr><mtd><mi>Z</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>1</mn></msubsup></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><mi>X</mi></mtd></mtr><mtr><mtd><mi>Y</mi></mtd></mtr><mtr><mtd><mi>Z</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></maths><maths num="0008"><![CDATA[<math><mrow><msub><mi>Z</mi><mrow><mi>c</mi><mn>2</mn></mrow></msub><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>u</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><msub><mi>v</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>=</mo><msub><mi>M</mi><mn>2</mn></msub><mfenced open='[' close=']'><mtable><mtr><mtd><mi>X</mi></mtd></mtr><mtr><mtd><mi>Y</mi></mtd></mtr><mtr><mtd><mi>Z</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><msubsup><mi>m</mi><mn>11</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>12</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>13</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>14</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>21</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>22</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>23</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>24</mn><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>m</mi><mn>31</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>32</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>33</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>m</mi><mn>34</mn><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced><mfenced open='[' close=']'><mtable><mtr><mtd><mi>X</mi></mtd></mtr><mtr><mtd><mi>Y</mi></mtd></mtr><mtr><mtd><mi>Z</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中,Z<sub>c1</sub>、Z<sub>c2</sub>分别为P点在第一台摄像机和第二台摄像机的摄像机坐标系中沿摄像机光轴的坐标,求解上述方程组,得到被测运动物体上的标志点P在世界坐标系下的坐标(X,Y,Z,1)<sup>T</sup>;(8)对上述传声器阵列获取的声压信号进行波束成型处理,得到被测运动物体上任意一点s(ε,η)处在t<sub>1</sub>至t<sub>2</sub>时间内的声场特征函数:<maths num="0009"><![CDATA[<math><mrow><msub><mi>W</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><msub><mi>t</mi><mn>1</mn></msub><msub><mi>t</mi><mn>2</mn></msub></msubsup><msup><mi>P</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mi>dt</mi><mo>,</mo></mrow></math>]]></maths>其中,<maths num="0010"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mfrac><mrow><msub><mi>r</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>&epsiv;</mi><mo>,</mo><mi>&eta;</mi><mo>)</mo></mrow></mrow><mi>c</mi></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>p<sub>i</sub>(t)为t时刻第i个传声器接收到的信号声压,r<sub>i</sub>(t,ε,η)为t时刻面上任意点s(ε,η)与第i个传声器之间的物理距离,c为声速,N为传声器数目,ΔT为摄像机每帧图像间的时间间隔,设根据T<sub>1</sub>时刻的图像获得了被测运动物体的空间位置,取<img file="FSB00000363631400031.GIF" wi="282" he="108" /><img file="FSB00000363631400032.GIF" wi="298" he="134" />遍历被测运动物体表面,得到被测运动物体的声场特征函数分布图;(9)将上述被测运动物体的声场特征函数分布图与上述任意一台摄像机的视频图像进行逐帧空间坐标叠加,并还原成动态视频图像。
地址 100084 北京市海淀区清华园