发明名称 多媒体视音频流唇音同步的调测方法
摘要 本发明公开一种多媒体视音频流唇音同步的调测方法,涉及唇音同步的调测方法,为解决现有方法不能很好实现多媒体流的唇音同步的问题而发明。本发明通过在多媒体视音频流解码端真实时钟的基础上建立虚拟时钟模型;根据自适应延迟算法和同步控制算法的计算结果,调整所述虚拟时钟,获得多媒体视音频流唇音同步。极大提高了互联网多媒体应用唇音同步性能。
申请公布号 CN101212690B 申请公布日期 2011.04.20
申请号 CN200610170273.6 申请日期 2006.12.26
申请人 中兴通讯股份有限公司 发明人 薛尧舜;张学英
分类号 H04N21/242(2011.01)I;H04N21/236(2011.01)I;H04N21/8547(2011.01)I 主分类号 H04N21/242(2011.01)I
代理机构 代理人
主权项 1.一种多媒体视音频流唇音同步的调测方法,包括如下步骤:(1)在多媒体视音频流解码端真实时钟的基础上建立虚拟时钟模型;(2)根据自适应延迟算法和同步控制算法的计算结果,调整所述虚拟时钟,获得多媒体视音频流唇音同步;其中,所述步骤(1)中建立虚拟时钟模型的方法为:(11)设置虚拟时钟的初始值为收到的多媒体流的第一个媒体数据单元的时戳;(12)获取每一个抵达的媒体数据单元的生成时间和抵达时间;(13)解码端将所述每一个抵达的媒体数据单元的生成时间作为其回放时间,将每一个抵达的媒体数据单元的抵达时间作为虚拟时钟采样,比较所述生成时间和抵达时间并重新调度回放时间,获得自适应的回放期限;所述步骤(2)中,自适应延迟算法包括:(21)计算媒体流内的同步相位扭曲;所述媒体流内的同步相位扭曲通过计算流内的媒体数据单元的回放时间以及采样时间的均方根误差来获得,计算公式如下:<maths num="0001"><![CDATA[<math><mrow><msub><mi>&tau;</mi><mi>i</mi></msub><mo>=</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>2</mn></mrow><msub><mi>N</mi><mi>i</mi></msub></munderover><msup><mrow><mo>[</mo><mrow><mo>(</mo><msubsup><mi>T</mi><mi>p</mi><mi>i</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>T</mi><mi>p</mi><mi>i</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mrow><mo>(</mo><msubsup><mi>T</mi><mi>g</mi><mi>i</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>T</mi><mi>g</mi><mi>i</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow><mrow><msub><mi>N</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn></mrow></mfrac></msqrt></mrow></math>]]></maths>其中,<img file="FSB00000355827800012.GIF" wi="105" he="63" />为流i的第n个媒体数据单元的生成时间,<img file="FSB00000355827800013.GIF" wi="108" he="62" />为流i的第n个媒体数据单元的播放的时间,N<sub>i</sub>是流i的被播放的所有媒体数据单元的数量;(22)计算媒体流间的同步相位扭曲;所述媒体流间的同步相位扭曲通过计算配对的相应流间媒体数据单元的回放时间以及采样时间的均方根误差来获得,计算公式如下:<maths num="0002"><![CDATA[<math><mrow><msub><mi>&tau;</mi><mrow><mi>a</mi><mo>,</mo><mi>v</mi></mrow></msub><mo>=</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>a</mi></msub></munderover><msup><mrow><mo>[</mo><mrow><mo>(</mo><msubsup><mi>T</mi><mi>p</mi><mi>a</mi></msubsup><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><msubsup><mrow><mo>-</mo><mi>T</mi></mrow><mi>p</mi><mi>v</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mrow><mo>(</mo><msubsup><mi>T</mi><mi>g</mi><mi>a</mi></msubsup><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>T</mi><mi>g</mi><mi>v</mi></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow><mrow><msub><mi>N</mi><mi>a</mi></msub><mo>-</mo><mn>1</mn></mrow></mfrac></msqrt></mrow></math>]]></maths>其中,音频的第m个媒体数据单元对应于视频的第n个媒体数据单元,<img file="FSB00000355827800015.GIF" wi="123" he="57" />为音频的第m个媒体数据单元的生成时间,<img file="FSB00000355827800016.GIF" wi="123" he="57" />为音频的第m个媒体数据单元的播放时间;<img file="FSB00000355827800017.GIF" wi="110" he="57" />为视频的第n个媒体数据单元的生成时间,<img file="FSB00000355827800018.GIF" wi="110" he="60" />为视频的第n个媒体数据单元的播放时间,N<sub>a</sub>是所有音频媒体数据单元的数量。
地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦6层法律部