发明名称 评估音频和视频源数据的方法及设备
摘要 提供了一些方法、系统和装置以分离并评估音频和视频。俘获音频和视频;评估视频以检测一个或多个发言者说话。使视觉特征与发言者说话相关联。分离音频和视频并将音频的相应部分映射到视觉特征以隔离与每个发言者相关联的音频并滤出与音频相关联的噪声。
申请公布号 CN1930575B 申请公布日期 2011.05.04
申请号 CN200580007902.7 申请日期 2005.03.25
申请人 英特尔公司 发明人 A·纳菲安;S·拉贾兰姆
分类号 G06K9/00(2006.01)I;G10L15/24(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 李玲
主权项 一种评估音频和视频源数据的方法,包括:电子地俘获与发言者说话相关联的视觉特征,所述视觉特征指示发言者的嘴部移动,用于识别发言者在说话,其中电子地俘获所述视觉特征还包括对与所述发言者说话相关联的电子视频处理神经网络,并且还包括过滤所述发言者的被测面部以检测所述发言者嘴部的移动或不移动,其中所述神经网络被训练以检测并监视所述发言者的面部;电子地俘获音频;将所述音频的选择部分与所述视觉特征匹配;以及将所述音频中那些不具有指示发言者在说话的匹配视觉特征的其余部分识别为与所述发言者说话无关的潜在噪声。
地址 美国加利福尼亚州