发明名称 一种自动检测音频模板并对视频分章的方法
摘要 一种自动检测音频模板并对视频分章的方法。它利用每周的节目音频数据,采用声纹特征快速学出内容上重复出现的片段,再将片段融合、归类作为候选模板,统计片段长度、出现次数、时间分布信息来标定模板类型以及筛选模板文件,并利用模板对新节目自动分章。本发明基于音频的检索并动态地建立模板库,克服了基于视频的方法的计算量大,检测速度慢,节目片段具有相同的音频内容时图像内容不同的缺点,同时也解决了数据库中“静态”模板为的问题。
申请公布号 CN102024033A 申请公布日期 2011.04.20
申请号 CN201010567970.1 申请日期 2010.12.01
申请人 北京邮电大学 发明人 董远;王乐滋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种自动检测音频模板并对视频分章的方法,其特征在于能够利用特定片段在一周内内容上重复出现的信息为突破口快速、鲁棒地从一周的音频数据中学习出音频模板,并利用模板对新来的节目进行准确的分章,包括模板学习阶段和视频分章阶段,其中模板学习阶段包括以下步骤:步骤一,对于一周的节目音频文件进行预处理并判定静音片段;步骤二,对于每个音频片段,提取鲁棒的声纹特征;步骤三,利用一周音频数据特征,建立哈希表,查找匹配片段;步骤四,将步骤三所得片段里面能找到匹配片段数量大于阈值的音频片段A保留下来,并判断与其间隔一定时间内,是否有其他片段也能找到数量大于设定阈值的匹配片段;若是则保留该音频片段,否则删除;最后得到一系列在一周时间里内容上重复出现的音频片段;步骤五,在步骤4筛选出的片段里,对于两个同一天的片段A、B,A的起始时间为Tas,结束时间为Tae,B的起始和结束时间分别为Tbs、Tbe,其中Tae<Tbs,若|Tae-Tbs|<TDur,则片段A、B以及两片段间隔部分都融合为一个片段,其起始时间为Tas,结束时间为Tbe;步骤六,将步骤5中融合后的片段进行聚类,得到若干个音频类,其融合规则为:两个融合后的片段中,若有部分是彼此的匹配片段,则该两个片段归为一类;另外类还满足准则:若A与B为同一类,B与C为同一类,则A与C为同一类;步骤七,对于步骤六中整理好的每一个类,判定其节目类型;步骤八,每一类音频片段里属于匹配对的重复音频片段中保留下时间最长的一段,将该片段特征连同判定的节目类型信息一同存入模板库,生成模板文件;其中所述步骤一具体包括:将过去一周的音频数据作为训练样本,将这些5513HZ的音频数据分割成1小时为单位的若干音频文件;利用音频的Kullback-Leibler距离,将1小时的文件进行切变点分割,得到零碎的音频片断;防止片断分割得过碎,将这些音频片断进行聚类,判断每个片段的时间长度,将时长小于3秒的片断与相邻的时长较短的片断拼接;然后对于5513HZ的音频文件,以窗长度0.37s,40ms为一帧,判断每帧是否为静音帧,每一帧的能量为eFr,能量阈值TE,根据公式:<maths num="0001"><![CDATA[<math><mrow><mi>eFr</mi><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mi>w</mi></munder><msubsup><mi>x</mi><mi>i</mi><mn>2</mn></msubsup><mo>-</mo><mi>mean</mi></mrow><mi>W</mi></mfrac></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><mi>TE</mi><mo>=</mo><mfrac><mi>se</mi><mrow><mi>&alpha;</mi><mo>&CenterDot;</mo><mi>n</mi></mrow></mfrac><mo>+</mo><mi>&beta;</mi><mo>&CenterDot;</mo><mi>e</mi><mi>min</mi></mrow></math>]]></maths><img file="FSA00000368273300013.GIF" wi="348" he="155" /><img file="FSA00000368273300014.GIF" wi="260" he="95" />W为窗内采样点的数量,n为整个文件的帧数,x<sub>i</sub>为每一个采样点的能量值,α,β为设定参数,如果eFr≤TE,则该帧被判断为静音帧;若静音帧占了音频片段一半以上,该片段将被定义为静音片段;其中所述步骤二具体包括:窗长度0.37秒,40ms为步进对5513HZ的音频文件进行离散傅立叶变换,并根据美尔频率公式Mel(f)=2595lg(1+f/700),将实际频带中20HZ---3000HZ部分转化为美尔频带并等分成17个字频带;计算相邻两个频带之间的能量差;若差值大于等于设定阈值,输出为1,反之为0;提取出一个16Bit的二进制字符串作为每一帧音频数据的特征值;其中所述步骤三具体包括:用一周内音频所有帧的数据建立出一张哈希表,哈希表的关键字key为16Bit的特征值,哈希表的值value存储具有该特征值的帧号以及所在的片段位置,每个非静音音频片段A里的所有帧在该哈希表中哈希出与其有相同key的近邻帧,根据每帧的搜索情况和近邻帧所在的音频片段的编号,将A中能有一半的帧数搜索到邻近帧的音频片段作为音频A的候选匹配片段;然后将片段A逐一与候选匹配片段间计算相似度,将相似度大于阈值的候选片段保留下来作为片段A的匹配片段;在视频分章阶段,对于新来的一段节目,系统利用模板库中文件对新来的节目做复制检测,在节目中找出与模板文件具有相同内容的片段,并标定时间和类型,包括以下步骤:步骤一,与模板学习阶段中步骤三所述方法一致,对新来的音频节目提取特征并建立好哈希表;步骤二,将模板库中文件逐一与新来的视频节目进行匹配,对于每个模板,其每帧16bit特征都在哈希表中哈希出与其匹配的音频特征;步骤三,计算模板文件与新节目部分数据之间的距离分数Dsore;步骤四,从新节目中挑选并标定与模板文件匹配的片段;视频分章阶段的步骤三具体包括:将模板文件的特征与其匹配的节目文件中的特征在时间上对齐,并计算模板文件和与其时间上相重叠的节目音频部分之间的逐帧汉明距离hi,再将距离除以相重叠部分的帧数以求得相似距离分数Dsore,<img file="FSA00000368273300021.GIF" wi="391" he="170" />其中overlap为节目与模板想重叠部分的帧数目;视频分章阶段所述步骤四具体包括:将分数小于设定阈值的节目音频部分作为模板的候选匹配片段,其中得分最小的被设定为最佳匹配片段;然后其它的候选片段,若与最佳片段时间间隔大于时间间隔阈值,而且其得分Dsore与最佳得分的差值小于设定的分数偏移阈值,则仍被视为匹配片段;其中时间间隔阈值等于1.2倍的模板时间长度,分数偏移阈值等于2;标记这重叠部分的起始时间和持续时间,并且利用模板类型标定这部分节目类型。
地址 100876 北京市海淀区西土城路10号北京邮电大学