发明名称 带有简单且强健之音讯特征的泛用节目时段筛选方法与相关之辅助方法
摘要
申请公布号 申请公布日期 2011.07.01
申请号 TW096118532 申请日期 2007.05.24
申请人 智辉研发股份有限公司 发明人 王蓓;叶家宏;施宣辉;郭宗杰
分类号 H04N5/44;H04N5/76 主分类号 H04N5/44
代理机构 代理人 戴俊彦 新北市永和区福和路389号6楼之3;吴丰任 新北市永和区福和路389号6楼之3
主权项 一种带有简单且强健之音讯特征的泛用节目时段筛选方法(uniform program indexing method),包含:(a)侦测一节目之一已接收之音讯序列中包含的商业广告,其中该已接收之音讯序列系包含复数个音讯讯框;(b)由该已接收之音讯序列中移除所侦测到的商业广告;(c)以一特定频率对该音讯序列作取样,其中该音讯序列已移除所侦测到之该商业广告;(d)在该音讯序列所包含之该复数个音讯讯框之每一音讯讯框中,产生复数个梅尔刻度式倒频谱参数(Mel Frequency Cepstral Coefficients,MFCC);(e)由该复数个音讯讯框之每一音讯讯框中,取出该复数个梅尔刻度式倒频谱参数中的C2参数与C3参数,其中该C2参数与该C3参数皆已常态化(normalized);(f)在该复数个音讯讯框之每一音讯讯框中,根据所取出之该C2参数与该C3参数,产生一主频带能量参数(dominant frequency band energy coefficient);(g)以一低通滤波器,由该音讯序列所产生之复数个主频带能量参数中,产生复数个峰值型样(peak pattem),其中单一峰值型样系包含该音讯序列中复数个连续的音讯讯框;(h)决定一临界值,以将所产生之该复数个峰值型样转换为复数个第一音讯片段,其中该复数个第一音讯片段之每一音讯片段系包含较一对应之峰值型样更多的音讯讯框;及(i)根据该复数个第一音讯片段之每一音讯片段所产生之一主频带能量参数与一相关比重(weight),在该复数个第一音讯片段之每一音讯片段中产生一分数。如请求项1所述之方法,另包含:(j)将该复数个第一音讯片段包含之部分音讯片段合并为复数个第二音讯片段,并根据一分段规则,舍弃该复数个第一音讯片段包含之其他部分音讯片段;及(k)对该复数个第二音讯片段实施步骤(d)、(e)、(f)、(g)、(h)、(i)、(j)。如请求项1所述之方法,其中该特定频率系约为8KHz。如请求项1所述之方法,其中步骤(f)另包含:(l)根据关系式DFBE=4*C2+C3产生该主频带能量参数,其中DFBE系代表该主频带能量参数,C2系代表该C2参数,且C3系代表该C3参数。如请求项4所述之方法,另包含:(m)在执行步骤(l)之前,根据该复数个梅尔刻度式倒频谱参数包含之C0参数,将该C2参数与该C3参数常态化。如请求项1所述之方法,其中步骤(h)另包含:(n)在该复数个峰值型样包含之复数个主频带能量参数中,产生一平均值(mean)与一标准偏差值(standard deviation)。如请求项6所述之方法,其中该临界值系根据关系式Thresh=mean+x*std所产生,其中Thresh系代表该临界值,mean系代表该平均值,std系代表该标准偏差值,且x系为一变数。如请求项7所述之方法,其中变数x之值系为1。如请求项1所述之方法,另包含:(o)根据一关系式,在该复数个第一音讯片段之每一音讯片段中产生一第一低阶特征变数(low-level-feature parameter),其中该关系式系表示为@sIMGCHAR!d10013.TIF@eIMG!,i>v/i>(i>n/i>)系表示该复数个第一音讯片段之第n个音讯片段所包含之第一低阶特征变数,i>S/i>n(i>i/i>)系代表该第n个音讯片段所包含之第i个音讯讯框的能量,且i>N/i>系代表该第n个音讯片段所包含之音讯讯框的数量;(p)根据该复数个第一音讯片段之每一音讯片段所包含的复数个音讯讯框之能量的标准偏差值,产生该复数个第一音讯片段之每一音讯片段之一第二低阶特征变数;(q)根据所产生之该复数个第一低阶特征变数之每一低阶特征变数,并根据一关系式,在该复数个第一音讯片段之每一音讯片段中。产生一第三低阶特征变数,其中该关系式系表示为@sIMGCHAR!d10014.TIF@eIMG!,i>EDR/i>系表示该第三低阶特征变数,i>Max/i>(i>v/i>)系表示该复数个第一低阶特征变数中之一最大低阶特征变数,且i>Min/i>(i>v/i>)系表示该复数个第一低阶特征变数中之一最小低阶特征变数;(r)根据一关系式,在该复数个第一音讯片段之每一音讯片段中,产生一第四低阶特征变数,其中该关系式系表示为@sIMGCHAR!d10015.TIF@eIMG!,i>z/i>(i>n/i>)系表示该复数个第一音讯片段之第n个音讯片段所包含之该第四低阶特征变数,i>S/i>(i>m/i>)系表示该第n个音讯片段所包含之第m个音讯讯框的能量,sgn(i>S/i>(i>m/i>))系表示能量i>S/i>(i>m/i>)的正负值,sgn(i>S/i>(i>m/i>))的大小系遵守关系式@sIMGCHAR!d10016.TIF@eIMG!,且i>w/i>(i>n/i>-i>m/i>)系代表该第m个音讯讯框的视窗大小;及(s)根据一关系式,更新步骤(i)所产生之该分数,其中该关系式系表示为@sIMGCHAR!d10017.TIF@eIMG!,i>Score/i>系代表该已更新之分数,i>DFBE/i>系代表该主频带能量参数,i>w/i>0系代表主频带能量参数i>DFBE/i>的比重,i>LLF/i>i系代表步骤(o)、(p)、(q)、(r)所述之第i低阶特征变数,i>i/i>之值系为1至4,且i>w/i>i系代表第i低阶特征变数之比重。如请求项2所述之方法,其中该分段规则系包含:(t)在该复数个第一音讯片段中,当出现一第一音讯片段与一第二音讯片段满足一第一条件时,递回地合并该第一音讯片段与该第二音讯片段,直到不再出现有满足该第一条件之该第一音讯片段与该第二音讯片段为止,其中该第一条件系包含:该第一音讯片段与该第二音讯片段之间之一第一时间间隙系小于一第一预定时间;及该第一音讯片段与该第二音讯片段系为连续之音讯片段;及(u)在实施步骤(t)后,递回地舍弃满足一第二条件之一第三音讯片段,直到不再出现有满足该第二条件之该第三音讯片段为止,其中该第二条件系包含:该第三音讯片段之时间长度小于一第二预定时间。如请求项1所述之方法,另包含:根据所产生之复数个分数,由该节目包含之一视讯序列中,撷取复数个第一视讯片段。如请求项11所述之方法,另包含:(v1)根据该节目之种类,决定一特征画面与一主色系;(v2)将该复数个第一视讯片段之每一视讯片段分类为一第一灰阶区域与一第二灰阶区域,其中该第一灰阶区域之色系系以该主色系为主,且该第二灰阶区域之色系并未以该主色系为主;(v3)由该复数个第一视讯片段之每一视讯片段中,滤除该第二灰阶区域,以产生复数个第二视讯片段;(v4)由所产生之该复数个第二视讯片段之每一视讯片段中,移除复数个孤立特征点(isolated characteristic spot);及(v5)对该复数个第二视讯片段实施边缘检测(edge detection),以侦测该复数个第二视讯片段中是否存在有该特征画面。如请求项12所述之方法,其中步骤(v5)系以霍夫转换程序(Hough transform process)来实施。如请求项12所述之方法,另包含:根据执行步骤(v5)之结果,产生复数个第三视讯片段。如请求项12所述之方法,其中该节目系为一足球比赛转播,该主色系系为白色,且该特征画面系为该足球比赛转播中的球门画面。一种以复数个低阶特征支援泛用节目时段筛选方法之辅助方法,包含:(a)根据一关系式,在复数个第一音讯片段之每一音讯片段中产生一第一低阶特征变数(low-level-feature parameter),其中该关系式系表示为@sIMGCHAR!d10018.TIF@eIMG!,i>v/i>(i>n/i>)系表示该复数个第一音讯片段之第n个音讯片段所包含之第一低阶特征变数,i>S/i>n(i>i/i>)系代表该第n个音讯片段所包含之第i个音讯讯框的能量,且i>N/i>系代表该第n个音讯片段所包含之音讯讯框的数量;(b)根据该复数个第一音讯片段之每一音讯片段所包含的复数个音讯讯框之能量的标准偏差值,产生该复数个第一音讯片段之每一音讯片段之一第二低阶特征变数;(c)根据所产生之该复数个第一低阶特征变数之每一低阶特征变数,并根据一关系式,在该复数个第一音讯片段之每一音讯片段中,产生一第三低阶特征变数,其中该关系式系表示为@sIMGCHAR!d10019.TIF@eIMG!,i>EDR/i>系表示该第三低阶特征变数,i>Max/i>(i>v/i>)系表示该复数个第一低阶特征变数中之一最大低阶特征变数,且i>Min/i>(i>v/i>)系表示该复数个第一低阶特征变数中之一最小低阶特征变数;(d)根据一关系式,在该复数个第一音讯片段之每一音讯片段中,产生一第四低阶特征变数,其中该关系式系表示为@sIMGCHAR!d10020.TIF@eIMG!,i>z/i>(i>n/i>)系表示该复数个第一音讯片段之第n个音讯片段所包含之该第四低阶特征变数,i>S/i>(i>m/i>)系表示该第n个音讯片段所包含之第m个音讯讯框的能量,sgn(i>S/i>(i>m/i>))系表示能量i>S/i>(i>m/i>)的正负值,sgn(i>S/i>(i>m/i>))的大小系遵守关系式@sIMGCHAR!d10021.TIF@eIMG!,且i>w/i>(i>n/i>-i>m/i>)系代表该第m个音讯讯框的视窗大小;及(e)根据一关系式产生一分数,其中该关系式系表示为@sIMGCHAR!d10022.TIF@eIMG!,i>Score/i>系代表所产生之该分数,i>DFBE/i>系代表该主频带能量参数,i>w/i>0系代表主频带能量参数i>DFBE/i>的比重,i>LLF/i>i系代表步骤(o)、(p)、(q)、(r)所述之第i低阶特征变数,i>i/i>之值系为1至4,且i>w/i>i系代表第i低阶特征变数之比重。如请求项16所述之方法,另包含:根据所产生之复数个分数,由一节目包含之一视讯序列中,撷取复数个第一视讯片段,其中该复数个第一音讯片段系由该节目中所撷取。一种以一主频带能量参数支援泛用节目时段筛选方法之辅助方法,包含:(a)在一节目包含之一音讯序列所包含的复数个音讯讯框之每一音讯讯框中,产生复数个梅尔刻度式倒频谱参数;(b)由该复数个音讯讯框之每一音讯讯框中,取出该复数个梅尔刻度式倒频谱参数中的C2参数与C3参数,其中该C2参数与该C3参数皆已常态化;及(c)在该复数个音讯讯框之每一音讯讯框中,根据所取出之该C2参数与该C3参数,并根据关系式DFBE=4*C2+C3,产生一主频带能量参数,其中DFBE系代表该主频带能量参数,C2系代表该C2参数,且C3系代表该C3参数。如请求项18所述之方法,另包含:(d)在执行步骤(c)之前,根据该复数个梅尔刻度式倒频谱参数包含之C0参数,将该C2参数与该C3参数常态化。一种以特定视讯特征支援泛用节目时段筛选方法之辅助方法,包含:(a)由一节目包含之一视讯序列中,撷取复数个第一视讯片段,其中该节目系包含一音讯序列,该音讯序列系包含复数个第一音讯片段,且该复数个第一视讯片段系根据由该复数个第一音讯片段所产生之复数个第二音讯片段的复数个分数来加以撷取;(b)根据该节目之种类,决定一特征画面与一主色系;(c)将该复数个第一视讯片段之每一视讯片段分类为一第一灰阶区域与一第二灰阶区域,其中该第一灰阶区域之色系系以该主色系为主,且该第二灰阶区域之色系并未以该主色系为主;(d)由该复数个第一视讯片段之每一视讯片段中,滤除该第二灰阶区域,以产生复数个第二视讯片段;(e)由所产生之该复数个第二视讯片段之每一视讯片段中,移除复数个孤立特征点;及(f)对该复数个第二视讯片段实施边缘检测,以侦测该复数个第二视讯片段中是否存在有该特征画面。如请求项20所述之方法,其中步骤(f)系以霍夫转换程序来实施。如请求项20所述之方法,另包含:根据执行步骤(f)之结果,产生复数个第三视讯片段。如请求项20所述之方法,其中该节目系为一足球比赛转播,该主色系系为白色,且该特征画面系为该足球比赛转播中的球门画面。
地址 台北市松山区复兴北路369号7楼之5 TW