发明名称 影像中之一般化本文定位
摘要 在一些具体实例中,本发明包含一种用于数位影像中之本文定位之方法。该方法包含:对一数位影像做比例转换,成为具多重解析度的几个影像;并以该多重解析中的像素是否属一本文区域部份,来做像素分类(region classification)。该方法也包含:整合比例,以产生一比例整合凸显映像(saliency map);并用该凸显映像来产生一些初始本文界限盒(bounding boxes),其系藉盒扩充,将像素矩形所含的,从至少一个像素,扩充到至少由一个相邻该等矩形之像素所组成的群组,其中这些群组与一第一阀值有一个特别关系。该等初始本文界限盒被合并(consolidated)。在其他具体实例中,有一方法,包含:以像素是否属一本文区域部份,来做像素分类;产生初始本文界限盒;并合并该初始本文界限盒,其中该合并包含:产生具适应性阀值(adaptivethresholds)的水平投影轮廓(projectionprofiles),及具适应性阀值的铅直投影轮廓。
申请公布号 TWI223212 申请公布日期 2004.11.01
申请号 TW090104992 申请日期 2001.03.05
申请人 英特尔公司 发明人 莱纳 沃夫根 连哈特;艾瑟尔 温尼克
分类号 G06T5/00 主分类号 G06T5/00
代理机构 代理人 陈长文 台北市松山区敦化北路二○一号七楼
主权项 1.一种于数位影像中定位本文之方法,其包含:对一数位影像做比例转换,成多解析度的影像;依该多解析度中的像素是否属一本文区域部份,做分类;整合比例,以产生一比例整合凸显映像;使用该凸显映像,以产生初始本文界限盒,其系藉盒扩充,将像素矩形所含的,从至少一个像素,扩充到至少由一个相邻该等矩形之像素所组成的群组,其中该等群组与一第一阀値有一特别关系;及合并该等初始本文界限盒。2.如申请专利范围第1项之方法,其中该特别关系为该等群组之一平均强度超过该第一阀値。3.如申请专利范围第1项之方法,其中该等群组包含该矩形之一相邻列或行。4.如申请专利范围第1项之方法,其中该凸显映像与尚未经比例转换成多解析度的数位影像,有相同的解析度。5.如申请专利范围第1项之方法,其中该数位影像为一数位视频影像部份;而初始本文界限盒之合并包含:产生具适应性阀値的水平投影轮廓,以及具适应性阀値的垂直投影轮廓。6.如申请专利范围第5项之方法,其中该水平投影轮廓的适应性阀値为具有最小及最大水平投影轮廓値的函数,该垂直投影轮廓的适应性阀値为具有最小及最大垂直投影轮廓値的函数。7.如申请专利范围第1项之方法,其中初始本文界限盒之合并包含:重复实行一水平分段演算法及一垂直分段演算法。8.如申请专利范围第6项之方法,其中该垂直分段演算法包含:于上下扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。9.如申请专利范围第1项之方法,其进一步包含:计算边缘定向,以识别多解析度的影像特征。10.如申请专利范围第1项之方法,其进一步包含:用一表徵为主之追踪,从已由影像为主之方法做过识别的本文所处之讯框,向前或向后,对一本文物件中的本文所处之讯框,加以识别。11.如申请专利范围第1项之方法,其进一步包含:在本文及本文周围之非本文部份中,产生颜色直方图,藉此以评估影像中的本文颜色。12.一种机器可读媒体,其上具有指令,执行时,使一处理器于数位影像中定位本文,该指令包含:指令,用以对一数位影像做比例转换,成多解析度的影像;指令,用以分类该多解析度中的像素是否属一本文区域部份;指令,用以整合比例,以产生一比例整合凸显映像;指令,用以使用该凸显映像,以产生初始本文界限盒,其系藉盒扩充,将像素矩形所含的,从至少一个像素,扩充到至少由一个相邻该等矩形之像素所组成的群组,其中该等群组与一第一阀値有一特别关系;及指令,用以合并该等初始本文界限盒。13.如申请专利范围第12项之机器可读媒体,其中该特别关系为:该等群组之一平均强度超过该第一阀値。14.如申请专利范围第12项之机器可读媒体,其中该等群组包含该矩形之一相邻列或行,且该矩形系以1个像素乘1个像素之矩形开始。15.如申请专利范围第12项之机器可读媒体,其中该凸显映像与尚未经比例转换成多解析度的数位影像,有相同的解析度。16.如申请专利范围第12项之机器可读媒体,其中该数位影像为一数位视频影像部份;而用以初始本文界限盒之合并之指令包含:指令,用以产生具适应性阀値的水平投影轮廓,以及具适应性阀値的垂直投影轮廓。17.如申请专利范围第16项之机器可读媒体,其中该水平投影轮廓的适应性阀値为具有最小及最大水平投影轮廓値的函数,该垂直投影轮廓的适应性阀値为具有最小及最大垂直投影轮廓値的函数。18.如申请专利范围第12项之机器可读媒体,其中该用以初始本文界限盒之合并之指令包含:重复实行一水平分段演算法及一垂直分段演算法。19.如申请专利范围第18项之机器可读媒体,其中该垂直分段演算法包含:于上下扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。20.如申请专利范围第12项之机器可读媒体,其进一步包含:指令,用以计算边缘定向,以识别多解析度的影像特征。21.如申请专利范围第12项之机器可读媒体,其进一步包含:指令,用以用一表徵为主之追踪,从已由影像为主之方法做过识别的本文所处之讯框,向前或向后,对一本文物件中的本文所处之讯框,加以识别。22.如申请专利范围第12项之机器可读媒体,其进一步包含:指令,用以在本文及本文周围之非本文部份中,产生颜色直方图,藉此以评估影像中的本文颜色。23.一种于影像中定位本文之方法,其包含:依像素是否属一本文区域部份而做分类;产生初始本文界限盒;及合并该初始本文界限盒,其中该合并包含:产生具适应性阀値的水平投影轮廓,以及具适应性阀値的垂直投影轮廓。24.如申请专利范围第23项之方法,其中该水平投影轮廓的适应性阀値为具有最小及最大水平投影轮廓値的函数该垂直投影轮廓的适应性阀値为具有最小及最大垂直投影轮廓値的函数。25.如申请专利范围第23项之方法,其中初始本文界限盒之合并包含:重复实行一水平分段演算法及一垂直分段演算法。26.如申请专利范围第23项之方法,其中该水平分段演算法包含:于左右扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。27.如申请专利范围第23项之方法,其中该垂直分段演算法包含:于上下扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。28.一种机器可读媒体,其上具有指令,执行时,使一处理器于数位影像中定位本文,该指令包含:指令,用以分类像素是否属一本文区域部份;指令,用以产生初始本文界限盒;及指令,用以合并该初始本文界限盒,其中该合并包含:产生具适应性阀値的水平投影轮廓,以及具适应性阀値的垂直投影轮廓。29.如申请专利范围第28项之机器可读媒体,其中该水平投影轮廓的适应性阀値为具有最小及最大水平投影轮廓値的函数,该垂直投影轮廓的适应性阀値为具有最小及最大垂直投影轮廓値的函数。30.如申请专利范围第28项之机器可读媒体,其中该用以初始本文界限盒之合并之指令包含:重复实行一水平分段演算法及一垂直分段演算法。31.如申请专利范围第28项之机器可读媒体,其中该水平分段演算法包含:于左右扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。32.如申请专利范围第28项之机器可读媒体,其中该垂直分段演算法包含:于上下扩充一本文界限盒,扩充到原来的本文盒高度之半与最大可能本文高度之半两者其中的最小値。图式简单说明:图1为表示本发明之一些具体实例中所实行的各种功能的流程图。图2为表示本发明之一些具体实例中各种定位阶段下的影像的流程图。图3例示一具本文及一背景之讯框中影像所用的初始界限盒。图4例示垂直及水平投影轮廓。图5例示应用于图3之本文之一部份的垂直分段。图6例示应用于图3之本文之一部份的水平分段。图7例示含本文及一背景的网站上之一影像。图8为依据本发明之一些具体实例而量化所做的颜色评估之表示法,部份为方块图,部份为流程图。图9以流程图表示:依据本发明之一些具体实例所做的视频监视与本文追踪(tracking)之间的关系。图10为一电脑系统的方块图表示法,该电脑系统能实行依据本发明之一些具体例之功能。
地址 美国