发明名称 一种基于多特征的文本图像相似度度量方法
摘要 本发明公开了一种基于多特征的文本图像相似度度量方法,针对一种特征不能完全刻画出文字图像的缺陷,提出了一种结合多特征的高精度文字图像块描述及相似性度量方法,该方法提出了八种不同属性的特征,运用滑动比较和欧氏距离计算特征之间的距离值,最后运用训练的方法对八种特征进行融合计算出相似性值,大大提供了相似性值识别的精度。采用建立包含四种语言的测试集,对本发明的识别效果进行检测,并运用查全率查准率和F值对该发明的效果进行衡量,结果表明本发明的查全率、查准率接近于100%,而F值在0.99以上,结果表明本发明是一种高精度的相似度度量方法。
申请公布号 CN103473545B 申请公布日期 2016.06.29
申请号 CN201310332513.8 申请日期 2013.08.01
申请人 西安交通大学 发明人 宋永红;张元林;孟泉;雍旭东;刘跃虎;陈晓
分类号 G06K9/46(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/46(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 徐文权
主权项 一种基于多特征的文本图像相似度度量方法,其特征在于,包括以下操作:1)提取待比较的文本图像的多个特征向量进行描述,所述的特征向量包括水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor;2)采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离,采用滑动比较方法来处理具有不同维数的特征向量的特征距离;3)在得到特征向量的距离值之后,输入为距离值和标定,先应用随机森林训练随机森林分类器,然后训练随机森林回归器;4)将待比较的文本图像的特征距离输入到训练好的随机森林回归器中,由其输出得到一个相似度值,相似度值越大表明所比较的文本图像越相似;所述的特征向量中,各特征向量的描述方法如下:水平变化密度,一行一行的对文本图像进行扫描,计算水平方向上的从0到1的变化次数;垂直变化密度,计算垂直方向上从0到1的变化次数;上轮廓,对文本图像一列一列从上到下进行扫描,第一次遇到黑色像素点后,将下面的点都置成黑色像素;下轮廓,对文本图像一列一列从下到上进行扫描,第一次遇到黑色像素点后,将上面的点都置成黑色像素;水平投影,对文本图像一行一行从左到右进行扫描,计算黑色像素个数为当前行的特征值;垂直投影,对文本图像一列一列从上向下进行扫描,计算黑色像素个数为当前列的特征值;空间分布,文本图像被归一化到相同的大小,然后使用重叠的高斯加权方法将图像分为N×N的块,使每个块延伸到它的邻域块的中间,每一个块中的像素点个数就为空间分布特征;Gabor,先通过Gabor滤波将文本图像归一化到相同的大小,从Gabor滤波的结果中提取Gabor特征,每一个滤波图像被分为N×N的重叠块,在每一个块中,分别运用加权高斯函数的正负实部计算直方图特征,作为该图像的Gabor特征。
地址 710049 陕西省西安市咸宁西路28号