发明名称 |
一种基于全局特征提取和训练的书法风格识别方法 |
摘要 |
本发明属于书法字体分析领域,涉及基于全局特征提取和训练的书法风格识别的方法,包括以下步骤:训练图像的获取和预处理,获取输入图像、去除噪声并将其变为待处理的二值图像;特征提取,对于每种风格字体提取出三类整体特征用于训练,即位置特征、区域比例特征、投影特征;使用特征向量训练SVM生成书法风格分类器用于书法风格识别。本发明具有方法简单、识别率高的特点,通过提取出汉字的全局特征并且输入到SVM进行训练,得到书法风格分类器,用于书法风格的识别。 |
申请公布号 |
CN102842046B |
申请公布日期 |
2015.09.23 |
申请号 |
CN201210280106.2 |
申请日期 |
2012.08.07 |
申请人 |
天津大学 |
发明人 |
张怡;刘彦镔;张加万;李罡 |
分类号 |
G06K9/62(2006.01)I;G06K9/46(2006.01)I |
主分类号 |
G06K9/62(2006.01)I |
代理机构 |
天津市北洋有限责任专利代理事务所 12201 |
代理人 |
程毓英 |
主权项 |
一种基于全局特征提取和训练的书法风格识别方法,包括下列步骤:第一步,获取对应不同单类风格的汉字的源数据图像,通过二值化的预处理方法得到输入的源数据图像的二值图像;第二步,对于源数据图像的二值图像进行全局特征提取,得到位置特征、区域比例特征和投影特征三类特征,方法如下:(1)找到二值图像中的文字部分的上下左右四个边缘位置,将由上下左右四个边缘位置组成的网格称为边缘格,提取出边缘格的长宽比和重心,并计算重心离几何中心的距离,得到位置特征向量;(2)将边缘格由长宽边的中点划分为面积相等的左上、右上、左下、右下四个区域,提取不同区域含有的像素数目与整个边缘格内的像素数目的比值和汉字像素占据边缘格的比例作为区域比例特征;(3)将汉字像素在行方向或列方向进行投影,统计每行或每列的像素数目,提取出行和列的平均投影值、中间投影值和投影中心作为投影特征;第三步,利用对不同单类风格的汉字的源数据图像提取的全局特征,训练SVM书法风格分类器;第四步,对于待识别风格类型的汉字的源数据图像,通过二值化方法及高斯噪声去除的预处理方法得到输入的待识别风格类型的汉字的源数据图像的二值图像;第五步,按照第二步给出的方法提取待识别风格类型的汉字的源数据图像的二值图像的全局特征;第六步,利用训练好的分类器进行汉字风格识别;其中,按照下面的方法提取出行和列的平均投影值、中间投影值和投影中心作为投影特征:对于行方向,定义所有行的投影像素数目之和除以行数为行平均投影阈值,所有行的投影像素数目的最大值和最小值取平均得到行中间投影阈值,则行方向的平均投影值就是行投影像素数目超过行平均投影阈值的行数,行方向的中间投影值就是行投影像素数目超过中间投影阈值的行数;将各行的投影像素数目进行递增排序,取出排序后位于中间的行的投影像素数目值,为行方向的投影中心;对于列方向,定义所有列的投影像素数目之和除以列数为列平均投影阈值,所有列的投影像素数目的最大值和最小值取平均得到列中间投影阈值,则列方向的平均投影值就是列投影像素数目超过列平均投影阈值的列数,列方向的中间投影值就是列投影像素数目超过中间投影阈值的列数;将各列的投影像素数目进列递增排序,取出排序后位于中间的列的投影像素数目值,为列方向的投影中心。 |
地址 |
300072 天津市南开区卫津路92号 |