发明名称 |
一种字符去粘连的方法及系统 |
摘要 |
本发明涉及一种字符去粘连的方法及系统,首先设定待处理字符图像的先验知识集,对待处理字符图像进行连通域分析,并计算字符高度H和字符宽度W,确定连通域分析结果中需要进行拆分的连通域;之后对需要进行拆分的连通域进行拆分点定位,得到所有的拆分方案,再采用所有的拆分方案分别对需要进行拆分的连通域进行拆分,对每种拆分方案对应的字符拆分结果进行OCR识别,得到图像的字符识别结果,最后根据先验知识评价函数对每种拆分方案对应的字符识别结果进行评价,将评价最匹配的字符识别结果作为去粘连后的识别结果。采用本发明所述的方法不但能够解决粘连个数未知的情况下多个字符粘连的问题,而且可以取得较好的去粘连效果。 |
申请公布号 |
CN104636747A |
申请公布日期 |
2015.05.20 |
申请号 |
CN201310556645.9 |
申请日期 |
2013.11.11 |
申请人 |
北京大学;方正国际软件(北京)有限公司;方正国际软件有限公司 |
发明人 |
李平立;史培培 |
分类号 |
G06K9/54(2006.01)I;G06K9/20(2006.01)I |
主分类号 |
G06K9/54(2006.01)I |
代理机构 |
北京天悦专利代理事务所(普通合伙) 11311 |
代理人 |
田明;任晓航 |
主权项 |
一种字符去粘连的方法,包括以下步骤:(1)设定待处理字符图像的先验知识集;所述的先验知识集是指待处理图像中字符的属性特征的集合;(2)对待处理字符图像进行连通域分析,并计算字符高度H和字符宽度W,确定连通域分析结果中需要进行拆分的连通域;(3)对需要进行拆分的连通域进行拆分点定位,得到所有的拆分方案;(4)采用所有的拆分方案分别对需要进行拆分的连通域进行拆分,对每种拆分方案对应的字符拆分结果进行OCR识别,得到图像的字符识别结果;(5)根据先验知识评价函数对每种拆分方案对应的字符识别结果进行评价,将评价最匹配的字符识别结果作为去粘连后的识别结果;所述的先验知识评价函数是根据先验知识集构造的用于评价字符识别结果是否符合先验知识集中字符属性特征的函数。 |
地址 |
100871 北京市海淀区颐和园路5号 |