发明名称 |
西文单词切分方法和装置 |
摘要 |
本发明提供了一种西文单词切分方法,包括:将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;根据西文单词内部字符间距离和单字之间距离的统计分析特性,设置切分阈值;通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本发明还提供了一种西文单词切分装置,包括:行列模块,用于将西文图像通过行列切分得到多个字符图像块;识别模块,用于从字符图像块中识别有效字符图像块;阈值模块,用于根据西文单词内部字符间距离和单字之间距离的统计分析特性,设置切分阈值;切分模块,用于通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本发明提高了切分西文单词的准确度。 |
申请公布号 |
CN102542269B |
申请公布日期 |
2014.12.10 |
申请号 |
CN201010622057.7 |
申请日期 |
2010.12.24 |
申请人 |
北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
发明人 |
亓文法;王高阳;王立东;杨斌 |
分类号 |
G06K9/34(2006.01)I;G06K9/20(2006.01)I |
主分类号 |
G06K9/34(2006.01)I |
代理机构 |
北京英赛嘉华知识产权代理有限责任公司 11204 |
代理人 |
王达佐 |
主权项 |
一种西文单词切分方法,其特征在于,包括:将西文图像通过行列切分得到多个字符图像块;将所述字符图像块区分为标点图像块和有效字符图像块;根据西文单词内部字符间距离和单字之间距离的统计分析特性,设置切分阈值,具体为:统计标点图像块间的有效字符图像块之间的距离,计算有效距离的统计特征获得初始阈值,将所述初始阈值作为切分阈值;通过比较连续的所述有效字符图像块之间的距离与所述切分阈值,以切分单词。 |
地址 |
100871 北京市海淀区成府路298号方正大厦5层 |