发明名称 |
OCR字符识别方法及系统 |
摘要 |
本发明提出了一种OCR字符识别方法,包括:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串;计算识别的词串中子词串的数量;如果词串中子词串的数量大于2,则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值;如果W1中字符的个数和/或WK中字符的个数小于预设值,则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定W1和/或WK为噪声并从词串中删除W1和/或WK以得到新的词串。根据本发明的实施例可提升对OCR识别的结果的OCR翻译的准确性。本发明还提出了一种OCR字符识别系统。 |
申请公布号 |
CN103679165A |
申请公布日期 |
2014.03.26 |
申请号 |
CN201310752624.4 |
申请日期 |
2013.12.31 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
王海峰;和为 |
分类号 |
G06K9/20(2006.01)I |
主分类号 |
G06K9/20(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
宋合成 |
主权项 |
一种OCR字符识别方法,其特征在于,包括以下步骤:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串,其中,所述词串包括K个子词串,每个子词串至少包括1个字符,所述K为正整数;计算所述识别的词串中子词串的数量;如果所述词串中子词串的数量大于2,则判断所述第1个子词串W1中字符的个数和所述第K个子词串WK中字符的个数是否小于预设值;如果所述W1中字符的个数和/或WK中字符的个数小于所述预设值,则判断所述W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定所述W1和/或所述WK为噪声并从所述词串中删除所述W1和/或所述WK以得到新的词串。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |