发明名称 OCR字符识别方法及系统
摘要 本发明提出了一种OCR字符识别方法,包括:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串;计算识别的词串中子词串的数量;如果词串中子词串的数量大于2,则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值;如果W1中字符的个数和/或WK中字符的个数小于预设值,则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定W1和/或WK为噪声并从词串中删除W1和/或WK以得到新的词串。根据本发明的实施例可提升对OCR识别的结果的OCR翻译的准确性。本发明还提出了一种OCR字符识别系统。
申请公布号 CN103679165A 申请公布日期 2014.03.26
申请号 CN201310752624.4 申请日期 2013.12.31
申请人 北京百度网讯科技有限公司 发明人 王海峰;和为
分类号 G06K9/20(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 宋合成
主权项 一种OCR字符识别方法,其特征在于,包括以下步骤:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串,其中,所述词串包括K个子词串,每个子词串至少包括1个字符,所述K为正整数;计算所述识别的词串中子词串的数量;如果所述词串中子词串的数量大于2,则判断所述第1个子词串W1中字符的个数和所述第K个子词串WK中字符的个数是否小于预设值;如果所述W1中字符的个数和/或WK中字符的个数小于所述预设值,则判断所述W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定所述W1和/或所述WK为噪声并从所述词串中删除所述W1和/或所述WK以得到新的词串。
地址 100085 北京市海淀区上地十街10号百度大厦2层