发明名称 |
文字图像中字符识别方法和识别装置 |
摘要 |
本发明公开了一种文字图像中字符识别方法和识别装置,所述方法包括:对文字图像中切割出的字符,以设定单位进行划分;对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而大大提高字符识别的准确率。 |
申请公布号 |
CN102982330A |
申请公布日期 |
2013.03.20 |
申请号 |
CN201210477638.5 |
申请日期 |
2012.11.21 |
申请人 |
新浪网技术(中国)有限公司 |
发明人 |
郝双 |
分类号 |
G06K9/20(2006.01)I |
主分类号 |
G06K9/20(2006.01)I |
代理机构 |
北京市京大律师事务所 11321 |
代理人 |
黄启行;方晓明 |
主权项 |
一种文字图像中字符识别方法,包括:对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别:对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。 |
地址 |
100080 北京市海淀区北四环西路58号理想国际大厦20层 |