发明名称 |
一种字符识别的后处理方法 |
摘要 |
本发明公开了一种字符识别的后处理方法,对初始识别之后的错误内容进行自动纠正处理。首先,识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度。而后,将候选字符相似度与预定阈值相比较确定被误识的字符。对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值。最后,用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。本发明在选取候选字符时考虑的因素更合理,保证了纠正过程的准确性,提高了识别率和识别速度。 |
申请公布号 |
CN1916941A |
申请公布日期 |
2007.02.21 |
申请号 |
CN200510090878.X |
申请日期 |
2005.08.18 |
申请人 |
北大方正集团有限公司;北京北大方正技术研究院有限公司 |
发明人 |
杜鹏飞;康凯;徐剑波 |
分类号 |
G06K9/68(2006.01) |
主分类号 |
G06K9/68(2006.01) |
代理机构 |
北京同达信恒知识产权代理有限公司 |
代理人 |
李欣 |
主权项 |
1、一种字符识别的后处理方法,包括以下步骤:识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度;将候选字符相似度与预定阈值相比较确定被误识的字符;对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值;用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。 |
地址 |
100871北京市海淀区成府路298号方正大厦5层 |