发明名称 |
基于正则表达式的文字后处理方法和装置 |
摘要 |
本发明公开一种基于正则表达式的文字后处理方法和装置,属于文字识别领域。针对现有文字后处理方法存在的复用性和可扩展性较差等缺陷而设计。本发明所述方法包括:依据后处理准则语法设置当前识别区域的后处理准则表达式;解析该后处理准则表达式,得出树状数据结构;匹配识别结果;得出匹配值最高的文字后处理结果。本发明所述方法借鉴了正则表达式的语法元素,来描述具有不同后处理需求的文字识别结果的后处理准则,具有很好的通用性、扩展性和表述能力,使得对后处理准则的设置灵活便捷。 |
申请公布号 |
CN102637180A |
申请公布日期 |
2012.08.15 |
申请号 |
CN201110037584.6 |
申请日期 |
2011.02.14 |
申请人 |
汉王科技股份有限公司 |
发明人 |
王晓健 |
分类号 |
G06F17/30(2006.01)I;G06K9/20(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于正则表达式的文字后处理方法,其特征在于,包括以下步骤:依据后处理准则语法设置当前识别区域的后处理准则表达式;解析该后处理准则表达式,得出树状数据结构;根据得出的树状数据结构匹配识别结果;将匹配值最高的识别结果作为后处理结果。 |
地址 |
100193 北京市海淀区东北旺西路8号5号楼三层 |