发明名称 |
经历OCR过程的文本的单词识别 |
摘要 |
本发明公开了经历OCR过程的文本的单词识别。一种用于在经历光学字符识别的文本图像中标识单词的方法包括,接收(410)包括已由多个切分线分割的文本行的图像(15)的位图(多个切分线各自与反映相应的切分线正确地将文本行分割成个体字符的程度的置信水平相关联)。至少部分基于文本行以及具有大于第一阈值的切分线置信水平的第一子集的切分线,来在文本行的一个中标识(420)一个或多个单词。如果(430)第一单词不与足够高的单词置信水平相关联,则至少部分基于具有大于小于第一阈值的第二阈值的置信水平的第二子集的切分线,来标识(440)至少一第二单词。 |
申请公布号 |
CN102236800A |
申请公布日期 |
2011.11.09 |
申请号 |
CN201110117322.0 |
申请日期 |
2011.04.29 |
申请人 |
微软公司 |
发明人 |
A·安东尼杰维克;I·米蒂克;M·钦波;D·尼耶姆切维奇 |
分类号 |
G06K9/72(2006.01)I |
主分类号 |
G06K9/72(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
蔡悦 |
主权项 |
一种用于在经历OCR过程的文本图像中标识单词的方法,包括:(a)接收(410)包括已由切分线分割以定义其间的符号的文本行的输入图像的位图,其中所述切分线的每一个与切分线置信水平相关联,所述切分线置信水平反映相应的切分线正确地将所述文本行分割成个体字符的程度;(b)维护存储数据元素的数据结构,所述数据元素包括所述位图、具有相应的切分线置信水平的切分线和所述符号;(c)从所述数据结构中的数据元素的第一子集中产生具有相关联的字符置信水平的候选字符的第一集,所述数据元素的第一子集具有相应的候选置信水平,所述相应的候选置信水平各自超过数据元素阈值的第一集中的相应一个;(d)通过进一步包括具有相应的字符置信水平的候选字符的所述第一集来更新所述数据结构;(e)从所述候选字符的第一集中标识至少第一单词(420),其中所述第一单词具有相关联的第一单词置信水平;(f)如果(440)所述第一单词置信水平低于第一单词阈值,则更新所述数据结构以进一步包括所述第一单词及其第一单词置信水平;以及(g)对所更新的数据结构中的数据元素的第二子集重复步骤(c)‑(e),所述数据元素的第二子集具有相应的数据元素置信水平,所述相应的数据元素置信水平各自超过低于所述数据元素阈值的第一集的数据元素阈值的第二集的相应一个,从而产生(440)至少第二单词及其相关联的第二单词置信水平。 |
地址 |
美国华盛顿州 |