发明名称 |
在光学字符识别(OCR)过程中的段落识别 |
摘要 |
用于检测在文本图像中的段落的图像处理设备包括:输入部件,用于接收其中文本行和单词已被标识的输入图像;和页分类部件,用于把输入图像分类为第一或第二页类型。该设备还包括段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行。设备还被提供有段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。已被识别的段落可以通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。 |
申请公布号 |
CN102782702A |
申请公布日期 |
2012.11.14 |
申请号 |
CN201180013187.3 |
申请日期 |
2011.03.08 |
申请人 |
微软公司 |
发明人 |
B.拉达科维奇;S.加利奇;A.乌泽拉奇 |
分类号 |
G06K9/03(2006.01)I;G06K9/20(2006.01)I;G06K19/06(2006.01)I |
主分类号 |
G06K9/03(2006.01)I |
代理机构 |
中国专利代理(香港)有限公司 72001 |
代理人 |
李舒;汪扬 |
主权项 |
一种用于检测在文本图像中的段落的图像处理设备,包括:输入部件,用于接收其中文本行和单词已被标识的输入图像;页分类部件,用于把输入图像分类为第一或第二页类型;段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。 |
地址 |
美国华盛顿州 |