发明名称 在光学字符识别(OCR)过程中的段落识别
摘要 用于检测在文本图像中的段落的图像处理设备包括:输入部件,用于接收其中文本行和单词已被标识的输入图像;和页分类部件,用于把输入图像分类为第一或第二页类型。该设备还包括段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行。设备还被提供有段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。已被识别的段落可以通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。
申请公布号 CN102782702A 申请公布日期 2012.11.14
申请号 CN201180013187.3 申请日期 2011.03.08
申请人 微软公司 发明人 B.拉达科维奇;S.加利奇;A.乌泽拉奇
分类号 G06K9/03(2006.01)I;G06K9/20(2006.01)I;G06K19/06(2006.01)I 主分类号 G06K9/03(2006.01)I
代理机构 中国专利代理(香港)有限公司 72001 代理人 李舒;汪扬
主权项 一种用于检测在文本图像中的段落的图像处理设备,包括:输入部件,用于接收其中文本行和单词已被标识的输入图像;页分类部件,用于把输入图像分类为第一或第二页类型;段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。
地址 美国华盛顿州