发明名称 标题抽取装置和方法
摘要 一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文档图象的关键字。
申请公布号 CN100501760C 申请公布日期 2009.06.17
申请号 CN01135946.3 申请日期 1996.09.04
申请人 富士通株式会社 发明人 胜山裕;直井聪
分类号 G06K9/20(2006.01)I;G06K9/34(2006.01)I;G06T3/40(2006.01)I;G06T11/60(2006.01)I;H04N1/387(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 中国国际贸易促进委员会专利商标事务所 代理人 吴丽丽
主权项 1. 一种用于从已经转换为图象数据的文档的文档图象抽取所需的局部区域并用于进行识别的标题抽取装置,包括:字符区域产生装置,用于产生包含由文档图象连接的黑色象素所组成的黑色象素连接区域的字符区域,其中获得黑色象素连接区域的外接矩形作为字符区域;字符串区域产生装置,用于获得所述字符区域的连接关系以生成表示所述字符区域的连接关系的连接关系表,并且一致化两个或更多个字符区域为一个字符串区域,其中,所述一致化进一步包括:一致化由所述字符区域产生装置所产生的一个或者多个字符区域,产生包含一个或者多个字符区域的字符串区域,以及从由字符区域产生装置获得的多个字符区域中获得第一字符区域和邻接第一字符区域的第二字符区域,产生代表第一字符区域和第二字符区域的连接关系的连接关系表,利用连接关系表向第一字符区域和第二字符区域分配相同的标识信息,并将第一字符区域和第二字符区域一致化到一个字符串区域;以及标题抽取装置,用于抽取包含预定大小的黑色象素的连接区域的表区域并基于字符串区域中的字符数从该表区域中的多个字符串区域抽取特定的字符串区域作为标题区域,其中还包括:从所述字符串区域中抽取表定界线,并根据所述表定界线而对该表区域中的多个字符串区域进行抽取,其中所述表区域是包括在文档图象中的表的图像的区域。
地址 日本神奈川
您可能感兴趣的专利