发明名称 用于从文档图象抽取标题的标题抽取装置及其方法
摘要 一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文档图象的关键字。
申请公布号 CN1094224C 申请公布日期 2002.11.13
申请号 CN96111897.0 申请日期 1996.09.04
申请人 富士通株式会社 发明人 胜山裕;直井聪
分类号 G06T11/00;G06F17/00 主分类号 G06T11/00
代理机构 中国国际贸易促进委员会专利商标事务所 代理人 杨国旭
主权项 1.一种用于从已经转换为图象数据的文档的文档图象抽取所需局部区域并用于作出识别的标题抽取装置,包括:字符区域产生装置,用于产生包含由文档图象连接的黑色象素所组成的黑色象素连接区域的字符区域,其中获得黑色象素连接区域的外接矩形作为字符区域;字符串区域产生装置,用于一致化由所述字符区域产生装置所产生的一个或者多个字符区域,并用于产生包含一个或者多个字符区域的字符串区域,其中获得与参照的第一外接矩形邻接的第二外接矩形,产生表示第一外接矩形和第二外接矩形的连接关系的连接关系表,利用连接关系表向第一外接矩形和第二外接矩形指定相同的标识信息,并一致化第一外接矩形和第二外接矩形为一个字符串区域;以及标题抽取装置,用于根据由该装置的所述字符串区域产生装置所产生的多个字符串区域的属性而抽取多个字符串区域的一个特定字符串区域作为标题区域,其中抽取下划线属性或者框架属性作为字符串区域的一个属性,对应于所抽取的属性、每一字符串区域的位置、以及字符串区域之间的相对位置的关系的至少之一向每一字符串区域指定点数,并作为特定的字符串区域处理带有最高点数的字符串区域。
地址 日本神奈川