发明名称 |
标题抽取装置及其方法 |
摘要 |
一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文挡图象的关键字。 |
申请公布号 |
CN1220163C |
申请公布日期 |
2005.09.21 |
申请号 |
CN01135945.5 |
申请日期 |
1996.09.04 |
申请人 |
富士通株式会社 |
发明人 |
胜山裕;直井聪 |
分类号 |
G06K9/20;G06K9/34;G06T3/40;G06T11/60;H04N1/387 |
主分类号 |
G06K9/20 |
代理机构 |
中国国际贸易促进委员会专利商标事务所 |
代理人 |
吴丽丽 |
主权项 |
1.一种用于从已经转换为图象数据的文档的文档图象抽取所需局部区域并用于作出识别的标题抽取装置,包括:字符区域产生装置,用于获得由文档图象的连接的黑色象素所组成的黑色象素连接区域的外接矩形,并且从外接矩形生成包含该黑色象素连接区域的字符区域;字符串区域产生装置,用于产生外接矩形的边长的频率值的直方图,产生预定的频率值和对应于预定的频率值的最大边长的一个关系表,利用该关系表获得具有文档图象的最高频率值的第一边的长度,对应于第一边的长度将由所述字符区域产生装置所产生的一个或者多个字符区域一体化,并从一体化后的字符区域产生字符串区域;以及标题抽取单元,用于抽取下划线属性或者框架属性作为由所述字符串区域生成装置所生成的字符串区域的一个属性,对应于所抽取的属性、以及字符串区域位置之间的相对位置关系的至少之一向每一字符串区域指定点数,并抽取具有最高点数的字符串区域作为标题区域。 |
地址 |
日本神奈川 |