发明名称 |
帐票识别装置、方法、数据库生成装置、方法 |
摘要 |
本发明提供一种不用将用于识别记载内容的信息按照设计不同的各个帐票进行登记即能范围广泛地应对帐票的帐票识别装置、方法、数据库生成装置、方法。关键字提取部(17)提取与项目名等对应的标题语句作为关键字。帐票类别判定部(18)着眼于所提取的关键字的种类、该关键字的提取位置等来判定帐票类别。逻辑结构分析(项目候补提取)部(20)以包含有字符串的区域即单元格为单位对表结构进行逻辑分析,提取单元格内存在的其他未识别的字符串,估计未识别的标题语句并进行恢复。这些操作通过反映帐票类别的判定结果来进行。由此,可实现更高精度的识别,并能应对范围更广的种类的帐票。 |
申请公布号 |
CN101685498B |
申请公布日期 |
2016.04.20 |
申请号 |
CN200910149359.4 |
申请日期 |
2009.06.18 |
申请人 |
富士通先端科技株式会社 |
发明人 |
江口真一;川岛哉;金元浩一;长谷川将平;小原胜利;矢吹真纪 |
分类号 |
G06K9/00(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06K9/00(2006.01)I |
代理机构 |
北京三友知识产权代理有限公司 11127 |
代理人 |
黄纶伟 |
主权项 |
一种帐票识别装置,该帐票识别装置对在帐票上任意的表结构内存在的字符串进行识别,其特征在于,该帐票识别装置具有:图像取得单元,其取得所述帐票进行了电子化后的帐票图像;字符串识别单元,其识别在所述图像取得单元所取得的所述帐票图像上存在的字符串;字符串提取单元,其从所述字符串识别单元所识别的字符串中提取预定的字符串即标题语句;表结构判定单元,其在所述字符串提取单元提取出多个标题语句的情况下,根据该字符串提取单元所提取的各标题语句、以及该各标题语句在所述帐票图像上的配置,判定在该帐票图像上存在的表结构;对应关系确定单元,其使用由所述表结构判定单元进行的所述表结构的判定结果,确定所述标题语句与在该标题语句以外由所述字符串识别单元所识别的字符串之间的对应关系;以及存储单元,其按照作为在所述帐票上填写1个以上的关联数据的单位的表结构即单位表结构各方,存储有以分层结构定义了有可能在该单位表结构中出现的标题语句的数据库,所述表结构判定单元参照存储在所述存储单元内的数据库,判定在所述帐票图像上存在的整体的表结构。 |
地址 |
日本东京都 |