发明名称 商业文档处理器
摘要 提供一种用于当对以灰度保存的商业文档应用OCR时即使字符串和印痕互相重叠也在保留字符串信息的同时仅去除印痕的技术。通过将在印痕附近存在的字符串与数据库相匹配来推断与印痕重叠的字符串。更具体地,首先,去除以灰度输入的商业文档中的印痕区域。随后,提取在被去除的印痕区域附近存在的并且由于印痕导致其部分字符不清楚的字符信息作为印痕相关信息。然后,识别所提取的印痕相关信息的属性,参考保存了包括客户信息的字符串候选的客户数据库,并基于通过属性分类的印痕相关信息,推断与印痕区域重叠并因此不清楚的字符串。
申请公布号 CN102171708A 申请公布日期 2011.08.31
申请号 CN200980138785.6 申请日期 2009.12.15
申请人 日立系统解决方案有限公司 发明人 大峡光晴
分类号 G06K9/34(2006.01)I;G06F17/30(2006.01)I;G06K9/20(2006.01)I;G06K9/72(2006.01)I 主分类号 G06K9/34(2006.01)I
代理机构 北京银龙知识产权代理有限公司 11243 代理人 许静;郭凤麟
主权项 一种商业文档处理器,所述商业文档处理器扫描商业文档并执行识别处理,所述商业文档处理器包括:印痕检测处理部,用于检测以灰度输入的商业文档中的印痕区域,并从所述商业文档中去除所述印痕区域;印痕相关信息提取处理部,用于提取在已经去除了印痕区域的所述商业文档中的被去除的印痕区域附近存在的字符信息作为印痕相关信息,其中由于所述印痕区域导致部分字符是不清楚的;属性分类处理部,用于识别所提取的所述印痕相关信息的属性;及字符推断处理部,用于参考保存了字符串候选的字符串候选数据库,并基于通过属性分类的所述印痕相关信息来推断与印痕区域重叠并且不清楚的字符串。
地址 日本东京都