发明名称 文档图像处理装置和文档图像处理方法
摘要 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。
申请公布号 CN101354703A 申请公布日期 2009.01.28
申请号 CN200710129606.5 申请日期 2007.07.23
申请人 夏普株式会社 发明人 吴波;窦建军;乐宁;吴亚栋;贾靖
分类号 G06F17/30(2006.01);G06K9/72(2006.01);G06K9/46(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京集佳知识产权代理有限公司 代理人 雒运朴;徐谦
主权项 1.一种文档图像处理装置,其特征在于,具有:字形特征字典,其以单个文字为单位储存有文字图像的图像特征;文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽取出所输入的文档图像中存在的文字图像;图像特征抽出部,其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的第1索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,而制作出调整成有意义的文字列的第2索引矩阵;索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存;检索部,其在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索上述索引信息储存部,而取出具有包含检索文字的第2索引矩阵的文档图像。
地址 日本大阪府