文档图像处理装置和文档图像处理方法,申请号CN200710129606.5-传众专利搜索

发明名称	文档图像处理装置和文档图像处理方法
摘要	本发明提供一种文档图像处理装置及文档图像处理方法。其中，抽取出文档图像中的文字数为M的文字列的图像，将其以1个文字为单位进行分割，并抽出各文字图像的图像特征，基于该图像特征，从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中，按照匹配度从高到低的顺序选择N(N＞1的整数)个文字图像作为候补文字，而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且，对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，通过适用基于预定的语言模型的词汇解析，来制作出调整成有意义的文字列的第2索引矩阵，并在语言模型的基础上统计后进行词汇解析。
申请公布号	CN101354703A	申请公布日期	2009.01.28
申请号	CN200710129606.5	申请日期	2007.07.23
申请人	夏普株式会社	发明人	吴波;窦建军;乐宁;吴亚栋;贾靖
分类号	G06F17/30(2006.01);G06K9/72(2006.01);G06K9/46(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	北京集佳知识产权代理有限公司	代理人	雒运朴;徐谦
主权项	1.一种文档图像处理装置，其特征在于，具有：字形特征字典，其以单个文字为单位储存有文字图像的图像特征；文字列抽出部，其以由两个或两个以上文字构成的文字列为单位，抽取出所输入的文档图像中存在的文字图像；图像特征抽出部，其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割，并抽出各文字图像的图像特征；特征匹配部，其以由上述图像特征抽出部抽出的文字图像的图像特征为基础，从上述字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字，其中N为N＞1的整数，在将上述文字列的文字数设为M个时，其中M为M＞1的整数，制作M×N维的第1索引矩阵，并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵；索引信息储存部，其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存；检索部，其在检索时，以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索上述索引信息储存部，而取出具有包含检索文字的第2索引矩阵的文档图像。
地址	日本大阪府