发明名称 文档图像处理装置以及文档图像处理方法
摘要 本发明的文档图像处理装置,抽取出文档图像中的标题区域的图像,将其按单个文字进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。然后,基于所制作出的索引矩阵,制作出反映了文档图像内容的有意义的文档名,并对所存储的文档图像进行管理。由此,可以提供一种不用麻烦用户的手,就可自动制作反映了文档图像内容的有意义的文档名并进行管理的文档图像处理装置及方法。
申请公布号 CN101226595B 申请公布日期 2012.05.23
申请号 CN200710000960.8 申请日期 2007.01.15
申请人 夏普株式会社 发明人 吴波;窦建军;乐宁;吴亚栋;贾靖
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 雒运朴;徐谦
主权项 一种文档图像处理装置,对所存储的文档图像赋予文档名并进行管理,该文档图像处理装置的特征在于,具有:字形特征字典,其以单个文字为单位储存有文字图像的图像特征;标题抽出部,其抽取出在所输入的文档图像中存在的标题区域;图像特征抽出部,其将由上述标题抽出部抽取出的标题区域中所包含的文字列的文字图像按单个文字进行分割,并抽出各文字图像的图像特征;索引矩阵制作部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典,按图像特征匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,且将上述文字列的文字数设为M个,其中M为M>1的整数,在该场合下,制作M×N维索引矩阵,候补文字列生成部,其基于该索引矩阵,来制作将该索引矩阵中的连续的各行的一个候补文字依次排列的候补文字列,并且采用词义解析法来调整构成该候补文字列的各候补文字,并设为有意义的候补文字列;文档名制作部,其对上述所输入的文档图像,制作包含由上述候补文字列生成部生成的有意义的候补文字列的第一文档名,并且具有:索引信息储存部,其将由上述索引矩阵制作部制作的索引矩阵与上述所输入的文档图像相对应地进行储存;检索部,其以构成所输入的检索式中的检索关键词的一个检索文字为单位,对上述索引信息储存部进行检索,抽出具有包含检索文字的索引矩阵的文档图像,进而,对于上述索引矩阵的各要素,设定与位置相应的相关值,上述检索部包括:索引矩阵检索处理部,其以构成检索关键词的一个检索文字为单位,对索引矩阵进行检索而检索出包含检索文字的索引矩阵,并将该索引矩阵内的检索文字的匹配位置的信息与具有索引矩阵的文档图像的信息一起储存在保存部中;相关度计算部,其根据储存在上述保存部中的匹配位置的信息,将各检索文字的相关值累计计算,并计算出检索关键词和索引矩阵的相关度;顺序决定部,其基于上述相关度计算部的计算结果来决定文档图像的抽出顺序。
地址 日本大阪府