发明名称 一种基于内容的图像格式中文文档检索方法
摘要 一种基于内容的图像格式中文文档检索方法,它涉及信息处理技术领域,它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明首先对图像格式文档进行字符分割,得到单个字符图像;然后提取字符图像特征矢量;接着基于局部敏感哈希变换原理LSH,构建hash函数,将每个字符图像特征矢量变换为伪码,并建立字符标引数据库;然后输入查询关键词,并获得所述查询关键词的伪码表示,再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较,进而获取查询关键词的所有相似词,并按照其在文档中出现的先后顺序输出相似词,完成检索。本发明适用于图像格式的中文文档检索。
申请公布号 CN101866366A 申请公布日期 2010.10.20
申请号 CN201010226787.5 申请日期 2010.07.15
申请人 哈尔滨工业大学 发明人 夏勇;王宽全;左旺孟;黎捷
分类号 G06F17/30(2006.01)I;G06K9/46(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 张宏威
主权项 1.一种基于内容的图像格式中文文档检索方法,其特征在于所述检索方法包括以下步骤:步骤一:获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像<img file="282292DEST_PATH_IMAGE001.GIF" wi="20" he="26" />;步骤二:根据所获取的单个字符图像<img file="472227DEST_PATH_IMAGE001.GIF" wi="20" he="26" />,提取该字符图像的字符图像特征矢量;步骤三:基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像<img file="921663DEST_PATH_IMAGE001.GIF" wi="20" he="26" />的字符图像特征矢量相应变换为伪码<img file="88202DEST_PATH_IMAGE002.GIF" wi="204" he="35" />,并根据所述伪码<img file="870476DEST_PATH_IMAGE003.GIF" wi="41" he="26" />建立字符标引数据库,所述伪码<img file="729847DEST_PATH_IMAGE003.GIF" wi="41" he="26" />由L个16位整数<img file="401000DEST_PATH_IMAGE004.GIF" wi="39" he="44" />串接而成,其中,<img file="200591DEST_PATH_IMAGE005.GIF" wi="461" he="38" />,<img file="398223DEST_PATH_IMAGE006.GIF" wi="91" he="24" />,<img file="992278DEST_PATH_IMAGE007.GIF" wi="42" he="46" />的值由hash函数h和参数k决定;步骤四:在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;步骤五:设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;步骤六:对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有字符图像,即<img file="150727DEST_PATH_IMAGE008.GIF" wi="136" he="29" />,<img file="222850DEST_PATH_IMAGE009.GIF" wi="17" he="25" />为所述查询关键词W中一个字符图像,<img file="415934DEST_PATH_IMAGE010.GIF" wi="74" he="22" />,并根据所述字符图像<img file="617108DEST_PATH_IMAGE009.GIF" wi="17" he="25" />提取其字符图像特征矢量;步骤七:基于局部敏感哈希变换原理,将字符图像<img file="262853DEST_PATH_IMAGE009.GIF" wi="17" he="25" />的字符图像特征矢量变换为伪码<img file="76351DEST_PATH_IMAGE011.GIF" wi="235" he="39" />,所述伪码<img file="123941DEST_PATH_IMAGE012.GIF" wi="40" he="25" />由L个16位整数<img file="496017DEST_PATH_IMAGE013.GIF" wi="29" he="35" />串接而成;步骤八:令i=1,j=1;步骤九:获取字符图像<img file="629058DEST_PATH_IMAGE009.GIF" wi="17" he="25" />的伪码<img file="246246DEST_PATH_IMAGE012.GIF" wi="40" he="25" />与字符标引数据库中字符图像<img file="148343DEST_PATH_IMAGE001.GIF" wi="20" he="26" />的伪码<img file="691320DEST_PATH_IMAGE003.GIF" wi="41" he="26" />之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;步骤十:判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十四,否则,执行步骤十一;步骤十一:判定字符图像<img file="621578DEST_PATH_IMAGE009.GIF" wi="17" he="25" />与字符标引数据库中字符图像<img file="540993DEST_PATH_IMAGE001.GIF" wi="20" he="26" />相似,将所述字符图像<img file="297596DEST_PATH_IMAGE001.GIF" wi="20" he="26" />及步骤九获取的字符相似度S保存;步骤十二:判断是否存在i=n,如果是,则令i=1,执行步骤十三,否则令i=i+1,执行步骤十四;步骤十三:将步骤十一所存储的<img file="11474DEST_PATH_IMAGE014.GIF" wi="40" he="26" />与<img file="682889DEST_PATH_IMAGE001.GIF" wi="20" he="26" />之间的n个字符组成的词作为有效查询结果保存,并将步骤十一所存储的n个字符相似度S相乘作为所述词相似度保存,然后执行步骤十四;步骤十四:判断是否存在j&lt;N,如果是,则令j=j+1,返回执行步骤九,否则执行步骤十五;步骤十五:将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出,完成检索。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号