发明名称 名片字符条目分类方法与装置
摘要 本发明涉及一种名片字符条目分类方法及装置,属于光学字符识别领域,包括以下步骤:(a)、先导词完全匹配分类步骤,逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(b)、先导词容错匹配分类步骤,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(c)、关键词容错匹配分类步骤,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;(d)、版面逻辑结构特征分类步骤。本发明可实现对各种版面结构的名片字符条目的快速而准确的分类。
申请公布号 CN101751433B 申请公布日期 2012.10.17
申请号 CN200810239876.6 申请日期 2008.12.22
申请人 汉王科技股份有限公司 发明人 李永彬;朱军民;刘正珍
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种名片字符条目分类方法,用于通过对名片进行OCR识别后得到的多个名片字符条目进行逐条分类,其特征在于,至少包括以下步骤:(a)、先导词完全匹配分类步骤:逐条将所述字符条目与完全匹配先导词表中的所有先导词逐个进行完全匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;其中,所述步骤(a)包括:(a1)、在完全匹配先导词表中逐条搜索与字符条目完全匹配的先导词,如果搜到完全匹配的先导词,则进入步骤(a2),否则,该字符条目不能通过先导词完全匹配进行分类;(a2)、如果该先导词不属于由字母构成单词的语种,则直接进行步骤(a3),否则通过设定的先导词匹配检验规则进行检验,如果该先导词能够通过检验,则进入步骤(a3),否则返回上一步骤(a1),在完全匹配先导词表中从当前先导词的下一个位置继续搜索完全匹配的先导词;(a3)、将当前先导词的类别作为当前字符条目的候选类别,再用候选类别的自有特征校验规则进行校验,如果能够通过校验,则将当前字符条目的类别标记为候选类别完成分类,否则,该字符条目不能通过先导词完全匹配进行分类;(b)、先导词容错匹配分类步骤:逐条将在步骤(a)中未完成分类的字符条目与容错匹配先导词表中的先导词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中,未通过本步骤的字符条目则进入下一步骤;其中,所述步骤(b)包括:(b1)、根据<img file="FDA00001784577900021.GIF" wi="559" he="113" />计算先导词的阈值,其中ErrTol为当前先导词的阈值,LwLen为当前先导词的长度;如果当前先导词与字符条目的容错距离小于或等于当前先导词的ErrTol,匹配成功;否则匹配就无效;(b2)、根据步骤(b1)计算的先导词的阈值逐条搜索所述字符条目并找到匹配的先导词;(b3)、如果该先导词不属于由字母构成单词的语种,则直接进行下一步骤(b4);否则通过设定的先导词匹配检验规则进行检验;(b4)、对同一类别中通过先导词匹配检验规则检验成功的多个先导词根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,选取Fea最大的先导词,其中,Fea为取舍标准的计算结果,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b5)、对于多个类别上的得到的先导词匹配结果,根据<img file="FDA00001784577900022.GIF" wi="549" he="90" />进行筛选,取LwScore值最大且超过设定阈值的类别作为候选类别,其中,LwScore为某类别的先导词的得分值,LwLen为先导词长度,EditDist为先导词和字符条目间的编辑距离;(b6)、以该候选类别的自有特征校验规则进行校验;通过检验的字符条目就送入所述分类结果中;(c)、关键词容错匹配分类步骤:逐条将在步骤(b)中未完成分类的字符条目与容错匹配关键词表中的关键词进行容错匹配测试,通过本步骤的字符条目就送入分类结果中;其中,所述步骤(c)包括,(c1)、根据关键词对分类的重要性的不同,对所述关键词分别设定权重值;(c2)、根据<img file="FDA00001784577900023.GIF" wi="559" he="113" />计算关键词的阈值,其中ErrTol为当前关键词的阈值,LwLen为当前关键词的长度;(c3)、计算字符条目与容错匹配关键词表中关键词之间的编辑距离,如果关键词与字符条目之间的编辑距离小于或等于该关键词的阈值ErrTol,则该关键词与字符条目相匹配,否则,该关键词与字符条目不匹配;(c4)、如果该关键词不属于由字母构成单词的语种,则直接进行下一步骤;否则通过设定的关键词匹配检验规则进行检验;(c5)、对同一类别中通过关键词匹配检验规则检验成功的多个关键词,如果其中两个或两个以上的关键词在字符条目中的匹配位置存在重叠,则根据Fea=(LwLen-2×EditDist)×LwLen进行筛选,其中,Fea为取舍标准的计算结果,LwLen为关键词长度,EditDist为关键词和字符条目间的编辑距离;然后选取Fea最大的关键词;(c6)、将同一字符条目中属于同一类别的所有关键词特征得分值相加作为该类别的最终得分,根据<maths num="0001"><![CDATA[<math><mrow><mi>KwScore</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><mfrac><mrow><msub><mi>KwLen</mi><mi>i</mi></msub><mo>-</mo><mn>2</mn><mo>&times;</mo><msub><mi>EditDist</mi><mi>i</mi></msub></mrow><msub><mi>KwLen</mi><mi>i</mi></msub></mfrac><mo>&times;</mo><msub><mi>Rank</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>计算该类别的最终得分,取KwScore得分值最大且超过预先设定的阈值的类别作为候选类别,其中,KwScore为某类别的关键词特征得分值,N为当前类别中与当前字符条目相匹配的关键词个数,KwLen<sub>i</sub>为第i个关键词的长度,EditDist<sub>i</sub>为第i个关键词的编辑距离,Rank<sub>i</sub>为第i个关键词的权重;(c7)、以该候选类别的自有特征校验规则进行校验,通过检验的则将该字符条目的类别标注为该类关键词的类别,并送入所述分类结果中。
地址 100193 北京市海淀区东北旺西路8号5号楼三层