发明名称 用于文字识别的训练样本自动挑选装置及其方法
摘要 本发明公开了一种用于文字识别的训练样本自动挑选装置和方法,所述的装置包括:样本输入装置、样本数据存储单元、训练装置、模型数据库、识别装置、识别结果分析装置、边界样本选择装置、挑选结果输出装置和控制处理装置。所述的方法是根据训练样本对于训练的作用,将训练样本分为好样本、边界样本、差样本三种类型,并通过训练样本进行训练、识别的结果计算广义距离差,根据广义距离差给出三种样本的定义,最后通过边界样本的选择实现训练样本的挑选。本发明的装置和方法思路简捷,能够实现训练样本的自动挑选,挑选结果更加准确,从而使得训练出的模型更加精确,有效提高文字识别系统的识别率。
申请公布号 CN1419214A 申请公布日期 2003.05.21
申请号 CN02157956.3 申请日期 2002.12.23
申请人 北京邮电大学 发明人 刘刚;徐蔚然;郭军;郑瑞虹;张洪刚
分类号 G06K9/00;G06F3/00 主分类号 G06K9/00
代理机构 代理人
主权项 1、一种用于文字识别的训练样本自动挑选装置,所述的装置包括:样本输入装置(1),用于将训练样本和测试样本输入到样本数据存储单元(2)中;样本数据存储单元(2),用于存储由样本输入装置(1)输入的训练样本和测试样本数据;训练装置(3),用于根据输入的样本训练出一套模型参数,并存储到模型数据库(4)中,以供识别装置(5)使用;模型数据库(4),用于保存训练装置(3)训练出的模型参数,并为识别装置(5)提供模型数据;识别装置(5),用于根据存储在模型数据库中的模型参数,识别输入的样本;识别结果分析装置(6),用于当系统识别的是训练样本的时候,计算训练样本中每个样本的广义距离差,并按照广义距离差从小到大对所有训练样本进行排序,得到好样本、差样本或边界样本三类样本;当系统识别的是测试样本的时候,本装置将直接输出测试样本的识别率;边界样本选择装置(7),用于根据识别结果分析装置(6)的输出,判断当前边界样本选择是否最佳,如果最佳,则通知挑选结果输出装置输出最佳边界样本,否则,适当改变边界样本的数量,在控制处理装置的控制下,将边界样本送入训练装置进行训练,然后将测试样本送入识别装置(5)进行测试,得到当前边界样本训练的性能;挑选结果输出装置(8),用于将边界样本选择装置(7)中的挑选结果输出,输出的内容可以是最佳边界样本的编号,也可以是全部最佳训练样本数据本身,输出形式可以直接打印输出到纸张上,也可以直接输出到显示装置上;控制处理装置(9),用于对整个训练样本挑选装置的控制处理,负责样本数据的读取操作,训练,识别,识别结果的分析,边界样本的选择以及挑选结果的输出。
地址 100876北京市海淀区西土城路10号