发明名称 一种古籍文字数字化录入方法
摘要 本发明公开了一种古籍文字数字化录入方法,包括对古籍进行全文扫描,将扫描图像碎片化,利用古籍字体数据库对所述文字单元格进行自动识别,采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检,完善古籍字体数据库,根据录入结果和坐标,还原位置,生成PDF文件。本发明可以提高图像数字化信息安全度和效率。
申请公布号 CN106529521A 申请公布日期 2017.03.22
申请号 CN201610964844.7 申请日期 2016.10.31
申请人 江苏文心古籍数字产业有限公司 发明人 王良君;禇正东;徐朝龙;王旭
分类号 G06K9/20(2006.01)I;G06K9/34(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 代理人
主权项 一种古籍文字数字化录入方法,其特征在于,步骤包括:步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;步骤5、根据录入结果和坐标,还原位置,生成PDF文件:根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
地址 212000 江苏省镇江市京口区解放路17号