发明名称 |
文字校对方法和装置 |
摘要 |
本发明公开了一种文字校对方法和装置,涉及文字处理领域。本发明实施例提供的方法,包括如下步骤:收集对文字进行校对的修改信息;根据所述修改信息建立易错词表;根据易错词表查找文字中的可疑字并进行提示。本发明适用于文字录入、数据加工系统。本发明为解决目前书籍资料电子化过程中校对文字质量核查工作量大效率低的问题而发明,利用文字校对的修改信息建立易错词表,然后去全文中搜索残留的可疑字并对残留可疑字报警,方便核查,相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度,在低报警率下保证了文字校对的质量。 |
申请公布号 |
CN102375807B |
申请公布日期 |
2014.01.15 |
申请号 |
CN201010266100.0 |
申请日期 |
2010.08.27 |
申请人 |
汉王科技股份有限公司 |
发明人 |
刘正珍;高书征 |
分类号 |
G06F17/22(2006.01)I;G06F17/30(2006.01)I;G06K9/20(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京中博世达专利商标代理有限公司 11274 |
代理人 |
申健 |
主权项 |
一种文字校对方法,其特征在于,包括:收集对文字进行校对的修改信息;根据所述修改信息建立易错词表;根据易错词表查找文字中的可疑字并进行提示;其中,在所述根据所述修改信息建立易错词表;根据易错词表查找文字中的可疑字并进行提示之前,或之后,所述方法还包括:结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像,整理成易错形似字集;其中,所述单页整幅文本图像为被校对的文本的图像;对所述易错形似字集进行图像聚类;统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量,以及每一类易错形似字集中每种字的文字识别结果数量;将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字,若没有修改记录则取文字识别结果最多的字作为标准字;对每一类易错形似字集中当前结果与标准字不同的易错形似字进行提示。 |
地址 |
100193 北京市海淀区东北旺西路8号5号楼三层 |