发明名称 古籍中文字的校对方法、系统及校对服务器
摘要 本发明提出一种古籍中文字的校对方法,包括:校对服务器获得古籍图像并将古籍图像切分为多个字图像块;对每个字图像块进行识别,计算每个字图像块与标准字之间的相似度;当字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,对对应的字图像块进行聚类,并将对应的字图像块存储至标准字为索引的至少一个待选集合中;将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断;根据用户的判断结果对待选集合中的字图像块进行校对。本发明的实施例可有效地提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。本发明还提出了一种古籍中文字的校对系统及校对服务器。
申请公布号 CN103257954B 申请公布日期 2016.08.10
申请号 CN201310222804.1 申请日期 2013.06.05
申请人 北京百度网讯科技有限公司 发明人 詹君
分类号 G06F17/21(2006.01)I;G06K9/20(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 宋合成
主权项 一种古籍中文字的校对方法,其特征在于,包括以下步骤:校对服务器获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字;所述校对服务器对所述每个字图像块进行识别,并将识别出的文字和标准字库中的标准字进行比对以计算每个字图像块与标准字之间的相似度;当所述字图像块与标准字之间的相似度大于第一预设值时,所述校对服务器将对应的字图像块存储至以所述标准字为索引的优选集合中;当所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,所述校对服务器对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至以所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值;所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,以供所述客户端的用户进行判断;以及所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对。
地址 100085 北京市海淀区上地十街10号百度大厦三层