发明名称 一种多格式文档录入并比对的方法
摘要 本发明涉及一种多格式文档录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。
申请公布号 CN103823838A 申请公布日期 2014.05.28
申请号 CN201310696955.0 申请日期 2013.12.18
申请人 江苏省电力公司常州供电公司;江苏省电力公司;国家电网公司 发明人 鞠非;华凯;吴国奇;刘建军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 常州市江海阳光知识产权代理有限公司 32214 代理人 陆文俊
主权项 一种多格式文档录入并比对的方法,包括如下步骤:①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
地址 213003 江苏省常州市天宁区局前街27号