发明名称 |
用于分析并确定文档中信息的相关性的装置和方法 |
摘要 |
本发明涉及用于分析并确定文档中信息的相关性的装置和方法。该文档可为指定表格,其中包含多个模块,该多个模块中的至少一个模块包含表示表头的数据,该多个模块中的其余模块包含与表头信息关联的数据,该装置包括:用于存储多个模板的存储器,各模板具有多个节点、分别与该多个节点关联的字符数据以及该多个节点之间的相对位置信息;和根据一处理来分析并确定信息的相关性的处理器,该处理包括:获取该指定表格中的多个模块中包含的数据,确定该多个模块的相对位置以生成相对位置信息;与该模板的字符数据和该多个节点的相对位置信息相比较地,分析从该多个模块获取的数据及该多个模块的相对位置信息;以及确定该多个模块中包含的数据的相关性。 |
申请公布号 |
CN101236609B |
申请公布日期 |
2012.09.05 |
申请号 |
CN200810004819.X |
申请日期 |
2008.02.02 |
申请人 |
富士通株式会社 |
发明人 |
武部浩明;藤本克仁 |
分类号 |
G06F17/30(2006.01)I;G06K9/72(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三友知识产权代理有限公司 11127 |
代理人 |
孙海龙 |
主权项 |
一种用于分析并确定表格图像中包含的信息的相关性的装置,在所述表格图像中包含多个模块,所述多个模块中的至少一个模块包含表示表头的数据,所述多个模块中的其余模块包含与表头信息关联的数据,所述用于分析并确定表格图像中包含的信息的相关性的装置包括:存储器,该存储器用于存储多个逻辑结构模板,所述逻辑结构模板具有多个节点、分别与所述多个节点关联的字符数据、以及所述多个节点之间的相对位置信息;和处理器,该处理器用于根据一处理来分析并确定所述信息的相关性,所述处理包括以下步骤:获取所述表格图像中的所述多个模块中包含的字符数据,确定所述多个模块的相对位置,以生成相对位置信息,与所述逻辑结构模板的所述字符数据和所述多个节点的相对位置信息相比较地,分析从所述多个模块获取的所述数据和所述多个模块的所述相对位置信息,通过顺序地执行所获取的字符数据和全部的所述逻辑结构模板之间的匹配来将与所述逻辑结构模板匹配具有最高匹配率的结果确定为逻辑结构识别结果,以及通过比较实际域中的所述字符数据中包括的坐标之间的关系和所述逻辑结构模板的节点之间的关系来确定所述多个模块中包含的所述数据的相关性。 |
地址 |
日本神奈川县川崎市 |