发明名称 信息处理装置、信息处理方法以及电子设备
摘要 本发明提供了信息处理装置、方法以及电子设备,以克服现有的用于确定待处理对象中的数据区域的方法所确定的数据区域不准确的问题。信息处理装置包括:用于获得待处理文档的树结构中各路径的标签序列的标签序列获得单元;用于基于标签序列在待处理文档的树结构中的重复出现次数来对标签序列分组的分组单元;用于获得每组标签序列的最大公共前缀以确定待处理文档的信息结构布局的布局确定单元;和用于通过分析符合数据区域更新模型的样本文档集来确定上述信息结构布局中的数据区域的数据区域确定单元。信息处理方法用于执行能够实现上述信息处理装置的功能的处理。电子设备包括上述信息处理装置。本发明的上述技术能够应用于信息处理领域。
申请公布号 CN103778104A 申请公布日期 2014.05.07
申请号 CN201210404437.2 申请日期 2012.10.22
申请人 富士通株式会社 发明人 张军;邹纲;钟朝亮;松尾昭彦
分类号 G06F17/21(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王萍;李春晖
主权项 一种信息处理装置,包括:标签序列获得单元,其被配置用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;分组单元,其被配置用于计算每个所述标签序列在所述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;布局确定单元,其被配置用于获得每组标签序列的最大公共前缀,以确定所述待处理文档的信息结构布局;以及数据区域确定单元,其被配置用于通过分析符合数据区域更新模型的样本文档集来在所述信息结构布局中确定数据区域,其中,所述样本文档集中的每个样本文档均具有所述信息结构布局。
地址 日本神奈川县