发明名称 结构化文档处理装置和方法
摘要 本发明的目标是提供一种能够使用诸如XML解析器之类的解析器来快速解析数字化的结构化文档的句法解析装置和方法。与实例文档和概要信息有关的统计信息被用于合并允许对结构化文档分段的多个状态转变,由此生成优化的自动机。在合并状态转变中,以ID列表的形式保存连续匹配状态转变,所述ID列表然后用于对连续状态转变数进行计数。此外,统计地获得包括嵌套元素的重复元素出现次数的模式。通过使用统计方法来解决XML中空白的变化。概要信息用于预先建立自动机,由此降低所述句法解析装置的初始开销。
申请公布号 CN100495401C 申请公布日期 2009.06.03
申请号 CN200610164702.9 申请日期 2006.11.14
申请人 国际商业机器公司 发明人 铃村丰太郎;立堀道昭;浦本直彦
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市中咨律师事务所 代理人 于 静;李 峥
主权项 1. 一种执行电子数据形式的结构化文档的句法解析的结构化文档处理装置,所述装置包括:自动机生成单元,其生成多个状态的状态转变序列,所述多个状态允许将结构化文档分段成多个节点;实例文档分析单元,其通过使用与是所述结构化文档的实体的实例文档有关的统计信息,将状态转变合并到由所述自动机生成单元生成的所述状态转变序列中,并且通过使用所述统计信息来统计地获得所述状态转变中重复元素出现次数的模式;概要信息分析单元,其通过使用定义了与所述结构化文档有关的信息的结构和格式的概要信息,将所述状态转变合并到由所述自动机生成单元生成的所述状态转变序列中;以及自动机优化单元,其相互地优化由所述实例文档分析单元和所述概要信息分析单元所合并的状态转变序列。
地址 美国纽约