发明名称 一种文档内容结构化的方法及装置
摘要 本申请提供了一种文档内容结构化的方法及装置,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
申请公布号 CN103885972A 申请公布日期 2014.06.25
申请号 CN201210560708.3 申请日期 2012.12.20
申请人 北大方正集团有限公司;北京北大方正电子有限公司 发明人 孙明明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种文档内容结构化的方法,其特征在于,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
地址 100871 北京市海淀区成府路298号方正大厦9层