发明名称 |
文档结构化方法和装置 |
摘要 |
本发明提供一种文档结构化方法和装置,其中方法包括:创建Schema文件和结构化规则文件;根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取结构化后的文档中预设的标志性标签的位置;根据标志性标签的位置获取结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,从而提高了文档结构化的效率,降低了文档结构化的出错率。 |
申请公布号 |
CN104572745A |
申请公布日期 |
2015.04.29 |
申请号 |
CN201310505451.6 |
申请日期 |
2013.10.23 |
申请人 |
北大方正集团有限公司;北京北大方正电子有限公司 |
发明人 |
杨勇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种文档结构化方法,其特征在于,包括:创建Schema文件和结构化规则文件;根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取所述结构化后的文档中预设的标志性标签的位置;根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。 |
地址 |
100871 北京市海淀区成府路298号中关村方正大厦9层 |