发明名称 |
一种智能提取文档结构的方法及系统 |
摘要 |
本发明提供一种智能提取文档结构的方法,该方法包括:通过对文档小样进行分析,建立提取规则及其相对应的结构化关键字;对待提取结构的文档应用所建立的提取规则,提取文档内容形成按照结构化关键字表达的结构化内容。相应地,本发明提供一种智能提取文档结构的系统,该系统包括文档输入单元、分析单元、结构化单元、用户设置界面和文档输出单元。本发明依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息,从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设置提取规则,灵活性强。 |
申请公布号 |
CN102103605B |
申请公布日期 |
2012.12.19 |
申请号 |
CN200910242897.8 |
申请日期 |
2009.12.18 |
申请人 |
北大方正集团有限公司;北京北大方正电子有限公司 |
发明人 |
余忠华;闫国龙;曹学军;缪萍;曾建英 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天昊联合知识产权代理有限公司 11112 |
代理人 |
陈源;罗建民 |
主权项 |
一种智能提取文档结构的方法,包括以下步骤:小样分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;文档结构化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。 |
地址 |
100871 北京市海淀区成府路298号中关村方正大厦5层 |