发明名称 一种智能提取内容对象的方法及系统
摘要 本发明提供一种智能提取内容对象的方法,该方法包括:根据文档小样形成文档的内容对象结构;为内容对象结构的每一项建立对应的提取规则;按照提取规则将待提取文档形成为按照内容对象结构表达的内容对象列表。相应地,提供一种智能提取内容对象的系统,包括文档输入单元、结构提取单元、对象列表形成单元、用户设置界面和文档输出单元。本发明依据内容对象在文档中的表现形式,设置一些识别内容对象的规则,然后根据这些规则自动提取文档中的内容对象,从而快速准确地提取任意格式的文档中的内容对象。而且,用户可通过简单的操作灵活地设置内容对象结构和提取规则,从而实现内容对象的个性化提取。
申请公布号 CN102122280B 申请公布日期 2013.06.05
申请号 CN200910242830.4 申请日期 2009.12.17
申请人 北大方正集团有限公司;北京北大方正电子有限公司 发明人 余忠华;曹学军;闫国龙;缪萍;曾建英
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京天昊联合知识产权代理有限公司 11112 代理人 陈源;罗建民
主权项 一种智能提取内容对象的方法,包括以下步骤: (1)根据文档小样形成文档的待提取内容对象的结构; (2)为所述内容对象结构的每一项建立对应的提取规则; (3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表; 其中,所述步骤(1)包括以下步骤: 根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则, 在这种情况下,所述步骤(3)包括以下步骤: 根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
地址 100871 北京市海淀区成府路298号中关村方正大厦5层
您可能感兴趣的专利