发明名称 |
一种电子文档页面类型识别方法和系统 |
摘要 |
本发明提供一种电子文档页面类型的识别方法,首先,统计同一类型的参考页中的特征词语及其出现次数,并计算出基准阈值,然后统计目标页中特征词语出现的次数,并根据其计算出目标页中的特征值,通过将特征值与基准阈值比较,确定目标页的类型。该方法预先提取参考页的特征词语和出现次数,再针对目标页去提取这些特征词语和出现次数,通过这种一致性的统计规律,来识别书目标页的类型,该方法克服了现有对电子文档页面分类过程的效率低下问题,提出了一种文本相关的版式文档特征页识别方法,经过自动识别后的版式电子文档页面能够按照业务需求拆分为封面页,书名页,版权页,版权声明页,目录页,正文页以及其它更多扩展性特征页的任意子集,以此来应用于不用的需求环境下。 |
申请公布号 |
CN105653548A |
申请公布日期 |
2016.06.08 |
申请号 |
CN201410645725.6 |
申请日期 |
2014.11.12 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司 |
发明人 |
冯浩然;郭巍 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三聚阳光知识产权代理有限公司 11250 |
代理人 |
李敏 |
主权项 |
一种电子文档页面类型的识别方法,其特征在于,包括:根据参考页的类型确定参考页的特征词语及其出现次数;根据所述参考页的特征词语及其出现的次数确定基准阈值;获取目标页中出现的所述特征词语;根据参考页的特征词语及其出现次数和目标页中出现的特征词语,计算目标页的特征值;将所述特征值和所述基准阈值进行比较确定目标页的类型。 |
地址 |
100871 北京市海淀区成府路298号方正大厦9层 |