发明名称 |
一种数字版式文件中识别表格的方法及装置 |
摘要 |
本申请公开一种数字版式文件中识别表格的方法及装置,应用于数字文件处理领域。该方法包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。应用本发明的方法和装置能够快速精确的定位到表格。 |
申请公布号 |
CN103377177A |
申请公布日期 |
2013.10.30 |
申请号 |
CN201210129059.1 |
申请日期 |
2012.04.27 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司 |
发明人 |
董宁;黄文娟 |
分类号 |
G06F17/22(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
黄志华 |
主权项 |
一种数字版式文件中识别表格的方法,其特征在于,包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。 |
地址 |
100871 北京市海淀区成府路298号方正大厦9层 |