发明名称 一种数字版式文件中识别表格的方法及装置
摘要 本申请公开一种数字版式文件中识别表格的方法及装置,应用于数字文件处理领域。该方法包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。应用本发明的方法和装置能够快速精确的定位到表格。
申请公布号 CN103377177A 申请公布日期 2013.10.30
申请号 CN201210129059.1 申请日期 2012.04.27
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司 发明人 董宁;黄文娟
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种数字版式文件中识别表格的方法,其特征在于,包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
地址 100871 北京市海淀区成府路298号方正大厦9层