发明名称 一种文档转换中的表格处理方法及装置
摘要 本发明属于文档应用领域,公开了一种文档转换中的表格处理方法及装置,所述方法包括:从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;对获取的线段进行表格识别预处理,确定各个表格区域;在划分出的各个表格区域内确定各个表格;在确定出的表格内填充原文档中对应的内容。本发明将PDF文档中由很多无逻辑关系的线段或多边形组成的表象为表格的对象,识别为能用逻辑关系的结构描述的表格对象,提高了转换出的文档的排版及编辑效果。
申请公布号 CN101866335B 申请公布日期 2012.12.12
申请号 CN201010206608.1 申请日期 2010.06.14
申请人 深圳市万兴软件有限公司 发明人 李莹莹;晏检平
分类号 G06F17/24(2006.01)I 主分类号 G06F17/24(2006.01)I
代理机构 深圳市君胜知识产权代理事务所 44268 代理人 刘文求
主权项 一种文档转换中的表格处理方法,其特征在于,所述方法包括以下步骤:从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;对获取的线段进行表格识别预处理,确定各个表格区域;在划分出的各个表格区域内确定各个表格;在确定出的表格内填充原文档中对应的内容;其中,所述从原文档中获取所有的线段的步骤具体包括:获取原文档中的所有线段和多边形;所述对获取的线段进行表格识别预处理,确定各个表格区域具体包括:将细的多边形识别为线段;判断获取的多边形是否符合近似线段特征,若符合,将该多边形识别为线段;若获取的多边形不符合近似线段特征,则提取该多边形边框的线段;提取多边形的边框,并去除细小的线段;从所有线段中提取水平和垂直线段;去除重叠及内含线段;将可连接的线段识别为一条线段;去除没有线段与其在两端点正交的线段;划分各个表格区域。
地址 518057 广东省深圳市南山区高新南一道TCL大厦A座9楼901