发明名称 |
一种文档转换中的表格处理方法及装置 |
摘要 |
本发明属于文档应用领域,公开了一种文档转换中的表格处理方法及装置,所述方法包括:从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;对获取的线段进行表格识别预处理,确定各个表格区域;在划分出的各个表格区域内确定各个表格;在确定出的表格内填充原文档中对应的内容。本发明将PDF文档中由很多无逻辑关系的线段或多边形组成的表象为表格的对象,识别为能用逻辑关系的结构描述的表格对象,提高了转换出的文档的排版及编辑效果。 |
申请公布号 |
CN101866335B |
申请公布日期 |
2012.12.12 |
申请号 |
CN201010206608.1 |
申请日期 |
2010.06.14 |
申请人 |
深圳市万兴软件有限公司 |
发明人 |
李莹莹;晏检平 |
分类号 |
G06F17/24(2006.01)I |
主分类号 |
G06F17/24(2006.01)I |
代理机构 |
深圳市君胜知识产权代理事务所 44268 |
代理人 |
刘文求 |
主权项 |
一种文档转换中的表格处理方法,其特征在于,所述方法包括以下步骤:从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;对获取的线段进行表格识别预处理,确定各个表格区域;在划分出的各个表格区域内确定各个表格;在确定出的表格内填充原文档中对应的内容;其中,所述从原文档中获取所有的线段的步骤具体包括:获取原文档中的所有线段和多边形;所述对获取的线段进行表格识别预处理,确定各个表格区域具体包括:将细的多边形识别为线段;判断获取的多边形是否符合近似线段特征,若符合,将该多边形识别为线段;若获取的多边形不符合近似线段特征,则提取该多边形边框的线段;提取多边形的边框,并去除细小的线段;从所有线段中提取水平和垂直线段;去除重叠及内含线段;将可连接的线段识别为一条线段;去除没有线段与其在两端点正交的线段;划分各个表格区域。 |
地址 |
518057 广东省深圳市南山区高新南一道TCL大厦A座9楼901 |