发明名称 |
无边框表格检测引擎 |
摘要 |
用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。 |
申请公布号 |
CN104094282A |
申请公布日期 |
2014.10.08 |
申请号 |
CN201280067898.3 |
申请日期 |
2012.01.23 |
申请人 |
微软公司 |
发明人 |
M·拉斯科维克;N·波兹达里维克;M·舍舒姆 |
分类号 |
G06K9/34(2006.01)I;G06K9/00(2006.01)I |
主分类号 |
G06K9/34(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
胡利鸣 |
主权项 |
一种用于检测包括在从固定格式文档中解析的数据中的无边框表格的无边框表格检测方法,所述方法包括以下步骤:将具有相互垂直交叠的空白区编组到具有顶部边框和底部边框的空白区编组中;将位于所述空白区编组中顶部边框和底部边框之间的文本收集为所收集的文本;创建定位在表格候选内检测到的每个空白区的右边处的列分隔符,所述表格候选包括所述所收集的文本并具有上边框、下边框、左边框和右边框,每个所述列分隔符定义一对端点;创建第一组行分隔符,所述第一组行分隔符包括位于所选所述端点处以形成多个个体单元格的行分隔符;以及将所收集的文本分配到所述多个个体单元格中对应的一个。 |
地址 |
美国华盛顿州 |