发明名称 一种电子档版式文件阅读顺序分析的方法
摘要 本发明公开了一种电子档版式文件阅读顺序分析的方法,所述方法包括以下步骤:提取PDF文件中原始信息;识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;对文本行内容进行块合并,得到文本块内容;对相邻图片进行合并,得到图片块内容;对路径信息进行分析,得到水平方向的分割线;将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信为元素,进行拓扑排序,得到PDF文件的阅读顺序;通过阅读顺序基础对文本块内容进行分段识别;输出XML格式文本。
申请公布号 CN104268127A 申请公布日期 2015.01.07
申请号 CN201410488102.2 申请日期 2014.09.22
申请人 同方知网(北京)技术有限公司 发明人 张斌;张晓博;张宝亮
分类号 G06F17/21(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京天奇智新知识产权代理有限公司 11340 代理人 刘黎明
主权项 一种电子档版式文件阅读顺序分析的方法,其特征在于,所述方法包括以下步骤:提取PDF文件中原始信息;识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;对文本行内容进行块合并,得到文本块内容;对相邻图片进行合并,得到图片块内容;对路径信息进行分析,得到水平方向的分割线;将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;通过阅读顺序基础对文本块内容进行分段识别;输出XML格式文本。
地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室