发明名称 一种提取文档信息的方法及装置
摘要 本发明提供一种提取文档信息的方法,提取文本数据块,并获取文本数据块的开始位置和结束位置的横纵坐标,然后按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进行排序,在排序后的数据块流中获取文本数据块中的目录文本数据块,最后根据目录文本数据块获取目录对应的文档文本数据块,这样,就实现了准确便捷的获取与目录对应的文档信息,由于该方案中使用了数据块中起始位置的横纵坐标,充分考虑了分栏情况,该方案对于具有多栏分栏的情况,可以准确进行文本块的识别,因此获得准确的与目录对应的文档信息。该方案实现了无论是在单栏或者分栏情况下,仍能够准确且便捷的获取需要的文档信息,达到提升用户体验,丰富应用场景的目的。
申请公布号 CN105653549A 申请公布日期 2016.06.08
申请号 CN201410645726.0 申请日期 2014.11.12
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司 发明人 林欣欣;易珏玲
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京三聚阳光知识产权代理有限公司 11250 代理人 李敏
主权项 一种提取文档信息的方法,其特征在于,包括:提取文本数据块;获取文本数据块的开始位置和结束位置的横纵坐标;按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进行排序;获取文本数据块中的目录文本数据块;根据目录文本数据块获取目录对应的文档文本数据块。
地址 100871 北京市海淀区成府路298号方正大厦9层