发明名称 一种版式文件中结构化信息获取的方法及装置
摘要 本发明公开了一种版式文件中结构化信息获取的方法及装置,用以提高版式文件的信息化管理中对版式文件的结构化速度,该方法包括:确定当前目录项对应的起始页码信息,将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符,在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息,根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。
申请公布号 CN103164388A 申请公布日期 2013.06.19
申请号 CN201110409463.X 申请日期 2011.12.09
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司 发明人 董宁;黄文娟;张保亮
分类号 G06F17/21(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种版式文件中结构化信息获取的方法,其特征在于,包括:确定当前目录项对应的起始页码信息;将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。
地址 100871 北京市海淀区成府路298号方正大厦9层