发明名称 一种删除版式文档中的花边字符的方法及装置
摘要 本发明涉及文档处理技术,公开了一种删除版式文档中的花边字符的方法及装置,用以提高版式文档的反解质量。该方法为:导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符,依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息,根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;将包含花边字符的原始块从所述原始块集合中删除;便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,从而提高了文章内容的反解质量和标引效率,并且在一定程度上节省了数据加工成本。
申请公布号 CN102567291B 申请公布日期 2014.09.10
申请号 CN201010624180.2 申请日期 2010.12.31
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司 发明人 徐剑波;董宁;黄文娟;朱兴
分类号 G06F17/21(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种删除版式文档中的花边字符的方法,其特征在于,包括:导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;将包含花边字符的原始块从所述原始块集合中删除;其中,确定所述原始块集合中每一个原始块的排版方向,包括:从所述原始块集合中读取出需要确定排版方向的当前原始块Block<sub>cur</sub>,以及与当前原始块Block<sub>cur</sub>相邻的下一个原始块Block<sub>next</sub>,根据所述Block<sub>next</sub>和所述Block<sub>cur</sub>间的特征差异,确定所述任意一个原始块的排版方向CurBlock<sub>dir</sub>;所述字形相关信息包括原始块中包含的文字或字符的字体类型、字符类型、字号大小、以及该原始块的序号和坐标信息。
地址 100871 北京市海淀区成府路298号方正大厦9层