发明名称 一种数字报刊版面信息的自动提取方法
摘要 本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种数字报刊版面信息的自动提取方法。本发明首先对版面中独立的文字进行合并,将其组织成为若干个内容块,然后根据相关内容在报纸版面上的位置与语义信息,自动提取版面上的出版日期、版次、版名数据,通过简单、方便的自动化操作,提高了大量版面数据成批处理时的处理效率,在减轻工作人员劳动强度的同时,也使得数字报刊的标引工作更加快捷、准确。
申请公布号 CN101727438B 申请公布日期 2012.07.18
申请号 CN200810225320.1 申请日期 2008.10.30
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司 发明人 徐剑波;董宁
分类号 G06F17/22(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京天悦专利代理事务所(普通合伙) 11311 代理人 田明;任晓航
主权项 一种数字报刊版面信息的自动提取方法,包括如下步骤:(1)对版面中独立的文字进行合并,将其组织成为若干个内容块;(2)根据可能包含所需版面信息的位置筛选出候选内容块;(3)根据日期内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含出版日期的内容块,并对包含出版日期的内容块进行提取;判断是否为包含出版日期的内容块时,先进行粗匹配,然后进行细匹配,如果细匹配不成功,则使用一般匹配规则,在匹配的结果中选择位置最靠顶部的内容块;若候选内容块均不符合日期内容的特征判断条件,则将所有候选内容块进行合并,再根据日期内容的特征对合并后的内容块进行判断;(4)根据版次内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版次的内容块,并对包含版次的内容块进行提取;(5)根据版名内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版名的内容块,并对包含版名的内容块进行提取;如果存在多个包含版名内容特征的候选内容块,则选择垂直位置最高的内容块。
地址 100871 北京市海淀区成府路298号方正大厦