发明名称 |
一种数字报刊版面信息的自动提取方法 |
摘要 |
本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种数字报刊版面信息的自动提取方法。本发明首先对版面中独立的文字进行合并,将其组织成为若干个内容块,然后根据相关内容在报纸版面上的位置与语义信息,自动提取版面上的出版日期、版次、版名数据,通过简单、方便的自动化操作,提高了大量版面数据成批处理时的处理效率,在减轻工作人员劳动强度的同时,也使得数字报刊的标引工作更加快捷、准确。 |
申请公布号 |
CN101727438B |
申请公布日期 |
2012.07.18 |
申请号 |
CN200810225320.1 |
申请日期 |
2008.10.30 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司 |
发明人 |
徐剑波;董宁 |
分类号 |
G06F17/22(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京天悦专利代理事务所(普通合伙) 11311 |
代理人 |
田明;任晓航 |
主权项 |
一种数字报刊版面信息的自动提取方法,包括如下步骤:(1)对版面中独立的文字进行合并,将其组织成为若干个内容块;(2)根据可能包含所需版面信息的位置筛选出候选内容块;(3)根据日期内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含出版日期的内容块,并对包含出版日期的内容块进行提取;判断是否为包含出版日期的内容块时,先进行粗匹配,然后进行细匹配,如果细匹配不成功,则使用一般匹配规则,在匹配的结果中选择位置最靠顶部的内容块;若候选内容块均不符合日期内容的特征判断条件,则将所有候选内容块进行合并,再根据日期内容的特征对合并后的内容块进行判断;(4)根据版次内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版次的内容块,并对包含版次的内容块进行提取;(5)根据版名内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版名的内容块,并对包含版名的内容块进行提取;如果存在多个包含版名内容特征的候选内容块,则选择垂直位置最高的内容块。 |
地址 |
100871 北京市海淀区成府路298号方正大厦 |