发明名称 |
一种提取见报资料数据信息的方法 |
摘要 |
本发明公开了一种提取见报资料数据信息的方法,其核心是:根据报纸版面的排版文件的版面信息结构提取版面信息和所有稿件区域信息;根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件;根据所述稿件区域的位置关系提取稿件之间存在的关联关系,并根据所述关联关系将存在关联关系的稿件进行合并;根据稿件的重要性以及所述稿件区域信息将稿件进行排序,并根据排序后的稿件对所述版面信息内容和稿件信息进行修改和标引,得到见报资料的数据信息。通过本发明,能够保证提取出的见报资料的数据信息的完整性和准确性,并能够提高见报资料的反解速度。 |
申请公布号 |
CN1912874A |
申请公布日期 |
2007.02.14 |
申请号 |
CN200610112710.9 |
申请日期 |
2006.08.30 |
申请人 |
北京大学;北京北大方正电子有限公司 |
发明人 |
赵东岩;刘万福 |
分类号 |
G06F17/30(2006.01);G06F17/00(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京同达信恒知识产权代理有限公司 |
代理人 |
李欣 |
主权项 |
1、一种提取见报资料数据信息的方法,其特征在于,包括:A、根据报纸版面的排版文件的版面信息结构提取版面信息和所有稿件区域信息;B、根据所述排版文件的稿件信息结构提取所述所有稿件区域中的稿件;C、根据稿件的重要性以及所述稿件区域信息将提取出的稿件进行排序,并根据排序后的稿件对所述版面信息和稿件信息进行修改和标引,得到见报资料的数据信息。 |
地址 |
100871北京市海淀区颐和园路5号 |