发明名称 数字图书结构化分析处理方法
摘要 本发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理,在此基础上获得图书的文本信息和视觉特征值,同时对图书的版面进行识别,去除无关信息。然后,根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接,并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征,提高了图书结构化的准确率和适用性。
申请公布号 CN106250830A 申请公布日期 2016.12.21
申请号 CN201610586830.6 申请日期 2016.07.22
申请人 浙江大学 发明人 鲁伟明;马朋坤;魏宝刚;庄越挺
分类号 G06K9/00(2006.01)I;G06K9/20(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 刘静;邱启旺
主权项 一种数字图书结构化分析处理方法,其特征在于,包括以下步骤:1)图书扫描图像切割和视觉特征提取:通过图像处理方法对图书扫描图像进行切割,获取坐标信息,然后提取视觉特征值;2)图书扫描图像版面分析和OCR识别:通过提取得到的视觉特征值对图书扫描图像进行版面分析,去除无关信息;通过OCR工具将图书扫描图像识别为文字;3)目录页和正文页判断:通过目录的布局特征和视觉特征判断目录页的范围,进而确定正文页的范围;4)目录识别:在步骤3)的基础上,通过目录的布局特征和视觉特征构建目录模型,提取出目录的条目信息,然后识别出完整的目录结构;5)正文段落识别:在步骤3)的基础上,通过段落的布局特征和视觉特征将正文的段落识别出来,构建正文的段落结构;6)目录链接:在步骤4)和步骤5)的基础上,通过页码匹配和标题匹配两级匹配制度,将结构化的图书目录与正文链接起来,得到完整的图书结构;7)图书结构化表示:基于步骤6)中得到的链接结果,用XML语言将图书进行结构化表示。
地址 310027 浙江省杭州市西湖区浙大路38号