数字图书结构化分析处理方法,申请号CN201610586830.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	数字图书结构化分析处理方法
摘要	本发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理，在此基础上获得图书的文本信息和视觉特征值，同时对图书的版面进行识别，去除无关信息。然后，根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接，并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征，提高了图书结构化的准确率和适用性。
申请公布号	CN106250830A	申请公布日期	2016.12.21
申请号	CN201610586830.6	申请日期	2016.07.22
申请人	浙江大学	发明人	鲁伟明;马朋坤;魏宝刚;庄越挺
分类号	G06K9/00(2006.01)I;G06K9/20(2006.01)I	主分类号	G06K9/00(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	刘静;邱启旺
主权项	一种数字图书结构化分析处理方法，其特征在于，包括以下步骤：1)图书扫描图像切割和视觉特征提取：通过图像处理方法对图书扫描图像进行切割，获取坐标信息，然后提取视觉特征值；2)图书扫描图像版面分析和OCR识别：通过提取得到的视觉特征值对图书扫描图像进行版面分析，去除无关信息；通过OCR工具将图书扫描图像识别为文字；3)目录页和正文页判断：通过目录的布局特征和视觉特征判断目录页的范围，进而确定正文页的范围；4)目录识别：在步骤3)的基础上，通过目录的布局特征和视觉特征构建目录模型，提取出目录的条目信息，然后识别出完整的目录结构；5)正文段落识别：在步骤3)的基础上，通过段落的布局特征和视觉特征将正文的段落识别出来，构建正文的段落结构；6)目录链接：在步骤4)和步骤5)的基础上，通过页码匹配和标题匹配两级匹配制度，将结构化的图书目录与正文链接起来，得到完整的图书结构；7)图书结构化表示：基于步骤6)中得到的链接结果，用XML语言将图书进行结构化表示。
地址	310027 浙江省杭州市西湖区浙大路38号

您可能感兴趣的专利

Eyeglass and sunglass display and carrying case

Underwater Frisbee Golf Disc Locator

FABRICATION METHOD OF CRYSTALLIZED TRANSPARENT CONDUCTING OXIDES ON SELF-ASSEMBLED ORGANIC LAYER MODIFIED SUBSTRATE

Back Drill Verification Feature

MULTILAYER WIRING BOARD AND METHOD FOR MANUFACTURING THE SAME

Hydraulically Controlled Barrier Valve Equalizing System

METHOD OF FRACTURING A SUBTERRANEAN FORMATION AT OPTIMIZED AND PRE-DETERMINED CONDITIONS

Compact Surface Wellhead System and Method

Proportional Micro-Valve With Thermal Feedback

PLATE HEAT EXCHANGER AND REFRIGERATION AIR CONDITIONER

INTELLIGENT AIR MOVER APPARATUS

RETRACTABLE SHADE ASSEMBLY WITH ADJUSTABLE SIDE GUIDES

FRICTION WELD VIBRATION QUALITY MONITORING SYSTEM AND METHODS

COLD-ROLLED STEEL SHEET AND METHOD FOR PRODUCING THE SAME

INDEXABLE STUMP CUTTER TOOTH

Automatic water flushing control device and its faucet

HAIR DYEING COMPOSITION