一种基于OCR技术的网络受保护指数数据的获取方法,申请号CN201610405523.3-传众专利搜索

发明名称	一种基于OCR技术的网络受保护指数数据的获取方法
摘要	本发明涉及一种基于OCR技术的网络受保护指数数据的获取方法，本发明首先利用自动化测试工具，模拟指数数据显示之前用户在数据平台的一系列操作，如登录、输入搜索关键词、设置搜索时间等。然后利用模拟鼠标移动，进行曲线上值的动态显示和采集，最后，利用改进的OCR技术实现目标数据的数值获取。通过本发明所述方法获取的受保护数据，具有获取效率高、获取数据准确和可批量获取等特点，可以用于为舆情分析和数据挖掘提供了有效的数据支撑，为网络大数据获取方法提出了一种新思路，同时为商业推广、精准营销以及市场分析等提供了有价值的信息。具有重要的理论意义和广泛的应用价值。
申请公布号	CN106095918A	申请公布日期	2016.11.09
申请号	CN201610405523.3	申请日期	2016.06.06
申请人	山东科技大学	发明人	曾庆田;王松松;李超;段华;赵中英
分类号	G06F17/30(2006.01)I;G06F21/62(2013.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南金迪知识产权代理有限公司 37219	代理人	杨树云
主权项	一种基于OCR技术的网络受保护指数数据的获取方法，其特征在于，具体步骤包括：(1)目标数据网站登录；(2)目标数据定位与获取：利用自动化测试工具Selenium Webdriver，模拟目标数据显示之前用户在数据平台的操作；加载目标数据的图像，并利用模拟鼠标移动的方法，对目标数据的图像中曲线上的数据值进行动态加载和采集存储；(3)目标数据预处理：对目标数据的图像进行预处理；(4)目标数据识别与存储：利用改进的OCR技术进行目标数据识别与存储：a、自定义字体样本：针对识别容易失败的字符及非常用的字体，扩大切分框，使切分框完全包围识别容易失败的字符及非常用的字体，且不与识别容易失败的字符及非常用的字体的像素重合，识别容易失败的字符包括8、3、7、11；b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分，分离出单个字符；c、对单个字符提取统计特征和结构特征；d、将步骤c提取出的字符的统计特征和结构特征，与已有的特征库即字体字典进行比对，选择匹配度最高的字符进行输出；(5)对步骤(4)输出的字符进行校验。
地址	266590 山东省青岛市黄岛经济技术开发区前湾港路579号