发明名称 |
一种从Web上自动获取列表数据的方法 |
摘要 |
本发明涉及大数据技术领域,具体涉及一种从Web上自动获取列表数据的方法。本发明方法包括:1.对获取的数据来源进行Web分析,包括Html请求URL、分页参数、Web编码、页面Html结构等进行分析;2.通过配置把要获取的数据相关参数(包括任务名称、Html请求、分页参数、Web编码、页面Html结构等)用于获取数据列表并保存到数据库表上;3.通过系统在后台自动判断数据列表是否有更新并自动启动数据列表获取任务并把数据列表保存到指定的数据库上,用于相关的数据分析。本发明解决了要进行特定的大数据分析时没有数据或数据量不足、或数据只存在Web上无法对数据直接使用的问题,本发明可广泛应用于大数据分析的数据获取应用方面。 |
申请公布号 |
CN105354302A |
申请公布日期 |
2016.02.24 |
申请号 |
CN201510746956.0 |
申请日期 |
2015.11.04 |
申请人 |
国云科技股份有限公司 |
发明人 |
郑锐韬;季统凯 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广东莞信律师事务所 44332 |
代理人 |
余伦 |
主权项 |
一种从Web上自动获取列表数据的方法,其特征在于:所述的方法包括以下步骤:步骤一,分析获取数据列表的Web页面HTML结构;步骤二,配置任务名称、Web页面数据列表抓取相关配置并保存;步骤三,判断是否有新数据;是则进入下一步骤;步骤四,进行Web页面数据抓取相关配置;步骤五,通过Web页面的URL后台获取数据抓取页面的整体HTML;步骤六,获取抓取数据的区域块、进行分行、分列、数据截取;步骤七,判断数据是否已存在,是则结束,否则进入下一步骤;步骤八,把数据保存到指定的数据库表上;步骤九,判断是否有下一页需要抓取;有则返回到步骤四;否则结束;结束。 |
地址 |
523808 广东省东莞市松山湖科技产业园区松科苑14号楼 |