一种海量URL的数据提取方法及系统,申请号CN201610970427.3-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种海量URL的数据提取方法及系统
摘要	本发明公开了一种海量URL的数据提取方法，包括以下步骤：S10、利用分布式web服务器框架，分别将各文本数据收集到本地文件池；S20、将所述本地文件池内累加得到的总文本数据上传至hadoop的云端分布式文件系统hdfs1；S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内总文本数据中分布式提取URL的关键字。本发明大数据应用场景下，将各文本数据汇聚到本地文件池中后，将总文本数据上传到云端分布式文件系统中，再利用hive进行分布式计算来进行分布式提取；具有效率高且消耗资源低等优点。
申请公布号	CN106570153A	申请公布日期	2017.04.19
申请号	CN201610970427.3	申请日期	2016.10.28
申请人	上海斐讯数据通信技术有限公司	发明人	欧阳涛
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海硕力知识产权代理事务所 31251	代理人	郭桂峰
主权项	一种海量URL的数据提取方法，其特征在于，包括以下步骤：S10、利用分布式web服务器框架，分别将各文本数据收集到本地文件池；S20、将所述本地文件池内累加得到的总文本数据上传至hadoop的云端分布式文件系统hdfs1；S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内总文本数据中分布式提取URL的关键字。
地址	201616 上海市松江区思贤路3666号

您可能感兴趣的专利

Maschine zum Abteilen gefuellter Wursthuellen

Schleifvorrichtung

Bremsvorrichtung,insbesondere fuer feinmechanische Antriebe

Auf Schub ansprechende Bremsvorrichtung fuer Anhaenger

Verfahren zur Herstellung von fluororganischen Verbindungen

Verfahren zur Trennung von Kohlenwasserstoffen mittels Aktivkohle

Katalysator und Verfahren zur Polymerisation von Propylen

Rotor fuer eine Wirbelstrommaschine

Steuerstromkreis zum Regeln der Geschwindigkeit eines Motors

Gleitschutz,insbesondere fuer Raeder

Verfahren zur Daempfung von Zugspannungsschwankungen an kerngebremsten Abrolleinrichtungen fuer Bahnen aus Papier,Plastfolien u.dgl.

Elektrisch beheizbarer Vakuum-Brennofen fuer keramisches Gut,insbesondere fuer dentalkeramische Arbeiten

Fotografisches Material fuer das Stabilisierungsverfahren

Eierverpackungsmaschine

Verfahren zur aufeinanderfolgenden Aufzeichnung einer Mehrzahl von Bildern

Verfahren zum elektrolytischen Entzundern von Eisen und Stahl

Optische Glaeser