发明名称 |
一种可简化编程的大数据自动化解析方法及系统 |
摘要 |
本发明提出一种可简化编程的大数据自动化解析方法及系统。针对现有的大数据编程需要繁琐解析,导致存在数据解析易出错导致脏数据和解析效率低下等问题,提出了通过自动化解析格式化和非格式化数据的方式,将Hive表中每条数据转换成Java匿名类对象,并在系统中记录Hive表与匿名类字段的对应关系。匿名类根据@IField的成员变量的变量名称和Hive表字段名称进行匹配,对于匹配上的成员变量直接赋予对应的表字段值。在进行大数据处理保持数据灵活性的同时,提高了数据解析的速度和准确性。 |
申请公布号 |
CN105843899A |
申请公布日期 |
2016.08.10 |
申请号 |
CN201610167763.4 |
申请日期 |
2016.03.23 |
申请人 |
炫彩互动网络科技有限公司 |
发明人 |
尤海浪;唐勇;陈杰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京德崇智捷知识产权代理有限公司 11467 |
代理人 |
王金双 |
主权项 |
一种可简化编程的大数据自动化解析方法,其特征在于,该方法包括以下步骤:步骤1:对MapReduce任务的输入文件进行预定义;并在Map类上注册匿名类;其中,所述输入文件包括Hive表文件;步骤2:在Map阶段,判断检测输入文件是否与预定义的Hive表对象以及注册的匿名类对象相匹配;若是,则执行步骤3;否则,结束;步骤3:读取输入文件,根据输入文件所匹配的Hive表对象对输入文件进行解析;步骤4:将根据Hive表对象解析后的输入文件映射到匿名类中@IField标注的成员变量。 |
地址 |
210019 江苏省南京市建邺区嘉陵江东街18号4幢17层 |