发明名称 一种可简化编程的大数据自动化解析方法及系统
摘要 本发明提出一种可简化编程的大数据自动化解析方法及系统。针对现有的大数据编程需要繁琐解析,导致存在数据解析易出错导致脏数据和解析效率低下等问题,提出了通过自动化解析格式化和非格式化数据的方式,将Hive表中每条数据转换成Java匿名类对象,并在系统中记录Hive表与匿名类字段的对应关系。匿名类根据@IField的成员变量的变量名称和Hive表字段名称进行匹配,对于匹配上的成员变量直接赋予对应的表字段值。在进行大数据处理保持数据灵活性的同时,提高了数据解析的速度和准确性。
申请公布号 CN105843899A 申请公布日期 2016.08.10
申请号 CN201610167763.4 申请日期 2016.03.23
申请人 炫彩互动网络科技有限公司 发明人 尤海浪;唐勇;陈杰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德崇智捷知识产权代理有限公司 11467 代理人 王金双
主权项 一种可简化编程的大数据自动化解析方法,其特征在于,该方法包括以下步骤:步骤1:对MapReduce任务的输入文件进行预定义;并在Map类上注册匿名类;其中,所述输入文件包括Hive表文件;步骤2:在Map阶段,判断检测输入文件是否与预定义的Hive表对象以及注册的匿名类对象相匹配;若是,则执行步骤3;否则,结束;步骤3:读取输入文件,根据输入文件所匹配的Hive表对象对输入文件进行解析;步骤4:将根据Hive表对象解析后的输入文件映射到匿名类中@IField标注的成员变量。
地址 210019 江苏省南京市建邺区嘉陵江东街18号4幢17层