发明名称 一种表外文件数据的求交集方法及系统
摘要 一种表外文件数据的求交集方法,基础框架是Hadoop streaming,且包括:(1)开始;(2)检查输入的参数是否合法;(3)对每个文件路径,检查其是否位于hdfs;(4)检查该路径是否位于本地;(5)将本地路径下的文件上推到hdfs的一个临时目录下;(6)从两份数据中分别抽取样本检查其字段分割符和每一行数据的字段个数;(7)如果用户没有指定输出列表,则生成一个包含两份数据的所有字段的输出列表,如果用户没有指定输出路径,生成一个临时目录;(8)判断输出列表是否超出字段的范围;(9)根据检测的各项参数提交一个用户自定义的mapreduce任务;(10)求交集结果;(11)退出。
申请公布号 CN106528711A 申请公布日期 2017.03.22
申请号 CN201610951442.3 申请日期 2016.11.02
申请人 北京集奥聚合科技有限公司 发明人 冯森林;温宗臣;张翼;范卫卫;何良均
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京和信华成知识产权代理事务所(普通合伙) 11390 代理人 胡剑辉
主权项 一种表外文件数据的求交集方法,其特征在于:该方法的基础框架是Hadoop streaming,且包括以下步骤:(1)开始;(2)检查输入的参数是否合法,是则执行步骤(3),否则执行步骤(11);(3)对每个文件路径,检查其是否位于hdfs,是则执行步骤(6),否则执行步骤(4);(4)检查该路径是否位于本地,是则执行步骤(5),否则执行步骤(11);(5)将本地路径下的文件上推到hdfs的一个临时目录下;(6)从两份数据中分别抽取样本检查其字段分割符和每一行数据的字段个数;(7)如果用户没有指定输出列表,则生成一个包含两份数据的所有字段的输出列表,如果用户没有指定输出路径,生成一个临时目录;(8)判断输出列表是否超出字段的范围,是则执行步骤(9),否则执行步骤(11);(9)根据检测的各项参数提交一个用户自定义的mapreduce任务;(10)求交集结果;(11)退出。
地址 100085 北京市海淀区上地东路1号院5号楼9层901