发明名称 Spark作业调度系统中实现任务数据解耦的方法
摘要 本发明涉及一种Spark作业调度系统中实现任务数据解耦的方法,其中包括:在一个迭代周期中系统通过任务上下文对象实例读取迭代状态对象的迭代RDD信息,并将迭代RDD信息保存至任务上下文对象中;系统通过Spark任务对象实例在任务上下文对象中查找到对应的RDD信息,并将所对应的RDD信息保存至任务结果对象中;系统通过任务状态对象实例分析任务结果对象中的RDD信息,并将所对应的RDD信息分别保存至对应的状态对象中。采用本发明的Spark作业调度系统中实现任务数据解耦的方法,使RDD可以在各个任务之间传递,或者在任务的前一个周期和下一个周期之间进行,使其以模块化的方式来编写各个任务,具有更广泛的应用范围。
申请公布号 CN104360903A 申请公布日期 2015.02.18
申请号 CN201410658665.1 申请日期 2014.11.18
申请人 北京美琦华悦通讯科技有限公司 发明人 逯利军;钱培专;汪金忠;余聪;林强;李克民;李拯
分类号 G06F9/46(2006.01)I 主分类号 G06F9/46(2006.01)I
代理机构 上海智信专利代理有限公司 31002 代理人 王洁;郑暄
主权项 一种Spark作业调度系统中实现任务数据解耦的方法,其特征在于,所述的方法包括以下步骤:(1)所述的Spark作业调度系统开始一个迭代周期,并创建该迭代周期的迭代状态对象;(2)所述的Spark作业调度系统创建任务上下文对象实例、Spark任务对象实例和任务状态对象实例;(3)所述的Spark作业调度系统通过所述的任务上下文对象实例读取所述的迭代状态对象的迭代RDD信息,并将所述的迭代RDD信息保存至任务上下文对象中;(4)所述的Spark作业调度系统通过所述的Spark任务对象实例在所述的任务上下文对象中查找到对应的RDD信息,并将所对应的RDD信息保存至任务结果对象中;(5)所述的Spark作业调度系统通过所述的任务状态对象实例分析所述的任务结果对象中的RDD信息,并将所对应的RDD信息分别保存至对应的状态对象中。
地址 100052 北京市西城区宣武门外大街10号庄胜广场中央写字楼北翼10层1015室