发明名称 一种面向海量数据的并行处理方法及系统
摘要 本发明涉及一种网络管理中面向海量数据的并行处理方法,尤其是一种提高带宽和资源利用率的任务调度方法,包括:定时从数据库中取出待采集任务,并将待采集任务插入任务采集队列,等待采集任务的执行;从任务采集队列中取出任务描述,根据带宽资源利用情况和/或计算资源使用情况将任务进行子任务划分,将子任务映射到采集任务处理单元等待子任务的执行;执行各个子任务以完成数据采集任务,将采集的数据加入数据缓存队列,并进行并行数据处理,将处理好的数据加入内存数据库;将内存数据库中的数据定期同步到物理数据库中。
申请公布号 CN103384206B 申请公布日期 2016.05.25
申请号 CN201210135226.3 申请日期 2012.05.02
申请人 中国科学院计算机网络信息中心 发明人 陆忠华;王珏;王彦棡;邓笋根;阚圣哲
分类号 H04L12/24(2006.01)I 主分类号 H04L12/24(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种网络管理中面向海量数据的并行处理系统,其特征在于包括以下模块:采集任务更新模块,用于定时从数据库中取出待采集任务,并将待采集任务插入任务采集队列,等待采集任务的执行;采集任务调度模块,用于从任务采集队列中取出任务描述,根据带宽资源利用情况和/或计算资源使用情况将任务进行子任务划分,将子任务映射到采集任务处理单元等待子任务的执行;采集任务处理模块,用于执行各个子任务以完成数据采集任务,将采集的数据加入数据缓存队列,并进行并行数据处理,将处理好的数据加入内存数据库;物理/内存数据库管理模块,用于将内存数据库中的数据定期同步到物理数据库中;其中,所述采集任务调度模块包括:子任务划分模块,根据带宽资源利用情况将任务进行采集子任务划分,每个子任务包含如下信息:优先级、采集周期和采集量;其中,采集周期表示每个子任务的执行周期,即每隔固定的时间重复采集工作,并且每个子任务在一个周期内的执行时间远小于周期时间;确定模块,根据以下步骤确定并发执行的子任务数:(a)确定多个采集任务的触发周期,其为当前正在执行的所有子任务采集周期的最大公约数;(b)确定一个任务触发周期内剩余网络带宽;(c)根据剩余网络带宽,确定进行并发处理的子任务数;映射模块,将确定并发执行的子任务映射到采集任务处理模块等待子任务的执行。
地址 100190 北京市海淀区中关村南四街四号软件园2号楼