发明名称 |
一种数据处理方法及装置 |
摘要 |
本发明实施例公开了一种数据处理方法及装置,方法包括:针对原始数据进行采样,并按照预设规则,将采样数据划分为M个第一数据块;统计M个第一数据块的第一处理时长;按照预设规则,将原始数据划分为M个第二数据块;根据第一数据块的处理时长,确定第二数据块中的处理时长;将处理时长大于设定阈值的第二数据块中的数据调整至处理时长小于设定阈值的第二数据块中;调整完成后,并行处理M个第二数据块。本发明实施例根据采样数据划分的各个数据块的处理时长,确定原始数据划分的各个数据块的处理时长,进而对原始数据划分的数据块的数据量进行调整,实现原始数据划分的数据块的处理时长更加均匀,进一步减少系统的整体处理时长。 |
申请公布号 |
CN105224291A |
申请公布日期 |
2016.01.06 |
申请号 |
CN201510632540.6 |
申请日期 |
2015.09.29 |
申请人 |
北京奇艺世纪科技有限公司 |
发明人 |
许晓炜 |
分类号 |
G06F9/38(2006.01)I;G06F9/46(2006.01)I |
主分类号 |
G06F9/38(2006.01)I |
代理机构 |
北京柏杉松知识产权代理事务所(普通合伙) 11413 |
代理人 |
马敬;项京 |
主权项 |
一种数据处理方法,其特征在于,应用于分布式计算系统,所述方法包括:针对原始数据进行采样,得到采样数据;按照预设数据块划分规则,将所述采样数据划分为M个第一数据块;统计所述M个第一数据块中每个第一数据块的第一处理时长;按照所述预设数据块划分规则,将原始数据划分为M个第二数据块,其中,所述M个第二数据块与所述M个第一数据块一一对应;根据统计得到的所述M个第一数据块中每个第一数据块的第一处理时长,确定所述M个第二数据块中每个第二数据块的第二处理时长;根据确定的每个第二数据块的第二处理时长,确定第一阈值,以使第二处理时长大于所述第一阈值的第二数据块和第二处理时长小于所述第一阈值的第二数据块分别至少有一个;将第二处理时长大于所述第一阈值的第二数据块中的数据调整至第二处理时长小于所述第一阈值的第二数据块中;调整完成后,并行处理所述M个第二数据块。 |
地址 |
100080 北京市海淀区北一街2号鸿城拓展大厦10、11层 |