发明名称 基于样条插值与数据并行的数据处理方法
摘要 本发明提供一种基于样条插值与数据并行的数据处理方法,包括:将原始监测数据集按顺序分割为Q个数据子集,对于每个数据子集,采用唯一对应的线程进行处理,处理方法为:对于被处理的数据子集,生成三次样条函数;在其样条曲线上,等间距采集数据点,形成新的数据子集;再用原数据子集标志数据点替换新的数据子集对应位置的数据点,形成处理后数据子集。将各线程处理后的数据子集拼接成最终数据集。本发明提供的基于样条插值与数据并行的数据处理方法具有以下优点:不论输入的原始监测数据的维数大于期望数据维数,还是小于预期数据维数,均可以高效快速的将原始监测数据的维数调整到期望数据维数,并且还能最大程度的保留原始数据所蕴含的信息。
申请公布号 CN105955713A 申请公布日期 2016.09.21
申请号 CN201610305743.9 申请日期 2016.05.10
申请人 河北省科学院应用数学研究所 发明人 崔彦军;马艳东;王志强;董佳;梅欢
分类号 G06F9/38(2006.01)I 主分类号 G06F9/38(2006.01)I
代理机构 北京市盛峰律师事务所 11337 代理人 席小东
主权项 一种基于样条插值与数据并行的数据处理方法,其特征在于,包括以下步骤:步骤1,设定目标维数,其值为M;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、…、线程Q;步骤2,接收待处理的原始监测数据集;步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P<sub>1</sub>、数据子集P<sub>2</sub>、…、数据子集P<sub>Q</sub>;步骤4,将数据子集P<sub>1</sub>分配给线程1;将数据子集P<sub>2</sub>分配给线程2;依此类推,将数据子集P<sub>Q</sub>分配给线程Q;另外,分别设定线程1、线程2、…、线程Q需取样的取样点数,将取样点数依次记为U<sub>1</sub>、U<sub>2</sub>、…、U<sub>Q</sub>,使U<sub>1</sub>+U<sub>2</sub>+…+U<sub>Q</sub>=M;步骤5,并行运行线程1、线程2、…、线程Q;其中,对于任意的线程i,其采用以下方式对数据子集P<sub>i</sub>进行处理,其中,i∈(1、2、…、Q):步骤5.1,假设数据子集P<sub>i</sub>共包括b个数据,按顺序排列依次为数据X<sub>1</sub>、数据X<sub>2</sub>、…、数据X<sub>b</sub>;以数据X<sub>1</sub>、数据X<sub>2</sub>、…、数据X<sub>b</sub>为节点,生成数据X<sub>1</sub>、数据X<sub>2</sub>、…、数据X<sub>b</sub>的三次样条函数f<sub>i</sub>(x);步骤5.2,在三次样条函数f<sub>i</sub>(x)所对应的样条曲线上,等间距采集U<sub>i</sub>个数据点,形成新的数据子集P<sub>i</sub>’;步骤5.3,分析数据子集P<sub>i</sub>,定位到数据子集P<sub>i</sub>中的标志数据点及其第1位置信息;然后,在新的数据子集P<sub>i</sub>’中,定位到与第1位置信息最为接近的第1’位置信息;最后,将新的数据子集P<sub>i</sub>’中第1’位置信息所对应的数据替换为数据子集P<sub>i</sub>第1位置的标志数据,从而形成数据子集P<sub>i</sub>”;步骤6,因此,线程1、线程2、…、线程Q分别对数据子集P<sub>1</sub>、数据子集P<sub>2</sub>、…、数据子集P<sub>Q</sub>进行处理后,形成数据子集P<sub>1</sub>”、数据子集P<sub>2</sub>”、…、数据子集P<sub>Q</sub>”;将数据子集P<sub>1</sub>”、数据子集P<sub>2</sub>”、…、数据子集P<sub>Q</sub>”按次序依次拼接成最终数据集;该最终数据集即为维数为目标维数M且最大程度的保留原始数据所蕴含的信息的数据集。
地址 050081 河北省石家庄市桥西区友谊南大街46号