主权项 |
一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网络流量分类得到分类结果过程S2,其特征是,上述网络流量数据进行特征选择的过程S1具体如下:S1‑1.将初始数据DA处理成特征向量后,按照设定的向量个数a将其划分为a份特征向量子集,且所有类标签作为单独一个类标签向量C;S1‑2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类标签向量C传到这a个映射任务节点;S1‑3.根据费舍尔得分F<sub>k</sub>与类标签互信息标准化值SU(x,C),从各特征向量中预选出鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S,并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上;S1‑4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与类标签向量的类标签互信息标准化值SU(x,C);S1‑5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征向量;S1‑6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x’),如果该特征向量存在特征互信息标准化值SU(x,x’)大于类标签互信息标准化值SU(x,C)的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到优选特征向量子集中;S1‑7.重复步骤S1‑6,直到整合特征向量子集S为空,此时整合优选特征向量子集V与类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中。 |