发明名称 一种面向因特网不平衡应用流的分类方法
摘要 本发明公开一种面向因特网不平衡应用流的分类方法,在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记,获得流样本以及流量数据集的基础上,通过聚簇算法划分数据集,形成多个密集且不相交的子集;针对子集流样本特征值,利用插值法扩充小类流样本;根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则;基于显式考虑集成多样性的boosting-style集成学算法逐个训练集成分类模型;判断测试集流样本与各训练子集聚簇中心的距离,选择距离最近的聚簇中心所对应的集成分类模型分类流样本,并输出其所属的应用类别。本发明促成分类模型在不降低大类分类准确率的情况下,提高小类分类准确率和总体字节分类准确率。
申请公布号 CN104102700A 申请公布日期 2014.10.15
申请号 CN201410318598.9 申请日期 2014.07.04
申请人 华南理工大学 发明人 刘琼;刘珍
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 汤东凤
主权项 一种面向因特网不平衡应用流的分类方法,在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记,且已获得由特征向量描述的流样本及流量数据集的基础上;其特征在于包括如下步骤:步骤一,利用k‑means算法将数据集划分为多个密集且不相交的子集,每个子集包含一个聚簇中心;步骤二,针对步骤一所得子集,按过采样比例扩充小类流样本;步骤三,针对步骤二获得的子集,制定启发式规则欠采样大类流样本;步骤四,步骤三获得的子集作为训练集,离线训练k个集成分类模型;步骤五,联合k个集成分类模型对测试流样本进行分类。
地址 510641 广东省广州市天河区五山路381号