发明名称 基于随机抽样多分类器的网络流量识别方法
摘要 基于随机抽样多分类器的网络流量识别方法,给出带网络流量分类标签的网络流数据集A和没有网络流量分类标签的网络流记录集合N,从网络流数据集A中选取网络流记录,随机抽样生成数据子集B<sub>1</sub>、B<sub>2</sub>、…、B<sub>T</sub>,采用决策树分类算法对随机抽取后的数据子集B<sub>1</sub>、B<sub>2</sub>、…、B<sub>T</sub>分别进行学,将学结果记录为T个分类器F<sub>1</sub>、F<sub>2</sub>、…、F<sub>T</sub>,随机从T个分类器中抽取t个分类器,对网络流记录集合N中的每个网络流记录分别采用被抽取的t个分类器对进行分类,得到t个分类结果,将分类结果统计数最大的分类类型作为没有网络流量分类标签的网络流记录的分类类型。
申请公布号 CN104468276A 申请公布日期 2015.03.25
申请号 CN201410790370.X 申请日期 2014.12.18
申请人 东南大学 发明人 程光
分类号 H04L12/26(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 江苏永衡昭辉律师事务所 32250 代理人 王斌
主权项 一种基于随机抽样多分类器的网络流量识别方法,其特征在于:步骤一:设置分类器的数量为T,(1&lt;=T&lt;=10);设定随机抽样比率p,0&lt;p&lt;1;设置T个空集合B<sub>1</sub>、B<sub>2</sub>、…、B<sub>T</sub>;设置抽样分类器的数量为t,1&lt;=t&lt;=T;给出带网络流量分类标签的网络流数据集A,给出没有网络流量分类标签的网络流记录集合N;设置循环变量i,进入步骤二;步骤二:设定i等于1,如果带有网络流量分类标签的网络流数据集A为空,进入步骤五,否则从带有网络流量分类标签的网络流数据集A中选取一条带网络流量分类标签的网络流记录F,同时从带有网络流量分类标签的网络流数据集A中将所选的带网络流量分类标签的网络流记录F删除,进入步骤三;步骤三:产生一个0到1之间的随机数S,如果S大于p,则进入步骤四,否则,在将所选的带网络流量分类标签的网络流记录F加入到集合B<sub>i</sub>中后进入步骤四;步骤四:i增加1,如果i大于T,回到步骤二;否则回到步骤三;步骤五:采用决策树分类算法对随机抽取后的数据集B<sub>1</sub>、B<sub>2</sub>、…、B<sub>T</sub>分别进行学习,将学习结果分别记录为T个分类器F<sub>1</sub>、F<sub>2</sub>、…、F<sub>T</sub>,进入步骤六;步骤六:随机从T个分类器F<sub>1</sub>、F<sub>2</sub>、…、F<sub>T</sub>中抽取t个分类器,进入步骤七;步骤七:如果没有网络流量分类标签的网络流记录集合N为空,方法结束,退出方法;否则,从没有网络流量分类标签的网络流记录集合N中选取一条没有网络流量分类标签的网络流记录M,同时从没有网络流量分类标签的网络流记录集合N中删除所选的没有网络流量分类标签的网络流记录M,进入步骤八;步骤八:分别采用被抽取的t个分类器对所选的没有网络流量分类标签的网络流记录M进行分类,得到t个分类结果,进入步骤九;步骤九: 将相同分类类型的分类结果进行合并统计,将分类结果统计数最大的分类类型作为没有网络流量分类标签的网络流记录M的分类类型,如果存在2个或2个以上的最大的分类结果统计数,则任选一个分类结果统计数最大的分类类型作为没有网络流量分类标签的网络流记录M的分类类型,回到步骤七。
地址 210096 江苏省南京市四牌楼2号