发明名称 基于决策树高速并行处理的网络流量在线分类方法及装置
摘要 本发明涉及一种基于决策树高速并行处理策略实现TCP流量在线分类的方法及装置,其中该方法包括:对前期真实流量数据的采集、分流及手工分类,提取前期TCP流集合包特征,建立决策树分类模型及转换数据结构,对待分类数据包进行分流及类别判断,对当前数据包进行打标签处理并提取待分类TCP流包特征,查找决策树;该装置包括:决策树建树模块,结构转换模块,分类结果处理模块,MAC层处理模块,数据包轮询管理模块,分流判断模块,流量信息提取及打标签模块,决策树查找模块。本发明的算法复杂度低,具有较高的处理速度,能够完成在线分类,分类准确度高、稳定性好,可用于高速骨干网中需要在线流量分类的设备和系统中。
申请公布号 CN102523241A 申请公布日期 2012.06.27
申请号 CN201210006268.7 申请日期 2012.01.09
申请人 北京邮电大学 发明人 顾仁涛;许艳红;纪越峰
分类号 H04L29/06(2006.01)I;H04L12/24(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 代理人
主权项 一种基于决策树高速并行处理策略实现TCP流量在线分类的方法,其特征在于包括以下步骤:步骤1,前期真实流量数据的采集、分流及手工分类:采集网络真实流量数据集,利用五元组将数据集分离为不同的TCP流,对TCP流的集合进行手工分类,使每一条TCP流都与一种协议类型相对应。步骤2,提取前期TCP流集合的若干个包特征:提取每一条TCP流中关于数据包的特征,并按照数据包在该TCP流的先后顺序构建初步特征序列,然后对包特征进行筛选,得到最终特征序列。步骤3,决策树分类模型的建立:对步骤2构成的最终特征序列,利用决策树算法进行建树。步骤4,对步骤3中建立的决策树进行数据结构转换并存储到硬件设备(如FPGA、CPLD、ASIC等)的存储设备(如RAM、ROM、FLASH等)中:通过对决策树的遍历,一方面提取决策树的中间节点值,对同一属性的各中间节点值进行从小到大的排序,然后对所有属性的各个中间节点值按顺序进行从小到大的编码,另一方面提取决策树的边缘节点值,对边缘节点值同样也进行编码,边缘节点值的编码是一个范围,取决于到达该边缘节点所经历的各中间节点的编码值。中间节点值及其编码以及边缘节点值及其编码分别存储在两块分离的存储设备(如RAM、ROM、FLASH等)中。步骤5,对待分类的数据包进行分流及类别判断:根据五元组将数据包划分到不同的流并查找流信息表获取分类信息,流信息表用于记录流的五元组信息以及该条流的类别。步骤6,对当前数据包进行打标签处理并提取待分类TCP流的包特征:利用步骤5提取的类别信息对所有经过的数据包进行打标签处理,若数据包所属的流已经被分类,则打上相应的类别标签,若未分类,则按照一定的原则标记一个默认的标签,然后判断该数据包是否需要被提取包特征并做相应处理。在这里,包特征的提取与步骤2中采用的最终特征序列相对应,需要按包到达顺序进行提取,并构建待分类流的特征序列,待分类流的特征序列存储在参数表中,参数表的一条记录包括五元组、各个包特征值以及参数是否满的标志。步骤7,决策树查找:利用步骤6所得的待分类流的特征序列对步骤4所得的两块存储设备(如RAM、ROM、FLASH等)进行查找,判断该TCP流的类别值并更新流信息表。
地址 100876 北京市海淀区西土城路10号